kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

固定された記事

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発！25名の AI が暮らす街のシミュレーション！」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモのキャッチーさやコンセプトの分かりやすさから幅広くマスにリーチした印象がある。ソフトウェアエンジニアとしては（？）「デモをどうやって作ったのか」が気になる。幸いにして Generative Agents を再現した OSS が GitHub に多数転がっているのでコードリーデ

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。モーション生成概要テキストからモーションを生成する技術。行動を表すテキストを再現するようなモーションが得られる。様々な手法 Motion Diffusion Model や text-to-motion 等様々な手法があり、Awesome-Video-Diffusion リポジトリに手法がまとまっている。基本的には拡散モデルを用いている例が多いが中にはモーショ

kawamou

12日前

2
LLM 時代のアイデンティティ・クライシスに対する生存戦略

大規模言語モデル（LLM）の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わりする写真はあまりに有名だが、歴史を顧みて分かる通り技術は労働を劇的に代替する。単に順番が回って来ただけなのだろう、技術者や知識労働者、クリエイターの職位を脅かす X デー、審判の日がやってきたのだ。 2019 年アルス・エレクトロニカのテーマが思い浮かぶ。そもそも何を不安に思うのか？フランケンシュタイン・

kawamou

1か月前

5
Mac で StreamDiffusion やってみる

昨年末頃 100 fps 超えの超高速 Stable Diffusion（SD）として話題になった StreamDiffusion。 CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。下記が実行結果で少々遅くカクツキあるが（GPU 利用で）3〜4 fps くらいで動く。 Web カメラで読み取った手の動作をリアルタイム変換している。 StreamDiffusion とは従来より SD を高速化させるための研究は数多くある。 StreamDi

kawamou

3か月前

6

固定された記事

エンジニア視点でまとめる Generative Agents の作り方

kawamou

8か月前

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

2

kawamou

12日前
LLM 時代のアイデンティティ・クライシスに対する生存戦略

5

kawamou

1か月前
Mac で StreamDiffusion やってみる

6

kawamou

3か月前

結局 llama.cpp とは何者なのか？

裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。 GGML は C/C++ における PyTorchllama.cpp を理解する上で、まず GGML を知る必要がある。 GGML は llama.cpp 作者ジョージ・ゲルガノフが作った機械学習ライブラリで C/C++ における PyTorch に対応するライブラリと言って良いはず。C/C++ でモデルを組むことができる。llama.cp

kawamou

3か月前

5
結局 llama.cpp とは何者なのか？

5

kawamou

3か月前
LLM をリサーチする際に使っているサイトやツール

最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究（や論文）のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。この 2 つを読むと調査力が格段に上がる（と思う）。探す探す心構え大前提と

kawamou

7か月前

5
LLM をリサーチする際に使っているサイトやツール

5

kawamou

7か月前
LLM に「人格」を付与する研究やツールを調査した

LLM に特定の人格やキャラクターを付与する試み（以降「人格再現」と表現）についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。そもそも人格再現して何が嬉しいの？（１）エンタメ領域への適用最も分かりやすいところだとゲームやメタバース、デジタルなエンターテイメントへの適用が挙げられる。ゲームに登場する NPC が独自の人格を持っていれば体験が豊かになるだろうし、AITuber との個性あるコミュニケーションにはワクワクが生まれる。

kawamou

7か月前

24
LLM に「人格」を付与する研究やツールを調査した

24

kawamou

7か月前
Unity 内のエージェントに生成 AI で「視覚」を付与する実験

まずはじめに、実験結果が下記である。エージェントの視界に映る内容をテキストで説明できている。仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画像を切り出して BLIP（画像 → テキスト変換可能な生成 AI）に食わせた。 BLIP の出力文は英語かつ拙いことがあるので、ChatGPT によってスマートな日本語に変換した上で画面上に出力している。 Unity 歴半月初心者なので、自身のメモを兼ねて実装方法を振り返る。なお、Unity エディタのバージョン

kawamou

10か月前

19
Unity 内のエージェントに生成 AI で「視覚」を付与する実験

19

kawamou

10か月前
二次元画像の口を音声に合わせてパクパクさせたい

まず結論から言うと、SadTalker を利用して音声に合わせパクパク（リップシンク）できた。 SadTalker はリップシンクのみならず、顔や表情も音声に連動できる（README の GIF 見ると分かりやすい）。実際に使ってみた結果がコレ。織田信長がパクパクしとる！パクパク動画の作り方手元に機械学習できる環境なくても問題なし。リポジトリに実行環境（無料）への導線が 2 つ準備されている。 Hugging Face：機械学習モデルのホスティングサービス Go

kawamou

11か月前

4
二次元画像の口を音声に合わせてパクパクさせたい

4

kawamou

11か月前

最近の記事

エンジニア視点でまとめる Generative Agents の作り方

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

LLM 時代のアイデンティティ・クライシスに対する生存戦略

Mac で StreamDiffusion やってみる

エンジニア視点でまとめる Generative Agents の作り方

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

LLM 時代のアイデンティティ・クライシスに対する生存戦略

Mac で StreamDiffusion やってみる

結局 llama.cpp とは何者なのか？

結局 llama.cpp とは何者なのか？

LLM をリサーチする際に使っているサイトやツール

LLM をリサーチする際に使っているサイトやツール

LLM に「人格」を付与する研究やツールを調査した

LLM に「人格」を付与する研究やツールを調査した

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

二次元画像の口を音声に合わせてパクパクさせたい

二次元画像の口を音声に合わせてパクパクさせたい