[スピンオフ]今更聞けない生成AI解説まとめ/Diffusionモデル入門①モデルの概要

前置き

どうも、それなニキです。

流石にここ数回の投稿では自分の研究から逸れた雑談ばかりだったので、ここら辺で戻っていこうと思います。

さて、今回扱うのは、前回までのLLMとは打って変わってDiffusionモデルです。
そう、何を隠そうこのモデル、あのStable Diffusionに使われているシステムなのです!

なぜこのモデルについて扱うのかというと、大学の研究で少し関連分野をやることになって、結果として勉強せざるを得なくなったからですね。
ついでにnoteにもまとめて上げようという魂胆です。

さて、今回は以前のLLMのように、松尾研の資料がないのでネット上の解説記事をいろいろ引っ張ってきて、ChatGPTにも頼りつつまとめていくことになります。
したがって、章立てなどを適切に行うのが難しいですが、ご了承ください。


Diffusionモデルのイメージ

Diffusionモデルと言っても、何がどう拡散diffusionしているのかという話ですが、以下の図をご覧ください。

https://toukei-lab.com/diffusion-model より引用
すんごい分かりやすい

別の解説記事から引用してきたものですが、Diffusionモデルとはつまるところ、

「ある画像にノイズをかけていき、ノイズまみれになった画像から逆に元の画像を推定させて、その誤差を最小になるように学習させたモデル」

ということです。

このモデルを世に出した論文が下記になりますが

https://arxiv.org/pdf/2006.11239.pdf

この論文タイトル
Denoisingノイズ除去 Diffusion拡散 Probabilistic確率 Modelsモデル(DDPM)」
からも分かる通り、ノイズ除去という形式をとっているわけですね。

この際に、画像に載っけるノイズは基本的に正規分布(ガウス分布)に従うそうです。

そういえばですが、Stable Diffusionで画像生成をする際も、最初にボケた画像が出てきて、それが徐々に鮮明になっていくという形で生成が進行するので、それがノイズ除去だと言われるとなんだかしっくり来ます。

こんな感じ
確かにノイズを除去しているように見える

補足

これでDiffusionモデルの概要は掴んだぞ!
…と言いたいところですが、これだけではまだまだ実際に利用されるDiffusionモデルを応用した生成AIには届いていません。

考えてもみてください。
Stable diffusionで画像生成をする際に我々はプロンプト(文章)を打ち込んで、それを画像に変換するわけですが、どうやってこのノイズ除去プロセスにプロンプトを導入するのでしょうか?

実際、こうした問題を解決するべく、様々なフレームワークが模索・構築されてきました。
LLMでいうところのTransformerとかと一緒ですね。

詳しい仕組みについては後日別の章で扱っていきたいと思います。

https://stability.ai/news/stable-diffusion-3-research-paper より引用
そこそこ複雑そうだけど、Transformerのことを考えると意外といける…?


https://arxiv.org/pdf/2112.10752.pdf より引用
やっぱダメかも

あとがき

今回は研究のスケジュールの関係で非常に短い記事になってしまいましたが、次回以降にご期待ください()

参考文献


余談

さて、だんだん自分の中で恒例行事のようになってきたこのコーナーですが、今回もデュエマの話を少し。

先日、守りの王道でデッキを作ってみた話を投稿したわけですが、その間にも2つほどデッキを作っていました。

  • 5c Volzeos-Balamord

  • 黒単アビス

いつか紹介出来ればなぁと思います。

ところで、せっかくデッキを作ったのなら対戦をしてみたくなるのですが、遊戯王と違ってデュエマは初心者交流会的なイベントを公式が常時やっているわけでもなく、友人の誰もデュエマをやっていないので、デッキが作ったっきりになってしまっています。

うぬぬ...どうしたもんか。

この記事が気に入ったらサポートをしてみませんか?