Blenderに機械学習をさせよう！【GeometryNodes】

2023年9月11日 08:48

まずはこちらの動画をごらんください。

GeometryNodesで機械学習を実装しました #geometrynodes #blender pic.twitter.com/VAX7RntgtG
— Melville (@MelvilleTw) September 10, 2023

Blender上で8×8ピクセルの手書き文字認識のニューラルネットワークの学習を行う様子です。
左は学習中の推論結果、右はテスト画像240枚中何%正しく推論できたかを表示しています。

ランダムなパラメーターから出発して学習を開始し、私の実行環境では数秒程度でほぼ90%近い精度の機械学習モデルをつくることができました。

以前と何が違うか

実は以前（10ヶ月前）にも、こちらの記事でBlender上で機械学習モデルを動かすという試み自体は行ったのですが、これは既に学習済みのモデルのパラメーターをテクスチャとして読み込んで推論するだけのものでした。

今回は、推論だけでなく学習も（！）Blender上で行おうという試みです。

全体像

ノード全体は以下のような構成になっています。

本質的な部分は可視化部分を除いた左半分ですので、この記事では左側のみ解説します。

特に、「Model」グループの中身はこのようになっています。
V字に配置されていますが、左側で順伝播（Forward Propagation）、右側で逆伝播（Back Propagation）を行っています。

より詳細な実装を知りたい方は、GitHubにも公開していますので、
そちらをご確認ください。

学習用・評価用データの準備

学習用データは事前のsklearnのdatasets.load_digits()から生成し、テクスチャとして読み込みました。
学習用に1500枚、検証用に240枚用意し、それぞれ同じ列に同じラベルの数字が並ぶように調整してあります。

色空間はGeometryNodesにも影響があるので「リニア」等にしておく必要があります。

今回のGeometryNodesでは、学習データやパラメーターなど、ほとんどすべての数値は「ポイント」ジオメトリの「半径」として扱います。

テクスチャから色情報を取得し、ポイント半径として設定しニューラルネットワークに渡します。（同時に、正解ラベルを表すジオメトリも出力します。）

GeometryNodes上での値の管理方法

パラメーターの学習にはBlender 3.6 LTSから追加されたSimulation Zoneを用います。

Simulation Zoneを用いることで、パラメーターを更新して次のフレームでまた使う、ということが実現できます。

Affine層などはパラメーターを持つわけですが、これをどのように管理するか、という問題があります。

ここでは、パラメーター用のジオメトリをひとつつくり、そこでニューラルネットワーク内のすべてのパラメーターを管理するようにしました。

具体的には、「半径」をパラメーターとする「ポイント」です。これが"メモリー"の役割を果たします。
今回は2410個のパラメーターを利用しているため、ポイント数も2.4Kと表示されています。

しかし、すべてのパラメーターをぶちこんでしまっているので、このままではどのポイントが何のパラメーターを表しているかわかりません。

そこで、適当なインスタンスを1つだけ生成し、特定の名前の整数属性を格納することで、あるパラメーターが「何番目から始まるか」と「何個続くか」の情報を読み出せるようにしました。

例えば「affine1__w」はインデックス0から連続する2048個のパラメーターで構成されます。

適当なインスタンスを生成するだけのグループ「Initialize Parameters」

つまりインスタンスのドメインでインデックス（ポインター）の管理をし、ポイントのドメインが値そのものを持っている、という実装になっています。

実際に値はインデックスサンプルノードなどを駆使することで取得できます。

GeometryNodesで値を管理する仕組みに関しては以上となります。

ここからは、ニューラルネットワークそのものの説明になります

順伝播（Forward Propagation）

まず今回使用しているニューラルネットワークですが、

1層目　Affine
2層目　ReLU
3層目　Affine

からなる非常にシンプルな構成です。
Loss関数にはSoftmaxCrossEntropyを用いています。

pythonであればforwardメソッドとbackwardメソッドを持ったクラスなどを定義できるのですが、GeometryNodesではノードがループするようなつながりを持てないため、しぶしぶ「Affine Forward」「Affine Backward」「ReLU Forward」「ReLU Backward」のように個別にForwardとBackwardのグループをつくることにしました。

Affine Forward

Affine Forwardの具体的な中身はこんな感じです。

なかなか複雑なので全部を説明するのは大変なうえに、多分この記事を読んでいる人もちゃんと理解する気がある人なんていないだろう、と思っているのでざっくりいうと、「新しいポイントを生成して、入力のいい感じのインデックスの半径を拾って新しい半径を設定し、出力にしている」という感じです。

特に、Affineは結局行列の積なわけですが、これは「要素コピー」「インデックスサンプル」「フィールド蓄積」という3種類のノードをいい感じに組み合わせることで実現可能です。

ちょっと前までは行列の積はだいぶ無理やり計算していたのですが、
今はこれらのノードがあるおかげでかなりスマートに記述できるようになりました。

順伝播のタイミングで、もしパラメーターがまだ定義されていない場合（=パラメータージオメトリのインスタンスドメインが所定の名前の属性を持っていない場合）は、新しいパラメーターを生成します。

今回活性化関数としてReLUを利用しているため、AffineのWeightはHeの初期値、Biasは0で初期値を設定しています。

Heの初期値は活性化関数としてReLUを利用している場合の良い初期値として知られており、平均が $${0}$$ 、標準偏差が $${\sqrt{\frac{2}{n}}}$$ (ただし $${n}$$ は入力数)であるような正規分布として初期値を設定するというものですが、GeometryNodesにそういうノードはないので、一様乱数にBox–Muller変換を用いることで実現します。

Box-Muller変換は次のようなもので、独立な0～1の範囲の一様乱数 $${X}$$ 、 $${Y}$$ から、標準正規分布に従う乱数 $${Z}$$ を生成します。

$$
Z = \sqrt{-2\log{X}} \cos{2\pi Y}
$$