見出し画像

多体問題(三体問題)と生成AI

生成AIは多体問題(三体問題)の先へ

多体問題(三体問題を含む)と言ってもタンパク質の構造予測の話です。基本的には天体の多体問題と一緒です。タンパク質は数十個から千を超えるアミノ酸から構成されています。アミノ酸の種類と順序によって様々な三次元形状を取ります。アミノ酸配列から三次元形状を予測することが「タンパク質の構造予測」。新薬の開発などに役立つ重要な情報源です。
 タンパク質の構造予測では天体同士の引力の代わりに原子間力や分子間力などが働きます。タンパク質の全原子に加えて付近にある水など数万個の原子が相互に影響し合う運動を、1000兆分の1秒という細かい時間で刻んで数百万回繰り返すことで構造を予測します。これは三体問題どころが数万体問題ですね。

三体問題は解析的には解けない

多体問題は天体物理学の問題として知られています。解析的には未だに解決されていません。

 タンパク質の構造予測でも同様に解析的には解くことはできません。近似計算で解くことになります。

近似的にはスパコンで解けるが変数をごっそり減らさないと

数万個の原子が原子間力で相互に影響し合う運動を数百万回シミュレートする計算には、世界最高速のスパコンを使ったとしても途方もない時間が必要となります。そこで変数をごっそり減らして問題を単純化してシミュレートします。変数を減らすので精度は低くなります。それでもスパコンを長時間占有するような計算となります。

生成AIで解決しちゃった

ところが、Google傘下のDeepMind社(2016年に囲碁ソフトAlphaGoで世界トップ棋士に勝利)が2018年にAlphaFoldというタンパク質の構造予測ソフトを発表しました。すでに判明している「アミノ酸配列」と「タンパク質の構造」のデータセットを学習して、未知のタンパク質の構造を予測します。
 やっていることはChatGPTなどが使っている大規模言語モデルと同じ、AttentionベースのCompletion。すなわち生成AIです。AlphaFold2は2020年に発表された改良版です。アミノ酸配列からその立体構造を極めて高い精度かつ極めて高速に予測できることを示し騒ぎになりました。
 生成AIなのでAlphaFold2の根幹部分では分子間力などの式を使っていません。天体物理学の多体問題にあてはめると重力方程式などの式を全く使わないで解いていることになります。

パソコンでも多体問題が解ける

AlphaFold2はオープンソースとして公開されています。さらにコンパクト化高速化が進みパソコン上でも数分でタンパク質の構造計算ができるような改良版が出現しています。

多体問題の先へ

構造予測は、たとえば特定のウィルスの突起だけにマッチする構造を持つタンパク質を見つけることに役立ちます。ただ、多くのタンパク質の構造を予測してみて、その中から目的に適したものをピックアップするという「下手な鉄砲も数打ちゃ当たる」式であることは否めません。
 そこで2024年の3月に発表されたのがBaseFoldというソフトで、タンパク質の形状からアミノ酸配列を求めるという、AlphaFold2の逆の問題を解決するソフトです。

 逆問題の解決によって創薬の効率は飛躍的に高まります。プラスチックを分解するタンパク質、温暖化ガスを取り込むタンパク質など応用範囲も広がるでしょう。

天体の三体問題

天体物理学で生成AIの応用事例が無いか探していたら、もしかしたらという情報がForbesの記事にありました。なお記事が紹介しているアルゴリズム "HelioLinc3D"はAIではありますが生成AIかどうかは議論があるようです。


この記事が気に入ったらサポートをしてみませんか?