【抜粋】科学技術未来戦略ワークショップ報告書:【情報と計算の物理と数理】

https://www.jst.go.jp/crds/pdf/2022/WR/CRDS-FY2022-WR-11.pdf

こちらの資料もついても先の投稿(※)と似た内容でしたので、引き続き「個人的に重要だな」と思ったことについて
ご参考として抜粋いたしました( *ˊᵕˋ* )

パラっとご覧になられて、気になったトピックがありましたら
本文をご覧いただけますと、とっても嬉しいです( ⸝⸝•ᴗ•⸝⸝ )

(※)


2.2 情報熱力学とその周辺  沙川 貴大(東京大学)

例えば統計力学的なアプローチでの情報と熱力学の研究は「ゆらぎの熱力学(Stochasticthermodynamics)」と呼ばれる近年非常に活発に研究されている分野に関することである。

似ている分野「熱力学リソース理論(Resource theory of thermodynamics)」があり、ここ数年流行っているが、これは完全に量子情報の分野から来ている考え方である。

量子多体系については昔からある統計力学の量子カオスなどの話で、「量子多体系の熱化(thermalization)」などが15年ほど研究されているが、

ここ最近「情報スクランブリング(Information scrambling)」との関係などの話も量子情報から出てきたりしている。

「統計力学的アプローチ」と「量子情報的アプローチ」の間には基本はあまり接点がなく、同じようなことをやっていても、互いを知らないことが多い。

コミュニティも全然異なり、とくに下に並べた「ゆらぎの熱力学」と「熱力学リソース理論」は完全に分かれている。

【情報処理にどれくらいのエネルギーが必要か】という話では「ランダウア限界」が非常に有名である。

図2–2–3に示したとおり、これは【1ビットの情報がk BT log 2のエネルギーに対応している】というもので、例えば室温の300Kのときは4.1×10−21[J](0.026[eV])という【非常に小さい値】である。

マクスウェル•デーモンの話では、1ビットの情報を使ってk BT log 2の仕事を取り出せるとか、あるいは逆に1ビットの情報を処理するときにk BT log 2の仕事が必要であるとか、
ある意味、【情報と仕事の相互変換の単位】になっている。

なぜランダウア限界に比べて100万倍ものエネルギーが必要になっているのかというと、かなり単純な話で、1ビットの情報を右の状態から左の状態に移すときに、操作が準静的ではなく、右側のポテンシャルを急激に傾けることで遷移させているからだと考えることができる(図2–2–4)。

真ん中の山が非常に高く、右から左に落ちていくのが全部散逸になってしまい、そこで非常にエネルギーがいるということだと理解される。

今のCMOSデバイスなどでは、充電•放電のような形で非常に大きなエネルギーが消費されている。

【高速で情報処理をしていかないといけないのだが、速度が上がれば上がるほど散逸も大きくなる】という、その【トレードオフが原理的な限界】になっているというのが重要な観点である。

つまり、ランダウア限界というのは無限にゆっくり操作を行ったときに達成される限界であり、有限の速度で行うと原理的にその限界がどんどん上がっていくはずだと考えられるわけである。

熱力学的には無限にゆっくり(準静的な)操作をした極限のときに可逆になり、一番散逸が少なく、最低限のエネルギーでの状態変化が可能になる。

しかし実際には有限の時間で操作をしているわけで、【速度をどんどん早めると原理的にはエネルギーコストが増えていくはず】だと考えられる。
(注:量子速度限界、熱力学的速度限界)

ランダウア限界より上のところに真の原理限界があるはずで、それがどれくらいになるかというのはあまりまだ分かっていない。これから明らかにしていくべき重要な問題の一つだろうと思う。

よく量子コンピュータは低消費電力だといった話があるが、原理的な観点からは
【量子コンピュータであっても情報を環境に捨てると古典コンピュータと同じ電力が必要】になる。
(注:上のランダウアの原理)

しかも、量子コンピュータは冷やさないといけないことが多いので、コンピュータの消費電力の問題は量子コンピュータにしたからといって解決するような問題ではない。

コンピュータの消費電力をどう下げていくかという問題はいろいろな提案はなされているが、そもそも限界とかなり距離があり、50年後を見据えてアプローチを考えていくべきではないか。

どれくらいランダウア限界に近づけるかということは、デモンストレーション実験のレベルではもう実現できている。

例えば、2010年に鳥谷部先生(現•東北大教授)らがやった実験がマクスウェル•デーモンを最初に作った例として有名だが、ランダウア限界の大体30%ほどの効率であった(図2–2–5)。

最近だと100%に近いような効率を示す実験もたくさんあり、1個だけ電子を使うとか、あるいは1個だけ粒子を使うとかそういった次元の【実験室レベルの話では、すぐにでもランダウア限界に到達できるというのが現状である

もちろんこれらは実際のコンピュータに使われているデバイスからは非常に大きな距離があり、そのギャップをどのように詰めるべきかというのがこれからの課題だろう。

【この手の情報熱力学の実験は様々な系で実現している】。

例えばランダウア原理をコロイド粒子を用いて実際に確かめた実験や、生体高分子、単一電子、NMR、フォトン系、超伝導量子ビット、ナノ磁石などさまざまな系でデモンストレーションがされている。

こういった実験は実際にできるようになってきたが、実際のコンピュータのCMOSデバイスとどう関係しているのかというのは、まだ分からない面があるという印象である。

この他にも、大腸菌における生体情報処理などとの関係というのも興味深い話である。

生体内ではかなり高効率で動いている機構があると期待されているので、そういう生物の仕組みに学ぶということも一つの方向性として面白いのではないかと思う。

量子についても、量子的なフィードバックや測定を連続的に行うことで系を安定化させるような状況を考えたときに、【量子情報の流れのような概念を入れると系の安定化や【エントロピーをいかに減らすか】ということを特徴づけられるという研究もある。
(注:エントロピー流、移動エントロピー、過剰エントロピー生成、維持エントロピー)

ゆらぎの熱力学の分野の研究コミュニティの状況について触れたい(図2–2–6)。

量子情報と比べると非常に少数の研究者が研究を進めているという状況で、「量子冬の時代」という話があるが、ゆらぎの熱力学は常に冬の時代ではないかと感じる。

それくらい、世界的に見て研究者が少ない。


2.3 省エネルギー性の物理と最適輸送・情報幾何の数理 伊藤 創祐(東京大学)

沙川先生の講演と相補的な話になるが、情報理論もしくは機械学習などに使われるような数理と省エネルギー性の物理に関する話題を中心に話題提供する。

私自身は、特に生物系の情報処理を物理から理解しようとする研究をしているが、対象とする物理としては量子情報ではなく、非常に古典的な情報処理、もしくは化学反応や生体の情報処理、例えば、膜輸送のようなものを扱っている。

数理としては、情報理論もしくは確率の理論、もしくはグラフの理論などの数学を使っている。

特に、情報の数理としては、【確率や濃度などのようなものの変化や性質、距離、コストに関するような情報理論】を使って、非平衡統計力学や生物物理における熱ゆらぎやコストというような物理を研究している。
(注:{確率}測度空間、情報幾何、計量テンソル、発散・ダイバージェンス)

特徴的な例として、EMアルゴリズムという、「期待値をとって、その後、その期待値を最大化することの繰り返しによって学習する」というアルゴリズムがあるが、これを【幾何学的に捉える研究】がなされている(図2–3–2左)。

また、最近、特に応用として、情報の最適輸送が重要になってきている。
(注:最適輸送理論)

例えば、図2–3–2右に示すように、顔画像をデータだと考え、二つの確率分布に相当するようなものの間の輸送を、顔画像に対しても行い、このような両端の2つの画像から存在しない中間データをつくるということが、最適な輸送という観点から行うことができるようになっている。

我々は、図2–3–3に示すように、このような
分布の変化や確率分布の変化を、熱力学的な遷移として捉えている

このように考えることで【「熱力学的なコストや熱ゆらぎがどれくらい抑えられるか」というようなことを幾何学的に理解することができ、その結果、【状態の遷移にどれくらいの熱力学的なコストがかかるか】というようなトレードオフ関係を導出することができる。

これらは、量子力学の不確定性関係にインスパイアされた結果だが、「どれくらいコストがかかるか」と「どれくらい時間がかかるか」、もしくは、「どれくらいコストがかかるか」と「どれくらい非正確になるか」のような、【正確性やスピードとコストの間にトレードオフがあることを意味する式を、いわゆる【コーシー•シュワルツの不等式】という【単純な幾何学の式から導出】することができる。

この意味としては、【速く、正確に状態を変化させるには、十分な熱力学的なコスト、例えば、電力消費とかが必要になるという法則】になっている。

国内外の動向としては、沙川先生の講演にあったStochastic thermodynamicsという分野のワークショップが日本、ヨーロッパ、アメリカで行われている。

また、機械学習の分野では、【機械学習のトップ学会の中で、最適輸送や、情報幾何を含むような幾何の話が重要だ】とされるようになり、盛んに研究が行われている(図2–3–5)。

また、情報幾何分野に関しても、新しいジャーナルが創設されるなど、大いに発展してきている。

また、我々の業界でのゆらぎの定理や、非平衡熱力学の話も、1990年くらいから盛んに議論されていて、例えば、【順方向と逆方向のパスを考えて、このパスの確率の違いがある種のエントロピー生成という散逸を意味する量に関係するといった法則が【ゆらぎの定理】という法則である。
(注:確率過程、遷移行列での非対角成分、過剰エントロピー生成)

ゆらぎの定理は非平衡科学における基礎的な話ではあるが、この【散逸の量を機械学習に使う】ことが2015年に提案されている。

これは、【どんどん拡散する過程を考え、それを時間反転して逆向きにたどると、ノイズから画像ができる】ことを意味する。

このノイズから画像ができるというところを学習として何か画像を生成するモデルとして使おうということを提案がなされ、これが、今、SNSなどで、盛んにとりあげられているお絵描きAIの技術につながっていくことになる。


3.1 深層生成モデルの発展について 田中 章詞(理化学研究所)

図3–1–4に示すように、拡散モデルには良い点と悪い点がある。

良い点としては、高クオリティなデータ生成が可能になっており、画像ではかなりの成功を納めているいる点が挙げられる。

一方、悪い点は、実際に新しいデータをつくるときには、【ベクトル場の確率積分】という難しい処理をしなければならないので、どうしても計算量的に推論が遅くなってしまう点である。
(注:経路積分

しかしながら、この良い点と悪い点は、おそらくトレードオフのようなものでつながっていると思う。

確率積分を使うからこそ高クオリティなデータ生成が可能になっているのではないかと言われているが、最近の研究では、その積分ステップをすごく短くしても正確に画像がつくれることが示されており、そのトレードオフがどこまで成り立つのかは今後明らかになるだろう。

ターゲットとなるデータ(画像)が発生している確率分布は p(x )であると思って、画像に対して少しずつノイズを加えていくのが、基本的なアイデアである。

画像はベクトルのどこか空間上の点のようなものであり、図3–1–6に示すように、渦巻き型に散らばっている点の一点一点にガウシアンノイズをかけると点が拡散していく。

ガウシアンノイズをさらにかけていくと、もっともっと拡散していき、普通のガウシアンと見分けがつかなくなってくる。

これは【物理でいうところの拡散プロセスと呼ばれる】ものになっていて、【拡散後は通常のガウス分布になるもの】としてデザインされる。
(注:最大エントロピー原理

この(順方向の)プロセスは【マルコフプロセス】なので、逆プロセス(逆方向の拡散プロセス)が分かると単なるノイズから逆プロセスを介して、最終的につくりたいデータに一致するように学習できるはずだというアイデアであり、【非平衡熱力学に基づいている】。

ただし、拡散モデルには、上述した非平衡熱力学に基づいたモデルとは別のもう一つの流派があり、2005年のスコアマッチングによる【スコア推定に基づいたモデルがある。
(注:フィッシャー情報量とスコア関数

ここで、スコア推定とは単なるスコア推定ではなく、ノイズを入れたものに対してのスコア推定やノイズを段階的に入れたものに対してのスコア推定であり、徐々に発展して最終形になったものである。

2015年の非平衡熱力学に着想したアイデアに基づいたモデルと並列して発展していったが、2020年頃には、ノイズをかけるステップが十分小さければ、【2つのモデルは大体同じ】であることが理論的に理解できるようになった。


3.2 情報と数理 坂内 健一(慶應義塾大学)

だから、【学習していくことは、本来欲しい答えとのずれを最小化するということで、最小化問題である】(図3–2–5)。

すなわち、何か関数があったら最小値を求めなさいという問題だが、ベイズ的というのは最小値を【一つの値】ではなくて、何らかの【分布関数の中での分布】を探そうという感じである。
(注:{確率測度空間ではなく}情報幾何空間中での最小化問題)

分布なので「値が最小」ではなく「値の ”期待値” が最小」である。

そうすると一番最初のデルタ関数の最小値になってしまうので、少し幅を与えるためにエントロピーという項を引き算して、エントロピーができるだけ大きい最小値を探しなさいという問題を考えよ、ということにする。

そうすると、【分布としての最小値というのは実は一意的に存在する】ということが分かってしまうので、最小値、非凸関数だと最小値が複数ある場合があるが、分布とすると必ず一つあるので、それをどう見つけるかという問題になる。

ただ、分布を探すという問題も大変なので、全ての分布を考えるのではなくて、良い分布の空間を考えて、その中で最初、何か適当な値をとっておいて良いところまで近似していくという、ニュートン法みたいな方法をやっていく。

【ミクロモデルからマクロな方程式を与える拡散行列】が、
実はこの【ミクロモデルの幾何学的な情報の周期行列で与えられる】
ということが証明できた
ことである。
(注:フーリエ変換とホッジ双対、シンプレクティック構造)

ある意味、そのミクロモデルから拡散行列を求めるメカニズムを与えているところが面白いと思う。


この記事が気に入ったらサポートをしてみませんか?