2030年のLLMのベンチマークはどうなるんだろうか
前提
たぶん来年か再来年には平均的な人類より頭のよい言語モデルが出来て、2030年代初頭くらいには人類より数十倍賢い言語モデルができるのだと想定している。そのときのベンチマークは何になるんだろうか?
例えば、2030年代初頭には、人類がチンパンジーくらいの知能だとしたときに、AIが人類くらいの知能になっていると想定される。そのときに、人類がチンパンジーくらいの知能しかないとして、(自分たちより圧倒的に知的レベルが高い)人間の知能の評価をどうやればよいのだろうか?もっと言うと、金魚やミジンコは人類Aと人類Bの頭の良さの違いを理解できるのだろうか。個人的にはかなり難しい気がしていて、人類Cに評価してもらうとか、第三者の登場が必要な気がしている。
そもそも現状、言語モデルAとBがあるときにどっちが優れているかはどうやって評価しているのかが気になった。このあたりのベンチマークの仕組みを理解していないと、LLMがリリースされたときにどうすごいかがきちんと理解できない気がした。少なくとも現状、私はわかったようでわかっていない。
注意
私が個人的に気になって調べたメモです。その道の研究者ではないので、プロの目から見たらきっと間違いだらけです。もしも間違いがあれば、XのDMで教えてくれると嬉しいです。
現状のベンチマーク整理
現状のベンチは、OpenAIがリリースしているevalsまたはその軽量版のsimple-evalsを利用している事が多いようだ。以下、それぞれのパラメータの説明
実際、Llama3のパフォーマンスも上記の項目を掲載している。GSM-8Kというのは上記の項目に含まれていないように見えるが、MGSMとほぼ同等。paperswithcodeによると、人間が作成した小学校の算数の文章問題のようだ。8500問題あるので8k。
具体的な問題の紹介
具体的な問題を見たいという私みたいな人向けに、問題を掲載しておく。原文とClaude3による翻訳を掲載する。知識的な問題や、論理的な問題もあり、序列をつけるのは難しいが、私の主観であえてつけるとすると難易度の順位は、
GPQA > HumanEval > MMLU > MATH > GSM-8K
かなと感じた。
上記のLlama3の評価と比べると、私の主観は若干AIと乖離がある。特にMATHに対する評価が大きく異なる。
MMLU
Claude3による翻訳
GPQA
Claude3による翻訳
HumanEval
GSM-8K
Claude3による翻訳
MATH
Claude3による翻訳
現状のベンチマークの課題
上記で用いられているようなベンチマークを見る限り、評価の軸となる分野は、論理、知識、プログラミングに大きく偏っていると感じた。例えば、会話をしていて自然と感じるかどうかや、表現力については触れられていない。もしかしたら、そのあたりはすでに現状でもある程度達成されているからかもしれないし、もしくは論理、知識、プログラミングがうまくできればこれらのタスクも達成できるのかもしれない。もしくは、単純に定量的に評価するのが(技術面およびスケールの面で)難しいからかもしれない。なんとなく、定量的に評価するのが難しいというのが理由な気がする。
上記のベンチマークはLLMが人類の賢さを大幅に上回ると使えないベンチマークであるという予想は正しそうだ。なぜならば、上記のベンチマークは十分に賢い人間であればほとんど解けてしまうので、LLMがその水準に達するとこのベンチマークはパフォーマンスが100に近くなり、LLM同士の違いを評価できなくなると想定されるから。
2030年のLLMのベンチマーク
そのため、上記のベンチマークは数年後には使われなくなる可能性がありそうだ。具体的にどうアップデートされるだろうか。想像してみよう
例えば、AIが人間よりもずっと賢くなって、いわゆる上記のようなタスク型のような課題は概ね答えられるようになったとする。そのとき、タスクに対して正しい回答をするというようなタスクだと、所詮人間の知識レベルの話なのでどこかの段階でどのAIも素晴らしいスコアを出すようになり評価ができなくなる。そうなると、タスクに対して正しい回答ができているかどうか、というスタイルだと評価が難しいのかもしれない。
これを解決するためには「人間の知識レベルを超えた評価軸」が必要になるかもしれない。つまり、LLMの能力が人間を大きく上回るようになると、現在のようなタスク型のベンチマークでは差異が測れなくなる。そのため、人間の知識レベルを超えた新たな評価軸が必要になる。例えば、未知の問題に対する創造的な解決策の提示や、複雑な因果関係の理解、新しい概念の創出などが考えられる。ただし、これだと多くの場合、定量的評価が難しくなるのでそこは課題だ。
あとはタスク型における回答のようなものが、簡単に相対的に評価できると良いかもしれない。一例として、囲碁や将棋のように競技性があり、相対的に評価できるものであれば、LLM同士を評価できるかもしれない。ただし、LLMにおいて出力された文章に対し、客観的かつ定量的に評価することは思ったよりも難しいので、課題の選び方をどうするかはかなり悩ましい。
それから冒頭に述べた「人類C」のような第三者に評価してもらうという仕組みは現時点では思ったより難しいかもしれないが、将来的には有望かもしれない。なぜ現時点で難しいかというと、誰が評価するのか、によってLLM同士の相性などがあるかもしれないし、客観的な立場からLLMはLLMを評価できるとは私は「まだ」信じられないからだ。しかしながら現状、Xなどを見ているとLLMの評価として「Chatbot Arena」を皆よく参考にしているなと感じる。Chatbot Arenaは、匿名で選ばれた2つの生成AIが、同じ質問に対して回答し、どちらが優れているのかを人間が判断してレーティングを競う、というものである。仮にLLMが人類よりも賢くなるのであれば、この評価する側としてLLMが入ってもおかしくないかもしれない。ただし、この場合は現状のChatbot Arenaと同様に統計的かつ大規模な評価件数がないと、そもそも評価を正しく行うことができないかもしれない。具体的には、ある程度トップクラスに賢いとされているLLMの群を用意し、それらにLLMを評価させるというのは一つの方法かもしれない。ただし、これを繰り返すとバイアスが局所化していくことは想定されるので、評価者には一定数人類は含まれるべきかもしれない。
まとめ
この記事では、将来的にLLMの能力が人間を大きく上回るようになると、現在のようなタスク型のベンチマークでは差異が測れなくなる可能性が高いのではないかという仮説を提案し、現状のベンチマークのレビューをした。そして、新しいベンチマークとしてどういったものが可能性があるのかについて論じた。提案したベンチマークの方向性としては下記の3つ。
創造性と問題解決能力の評価 未知の問題に対する創造的な解決策の提示や、複雑な因果関係の理解、新しい概念の創出などを評価する。これらは人間の知識レベルを超えた評価軸となり得る。ただし、定量的評価が難しいという課題があるため、評価方法の確立が必要である。
競技型のベンチマーク 囲碁や将棋のように、LLM同士が直接対戦し、相対的に評価できるようなベンチマークを設定する。これにより、客観的かつ定量的な評価が可能になる。ただし、適切な競技の選定や、公平な対戦環境の整備が重要である。
LLMによる評価 人間よりも賢いLLMが登場した際には、LLM自身がほかのLLMを評価するという方法も考えられる。ただし、バイアスの局所化を避けるため、一定数の人間評価者も含めるべきである。また、統計的かつ大規模な評価件数が必要不可欠である。
次は、sakana.aiがなぜすごいのか,あたりを理解したい。sakana.aiがやっていることは人伝いに聞く限り遺伝的アルゴリズムに近いことをやっているのかなと思っているのだけど、もう少し正しく理解したい。個人的に研究者時代に、遺伝的アルゴリズムは触っていたことがあるが(最適化数学やってたら一度は皆触るかもしれないが)、あんまり賢くないイメージだったのでなぜそれが今注目されるほどすごいのか、さらに現状の技術をどう改良できるのか理解したい。
ブログのサムネイルは
「AIが人類よりもずっと賢くなり、AIが人類の知識レベルだとしたときに、人類が皆チンパンジーの知識レベルになっている様子」
をイラスト化したものです。
この記事が気に入ったらサポートをしてみませんか?