「人間レベル」とは何か、を明らかにすることが人工知能研究の究極のゴール

2024年1月8日 21:21

2022年、2023年と、人間の創造的な仕事を支援してくれる生成AIがかなり身近になってきました。2024年も引き続きAIは大きな進化を遂げてより多くの人に色々な形で使われるようになっていくことが予想されますが、その時に常に課題になるのが、AIが人間のようにきちんと仕事をしてくれるのか、ということです。でも、「人間のように」っていったい何のことでしょう？今回はこの「人間のように」について考えてみましょう。

ヒトは人による仕事とAIによる仕事を見分けられる？

年明けにこのような記事が流れてきました。

画像生成AIが出力した絵画を人間が描いた絵と見比べてもらう実験を行ったところ、どちらが描いた絵なのかわからなくても人間の絵の方が高く評価され、親しみやすく感じられることが確かめられました。

出典: GIGAZINE

この研究はアメリカのボーリング・グリーン州立大学で行われたもので、特に特定の美的判断要素で人間とAIの作品に大きな差が出たとのこと。

生成AIが簡単に使えるようになってから、インターネット上にも様々なAI作品が広まるようになり、その中でも特にフェイク画像、フェイク動画が社会問題になっています。

一方、世の中に出回っている画像、動画のすべてに適用できるかはわかりませんが、AIによって作成された作品にはどこか癖があると感じるものも多くあります。首相の偽会見動画などは口元しか動いていないのが気になるし、AIで生成した人物は顔や体のパーツのサイズや肌感などが、よく見ると本物の人間と違うことが分かります。

ただし、「本物の人間と違う点」が分かってしまえば、その部分をトレーニングして改善することができます。コンピュータプログラムが生成した画像・動画と言えば、20年程前のゲーム機では、3Dポリゴンで人物が再現できるようになったときに髪の毛や皮膚のシワ、水面などは再現が難しいといわれていましたが、その後改善され、まだいろいろ課題はあるものの、見違える品質になってきているのと同様です。

AIについてもモデルの欠点が具体的に分かればその点は修正することができます。より具体的には、ChatGPTであればヒトからのフィードバックからの強化学習 (RLHF)を行うことで改善できます。先ほどのAI生成作品の人間との差は、特に「内省」「魅力」「懐かしさ」「楽しさ」の尺度での違いだったそうです。これらの点を改善していくことで、AIが生成する作品との差が今後は縮まっていくでしょう。

どこまでトレーニングを積めば人間と遜色なくなるのか？

それでは、どこまでトレーニングを行えば「人間レベル」まで持っていけるのでしょうか。ChatGPT-3.5からChatGPT-4にバージョンアップすることで、ChatGPTは司法試験などの様々な専門的・学術的なベンチマークで「人間レベル」のパフォーマンスを示すようになりました。

多くの専門試験でChatGPT-3.5(青)よりChatGPT-4(緑)の方が好スコア
出典: OpenAI

しかし、それでもOpenAIによると現実世界の多くのシナリオでは人間よりも能力が低いということです。司法試験には合格点でも、実際の司法の実務では司法試験に出ていなかった内容では低い能力しか示さないこともあるでしょうし、全く別の分野、たとえば「おいしい卵焼きを焼く方法」の説明は人間よりも不得意かもしれません。(塩少々、とか焼く時間について正確な秒数の指示ができないなど)

司法試験などのベンチマークは、あくまでも1試験あたり数十~数百問程度の「点」でAIの能力を測っているに過ぎず、上記のグラフのような30弱の専門試験によるベンチマークではせいぜい1万程度の「点」で測っているにすぎません。しかし現実のAIの利用シナリオは無限ともいえるくらいさまざまなシナリオがあります。そのため、さまざまな現実的シナリオでの活用を考えた場合、現時点で、ChatGPTがあらゆるシナリオで「人間レベル」に到達できる目途はついていないといえるでしょう。

基準となる「人間レベル」は不明瞭な概念

一方、利用者が求める「人間レベル」とは何かについても少し掘り下げて考えてみましょう。ヒトはどうやって「人間レベル」を身に着けるかというと、30歳の人間であれば、30年分生きてきた「時間」をいずれかの分野に充てて学習を重ねてきています。仮に学習する能力がすべての人間で同じだとすると、この30年分の時間の分配の仕方でその人の専門性が決まってくるわけです。

たとえば弁護士であれば10数歳までは一般的な「常識」の基礎スキルと高等教育レベルの「一般教養」、その後は専門性の高い司法領域の「試験勉強」やその後の「実務」を経験して学習することで「高度な専門的知識」を身に着けます。ただし、専門性も細かく分かれており、交通事故、不動産、企業法務、債務整理、国際的案件など実務経験により実力に差が出てくる可能性があります。一方、この人は学習に時間を振り分けなかったスキル、たとえば「土木建築」など他の専門性が高い分野は「知識ゼロ」なわけです。また、マスメディアで報道されているような程度の内容であれば「人並み」に知識を持っているでしょう。

ChatGPTのようなAIに「人間レベル」を求める場合、どのレベルを求めるかによって難易度が変わってきます。全人類の集合知としてすべての分野で「高度な専門的知識」を持つこと (=あらゆる分野で人類に匹敵する・上回る) が期待値だとすると、非常にハードルが高いことになります。30歳の人間1億人分の知識を学習するには、真面目にやると延べ30億年の時間が必要になります！また、そもそもそのような全方位の知識獲得を達成した人間すら存在しませんので、手本がないことになります。

また、AIが回答すべき正解はひとつではありません。いつ誰からどういう状況で聞かれるかによっても異なってきます。たとえば「信頼できる」の定義ひとつ取ってみても日本人と米国人の間で認識が違うというように、文化の違いも考慮しなければなりません。この辺は、人間同士のコミュニケーションであれば外見やちょっとした会話などの情報から感じ取ってコンテキストを合わせますが、AIの場合は現状はプロンプトで条件を細かく設定する必要があります。

「人間レベル」の基準となるベンチマークの必要性~「基準AIモデル」

AIが返すべき回答は、どの程度の専門的知識なら良いのか、何をもって「人間レベル」とするのか、現状何かベンチマークがあるわけではありません。様々な専門分野においてAIの能力を評価できるベンチマークを作るにしても、先ほどの1万程度の「点」よりも桁違いのものを用意する必要があり、作成する難易度は高いものとなります。

そして、仮にAIに「あらゆる分野で人類に匹敵する・上回る」レベルの回答を求める、つまり「人間レベル」を超える能力を求める場合、そのAIはどのようにトレーニングするのか、という問題も発生します。

ひとつの現実的なアプローチの方法論としては、人間の専門家を作るのと同様、分野やコンテキストを限定して「コンパクト」なAIモデルを作成し、特定のシナリオで「人間レベル」以上に機能させるモデルを作ることです。これを仮に「基準AIモデル」と呼びます。この「基準AIモデル」を色々な分野で作って他のAIモデルの評価ができると、さきほどの「ベンチマーク」の問題を解決することができます。

そしてこれらの「基準AIモデル」を使って、ひとつの大きなAIモデルの調整ができるようになるかもしれません。OpenAIでも最近、そのような研究の最初の成果を発表しています。

＊

このようにAIモデルは2024年も引き続きいろいろな手法が模索されて進化をしていきそうです。そして「人間レベル」を明らかにして基準を示すことができれば、テクノロジーの分野だけにとどまらず、人間性とは何かやヒトの教育論にも応用ができ、大変広い分野に影響を及ぼしそうです。「人間レベル」とは何かを突き詰めることは、人類が自分自身と向き合い、人の成り立ちの深淵に迫る行為でもあります。

私も、AIの研究者ではありませんが、AIテクノロジーをマーケティングする立場から引き続きウォッチしていきたいと思います。

最後までお読みいただきありがとうございました。それでは、また！

この記事が参加している募集

仕事について話そう

108,762件

この記事が気に入ったらサポートをしてみませんか？