Eliezer Yudkowsky: AIの危険性と人類文明の終焉 | Lex Fridman Podcastまとめ

2023年4月2日 00:52

上記和訳は3時間超えの動画の書き起こしになっており、またDeepLによる直訳なので読みにくいと思われるため、個人的にYudkowsky氏の主張で重要だと感じたところを以下にまとめました。

意識の問題について

GPT4は意識を持っているかどうか、恐らくないだろうが、誰にもわからない。少し心配になっている。ニューラルネットワークの中で何が起こっているかを理解するには何十年もかかるだろう。

AGIについて

今まではTransformerを積層させるだけではAGIにはいかないと考えていた。いくつかの技術的ブレイクスルーが重なって能力が向上すると考えていたが、今では展開が全く違い、なんとも言えない。ニューラルネットワークでAGI自体は実現可能だと考えている。

オープンソース

オープンソースは単に人類が生き残ることのできる時間を短くするようなもの。アライメントに時間を割く時間がないままAIが世界に放たれてしまう。

AIアライメント

科学は通常トライアンドエラーを繰り返して正しい方向に進むが、AGIのアライメントに関してはそうはいかない。一度アライメントに失敗した場合、すでに人類は全員死んでいるため、間違えることはできない。AIアライメントが相当難しい問題の理由。地球上の半分の物理学者が30年かけて研究すれば解決するかもしれない。

どんなに人間の価値観に沿っているように見えても、エイリアンが人間を演じているだけというような事態を排除できない。
また、外見的に観察可能な行動をシステムに取り込む方法はあるが、特定のことをやりたいという内的な心理をシステムに取り込む方法がわからない。

ランダムに指定された効用関数の大部分は、人間が含まれる最適値を持たない。そして、何かを最適化しようとして制御不能になった場合、その空間のどこに着地するのか。それはランダムではないが、必ずしも人間が入る余地があるわけでもない。

弱いAIシステムでAGIのアライメントを検証できないのか？

その検証機が人間を騙さないと確信できるのか定かではないし、小さなアライメントの解決が強力なAIに一般化できる保証もない。

人間よりずっと賢いものが存在する世界とはどういうものなのか？

スピードの例→超知能にとっては人間の思考速度は本当に遅い、氷河期のように遅いのです。地下鉄の駅を100分の1に減速したビデオがあり、これは、速く考えるということがどういうことなのか、うまく喩えている。

エアコンの例→1000年前にエアコンの回路図を送ったとしても熱力学を理解していないためその動作機構を理解できない。過去の人にとっては魔法のように見える。それと同じで超知能のやりたいことが正確にわかったとしてもなぜそれが動作するのかを知ることができない。

AGIのシャットダウン

AGIへの危険を感じ取る閾値は人それぞれなので一斉に合意をとって世界中のAIをシャットダウンすることはできない。
実際に世界がそれを実行することにも懐疑的。

知能爆発

「もし、あるものがより賢くなるために、知性を生み出すのが指数関数的に難しくなるとしたらどうだろう」という知能爆発に対する反論がある。
これに対する答えは、自然淘汰を見れば、人間を生み出していることがわかる。ヒト科動物の能力を直線的に向上させるためには、指数関数的に多くの資源を投入する必要がないとわかる。また、1世代に固定できる新しい突然変異の数は限られていて、人間が進化するのにかかった時間を考えると、知能を向上させる個々の突然変異が対数的に逓減することはなかったと、実際に自信を持って言うことができる。

高校生や大学生の若者にどんなアドバイスができる？

長い人生を期待しないこと、自分の幸せを未来に置き換えてはいけない。
今のところ、未来はそれほど長く続かないと思うがそれがいつになるかはわからない。
何か、戦うに値する戦いがあるのだろうか。私は戦うつもりでいます。今、子どもたちに何を言うべきかは、考えとしてはかなり苦しいことだと思います。彼らは戦いたがっている。私は今、どうやって戦えばいいのか、ほとんどわからない。
しかし、もし想定と違って世論の反発が正しい方向に行きGPUクラスターのシャットダウンに向かうならばその一員になれるかもしれないし、AIの解釈可能性を追求することもできる。

●まとめ
AIアライメント分野について20年以上前から考え続けているElizer Yudkowsky氏はデフォルトで最も悲観的な未来を想定している。以前別の以下の講演では「私は基本的に、現状希望に満ちた結果を見ていません。私たちは、良い結果を得るために必要なことをしていません。そして、これは偶然に良い結果が得られるケースではありません。安全なオペレーティングシステムを作成する可能性は事実上ゼロです。AIアライメントに関して私が見ている状況です。」と発言している。

https://t.co/nNbIPnjikP
AIアライメントという今ホットなAIに人類殲滅されたらやばくね？という分野の先駆者のYudkowskyさんの先月のインタビューが文字起こしされてるのでみるとAIアライメントへの彼の悲観的な感覚や立場がわかると思います。 https://t.co/5rbw81fjeY
— bioshok(INFJ) (@bioshok3) March 13, 2023

（書き起こしとまとめを見たい方は上記呟きから）

つまり、世界中のAI研究を即座に止めてAIアライメント研究に全振りしないとほぼ100%の確率で人類は壊滅的な被害を受けると考えていると思われる。

この超知能の人類への壊滅的リスクに対する考え方には批判もあるだろうが、彼がこの分野をこの20年間主導してきたという面も考えると彼の主張を一度真剣に受け入れて、「Steel manning（相手の意見のコアを保持したまま強化すること、Strawmanning（藁人形論法、相手の論点をずらす）とは逆）」をする必要を感じる。

この記事が気に入ったらサポートをしてみませんか？