MetaのAI部門の責任者であるジャン・ラクーンがレックス・フリードマンとの対談でAIの未来について語りました。現在の大規模言語モデル(LLM)であるChatGPTのようなものは、人工汎用知能(AGI)を達成するには不十分であると強調しています。ラクーンは、AIの多様性を促進し、分野を前進させる可能性を秘めたオープンソースAIを支持しています。これは、物理世界との相互作用の課題、強化学習の非効率性、複雑な行動に必要な階層的計画の必要性など、現在のAI技術の制限に対処します。さらに、ラクーンはAIの厄介論を批判し、超知能の突然の出現が人類の絶滅につながるという考えに異議を唱えました。AIの発展は徐々に進むものであり、様々な形のAIが人類をより賢く、より効率的にするために役立つだろうと提案しています。議論はまた、AIシステムが人間の価値観を尊重することの重要性と、AIが人間の知能を置き換えるのではなく、強化する役割にも触れています。
公開日:2024年3月17日
※動画を再生してから読むのがオススメです。
ジャン・ラクーンは、MetaのAI部門の責任者であり、レックス・フリードマンとの3時間のインタビューを行い、そこでロボット、AGIなどについて話しました。
私はそのインタビュー全体を見て、最も興味深い部分を抜粋しました。全体のビデオをご覧いただくことをお勧めします。
そのリンクを以下の説明欄に載せておきます。
この最初のクリップでは、ジャンは、自己回帰型大規模言語モデル、つまり私たちが今日知っている大規模言語モデル(例えばOpenAIのChatGPT)は、AGIには至らないと語っています。
ジャンはオープンソースの熱心な支持者ですが、現在の技術ではAGIを達成することはできないと考えています。
一緒に見ましょう。
いくつかの理由があります。
その最初の理由は、知的行動の特性がいくつかあるということです。
例えば、世界を理解する能力、物理世界を理解する能力、物事を覚えて取り出す能力、持続的な記憶、推論する能力、計画を立てる能力などがあります。
それらは、知的システムや実体、人間、動物の4つの基本的な特性です。
大規模言語モデルはそれらのどれもできません、あるいは非常に原始的な方法でしかできません。
彼らは物理世界を本当に理解していないし、持続的な記憶も本当に持っていないし、本当に理論的に考えることもできないし、確かに計画も立てることはできません。
もし、それらのことをする可能性がないままにシステムが知的になることを期待しているなら、それは間違いです。
そして次に、現在の技術ではAGIに到達できないという前提に続いて、ジャンは、大規模言語モデルを訓練するために必要なデータ量について、人間が本質的に自分たちの心を訓練するのに必要なデータと比較して話しています。
そして、大規模言語モデルを訓練するために使用されるデータ量は、実際には人間が必要とする量と比較してそれほど多くないと彼は言っています。
ここで、合成データについて話し始めます。
私は合成データについてかなり考えを練ってきました。現実の問題は、現在のアーキテクチャがそこに到達することを可能にしても、人間が大規模言語モデルを使用してAGIに到達するために十分なデータを生み出すことはできないと思っているからです。
他の人工知能によって作成されたデータである合成データは、AGIに到達するための必要な要素の1つです。
このビデオを見てみましょう。
これらの大規模言語モデルは、基本的にインターネット上で公開されているすべてのテキストの膨大な量で訓練されています。
典型的には、10の13乗のトークンの順序です。
各トークンは通常2バイトです。
訓練データとしては、2つの10の13乗バイトが必要です。
1日8時間でこれを読むだけでも、あなたや私には17万年かかるでしょう。
それらのシステムが蓄積できる知識の量は膨大なように思えます。
しかし、実際にはそれほど多くのデータではないことに気づきます。
発達心理学者と話すと、4歳の子供が生涯で16,000時間目を覚ましていると言われ、その子供の視覚皮質に到達した情報量は約10の15乗バイトです。
光神経がおおよそ1秒あたり20メガバイトを運ぶと見積もると、これを計算することができます。
4歳の子供の場合、10の15乗バイトに対して、17万年分の読書に必要な2つの10の13乗バイト、これは、感覚入力を通じて、言語よりもはるかに多くの情報を見るということを示しています。
言語を通じてではなく、実際の世界との観察や相互作用を通じて学ぶことがほとんどであり、私たちの知識のほとんどがそうであるにもかかわらず、私たちの直感にもかかわらず。
生まれて最初の数年間に学ぶすべて、そして確かに動物が学ぶすべては、言語とは何の関係もありません。
そして、再び、大規模言語モデルを続けることは、私たちがAGIに到達するのを許さないだろう。
彼は基本的に、世界をモデル化するには言語だけでは十分ではないと言っています。
言語は非常に圧縮されているにもかかわらず、人々が物事について話したり考えたりするとき、言語だけでなく、はるかに多くを使用している方法を彼は説明しています。
私たちの頭の中には世界モデルがあり、私たちはアイデアや認識を概念化してから、それらを言語に変換する前に考えています。
考えるのは非常に興味深いです。
しかし、このため、彼は言語だけではAGIに到達しないと言っています。
言語部分を補完するための他の種類の技術が必要です。
そのビデオを見てみましょう。
知識人や認知科学者の間で大きな議論がありますが、知能は現実に基づいている必要があるかどうかということです。
私ははっきりと、はい、知能はある現実に基づいていないと現れることはできないという立場です。
それは物理的な現実である必要はなく、シミュレートされたものでもかまいませんが、環境は言葉で表現できる以上にはるかに豊かです。
言語は私たちの知覚や精神モデルの非常におおよその表現ですね。
つまり、私たちが達成する多くのタスクでは、手元の状況の精神モデルを操作することがあり、それは言語とは何の関係もありません。
そして次に、現在の形態の大規模言語モデルがAGIに到達しないという点を証明するために、ジャンは大規模言語モデルが創造的な執筆やコーディング、司法試験の合格などの点で非常に優れているが、自動運転や単にカップを取る能力などの他の点では非常に不得手である理由を説明します。
そして何故か、大規模言語モデルはある点で非常に優れており、他の点では非常に不得手である。
では見てみましょう。
弁護士試験に合格できる大規模言語モデルがいるので、彼らは賢いに違いない、しかし、17歳の誰でも20時間で運転を学ぶことができない。
彼らは、10歳の誰でも一発で夕食のテーブルを片付けて食器洗い機に詰めることを学ぶことができない。
なぜですか?
何が足りないのでしょうか?
私たちがレベル5の自動運転車や家庭用ロボットを持つことを基本的に阻止している学習や推論のアーキテクチャ、またはその他の何かは何ですか?
そして最後に、AGIに関して、そして現在の大規模言語モデルアーキテクチャで可能なことについて、彼は、現在の大規模言語モデルにとって世界モデル推論が手の届かないと話します。
彼は、人間が物事について話したり、現実世界で物事を概念化する際に、私たちは単に頭の中で話す以上のことをしていると説明し続けます。
彼はこのポイントを本当に強調しており、私はそれを魅力的だと思います。
このビデオを見てみましょう。
今日私たちが取り組んでいる大規模言語モデルの種類では、これを行うことはできません。
これにはいくつかの理由があります。
しかし、主な理由は、大規模言語モデルのトレーニング方法が、テキストの一部を取り、そのテキストの一部の単語を取り除き、それらをマスクし、空白マーカーで置き換え、欠落している単語を予測するために遺伝的ニューラルネットをトレーニングするという方法であることです。
あなたがこのニューラルネットワークを特定の方法で構築して、予測しようとしている単語の左側の単語だけを見るようにすれば、それは基本的にテキスト内の次の単語を予測するように訓練されたシステムになりますね。
その後、テキストやプロンプトを入力し、次の単語を予測するように求めることができます。
それは決して次の単語を正確に予測することはできません。
それが行うことは、辞書内のすべての可能な単語の確率分布を生成することです。
実際、単語を予測するのではなく、サブワードユニットのようなトークンを予測します。
辞書に含まれる単語の数が有限であることから、その予測における不確実性の取り扱いは容易であり、それらの単語の分布を計算することができます。
その後、システムがその分布から単語を選択します。
もちろん、その分布内で確率が高い単語を選ぶ可能性が高いです。その分布からサンプリングして実際に単語を生成します。
そして、その単語を入力にシフトします。
それにより、システムは2番目の単語を予測しないようになります。
そして、これを行うと、入力に移行します。
それは自己回帰予測と呼ばれ、だからこそ、それらの大規模言語モデルは自己回帰大規模言語モデルと呼ばれるべきです。
この種のプロセスと、話すとき、あなたと私が話すとき、あなたと私がバイリンガルであるとき、単語を生成する前に、私たちが何を言うか考えるプロセスとの違いがあります。そして、私たちが言う言語とは比較的独立しています。
数学的な概念などについて話すとき、私たちが行っている思考や生産しようとしている答えは、それがフランス語やロシア語、英語で見るかどうかには関係ありません。
そして次に、言語を世界モデルとして考える議論を続けます。
ジャンは、言語だけでは世界モデルになり得ないと考える派に属しています。
そして私は、あなたがどう思うか知りたいです。
賛成ですか、反対ですか?
トランスフォーマーを使用し、大規模言語モデルで見られる現在のアーキテクチャを使用するSoraのようなものを見ると、それは世界をシミュレートするのに非常に優れています。
しかし完璧ではありません。
もし将来そこに到達することがあるとすれば、それはまだ疑問です。
そして、彼は大規模言語モデルだけでは世界モデルに到達するには不十分だという点を強調し続けています。
しかし、これは実際に私にいくつかのことを思い出させます。
映画『Arrival』があります。
もし見ていない場合は、それは素晴らしいSF映画です。
しかし、要点は異星人が宇宙から降りてきて異なる言語を話し、専門の言語学者がその言語が何かを解明しようとするというものです。
そして時間をかけて、彼らはそれを理解していきます。
そして言語そのものが、異星人が人類に与えるべき偉大な贈り物としてそこにいるのです。
そして突然、この専門の言語学者が新しい言語を理解するようになると、彼女はこの力をすべて手に入れ始めます。
その言語が実際に知覚を形作ると考えるのは非常に興味深いです。
それは私が信じていることです。
もし何かの言葉がない場合、おそらくそれを説明することもできず、実際の姿を認識することさえできないかもしれません。
言語は非常に重要だと思っていますが、おそらく、言語だけでは世界モデルを持つには十分ではないと考えているジャンに譲るでしょう。
あなたは、フランス語での考え方が英語と同じだと言っていますね。
それはどんな種類の考え方かによりますよね。
ダジャレを考える場合、私はフランス語の方が英語よりもずっと上手になります。
いいえ、しかしダジャレの抽象的な表現はありますか?
あなたのユーモアは抽象的な表現ですか?
例えば、ツイートをするとき、時々少し辛口なツイートをすると、そのツイートが英語にマッピングされる前に、脳内にそのツイートの抽象的な表現がありますか?
そのテキストへの読者の反応を想像する抽象的な表現があります。
あなたは笑いから始めます
それから、それをどうやって実現するか考えますか?
ある反応を引き起こしたいと考え、それがその反応を引き起こすように言葉を選ぶ方法を考えます。
でも、それは言語に非常に近いです。
数学的な概念を考えたり、木で何かを作りたいと想像したりすることを考えてみてください。
あなたがしている考え方は、実際には言語とは全く関係ありません。
特定の言語で内部モノローグを持っているわけではありません。
あなたは物事の心理的なモデルを想像しているのですよね?
もし私がこの水筒を90度回転させたらどのように見えるかを想像するように頼んだとしても、それは言語とは何の関係もありません。
明らかに、私たちが考えをほとんど行い、言うことを計画する抽象的なレベルが存在しています。
もし出力が筋肉の動作ではなく言葉である場合、私たちは答えを考えてからそれを出力する計画を立てます。
大規模言語モデルはそうではありません。
彼らは単に本能的に、一つの単語を次々に生み出すだけです。
そして、この次のクリップでは、ヤンが予測だけに基づいた世界モデルを持つことができるかどうかについて話しています。
そして、大規模言語モデルが動作する方法は、基本的に文の次のトークン、文の次の単語を予測するだけです。
そして、実際に彼は、はい、予測だけに基づいて、その技術の一部によって、AGIを達成することができると言っています。
私たちは世界モデルを達成することができるでしょう。
しかし、言語予測だけに基づいて、彼はそうは思わないと言っています。
そして、これはシミュレーション理論に入り始めます。
すべての単一の原子を理解する必要がありますか?
全ての原子がどのように動くかを予測する必要がありますか、本当に世界モデルを作成するために?
実際には、おそらくそうではないことがわかります。
これは実際には、私に返信したTwitterユーザーが考えたことで、私自身はあまり考えたことがありませんでした。
シミュレーション理論では、常に全ての原子を予測する必要があると思っていましたが、それは必ずしも真実ではありません。
あなたは、この現実を見ている人がそれがリアルに見えると納得するだけの予測をしなければなりません。
ちょうど十分なだけで、すべてではありません。
この動画を見てみましょう。
まず、これを予測して構築できますか?
その答えはおそらくはいです。
言葉を予測してこれを構築することはできますか?
おそらく答えは「いいえ」でしょう、なぜなら言語は弱いまたは低い帯域幅に関して非常に貧弱です。
そこには情報が不足しているだけです。
世界モデルを構築するということは、世界を観察し、なぜ世界が進化しているのかを理解することを意味します。
そして、世界モデルの追加要素は、あなたが取るかもしれない行動の結果として世界がどのように進化するかを予測できるものです。
本当のモデルとは、ここに時間tでの世界の状態の私の考えがあり、ここに私が取るかもしれない行動があり、時間tプラス1での世界の予測される状態があります。
その世界の状態は、世界についてすべてを表現する必要はありません。
それは、行動の計画にとって関連性のあるだけの情報を表現する必要がありますが、すべての詳細を必ずしも表現する必要はありません。
ここに問題があります。
生成モデルではこれを行うことはできません。
生成モデルはビデオで訓練されており、私たちはこれを10年間試みてきました。
お客様はビデオを撮影し、そのビデオの一部をシステムに見せます。
そして、その後、ビデオの残りを予測するように求めます。
基本的には、1フレームずつまたは複数のフレームずつ、何が起こるかを予測します。
でも、大規模なビデオモデルが必要です。
このアイデアは長い間浮上していましたが、FAIRでは、同僚と一緒に約10年間取り組んできました。
そして、大規模言語モデルと同じトリックはできません。大規模言語モデルでは、私が言ったように、単語のシーケンスの後にどの単語が続くかを正確に予測することはできませんが、単語の分布を予測することはできます。
ビデオに移ると、ビデオ内のすべての可能なフレームの分布を予測する必要がありますが、それを適切に行う方法は実際にはわかりません。
高次元連続空間上の分布を有用な方法で表現する方法を私たちは知りません。
そして、それが主な問題であり、これを行う理由は、世界がテキストよりも情報としてはるかに複雑で豊かであるためです。
テキストは離散的であり、ビデオは高次元で連続的であり、多くの詳細があります。
では、次のクリップでは、ビデオ予測、基本的にはフレームごとの予測、またはビデオ全体の予測が非常に難しい理由を説明しています。
そして、このインタビューはSoraの後に出たものです。
これを聞いている間に、Soraが何を達成したか考え、ここでヤンが言っていることと比較してみてください。
この部屋のビデオを撮影し、カメラが周りをパンしているビデオを撮影した場合、私が周りをパンするときに部屋にあるすべてのものを予測する方法はありません。
システムは、カメラがパンしているときに部屋に何があるかを予測することはできません。
おそらく、これは、光がある部屋であり、壁があり、そのようなものがある部屋であると予測するかもしれませんが、世界の絵がどのように見えるかや、ソファの質感がどのように見えるか、カーペットの質感はまったく予測できません。
私はすべての詳細を予測する方法はありません。
これを処理するための可能性のある方法の1つは、長い間取り組んできた方法で、潜在変数と呼ばれるモデルを持ち、その潜在変数がニューラルネットワークに供給されます。
そして、それは、まだ知覚していない世界に関するすべての情報を表現し、予測がピクセルを正確に予測するためにシステムを補完するために必要な情報を含む、カーペットやソファの微細な質感、壁の絵などを予測するのに良い仕事をする必要があります。
それは完全な失敗でした。
私たちはたくさんのことを試してきました。
私たちはただのニューラルネットワーク、GAN、VAEなど、さまざまな正則化されたオートエンコーダーを試しました。
私たちはたくさんのことを試しました。
そして、この次のクリップでは、なぜビデオ予測が現在のアーキテクチャや技術ではうまくいかないのかについて詳細に説明しています。
そしてもちろん、最近ジャンはJEPAをリリースしました。これは、彼が信じるところによると、大規模言語モデルとトランスフォーマーを拡張し、実際にビデオを持つワールドモデルを可能にすると考えています。
それについて彼が何と言うか見てみましょう。
これがうまくいかない理由は、まず第一に、何がうまくいかないのかを正確にお伝えしなければならないのです。なぜなら、うまくいく別の方法があるからです。
うまくいかないのは、システムを訓練して、画像の表現を学習させること、つまり、それを修正されたバージョンから元の画像を再構築するように訓練することです。
それがうまくいかないことです。
そして、これに対する様々な変種のノイズ除去オートエンコーダーのテクニックがあります。
私の同僚のいくつかが開発したMAEというもの、マスク付きオートエンコーダーというものがあります。
基本的には大規模言語モデルやこれに類するもののようで、テキストを破損させることでシステムを訓練するのですが、画像を破損させるのです。
それからパッチを取り除き、巨大なニューラルネットを訓練して再構築します。
得られる特徴は良くありません。
そして、それらが良くないことはわかります。なぜなら、同じアーキテクチャを訓練するが、ラベルデータや画像のテキスト説明で教師付きで訓練すると、良い表現が得られるからです。
認識タスクのパフォーマンスは、この自己教師付き再訓練を行うよりもはるかに優れています。
エンコーダーのアーキテクチャは良いですが、画像を再構築するようにシステムを訓練することは、画像の良い一般的な特徴を学習させることにはつながりません。
自己教師付きで訓練するとき。
再構築による自己教師付き。
JEPAについて彼が何を言っているのか見てみましょう。
再び、JEPAはヤンのリーダーシップのもとでメタによってリリースされました。
それは非常に興味深いプロジェクトです。
それは大規模言語モデルを拡張し、ビデオを予測する能力を与えます。
私はまだそれを理解しようとしています。
私は彼に説明させるつもりです。
代替案は共同埋め込みです。
画像をエンコードするシステムを訓練する代わりに
そして、それを訓練して、壊れたバージョンから完全な画像を再構築する代わりに、完全な画像を取り、壊れたまたは変換されたバージョンを取り、それらを両方エンコーダーを通して実行します。一般的には同一ですが、必ずしも同じではありません。
そして、それらのエンコーダーの上に予測器を訓練して、壊れたものの表現から完全な入力の表現を予測します。したがって、共同埋め込みは、完全な入力と壊れたバージョンを取るため、それらを両方エンコーダーを通して実行すると、共同埋め込みが得られます。
そして、あなたは言っています、私は壊れたものの表現から完全なものの表現を予測できますか?
これをJEPAと呼んでいます。
それは共同埋め込み予測アーキテクチャの意味です。なぜなら、共同埋め込みがあり、善人の表現を悪人から予測する予測器があるからです。
そして大きな問題は、このようなものをどのように訓練するかですか?
そして5年前か6年前までは、特に良い答えがありませんでした。
彼は、大規模言語モデルとの違いと、それらが一緒に動作することがAGIやワールドモデルに到達する解決策である可能性について話します。
まず、大規模言語モデルのような生成アーキテクチャとの違いは何ですか?
大規模言語モデルや再構築によって訓練されたビジョンシステムは、入力を生成しますね?
彼らは、非破損、非変換の元の入力を生成します。
すべてのピクセルを予測する必要があり、すべての詳細を実際に予測するためにシステムに多くのリソースが費やされます。
抽象的な表現を予測しようとしているだけで、すべてのピクセルを予測しようとしているわけではありません。
そして、それは多くの点ではるかに簡単です。
JEPAシステムがトレーニングされているときにやろうとしていることは、入力から可能な限り多くの情報を抽出することですが、比較的簡単に予測できる情報のみを抽出することです。
例えば、自動運転車が道路を走行している場合、道路の周りに木があるかもしれず、風の強い日かもしれません。そのため、木の葉が半ばカオス的なランダムな方法で動いていることを予測できず、気にする必要もありません。
あなたが望むのは、エンコーダーが基本的にすべての詳細を排除することです。
動く葉があることを教えてくれますが、実際に何が起こっているかの詳細を保持しません。
表現空間で予測を行うと、すべての葉のすべてのピクセルを予測する必要はありません。
これは非常に単純であり、システムが基本的に世界の抽象的な表現を学習し、モデル化および予測できるものを保持し、残りをノイズとして見なしてエンコーダーによって排除することを可能にします。
それは表現の抽象化のレベルを上げるようです。
これを考えると、私たちは絶対にいつもそうしていることです。
現象を説明する際は、特定の抽象化レベルで説明し、すべての自然現象を量子場理論で説明するわけではない、それは不可能です。
世界で起こることを説明するために、量子場理論から原子理論、分子や化学、そして現実世界の具体的な物体など、複数の抽象化レベルがあります。
すべてを最低レベルでモデル化することはできません。
それがJEPAのアイデアの本質であり、自己監督学習で抽象表現を学び、階層的に行うことができます。
それが知的システムの重要な要素であり、言語ではこれをしなくても済みますが、言語はすでにある程度抽象化されており、予測できない情報をすでに排除しています。
共通の埋め込みを行わずに、抽象化レベルを上げずに、単語を直接予測することで、私たちは逃れることができます。
次のクリップでは、ヤンが階層的計画について話しており、基本的な行動のために行う計画がたくさんあるということです。階層的計画を説明するために、例を挙げましょう。
例えば、私は店に車で行きたいとします。
まず、起き上がって車まで歩かなければなりません。
それをどうやってすればいいのですか?
まず、実際に立ち上がらなければなりません。
それをどうやってすればいいのですか?
脳が私の足に特定の筋肉を使って立ち上がるように指示する必要があります。
それから、どうやってすればいいのですか?
これは再帰的アルゴリズムが必要であり、ただ車に向かって歩くという基本的な行為から始まるすべてのステップは、実際には何千ものステップ、実際には無限のステップです。
それをどうモデル化するのですか?
現在のアーキテクチャでそれを実際にどうモデル化するのですか?
それについて彼が話し始めるのはここからです。
見ましょう。
複雑な行動を計画する場合、階層的な計画が絶対に必要です。
例えば、ニューヨークからパリに行きたいとします。私はいつもこの例を使って、NYUのオフィスに座っています。
最小化する必要がある目標は、パリまでの距離です。
私の位置の非常に抽象的な表現で、これを2つのサブゴールに分解する必要があります。
最初は空港に行くことです。
2つ目はパリ行きの飛行機に乗ることです。
では、今私のサブゴールは空港に行くことです。
私の目的関数は空港までの距離です。
どうやって空港に行けばいいのでしょうか?
タクシーを拾うためには、通りに出て手を挙げなければなりません。ニューヨークではそれができます。
さて、別のサブゴールがあります。
通りに降りるにはどうすればいいですか?
それはエレベーターに乗ることを意味します。エレベーターで下り、通りに出ることです。
エレベーターに行くにはどうすればいいですか?
椅子から立ち上がり、オフィスのドアを開けて、エレベーターに行き、ボタンを押す必要があります。
椅子から立ち上がるにはどうすればいいですか?
基本的には、ミリ秒単位の筋肉制御にほぼ等しいものまで行くことを想像できます。
明らかに、ニューヨークからパリまでの旅行をミリ秒単位の筋肉の制御に基づいて計画することはありません。
まず第一に、それは非常に高価になるでしょうが、何が起こるか、タクシーを捕まえるのにどれくらい時間がかかるかなど、すべての状況を把握していないため、完全に不可能です。
あなたはこの計画を立てるためにはすべての状況を正確に把握していなければならず、情報が不足しています。
行動を開始できるように、階層的な計画を立てる必要があります。
そして、進行しながら再計画を行う必要があります。
AIにおいてこれをどうやればいいのか、誰も本当のところわかっていません。
階層的な計画が機能するように、システムに適切な複数の表現レベルを学習させる方法を誰も知りません。
レックスは、大規模言語モデルのスケーリングについてジャンに質問するつもりです。なぜなら、大規模言語モデルのスケーリング能力は本当に驚くべきものだからです。
GPT1、2、3から4に進み、もうすぐ5になり、パラメータの増加、GPU処理能力の向上により、これらの大規模言語モデルから信じられないほどの能力が引き出されています。
あなたはSoraとSoraの承認を受けています。
計算を増やすと、はるかに良い結果を得ることができます。
レックスは、もし私たちがスケールを拡大し続ければ、現在の技術で超知能に到達できるのではないかとジャンに本気で問い詰めようとしていますか?
そして、アラン・チューリングが現在のAIについてどう思うかも尋ねました。
もしアラン・チューリングについてよく知らないなら、彼は他にもたくさんのことを生み出した人であり、チューリング・テストを作り出した人物です。そして、チューリング・テストとは、単純に人工知能が本当に知的であるかどうかを見るためのテストです。
それが本当に必要なのは、人間を説得して自分が人間であると思わせることだけです。
そして、現在の技術では、それは非常に可能です。特に、テキストだけで行う場合は。
しかし、声でも可能です。
ジャンはそれについて本当に面白いことを言いました。
そのジョークを台無しにするつもりはありません。
見てみてください。
彼らが世界の十分な表現を形成できるだけの能力を持っており、実質的にオリジナルのチューリング・テストを見事に突破しているということが理解できますか?
そうですね、私たちは彼らの流暢さに騙されているんですよね?
私たちは、もしシステムが言語を操作するのに堪能であれば、それが人間の知能のすべての特性を持っていると仮定しています。
しかし、その印象は誤りです。
私たちは本当にそれに騙されています。
あなたはアラン・チューリングが何と言うと思いますか?
何も理解せずにただそれと一緒にいるだけですか?
アラン・チューリングはチューリング・テストが本当に悪いテストであると判断するでしょう。
これはAIコミュニティが多くの年前に決定したことで、チューリング・テストは知能の本当に悪いテストだったということです。
次にジャンは幻覚について議論します。
なぜそれが起こるのでしょうか?
なぜそれらは現在の大規模言語モデルにとって大きな制限となるのでしょうか?
そして、それは非常に大きな制限です。
それが企業の環境で広く採用されることの最大の制限の1つである可能性があります。
幻覚を防ぐための多くの技術がありますが、なぜ実際にそれらが発生するのかを見つけましょう。
自己回帰予測のため、アルゴリズムがトークンや単語を生成するたびに、その単語が妥当な回答のセットから外れる可能性があるレベルがあります。
そして、そのようなエラーの確率が、生成されるトークンのシーケンス全体で独立しているという非常に強い仮定をするとします。
それが意味するのは、トークンを生成するたびに、正しい回答のセット内にとどまる確率が減少し、指数関数的に減少するということです。
間違いをする確率がゼロでない場合、そしてそうした確率があるようであれば、ある種のドリフトが生じることになります。
そしてそのドリフトは指数関数的です。
エラーが蓄積されるようなものです。
確率論的には、トークンの数が増えると、答えがナンセンスになる可能性が指数関数的に増加します。
この次のクリップは非常に興味深いです。
Yannは、なぜ強化学習が好きではないのか、あるいは少なくとも強化学習が非常に優れているが、非常に狭い用途にしか適していないと考えているかについて話しています。
見ましょう。
なぜまだ強化学習を嫌っているのですか?
私は強化学習を嫌っているわけではなく、完全に放棄すべきではないと思いますが、サンプルの観点から非常に効率が悪いと考えていますので、その使用を最小限に抑えるべきだと思います。
システムを適切に訓練する方法は、まず、それに世界の良い表現と世界モデルを主に観察から学ばせることであり、少しの相互作用を含めるかもしれません。
2つのことがあります。
もし世界モデルを学習したなら、その世界モデルを使用して特定の目的地に到達するための一連のアクションを計画することができます。
成功をどのように測定するかが不正確である場合を除いては、目的を達成する方法に強化学習は必要ありません。
あなたが自転車から転ぶかもしれないと思っていたか、あるいはMMAで戦っている相手が何かをするかもしれないかどうかは、あなたの考え方が間違っているかもしれません。
そして、他のことをする。
間違っている方法は2つあります。
あなたの目的関数が、実際に最適化したい目的関数を反映していないか、あるいはあなたの世界モデルが不正確であるかのどちらかです。
あなたが世界で起こることについて予測していたことは不正確です。
世界で操作している間に世界モデルを調整したい場合、あるいは目的関数を調整したい場合、それは基本的にRLの範囲内です。
これは、ある程度RLが扱う内容ですね。
あなたの世界モデルを調整してください。
そして、あなたの世界モデルが不正確であることがわかっている空間の一部を探索することで、あなたの世界モデルを調整する方法は、事前にも可能です。
それは基本的に好奇心または遊びと呼ばれます。
あなたがプレイするとき、実際には危険かもしれない状態空間の一部を探索することがありますが、自分を殺さずに世界モデルを調整することができます。
それがRLを使用したい理由です。
特定のタスクを学ぶ時には、既に良い表現がすべて揃っています。
既に世界モデルを持っていますが、その状況に合わせて調整する必要があります。
その時にRLを使用します。
私が本当に興奮している部分について。
ジャンはなぜオープンソースが重要なのかについて話します。
彼はGemini 1.5の目覚めを参照しています。
大規模言語モデルの偏見を参照し、なぜオープンソースモデルがそのすべての答えであるかを説明しています。
彼が言うことの大部分に同意する傾向があります。
見てみましょう。
最近リリースされたGoogleのGemini 1.5について、多くの人々が非常に批判的であり、私の言葉で言えば、その言葉の否定的な意味でスーパーウォーク、ウォークと言えるでしょう。
それはほとんど滑稽にも、歴史を改変し、黒人のジョージ・ワシントンの画像を生成したり、もっと深刻なことに、あなたがTwitterでコメントしたように、天安門広場や戦車男の画像や説明をコメントしない、生成しないということがあります。これは、歴史上最も伝説的な抗議の画像の1つです。
そしてもちろん、これらの画像は中国政府によって厳しく検閲されています。
そのため、誰もがこれらの大規模言語モデルの設計プロセスについて質問し始めました。
これらにおける検閲の役割は何ですか?
あなたはTwitterで、オープンソースが答えだとコメントしました。
説明してもらえますか?
実際、私はほぼすべてのソーシャルネットワークでそのコメントをし、さまざまなフォーラムで何度もそのポイントを述べてきました。
これについて私の見解を述べます。
人々は、AIシステムが偏っていると不満を言うことができます。一般的に、彼らは社会の偏見を反映したトレーニングデータの分布によって偏っており、それは一部の人々にとって潜在的に攻撃的である可能性があります。
そして、一部の人々にとって、偏りを取り除くためのいくつかの技術は、歴史的な不正確さなどの理由で攻撃的になることがあります。
質問をすることができます。2つの質問をすることができます。
最初の質問は、偏りのないAIシステムを作成することは可能かということです。
答えは絶対に不可能です。
それは技術的な課題のためではなく、技術的な課題はあるにしてもです。
それは、偏見は見る人の目によって異なり、多くのことにおいて何が偏見であるかについて異なる考えがあるからです。
つまり、議論の余地のない事実がある一方で、異なる方法で表現されることができる意見や事柄がたくさんあります。
偏見のないシステムを持つことは不可能です。
これの答えは何ですか?
そして答えは、リベラルな民主主義において報道について見つけた答えと同じです。
報道は自由で多様である必要があります。
私たちには言論の自由があるのは重要な理由があるからです。
それは、私たちの情報がすべて単一の情報源から来ることを望まないからです。なぜなら、それは民主主義やアイデアの進歩、さらには科学の全体的な考え方に反するからです。
科学では、人々は異なる意見を主張しなければならず、人々が異論を唱え、答えを見つけ、合意形成がされると科学は進歩します。
そしてそれは世界中のすべての民主主義に当てはまります。
すでにAIシステムによって仲介されるデジタル世界とのすべてのやり取りが起こる未来がすでに始まっています。
スマートグラスが登場します。
すでにMetaから購入することができますが、Ray-Ban Metaと呼ばれ、それらと会話ができ、大規模言語モデルと接続されており、どんな質問にも答えを得ることができます。
あるいは、記念碑を見ている時に、そのメガネのシステムにあるカメラに、この建物やこの記念碑について何か教えてくれるかと尋ねることができます。
外国語のメニューを見ていると、それを翻訳してくれたり、異なる言語を話す場合にリアルタイムで翻訳してくれます。
私たちとデジタル世界との多くのやり取りは、近い将来、それらのシステムによって仲介されることになるでしょう。
今後利用する検索エンジンは、ますます検索エンジンではなくなるでしょう。
質問をするだけで答えてくれる対話システムになるでしょう。
そして、おそらくそれに適した参照先を指し示します。
しかし、ここが重要な点です。
これらのシステムが米国西海岸の数社から提供されることは許されません。なぜなら、これらのシステムはすべての人類の知識の保管庫を構成し、それを少数の人々によって制御されることはできないからです。
それは多様でなければなりません。
同じ理由で、報道も多様でなければなりません。
どのようにして多様なAIアシスタントを手に入れるのか?
現時点では、ベースモデル、ベース大規模言語モデルを訓練するのは非常に高価で難しいです。
将来は違うかもしれませんが、現時点ではそれが大規模言語モデルです。
これを適切に行える企業はほんの一握りです。
もしそれらのトップシステムのいくつかがオープンソースであれば、誰でもそれを利用できます。
私たちはそれらを微調整することができます。
個々の市民、市民グループ、政府機関、NGO、企業など、どんなグループでも、それらのオープンソースシステム、AIシステムを取り上げ、自分たちの目的に合わせて自分たちのデータで微調整することができるシステムを導入すれば、さまざまな専門用途に特化した異なるAIシステムが非常に多く存在することになります。
そうですね。
実際、フランス政府とかなり話し合いましたが、フランス政府は、全ての市民のデジタルデータが米国西海岸の3社によって制御されることを受け入れません。それは許容できません。
それは、それらの企業がどれだけ善意を持っていても、民主主義にとって危険です。
および、地元の文化、価値観、言語にも危険です。
私はインドのInfosysの創設者と話していました。
彼は、Metaが生産したオープンソースモデルであるLama2を調整するプロジェクトを資金提供しており、Lama2がインドの22の公用語をすべて話すようにしています。
つまり、オープンソースプラットフォームがなければ、これらのどれも持つことはできません。
オープンソースプラットフォームを使用すると、政治的意見やそのようなものに関してだけでなく、言語、文化、価値観、政治的意見、技術的能力など、多様性に富んだAIシステムを持つことができます。
そして、業界や企業のエコシステムが、これらのオープンソースシステムを業界向けの垂直アプリケーションに調整することができますね。
出版社が何千冊もの本を持っていて、顧客が自分たちの本の内容について質問するだけできるシステムを構築したいとします。
彼らの独自のデータでトレーニングする必要があります。
Meta内にも、Metamateと呼ばれる会社があります。
あなたは記念碑を見ているかもしれませんが、システムにカメラがあり、メガネの中には、この建物や記念碑について何が言えるか尋ねることができます。
非常に便利です。
多くの企業がこれを望んでいますね?
多くの企業は、従業員だけでなく、顧客のためにもこれを望んでいます。顧客を世話するために。
唯一の方法は、AI業界を持つ唯一の方法は、独自にバイアスのかかっていないAIシステムを持つ唯一の方法は、どのグループも仮想化システムを構築できるオープンソースプラットフォームの上に構築されることです。
歴史の必然的な方向性は、AIシステムの大部分がオープンソースプラットフォームの上に構築されるということです。
そしてオープンソースの話題について、レックスは彼に尋ねました。「オープンソースなら、実際にどのようにしてオープンソースに基づいたビジネスを運営するのですか?」
オープンソースの経済とは何ですか?
これは何年もの間証明されてきました。
私たちの多くの非常に成功したオープンソースプロジェクトがたくさんのお金を稼いでいます。
今日インターネットで使用している多くの標準、データベースやコードアーキテクチャで使用している多くの標準の多くはオープンソースです。
オープンソースには多くの利点があり、多くの企業がオープンソースで多くのお金を稼いでいます。
たとえば、GoogleのAndroidを見てください、ただ頭の中で思いついた例として。
ジャンがMetaのオープンソース貢献の経済について何と言うか見てみましょう。
いくつかのビジネスモデルがありますね。
Metaが構築されているビジネスモデルは最初のサービスです。
そのサービスの資金調達は広告またはビジネス顧客を通じて行われます。
たとえば、マム&ポップのピザ屋さんが顧客とWhatsAppを通じて話すことで役立つ大規模言語モデルを持っている場合。
顧客はピザを注文し、システムは単に彼らに尋ねるだけです、どんなトッピングが欲しいか、どんなサイズがいいか、などなど。
そのビジネスはそのために支払います。
もしもそれがもっと古典的なサービスのシステムである場合、広告支援されるか、いくつかのモデルになる可能性があります。
しかし、ポイントは、十分な潜在顧客基盤がある場合、それらのためにシステムを構築する必要があり、実際にオープンソースで配布しても問題ありません。
そして、レックスはオープンソースの経済について彼らを追及し続けます。
なぜ他の企業が単にそのオープンソースプロジェクトを取り、競争を構築しないのですか?
おそらくそれは起こるでしょうし、それはおそらく良いことです。
しかし、最終的には、メタはやはりメタです。
彼らには何十億ものユーザーがいて、その製品やサービスを販売できる顧客基盤全体があります。
彼が何と言うか見てみましょう。
賭けは、すでに巨大なユーザーベースと顧客基盤を持っているということですね?
それは彼らにとって役立つでしょう。
提供するものはどれも役立つものであり、これから収益を得る方法がある。
私たちがそのシステムや基本モデル、つまりオープンソースで他の人がアプリケーションを構築するための基礎モデルを提供していることは悪いことではないですよね。
もしそれらのアプリケーションが私たちの顧客にとって役立つものであれば、ただそれを彼らから買うことができます。
彼らがプラットフォームを改善する可能性もあります。
実際、私たちは既にそれを見ています。
つまり、LLaMA 2のダウンロードは文字通り何百万回あり、それをより良くするアイデアを提供してくれた何千人もの人がいます。
これは明らかに、システムを広範な人々に利用可能にするための進展を加速させ、それを使ってアプリケーションを構築している何千もの企業がいます。
Metaはこの技術から収益を得る能力が、オープンソースで基本モデルを配布することによって損なわれることはありません。
私たちは全体的な偏見の問題について続けます。
テック企業の多くの従業員は左傾向に傾きがちで、それはレックスが指摘している点であり、私も同意する傾向があります。ですから、それらの偏見は大規模言語モデルに組み込まれることになるのではないでしょうか?
そして、再び、ジャンはオープンソースが答えであると指摘しています。
私は、それらのシステムを設計する人々の政治的傾向に問題があるとは思いません。
それは、彼らの顧客層や観客の受け入れ可能性や政治的傾向に関係があるのです。
大企業はあまり多くの人々を怒らせる余裕はありません。
彼らは、どんな製品を出すにせよ、それが安全であることを確認するでしょう、それが何を意味するにせよ。
それをやりすぎる可能性は非常に高いです。
そして、それを適切に行うことは不可能である可能性も非常に高いです。
あなたは誰も満足させることはできません。
それが私が以前言ったことです。
誰からも偏見のないと認識されるシステムを持つことはできません。
一方向に押すと、ある一部の人々はそれを偏ったものと見るでしょう。
そして逆方向に押すと、別の一部の人々はそれを偏ったものと見るでしょう。
そして、さらに、もしシステムを押し進めると、一方向に過度に行き過ぎる可能性があり、事実とは異なることになるでしょうね。
画像には黒人のナチ兵士が含まれることになります。
そうですね、事実と異なる黒人のナチ兵士の画像生成を言及すべきです。
そうですね。
また、一部の人々にとっては攻撃的なものになる可能性もありますね。
全ての人にとって偏りのないシステムを作ることは不可能でしょう。
私が見る唯一の解決策は多様性です。
その言葉の真の意味での多様性、ありとあらゆる面での多様性です。
そしてオープンソースの分野で続けて、今度は言論の自由、AIへのガードレール、検閲、偏見などについて話す予定です。
この会話が大好きです。
そして、ジャンがオープンソースをこのように捉えるのを聞くと、私にはとても理にかなっています。
見ましょう。
同じように、言論の自由には限界があるように、それらのシステムが生産を許可される種類のものには何らかの制限が必要です。
私が興味を持っているのは、以前のようなアーキテクチャのタイプで、システムの出力が目的を満たす推論の結果であるという点です。
その目的にはガードレールを含めることができ、オープンソースシステムにもガードレールを設置することができます。
つまり、最終的にこの設計図で構築されたシステムがあれば、そのシステムには危険や有害性を排除する最低限のガードレールが保証されるようなガードレールを設置することができます。誰もが同意する基本的なことなどです。
そして、人々が追加する微調整や追加のガードレールは、彼らのコミュニティに合わせるようになるでしょう。
次に、もしLLaMA threeがいつリリースされるか、そして内容がどうなるか少しプレビューしたい場合は、この動画がおすすめです。
一緒に見ましょう。
LLaMAのさまざまなバージョンがあり、以前のLLaMAを改良したものや、より大きく、より良く、マルチモーダルなものなどがあります。
そして将来の世代では、世界がどのように機能するかを本当に理解して計画できるシステムがあります。
おそらくビデオから訓練されています。
彼らはいくつかの世界モデルを持っていて、おそらく私が以前に話した推論や計画のタイプが可能です。
それにはどれくらい時間がかかるのでしょうか?
その方向に進んでいる研究がLLaMAの製品ラインにどのように反映されるのか、いつになるのでしょうか?
分かりません。
お伝えできません。
そこに到達する前に、基本的に通過しなければならないいくつかの突破口があります。
私たちの研究は公開されているので、進捗状況を監視することができますね?
先週、ビデオからシステムをトレーニングするための第一歩となるVJEPAの作業を公開しました。
そして次のステップは、この種のアイデアに基づくワールドモデルで、ビデオからトレーニングすることになります。
DeepMindでも同様の作業が行われており、ビデオからのワールドモデルに関する研究がUCバークレーでも行われています。
多くの人々がこの取り組みに取り組んでいます。
多くの良いアイデアが出てきていると思います。
私の予想では、これらのシステムはJEPAのようなものになると思います。生成モデルではなくなります。
そして将来がどうなるか見守りたいと思います。
DeepMindにいるダニエル・ハフナー氏という方が、この種のモデルに取り組んでおり、非常に優れた研究が行われています。
そして、それらを強化学習によって計画や学習の課題に使用します。
数つ前に戻って、彼らは人間の心がこのすべてのデータを処理し、それから得られるものを処理する力と効率について話す予定です。
そして、実際には比較になりません。
大規模言語モデルは、訓練および使用するために膨大なデータ、膨大な処理能力、膨大なエネルギーを必要としますが、それに対して人間の脳は信じられないほど効率的です。
私たちは、計算能力の面で、人間の脳の計算能力に匹敵するために必要なものからはまだ遠く離れています。
これは、おそらく次の数十年の間に起こるかもしれませんが、まだまだ道のりは遠いです。
そして、電力効率の面でも、本当に遠いです。
ハードウェアで進展する余地がたくさんあります。
現在、進歩の多くはシリコン技術から来ていますが、それに加えて、アーキテクチャの革新からもかなりの進歩があり、基本的にはトランスフォーマーとコンポーネントの組み合わせによるより効率的なアーキテクチャの実装方法からも多くの進歩があります。
まだまだ進むべき道があり、新しい原則、新しい製造技術、古典的なデジタルCMOSとは異なる原則に基づく基本的なコンポーネントを考え出さなければならない時が来るでしょう。
次に、彼らはAGIについて話し始める予定です。
それはいつ来るのでしょうか?
ジャンは何度も同じことを言ってきました。
多くの人々は、AGIがある日突然スイッチが入るだけで、AGIがこのいわゆるハードテイクオフを持つだろうと考えています。
しかし、彼はそうではないと考えています。
彼はそれが段階的に進むと考えています。
彼が言うことを見てみましょう。
まず第一に、それはイベントになるわけではありませんね。
科学小説やハリウッドで人気のある考え方は、何かが秘密を発見し、AGIや人間レベルのAIやAMIの秘密を発見し、機械を起動させると、AGIが完成するというものです。
それは起こらないでしょう。
イベントにはなりません。
徐々に進展していくことになります。
ビデオから世界がどのように機能するかを学び、適切な表現を学ぶことができるシステムを持つことになりますか?
ええ、人間が観察するスケールやパフォーマンスにそれらを達成する前に、かなりの時間がかかるでしょう。
大量の連想記憶を持つことができ、物事を覚えることができるシステムを手に入れることになりますか?
ええ、でも同じです。
明日には起こらないでしょう。
いくつかの基本的な技術が開発される必要があります。
私たちは多くの技術を持っていますが、これを完全なシステムと一緒に機能させるには別の話です。
目的志向のAIアーキテクチャの枠組みに沿って理論的に計画することができるシステムを持つことになりますか?
そうですが、これを正しく機能させるには、しばらく時間がかかります。
そして、それらすべてをうまく連携させる前に
そして、さらに、階層的な計画、階層的な表現のように学習できるシステムがあります。
手元のさまざまな状況に合わせて構成できるシステムは、人間の脳のように。
これには少なくとも10年はかかるでしょうし、おそらくそれ以上かかるでしょう、なぜなら今見えていない問題がたくさんあるからです。
私たちはまだ遭遇しておらず、この枠組みの中で簡単な解決策があるかどうかわかりません。
すぐには実現されません。
私は過去12、15年間、AGIがすぐそこにあると主張する人々を聞いてきましたが、彼らは体系的に間違っていました。
そして、彼らが言っているときに彼らが間違っていることを知っていました。
私は彼らの言っていることをくだらないと思いました。
次に、彼はAIドゥーマリズムについて話し、それが実際に何を意味するのか、良いAIと悪いAI、そしてその全体がどのように進行するかについて話します。
私が非常に興味を持っているものです。
そして最近それについてビデオを作成しました。なぜなら、AGIやAIの終末についての人々の信念の幅広さを見るのは非常に興味深いトピックだからです。
では、AIドゥーマーは、AIがどのようにして逃げ出したり制御したりして基本的に私たち全員を殺す可能性があるというさまざまな災害シナリオを想像しています。
そして、それは主に間違っているとされる多くの仮定に依存しています。
最初の仮定は、超知能の出現がイベントである可能性があるということです。
いつか私たちは秘密を解明し、超知能の機械を起動させることができるということです。
そして、これまでやったことがないので、それが世界を支配し、私たち全員を殺すことになるというのです。
それは間違っています。
それはイベントにはならないのです。
猫のように賢いシステムができるようになるでしょう。人間レベルの知能を持ちながらも、その知能のレベルは猫やオウムのようなものになるかもしれません。
そして、それらをより知能を持つように進化させていく予定です。
そして、それらをより知能を持つようにする一方で、適切に振る舞うためのガードレールを設ける方法を学んでいく予定です。
そして、これを1つだけで行うわけではなく、多くの異なる人々がこれを行うことになります。
そして、そのうちのいくつかは、制御可能で安全で適切なガードレールを持つ知能システムを作り出すことに成功するでしょう。
もし他の何かが暴走した場合、良いものを使って暴走したものに対抗することができます。
私の賢いAI警察対あなたの暴走AIになるでしょう。
私たちは全員が殺されるような単一の暴走AIにさらされることはありません。
それは起こりません。
また、システムが知能を持っているからといって、必ずしも支配しようとするというのは誤謬です。
このことについて人々を怖がらせるいくつかの議論がありますが、私はそれらが完全に間違っていると思います。
そのうちの1つは、自然界では、より知能の高い種が他の種を支配し、時には意図的に、時には単なる間違いで他の種を絶滅させる傾向があるように見えるということです。
AIシステムが私たちよりも知能が高い場合、彼らが私たちを排除するだろうという考え方があります。それが意図的でなくても、単に私たちに興味がないからです。
そして、それはいくつかの理由でばかげています。
最初の理由は、彼らが私たちと競争する種であることはないということです。
彼らは支配する欲望を持たないでしょう、なぜなら支配する欲望は知的システムにハードワイヤードされる必要があるからです。
それは人間にハードワイヤードされています。
それはオランウータンにはハードワイヤードされていませんが、ヒヒ、チンパンジー、オオカミにはハードワイヤードされています。
この支配したり服従したり他の方法で地位を得ようとする欲望が特定の社会的種に特有である種があります。
オランウータンのような非社会的種にはそれがないのですね。
彼らは私たちとほぼ同じくらい賢いです。
そして次に、彼らはAI、AGI、および核システムの比較に取り組みます。
核とAIの間で多くの比較がされてきましたが、それが完全な比較ではないと私は必ずしも同意しないし、ヤンも同意する傾向にあり、彼はその理由を説明します。
それだけでなく、彼はAIが本質的に私たちのインターネットの残りや他のAIモデルへのフィルターになる理由を説明します。
AIモデルは直接私たちとコミュニケーションを取ることはできません。
私たちはそれを見ることさえありません。
実際、彼はメールのスパムフィルターのたとえを持ち出します。
私たちは大量のスパムを受け取りますが、そのほとんどは見る必要もないし、見ることもありません。
考えるのは面白いですが、AIが私の情報摂取のすべてをフィルターすることを考えると少し心配です。
つまり、ウラジーミル・プーチンやその手下が設計したAIシステムは、すべてのアメリカ人に話しかけ、プーチンに気に入られる候補者に投票するよう説得しようとするか、人々を互いに敵対させようとするでしょう。
あなたに話しかけることはありません。
彼らはあなたのAIアシスタントと話すことになります。それは彼らと同じくらい賢いでしょう。
そのAIは、私が言ったように、将来、デジタル世界とのすべてのやり取りがあなたのAIアシスタントによって仲介されることになります。
最初に尋ねることは、これは詐欺なのかということですか?
このものは私に真実を伝えているのか?
それはあなたにたどり着くことさえできません、なぜならそれはあなたのAIアシスタントとだけ話すことになるからです。
あなたのAIアシスタントは、スパムフィルターのようになるだけで、実際にはそこにはありません。
あなたはそのスパムメールを見ていないでしょう?
それは自動的にあなたが見ないフォルダに入れられます。
同じことになるでしょう。
次に、彼はロボットについて話しており、最近私はロボットに関する多くのビデオを作っているので、ジャンがロボットについて何を言っているのか見てみましょう。
次の10年は、ロボットにとって非常に興味深いものになると思います。
ロボティクス産業の台頭は、10年、20年と待ち続けていましたが、事前にプログラムされたような振る舞いなど以外には本当に台頭していませんでした。
そして、主な問題は、再びモラベックの逆説です。システムに世界がどのように機能するかを理解させ、行動を計画させる方法はどうすればいいのでしょうか?
私たちは本当に特化したタスクに対してそれを行うことができます。
Boston Dynamicsが取り組む方法は、基本的には多くの手作りの動力学モデルと事前の注意深い計画によるものであり、非常に古典的なロボティクスであり、多くの革新、少しの知覚があるものの、まだ家庭用ロボットを作ることができないということです。
完全に自律レベル5の運転までまだかなり距離があり、確かに、17歳のように20時間運転して自分自身を訓練できるシステムによるレベル5の自律運転まで非常に遠いです。
現在、ロボットハードウェアに取り組んでいる多くの人々は、AIがその方向に十分な進歩を遂げるだろうということに賭けているか、期待しています。
最後に、レックスが良い質問をします。
次の数十年で人類に希望を与えるものは何ですか?
ヤンはそこでいくつか良い答えをしてくれます。
私は本当にこれを聞くのが好きです。
私はそれをポジティブなノートで終わらせるのが好きです。
AIを使って人類をより賢くすることができます。
つまり、AIは基本的に人間の知能を増幅させるでしょう。
まるで私たち一人ひとりが、私たちよりも賢いかもしれないスマートなAIアシスタントのスタッフを持っているかのようです。
彼らは私たちの命令を実行し、おそらく私たちよりも賢いので、私たち自身ができるよりもはるかに優れた方法でタスクを実行するでしょう。
まるで誰もが超スマートな仮想人々のスタッフのボスになるかのようです。
私たちは、私たちよりも賢い人々のグループのマネージャーであることに脅威を感じるべきではないのと同じくらい、これに脅威を感じるべきではありません。
私は確かにこれに関する多くの経験があります。
それは実際に素晴らしいことです。
私たちよりも賢い機械を持つことは、私たちのすべての仕事や日常生活を支援することは、専門的なものであろうと個人的なものであろうと、絶対に素晴らしいことだと思います。なぜなら、知性は最も需要の高い商品だからです。
実際、人類が犯すすべての間違いは、本当に知性の不足、あるいは関連する知識の不足から起こると思います。
人々をより賢くすることは、ただ良いことしかありません。
公共教育が良いものであり、本も良いものであり、インターネットも本質的に良いものである理由と同じです。
そして、ソーシャルネットワークさえも良いものです。
それらを適切に実行すれば、難しいですが、情報や知識の伝達、知識の伝達を支援することができます。
AIは人類をより賢くするでしょう。
それだけです。
ぜひ、フル動画をご覧いただくことをお勧めします。
とても長いです。
この短縮版が役立つといいのですが。
もしこの動画が気に入ったら、いいねやチャンネル登録を考えていただけると嬉しいです。次の動画でお会いしましょう。