この動画では、OpenAIの新しいモデルリリースに関する情報とサム・アルトマンのAI技術に対する見解を紹介しています。OpenAIは月曜日に新技術を発表する予定で、GPT-4 autoを参照するコードからエージェント能力やAI音声アシスタントに関連していると推測されています。リークによると、新モデルは音声認識とテキスト読み上げを統合し、画像とオーディオの入力をより良く理解することで、システムの速度と効率が向上するとのことです。サム・アルトマンは、新しいモデルのリリース方法やGPT-4の改善について言及し、音声がコンピューターを使う新しい方法になる可能性を示唆しました。また、自分自身の拡張としてのエージェントと、優秀な上級社員としてのエージェントという2つのアプローチについて語りました。最後に、アルトマンはユニバーサルベーシックコンピュートという概念を提示し、従来のユニバーサルベーシックインカムよりも良い方法になるかもしれないと示唆しました。未来では、誰もがAIコンピュートの一部を得て、それを使ったり、再販したり、研究のために寄付したりできるようになるかもしれません。
公開日:2024年5月11日
※動画を再生してから読むのがオススメです。
ここ24時間の間に、主にOpenAIとその新しい発表を取り巻くクレイジーなニュースがありました。
まず第一に、新しいリリースが何であるかについて多くの憶測があります。
OpenAIは月曜日の太平洋時間午前10時にOpenAI.comでライブストリームを行い、いくつかのアップデートをデモすると言っています。
いくつかの見通しでは、GPT-5ではなく、検索エンジンでもないことを明確にしています。
検索エンジンの可能性を示唆するいくつかのことがあり、私たちはそれが開発中だと信じています。
しかし、これはそうではありません。
そして、シモットマンは、この新しいものが何であれ、自分にとって魔法のように感じると言っています。
GPT-4 autoを参照するいくつかのコードがあるという未確認のリークがあります。
autoとは何を意味するのでしょうか?
エージェント能力、AIエージェントである可能性はあるのでしょうか?
私は、新しいブレークスルーは音声に関係していると推測しています。
しかし、より具体的には音声エージェントに関係しています。
OpenAIはGoogleとAppleを追いかけてAI音声アシスタントを開発しています。
GPT-4ですでに音声アシスタントのようなものがあったので、これはしばらく前のことだと思うかもしれませんが、これは新しい発表の数日前のメインテントです。
これについてはすぐに戻ります。
しかしポイントはこれです。多くの人がエージェントがこのストリーミングライブイベントの潜在的な焦点になるだろうと言及しているので。
しかし、AI音声アシスタントの開発に戻ると、
GPTモデルの次のイテレーションを見た人がいて、それがGPT-5と呼ばれるか何かわかりませんが、より良い推論が含まれると言っているのを知っています。
そして、これは映画「Her」のような仮想アシスタントを開発する次のステップになるだろうと言っています。
これらのアシスタントは、さまざまな論文や数学の問題に取り組む子供たちのチューターとして機能することができますが、自動化されたカスタマーサービスエージェントとしても機能します。
そして、この文は、なぜこれがオンデバイスモデルになる可能性があるかという点で私の目を引きます。
Microsoftは、OpenAIの新しいAIを使用して独自の音声アシスタントを改善したり、顧客の周囲をキャプチャできるフロントカメラを備えたウェアラブルデバイスを含む小さなデバイスで実行できるように十分にコンパクトにすることができます。
そして、ビデオを終了しようとしていたちょうどそのとき、誰かがこれを投稿しました。
これは、月曜日に来るものの潜在的なリークです。
繰り返しになりますが、まだソースはわかりませんが、今日の後半に信頼できるソースから公開されるようです。
彼らは、機能が向上したAI音声アシスタントを期待していると言っています。
再び映画「Her」と比較して、以前のモデルが音声の文字起こしとテキスト読み上げを別々の機能として扱っていたのとは異なり、新しいモデルはこれらの機能を統合しているオーディオとビジュアル機能の統合です。
この統合により、モデルは画像とオーディオの両方の入力をよりよく理解でき、システム全体の速度と効率が向上します。
これは月曜日にリリースされます。
そして当初、この新しいテクノロジーはクラウドを介して利用可能になり、自動化されたカスタマーサービスの改善などの用途をターゲットにしています。
このテクノロジーはまだ個人のデバイスで実行するには大きすぎますが、近い将来、クラウドコンピューティングを介してデバイスに統合できる可能性があります。
また、GPT-4から大幅な改善が期待されるGPT-5についても言及されており、年末までにリリースされる可能性があります。
また、事前に支払った顧客に最大50%の割引を提供する新しい価格帯や、以前このチャンネルで取り上げたAppleとiPhoneの統合の可能性もあります。
サム・アルビンは、All In podcastに出演し、AGI、今後のモデルリリース、そしてこのAIがどこへ向かっているのかについていくつかの基本的な考えについて質問に答えてくれました。
私が面白いと思った、少し目立ったクリップをいくつかご紹介します。
以前のモデルとは違ったやり方でリリースするかもしれません。
GPT-5と呼ぶかどうかもわかりません。
言えることは、多くの人がGPT-4がリリース以来、特にここ数ヶ月でどれだけ良くなったかに気づいていることです。
それは、1、2、3、4、5、6、7のようではなく、AIシステムを使うだけで、システム全体がかなり継続的にどんどん良くなっていく世界がどのようなものかを示唆していると思います。
それは技術的により良い方向性だと思います。
社会がそれに適応するのが容易だと思います。
しかし、私たちはそこに向かうと思います。
世界には非常に有能なモデルがたくさんあると言えます。自然や科学、あるいは何と呼ぶにしても、新しい事実にぶつかったような気がします。
文字通りではないと思いますが、精神的な点です。
知性は物質の創発特性のようなものであり、それは物理学の法則のようなものだと言えます。
電話に収まるモデルについて少し触れましたね。
それが大規模言語モデルであろうとSLMであろうと、あなたはそれについて考えていると確信しています。
しかし、デバイス自体は変わるのでしょうか?
iPhone ほど高価である必要はありますか?
私はこれにとても興味があります。
新しいコンピューティングのフォームファクターが大好きで、大きな技術的進歩があるたびに新しいことが可能になるように感じます。
iPhoneは信じられないほど良いです。
だから、ここでのハードルはとても高いと思います。
個人的には、iPhoneは人類が今まで作った最高の技術だと思います。
本当に素晴らしい製品です。
そして、音声は次のものへのヒントだと思います。音声のやり取りを本当に良いものにできれば、コンピューターの使い方が違うように感じます。
私が欲しいのは、常にオンで、超低摩擦で、音声やテキストで、あるいは理想的にはある種の方法で私が何を望んでいるかを知っている、一日中私を助けてくれる常にあるものです。
それは世界最高のアシスタントのようなものです。
そして、それは私をどんどん良くしてくれるものなのです。
2つのアプローチがあり、それほど違わないように聞こえますが、実際にシステムを設計する上で大きく異なると思います。
1つは自分自身の拡張、幽霊、別人格、本当に自分であり、自分に代わって行動するものが欲しいというものです。
そしてもう1つは、素晴らしい上級社員が欲しいというものです。
私のことをよく知ることになるかもしれません。
私はそれに委任するかもしれません。
私のメールにアクセスできるようにして、制約を伝えますが、ある意味では別のエンティティ、エグゼクティブエージェントだと考えています。 自分に代わって働いてくれるものです。
エージェントのような振る舞いがありますが、上級社員とエージェントには違いがあります。
そして、私はそれが欲しいのです。
上級社員が好きなことの1つは、彼らが私に反論してくれることだと思います。
時々、私が求めたことをしなかったり、時々、私がそれをしてほしければできると言ったりします。
しかし、もしそうするなら、こうなると思います。
そしてこれ、そしてそれ。
本当にそれでいいのですか?
確かにそんな雰囲気が欲しいですね。私が求めて、それがするというだけではなく。
それは理由づけることができます。
そして反論する。
私が一緒に働く本当に有能な人に期待するような、私との関係があります。それは、おべっか使いとは違います。
サム、今は仕事について多くの心配があります。
YCでUBIについて多くの証言をしたと思います。
その結果はすぐに出ます。
5年間の研究が終了したばかりです。
2016年に真剣にAIについて考え始めたのと同時に、これについて考え始めました。
社会や雇用、経済に訪れるかもしれない変化の大きさ、さらに深い意味で、社会契約がどのように見えるかということは、それを整理する新しい方法について多くのアイデアを研究するために多くの研究をすべきだという理論でした。
また、私は、貧しい人々を助けるために設計されたほとんどの政策に対する政府の対応方法のスーパーファンではありません。
そして、人々にお金を与えるだけで、彼らは良い決断をし、市場がその役割を果たすと信じています。
そして、私は床を持ち上げ、貧困を減らすこと、なくすことに非常に賛成です。
しかし、それを行うためのより良い方法に興味があります。
2016年は非常に昔のことでした。
AIがどのように発展しているかを見ると、従来のUBIの概念よりも良いことができるのではないかと思います。
将来は、ユニバーサルベーシックインカムというよりは、ユニバーサルベーシックコンピュートのようになるのではないでしょうか。
そして、誰もがGPT-7のコンピュートの一部を得て、それを使うことができ、再販したり、がん研究に使うために誰かに寄付したりできます。
しかし、得るものはドルではなく、この製品のスライスのようなものです。
生産性の一部を所有しているのです。
人々はエージェントについて、一種の線形の呼び出し関数のセットがあるかのように多く語ります。
しかし、生物学で生じる事柄の1つは、1つのものが別のものを呼び出し、その別のものがさらに別のものを呼び出すのではなく、相互作用のあるシステムのネットワークが、システムの集約、ネットワークの集約が出力を生み出すということです。
より大きな問題セットに取り組むために協力する、専門化されたモデルやネットワークモデルのこのアーキテクチャの出現を見ているのでしょうか、推論を使用しますか?
推論がどの程度一般化可能なものになるかはわかりません。
そうなることを疑っていますが、それはより直感的で希望的なものです。
そういうふうにうまくいけばいいのですが。
明らかに、特殊なシミュレーター、コネクタ、データの一部などが必要になるでしょう。
しかし、私の直感では、これを科学的に裏付けているわけではありません。
一般化された推論の核心を理解できれば、人間が一般化された推論者であるのと同じように、新しい問題領域とつなげることは可能だと思います。
それは速いアンロックのようなものです。
より速いアンロック。
そう思います。
それでは、私の名前はウェス・ロスです。ご視聴ありがとうございました。