ビル・ゲイツが語る5年後のAI予想。鍵は「耳」にありーー「近未来のウェアラブルデバイス」を考える

2023.11/24 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、ビル・ゲイツのブログから、少し先の未来のAI、デバイスと「音」の関係について考えてみたいと思います。

◾ビル・ゲイツの主張するエージェント=パーソナルアシスタント

マイクロソフトの創業者であるビル・ゲイツは、読んだ本や未来について発信することがあります。ゲイツが2023年11月9日に公開したブログ記事「AIがコンピューターの使い方を完全に変えようとしているAI is about to completely change how you use computers」が話題を呼んでいます。

長文の記事であり、詳細は省きますが、ゲイツはまずソフトウェアを愛していると述べる一方、現在でも文章はword、メールはGmailといったように、タスクごとにアプリを切り替える必要を嘆きます。

その一方、ゲイツは5年以内に訪れるだろう、彼がエージェントと呼ぶ「パーソナルアシスタント」の重要性を説きます。要するに、指示するだけで、アプリやソフトウェアに関係なく、アシスタントが自動ですべきことを行ってくれるAIです。

とはいえ、パーソナルアシスタントの考えはこれまでにもありました。例えばマイクロソフトは90年代にはOfficeにClippyクリッピーというサポートキャラクターを採用し、日本ではイルカの「カイル」というキャラクターがOfficeの画面上に登場していたのですが、英語圏でも日本でも、非常に評判が悪かったのです。

もちろん、現在でもAIアシスタントは部分的に機能しています。ゲイツの主張は、昨今のAIの劇的な発展によって、ユーザーを理解し、ヘルスケアであれ仕事であれ、ユーザーの望むことをスムーズに行うパーソナルアシスタント、つまり秘書のような役割がコンピュータにはできるというものです。マイクロソフトであれば、生成AIを利用した「copilot(副操縦士)」サービスが話題ですが、エクセルやパワーポイントといったビジネスツールもAIがユーザーをこれまで以上にサポートするでしょう。
(もちろん、ユーザーデータのオンラインセキュリティやプライバシー、生成AIが間違いを犯す可能性などもゲイツは考慮しています。)

◾パーソナルアシスタントにとって重要なのは「音」

音声研究として当ラボが重視するのはここからです。ゲイツは、AIパーソナルアシスタントが普及すると、これまでのWindowsやMacといったOS、つまりどちらが使いやすいか、といった問題が相対的に低くなると考えています。アシスタントはアプリを越境して動くため、アプリの見た目等はあまり意味がないからです。

その一方で重要になるのが、どのようにアシスタントにユーザーが指示を行うか、というものです(デバイスのUI、デバイスとユーザーの接続方法です)。ゲイツは、AIパーソナルアシスタントとの対話は、スマホやメガネ、あるいはホログラムよりも、声で指示する「ヒアラブルデバイス」、つまりイヤホンであると考えています。

ヒアラブルデバイスは当ラボが何度も取り扱っているように、骨伝導イヤホンのように耳の負担を軽減するものや、ユーザーの耳の形を理解し、ユーザーに最適な音を届けるもの等、様々な発展を遂げています。スマホで文章を打つよりも、またスマホから専用のアプリを起動するよりも、常時接続しているAIイヤホンから、言葉ひとつでアシスタントがメールの返信やレストランの予約を行ったり、声でスライドのイメージについて指示を行うことができます。指を動かすまでもなく、アシスタントと対話しながら決められることはもっと増えるでしょう。

またメンタルヘルスの領域では、AIアシスタントがセラピー代わりとなり、ユーザーと対話したりするにも、スマホよりも耳に直接声が流れる方が心理的にも近づきやすいものとなります。また子供にとっては家庭教師のように、適切なタイミングで適切な勉強の方法を伝えることもできるでしょう。

もちろん、すべてがこの通りに進むとは限りません(ここまでの主張は、確かに楽観的ではあるでしょう)。しかし、スマホが登場して15年以上が経過し、世界中に普及する中で、ゲイツをはじめ、世界中の人々が次のブレイクスルーについて考えており、その中で人とコンピュータをつなげる「音」に注目が集まっているのです。スマホ使用の問題が指摘される中で、そろそろスマホの「次」を、私たちは考えるべきだとも言えるのではないでしょうか。

例えば先日、元Appleのエンジニアが設立したHumaneという会社が発表した「Ai Pin」というデバイスは、ピンバッジのように胸元に接続し、デバイスへの指示は声で行います(同時翻訳等を、スマホに指示するより手早くできるでしょう)。また、本体をタップすることで手のひらにレーザーで映し出し、手をディスプレイ代わりにするのですが、あくまで文字は最小限にとどめており、そもそもディスプレイは搭載されていません。

これらは、従来のスマホのように文章の指示ではなく、またディスプレイに私たちの感覚(視覚)を固定することなく、私たちはもっと自由に、コンピュータと対話が可能になるのです。キーボードからマウス、そしてスマホのタップ、さらには「声」。このように考えれば、ゲイツの主張は真剣に考えるに値する内容と言えそうです。そしてその中心は「声」なのです。

この記事が気に入ったらサポートをしてみませんか?