見出し画像

Appleの挑戦:iOS 18が従来のAIと補聴器市場をどう変えるか

2023-2024年のAIブームの中で、テクノロジージャイアントの中で唯一Appleの製品が見られませんでした。


iOS 18とFerret

この「テクノロジーレビュー」では、今後数ヶ月にAppleがリリースする予定の新しいオペレーティングシステム、iOS 18を見ていきます。これはAppleがAI製品競争を展開する主要なプラットフォームです。

Appleが今後数ヶ月で最も重要な製品は新しいハードウェアではなく、実際にはオペレーティングシステム、iOS 18です。このバージョンのオペレーティングシステムでは、いくつかのAIの新技術が更新されています。

まず、10年以上前に非常に先進的で、現在では各種AIチャットツールに大きく遅れを取っているSiriが、iOS 18ではアルゴリズムを全面的に変更し、Apple自身の大規模言語モデルを用いてSiriを駆動します。

大規模言語モデル


Appleの大規模言語モデルとは何でしょうか?複数の噂があります。一つは、Appleの古くからのパートナーであるGoogleとの協力で、GoogleのGeminiを使用するというものがあり、もう一つは、訓練パラメータが2000億を超えるマルチモーダルの大規模言語モデルで、開発コード名はAjax、名前はFerretかもしれないという噂です。

GPT-3モデルのパラメータは1750億で、規模は小さくありません。しかし、このようなモデルには、ローカルで実行するかクラウドで実行するかという問題があります。Appleが現在明らかにしている情報から見ると、AppleはFerretをローカルで実行するという異なる道を歩むことを計画しています。

これは信じがたいことです。GPT-3やGPT-4はパフォーマンスが非常に優れていますが、それらはクラウドで実行されており、私たちのスマートフォンやPCは質問を送り出し、回答を受け取るだけで、すべての計算はOpenAIのサーバークラスターによって処理されます。何億人もの使用者がいると、推論計算量は非常に恐ろしいもので、そのため、この1年以上でChatGPTが反応しない、出力が遅い、ハッカーに攻撃されるなどの問題に遭遇しています。

モデルの推論計算をクラウドに置くことには、OpenAI自身の考えがあるかもしれませんが、実際には選択の必要性もあります。なぜなら、ローカルで実行するには、膨大なメモリを消費する必要があるからです。

最も保守的で、最も粗い計算では、10億パラメーターあたり1GBのメモリを使用するとし、それによれば、2000億パラメーターには200GBのメモリが必要で、さらに他のソフトウェアのスムーズな実行を保証するために、追加で数十GBのメモリが必要になるため、Ferret大規模言語モデルを実行できるAppleのスマートフォンには210GBのメモリが必要になるでしょう。しかし、現在最高峰のiPhone15 Pro Maxはメモリがいくらかというと8GBです。マルチモーダルの大規模言語モデルを実行するには、メモリを26倍に増やす必要がありますが、これは不可能です。今日のAndroid陣営のスマートフォンでさえ、最大メモリが32GBで、210GBにはほど遠いです。

しかし、Appleはこのモデルをローカルで実行することを計画しており、その方法はフラッシュストレージを使用することです。言い換えれば、iPhoneで写真を保存したりアプリをインストールする際に使用するフラッシュストレージの部分です。

通常、このようにすると、速度は15-50倍遅くなり、1秒間に30個のトークンの出力速度が1秒間に1個以下に低下します。あなたは想像できますか、次の文字が出現するまでに約1-2秒かかり、300文字の回答を得るのに7-10分待たなければならないかもしれません。このような速度では、実際には使用不可能です。

しかし、Appleが行った革新はここにあります。大規模モデルの実行中に、最初に活性化されたニューロンのみを保持し、後続の各計算は前回のパラメータの活性化状態に基づいて削除と追加を行います。Appleはこの技術に「スライディングウィンドウ」という名前を付けました。さらに、いくつかの伝送操作を最適化しています。

この方法が実現可能かどうかには、大規模言語モデルが連続する2つのトークンを処理する際に、ニューロンの活性化状態が高度に類似している必要があるかもしれませんという前提が必要かもしれません。

ローカル実行の利点


Appleがなぜ数百GBものスペースを占めるモデルをローカルで実行したいのでしょうか?これは、プライバシー保護とユーザーエクスペリエンスの両方を考慮しているためでしょう。

プライバシー保護の観点からは、入力から出力までがローカルで完結するモジュールでは、ユーザーはデータ漏洩の問題を心配する必要がありません。多くのユーザーがそもそも心配していなくても、多くの政府が心配し、Appleのスマートフォンの販売を禁止するさまざまな長短のポリシーを用いたり、数年おきに数十億ドルの罰金を科したりすることがあります。ローカルで実行すれば、これらの問題はすべて解決します。

ユーザーエクスペリエンスの面では、Ferretの処理速度がChatGPTやClaudeより速いとはあまり期待していませんが、使用不能なほど遅くはなるとは思わず、ただ少し遅くなるだけでしょう。しかし、ローカルの利点は、Ferretがあなたのスマートフォン内のテキスト、画像、ビデオ、iOSシステム内のどんな形式のデータベースも、処理対象として簡単に使用できることです。各アプリはFerretへの読み書き権限を開放でき、特にAppleが出荷時に搭載しているものはそうです。したがって、iOS 18から、あなたのスマートフォンはオペレーティングシステムからアプリまで、AIによる管理とサポートを全面的にサポートする端末になります。

ニューラルエンジン


Appleの利点はこれだけではありません。iPhone、iPad、MacBookなどのハードウェアに搭載されているプロセッサー、A17やM3などは、すでに多くのニューラルネットワーク専用の処理能力を確保しています。

例えば、iPhoneでは、2017年にiPhoneXに搭載されたA11プロセッサーで初めてニューラルエンジンが組み込まれたことから始まりました。もちろん、今日の観点からすると、その処理速度は非常に遅く、わずか0.6TFlopsです。しかし、A15、つまりiPhone13 Proに相当する時点で、処理能力は26倍に増加し、15.8TFlopsに達しました。最新のA17 Proは、35TFlopsに達しています。

ニューラルエンジンの処理能力が着実に増加してきましたが、過去数年間で十分に活用されていませんでしたが、この度、ローカルモデルの処理に際しては大いに活躍するでしょう。したがって、Siri音声アシスタントのアルゴリズムが更新されたように見えるかもしれませんが、実際にはiPhoneの全面的なAI化の重要なマイルストーンであり、Siri音声アシスタントは、マルチモーダル大規模言語モデル内の音声出力、入力の部分に過ぎない可能性があります。

AIが可能にする機能


私たちは想像できます、「写真ライブラリから子供が2歳と1ヶ月の時の身長と体重の状況を見つけてください」とSiriに言ったり、「リマインダーから過去半年で誰との面会回数が最も多かったかを集計してください」と言ったり、または海外のクライアントと電話をする際に、あなたが聞いて話すのは常に母国語だけであり、相手も同様に母国語だけを聞いて話すことができ、双方が翻訳する必要がなくスムーズにコミュニケーションを取ることができるような場面です。これらはすべて、AIがハードウェアとオペレーティングシステムのレベルで良好な基盤を築く必要があります。そして、Appleがこれを実現した場合、多くのAIアシスタントアプリを開発しようとしているスタートアップ企業も大きな打撃を受けるでしょう。

補聴機能


新しいiOS 18では、AirPods Proに新しい補聴機能が開発されます。

AIをオペレーティングシステムに組み込むことで、多くのスタートアップが一掃される可能性がありますが、補聴機能の追加は、伝統的な業界、つまり補聴器業界を一変させる可能性があります。

平均して、世界の10人に1人は聴覚障害を持っており、主に高齢者層に集中しています。聴覚神経の損傷が進むと、60歳以上の人々の4人に1人が聴覚障害者となり、年齢が70歳になると3人に2人が、90歳になると100人中96人が聴覚障害者となります。

しかし、統計によると、そのうちの半数以上が補聴器を使用していません。現在は何とか凌いでいる状態です。使用しても、伝統的な数ブランドの補聴器を選んでいます。

補聴器はイヤホンとは異なり、医療機器に分類されるため、市場参入のハードルが存在します。しかし、2015年以降、つまり深層ニューラルネットワークが大規模に応用され始めた後、音声信号処理のレベルは飛躍的に向上しました。しかし、このような進歩とそれに伴う激しい競争は、イヤホン業界に現れただけで、補聴器業界には現れませんでした。

たとえば、2015年に飛行機で使用すると、ノイズキャンセリング技術でほとんどのエンジンノイズを遮断できるイヤホンが8万円で売られていた場合、9年後の2024年には、同じノイズキャンセリングレベルのイヤホンを8千円で購入できるようになりました。価格は十分の一以下になり、重量も軽くなりました。

激しい競争が補聴器業界に現れなかったということは、新しいアルゴリズムを使用した補聴器が、今日でも非常に高価であることを意味します。数千元や1万元以上を出して、深層ニューラルネットワークアルゴリズムを使用し、効果が非常に良い補聴器を購入するつもりなら、それは幻想に過ぎません。80-100万元用意しても足りないかもしれません。

これは、補聴器が医療機器であり、消費電子製品ではないため、コストを大幅に削減する力を持つ消費電子メーカーがFDAの規制の外に置かれてしまうためです。しかし、技術の飛躍的な発展により、消費電子製品が聴覚補助の面で実際には医療分野の補聴器を上回っており、しかもそれは医療分野の最も遅れた一部分の補聴器だけでなく、大部分を上回っている可能性があります。

私たち「テクノロジーレビュー」では、結論を出す際には常に十分な証拠が必要ですが、AirPods Proが大部分の補聴器を上回っているという点については、あまり多くの証拠を集めることができませんでした。言ったように、この業界はあまり透明ではなく、2つの分野の製品を横断的に比較する条件もありません。しかし、長年の経験から小さな手がかりを見つけ出す私の経験からすると、この問題はiOS 18で補聴機能が導入された後に明らかになるでしょう。

2024年6月以降、インターネット上でさまざまなクリエイターが自分の祖父母にこの機能を試してもらい、数万円の補聴器と比較してどうかを尋ねる動画を時々見かけるようになるでしょう。私は、この4万円の製品が80万円以下の多くの補聴器を圧倒すると信じています。なぜなら、今日、いくつかのビデオブロガーが既にこれを行っており、それはただの会話強化機能を使用しているだけです。

会話強化機能は、個々の人の聴力に対して正確な適応を行っていません。適応は、サッカースパイクを選ぶようなもので、実際には、サッカースパイクを通常のスポーツシューズのように選ぶのではなく、もう少しフィット感のあるものを選ぶ必要があることを、サッカーをする人なら知っています。これは足の形に対するフィット感がより高い要求を意味します。補聴器を選ぶ前にも聴力テストが必要で、ある人がN個の周波数ポイントで音に対する感知度がどれだけ低下しているかをテストし、補聴器を製造する際には、それらN個の周波数ポイントで適切な補正を行う必要があります。

一般的に、年を取ると高周波に対する感度が失われるため、多くの補聴器は普通の人が使用すると、キンキンとした耳障りな音が非常に鋭いものになります。これは、私たち若者がまだ高周波に敏感であるために耳障りに聞こえるのですが、高齢者はこの部分の感覚が大きく低下しているため、私たちが耳障りだと感じる音は、実際には以前のような鈍い音を正常な音に変えているに過ぎないのです。

そして、具体的には1500Hz、1600Hz、1700Hz、1800Hzから5000Hzまで、各周波数ポイントでどれだけ補正する必要があるかは、実際に測定してみなければわかりません。

Appleは以前、一般的な人の聴力特性を考慮して音声部分を強調する設定を「会話強化」として導入しただけで、AirPods Proを使用すると多くの補聴器を上回る効果がありました。

そして、iOS 18で補聴機能が導入されると、N個の周波数ポイントの増幅率を手動で調整できる機能も提供される可能性があります。このようにして、病院での検査結果に基づいて調整することができ、補聴機能のメニューにはそのようなテストが含まれるかもしれません。

Appleが実際にFDAのOTC補聴器認証をAirPods Proで申請する意向がある場合、理論上は承認される可能性があります。そうなれば、長年にわたり医療機器の市場参入資格によって構築された補聴器業界の利益の堅固な防衛線は、全面的に崩壊する可能性があります。そして、全世界で少なくとも数億の聴覚障害を持ち、AirPodsを購入できる高齢者が、iOS 18の恩恵を大いに受けることになるでしょう。

これらはiOS 18の新しいオペレーティングシステムの2つの特徴であり、どちらも非常に重要です:一つは、初の完全なAIスマートフォンエコシステムを生み出すものであり、もう一つは、年間120億ドルの市場規模を持つ補聴器業界を根底から覆すものです。


この記事が気に入ったらサポートをしてみませんか?