GoogleのDeepMindとGoogle Researchは、会社のAI「Gemini」を基にして、医療分野に特化した「Med-Gemini」という研究論文を発表しました。Med-Geminiは、これまでのAIシステムが抱えていたベンチマークの曖昧さを克服し、医療現場で高い精度を実現しています。Med-Geminiの特長は、自己学習と検索機能を活用した高度な推論能力にあります。研究によると、Med-Geminiを実際の医師と比較した場合、診断精度で医師を上回る結果が得られました。Med-Geminiは、医師とのコミュニケーションを支援するAMIEとは異なり、膨大な医療データを分析し、診断と治療計画の立案を支援することに特化しています。将来的には、患者情報の総合的な分析を通じて、医療従事者のより適切な意思決定をサポートすることが期待されます。
公開日:2024年5月3日
※動画を再生してから読むのがオススメです。
Google DeepMindとGoogle Researchは、医療におけるGeminiモデルの能力と題した非常に興味深い研究論文を発表しました。
基本的に彼らがしたことは、GoogleのGeminiモデルがどのようにファインチューニングされ、医療業界を非常に効果的に支援するために使用できるものに変えられるかを議論し、示す論文を作成したことです。
これはGoogleからまだこのようなシステムを期待していなかったので、かなり驚きました。しかし、彼らは今年の初めにも実際にかなり似たようなものをリリースしていました。
覚えていると思いますが、これは私が話したことで、アーティキュレート・メディカル・インテリジェンス・エクスプローラー(Articulate Medical Intelligence Explorer)というAMIEでした。
これは、Googleが開発した高度なAI研究システムで、3〜4週間前にリリースされたものです。
基本的に、診断推論を扱い、医療の文脈で意味のある会話を行うように設計されており、医師と患者の相互作用を強化し、相談の質とアクセシビリティを向上させることを目的としていました。
基本的にAMIEが優れていた理由は、シミュレーション学習環境を使用して学習を強化することができたからです。そして、AI患者シミュレータとの診断対話に従事し、会話と診断のスキルを継続的に練習し、再定義し、改善することができました。
実際には、医療推論シナリオを含む現実世界の臨床会話など、非常に多様な医療データで訓練されていました。
AMIEについての重要なことの1つは、実際に臨床医と比較したとき、人間がループの中でそれを使用すれば、これは非常に効果的であることが示されたということです。
このグラフでは、AMIEのみのシステムが、支援なしの臨床医や検索で支援された臨床医よりも着実に優れた性能を示し、ギャップの大幅な改善を示していることがわかります。そして、AMIEによって支援された場合は、支援なしの臨床医よりもはるかに大幅な増加が見られます。
もちろん、AMIEのみと比較して、AMIEによって支援された臨床医は、AMIEが実際の臨床医を凌駕したことを示しています。
基本的にこれが示したのは、まだMed-Geminiではありませんが、Googleが研究の面で医療健康への取り組みを強化していることです。なぜなら、AMIEのようなこれらのシステムが臨床医だけよりもはるかに優れていることを示しているからです。
本質的に、言ったように、これはもちろんMed-Geminiです。ここで私たちが持っているのは、ここに存在する初期のGeminiシステムです。
Geminiは、完全にマルチモーダルな強力なAIシステムのファミリーです。
高度な推論、マルチモーダルな理解、長い文脈処理などの継承された機能があることがわかります。
ここでMed-Geminiの開発を行うことを決めたのはここです。
ウェブ検索の統合による自己学習による医療専門化を行いました。そしてもちろん、マルチモーダルな理解です。
ファインチューニングとカスタムエンコーダを行い、もちろん長い文脈処理では、推論プロンプティングのチェーンを行いました。
これらすべてのスキルを組み合わせることで、もちろん、医療アプリケーション用に特化したGeminiのバージョンであるMed-Geminiを得ることができるようになりました。
この分野に注意を払っていない人にとっては、これは本当に破壊されようとしている業界であるため、非常に興味深いことです。なぜなら、私たちが見ているアプリケーションと事物は、アプリケーションの観点からベンチマークがかなり信じられないほど見えることを示しているからです。
以前にあったものの1つは、もちろん、以前の最先端技術でした。
業界における医療AIシステムの最先端技術は、話すことができ、特定の質問やクエリに答えることができる正確さの点で、ここで2021年9月から2023年9月までの間に、これらのAIシステムができることの面で大幅な増加があったことがわかります。
特に、GPT-3.5からGoogleのMed-PaLMへ、そしてもちろんGPT-4とMed-PaLM2への飛躍的な進歩、そしてMed-Gemini以前の最先端モデルが注目に値します。
もちろん、現在私たちが持っているのは、医療用Geminiという最先端のシステムです。今日Googleでリリースされる前の最先端システムです。
まあ、実際にはリリースされていませんが、論文はリリースされました。実際にはGPT-4でした。
ベースバージョンだけでなく、GPT-4ベースバージョンはGoogleの医療用のものに非常に近かったのです。
実際には、これらのAIシステムの適切なベンチマークであるMedQAで19.2パーセントを取得するファインチューニングバージョンのGPT-4です。
medプロンプトを使用したGPT-4は実際には非常に高いベンチマークを持っていましたが、再びGoogleはGPT-4とmedプロンプトで今それらを打ち負かしました。
この基盤をお見せしているのは、これが実際にどれほどクレイジーであるかを示しているからです。
これはGPT-4の基本レベルから始まり、システムのパフォーマンスを大幅に向上させるためにGPT-4に追加されたさまざまなものを見ることができます。
クレイジーなのは、Med-Geminiが非常に効果的な理由であり、それについて説明しようとしているのは、選択シャッフルを使用したアンサンブルのようなこれらのクレイジーなテクニックのすべてを使用していないからです。
それが何であるかわからない場合は、基本的に多肢選択式の質問では、答えに関して最初の質問に偏りがある場合があります。
たとえば、地球の大気中で見つかった主要なガスは何かと誰かに尋ねた場合、4つの答えがあるとしたら、多くの人が無意識のうちに最初の答えが正しいと思うかもしれません。
基本的に行うことは、それらをシャッフルすることです。
これらの中で最も一般的な答えが選ばれると、その答えを見つけることができ、それを使用する答えになります。
それはかなりクレイジーです。
90.2に到達するためにGPT-4の上にどれだけ多くの異なる反復を行ったかがわかります。
驚くべきことに、彼らはこのベンチマークを上回ることに成功しました。
ここでGoogleのMed-GeminiがMedQAで91.1%となっているのがわかります。これは増加の面で非常に興味深いことです。
大規模言語モデルのこれらのベンチマークでの能力の面で、私たちがピーターアウトし始めているのかもしれないと主張する人もいるかもしれません。
しかし、私は確かに反対します。なぜなら、はい、これは事実かもしれませんが、Med-Geminiはかなり優れているからです。
ベンチマークについて知っておく必要がある重要なことの1つは、専門家の臨床医による再ラベル付けでは、データセットの7.4%の質問に品質の問題があるか、あいまいな基礎的事実があることが示唆されていることがわかります。
本質的に、AIベンチマーク業界で一貫して問題となっていたことの1つは、このような種類のシステムが残念ながらかなり標準的なベンチマークに従わなければならないという事実でした。
しかし、これらのベンチマークには何千もの質問が含まれていますが、これらの質問の一部はかなりあいまいで、品質の問題があります。つまり、AIシステムは、質問が文字通り意味をなさないため、正解を得ることができません。
お見せできる例があればいいのですが、質問の中にはまったく理解できないものがあるということを信じてください。
彼らが述べているのは、ベンチマークがいくつかの品質問題に直面している可能性があるため、この7.4%はそれほど優れているとは言えないということです。
これが将来ピーターアウトするものだと思うかもしれませんが、より高度な推論システムがこれを100にすることができることを私たちは知っています。システムが優れているだけでなく、もちろん、それらの品質問題が修正されたときにベンチマークがはるかに優れたパフォーマンスを発揮することができるようになります。
ここで医療ベンチマークについても見ることができるのは、Med-Geminiが以前の最先端技術を上回るいくつかのカテゴリーがあるということです。
ここの青いものがもちろん主な焦点で、青いものがGeminiであり、これはほぼすべてのカテゴリーで、以前の最先端技術であるGPT-4とmedプロンプトを上回っていることがわかります。
ほぼ同等のものがいくつかありますが、長い文脈のビデオに関してはこの1つだけです。
しかし、ここでさえ、GPT-4の結果は、コンテキストの長さの制限により利用できないと書かれています。高度なテキスト推論は、ここではかなりうまくいっていることがわかります。マルチモーダルな理解もかなりうまくいっています。
本質的に、これがどれだけ優れているかを見たい場合は、この線を見るだけです。この線より上のものは改善されていることがわかり、これらのカテゴリーのほぼすべてでかなりの改善があることがわかります。
ここでの1つは、高度なテキストベースの推論タスクに関する医療用Geminiです。ここでは、以前の最先端技術に基づいて、多くの異なるカテゴリーでそれを上回っていることがわかります。
彼らが実際に話していたことの1つは、このシステムがGPT-4といくつかのシナリオでどのように比較されたかについて実際に話したことです。
GPT-4は、長い文脈の推論でそれをサポートするのに十分な文脈の長さを実際には持っていませんでした。
Googleの新しいコンテキストの長さを使用した長いコンテキストの推論は、将来にとって非常に重要な機能であることを知っておくことが重要です。なぜなら、より多くの情報を処理することができるからです。
医療業界では、データが多いほど、より包括的な画像が得られます。なぜなら、人体は非常に多くの複雑な部分で構成されており、それらすべてが一緒に接続されているからです。長い文脈ウィンドウがある場合は、より多くのデータを適合させ、診断が何であるか、または特定の個人の体に何が問題なのかについてより良い結論を得ることができると言えます。
特に、長い文脈の一部からそのデータを取得し、それを正しく使用し、もちろんそれを正しく推論しようとしている針の中の干し草の点で、将来のためにそれを持つことが重要です。
Gemini、まあMed-Geminiが最先端を凌駕していることがわかりますし、もちろんここでもAMIEと比較して、それを凌駕していることがわかります。
もちろん、これらのいくつかはそれほどクレイジーではありませんが、おそらくいくつかの高度な推論技術があるようです。
私が実際に見てかなりクールだと思ったことの1つは、私たちが見た高度な推論が少し異なっていたということです。
彼らには、これを使って高度な推論を行う2種類の方法がありました。そして、これは、さまざまなユースケースに特化したさまざまなモデルの観点から、おそらく私たちが見ることになるものだと思います。
Med-Geminiの場合、彼らは本質的に自己学習と検索を行いました。そして、これらは、複雑な医療データとクエリを処理する能力を高めるために活用されました。
これらの機能がどのようにMed-Geminiによって使用されたかについて実際に掘り下げてみましょう。
Med-Geminiでの自己学習の側面は、モデル自身の出力を使用して新しいトレーニング例を生成し、それをさらにモデルの改善に使用するところでした。
それが外れたことをお詫びします。
この方法は、初期のトレーニングデータが限られているか、多様性に欠ける分野でモデルの能力を改善するのに特に有益です。
本質的に、彼らが行うことは、まず最初に合成例を生成することです。
たとえば、Med-Geminiは医療データやクエリを処理し、現在の理解に基づいて応答を生成します。
これらの応答は、それらが行われたコンテキストとともに、新しいトレーニング例として役立ちます。
私たちはその洗練を持っています。
これらの生成された例はトレーニングサイクルにフィードバックされ、Med-Geminiが自身の出力から学習できるようにします。
この反復プロセスは、特に複雑な医療シナリオを扱う際に、モデルの推論と意思決定の能力を継続的に洗練するのに役立ちます。
シミュレーターからの強化学習があります。
これは、Med-Geminiの場合、シミュレーションでは、モデルがテキスト、画像、または長い医療記録から複雑な医療データを解釈しなければならないシナリオを作成することを含む可能性があります。
シミュレーションからのフィードバックは、より高い精度と信頼性のためにモデルがその方法を調整するのに役立ちます。
もちろん、Med-Geminiの検索があります。
これは、Med-Geminiが実際に苦労するかもしれない質問に遭遇したり、自信が低かったり、内部データが不十分だったりする場所です。
追加情報を収集するためにウェブ検索を実行できます。
ここでは、自信がないと言っているのがわかります。
もちろん、ここに行きます。
もちろん、ここに行きます。これはウェブ検索です。
もちろん、不確実性に導かれた検索があります。本質的にMed-Geminiは、モデルがその予測に高い不確実性があると計算し、応答を最終決定する前により多くの情報を積極的に検索する不確実性誘導検索戦略を採用しています。
この方法は、出力の精度と信頼性に役立ちます。
これは、より良い結果を得るために行うループです。
もちろん、知識の継続的な更新があります。
外部ソースから情報を検索して統合する機能があるということは、Med-Geminiが頻繁な再トレーニングを必要とせずに知識ベースを継続的に更新できることを意味します。
これは、新しい研究と臨床実践が標準的なケアプロトコルを変更する可能性がある医療分野では実際には非常に重要です。
ここにあるこれら2つのアプローチを組み合わせることで、新しいまたはまれな医療シナリオにより適応できます。
検索を通じて最新の医療情報にアクセスできるため、そのデータは初期のトレーニングデータだけでなく、最新の研究、臨床試験、ガイドラインにも基づいています。
継続的な学習と適応により、多様で複雑な医療クエリを処理することにより熟練し、AIサポートを求める医療専門家にとって貴重なツールになります。
もちろん、ここにビデオベンチマークがあります。これは非常に優れているものです。
GoogleのGemini 1.5 Proは実際に1時間のビデオを取り込むことができ、これらのビデオを見て医療の観点からシーンを分析することもできることを私たちは知っています。
ここに州が見えます。
ここでは、Med-PaLMとGPT-4 Visionという以前の最先端技術が見られます。
GPT-4がビデオをリリースしたとき、これもMedical Geminiと競合することになるのは非常にクレイジーになるだろうと思っています。
もちろん、ここは医療におけるGeminiモデルの機能があるところで、実際のベンチマークがあります。
ここでベンチマークがあり、臨床医の精度、検索での臨床医、以前の最先端技術、そしてもちろんMed-Gemini、Med-Gemini+検索の精度が見られます。
前に皆さんにお見せしたように、AMIEと比べて大幅な改善が見られます。
これはAMIEのものだと思います。
これは、もちろん、GPT-4またはAMIEです。
どちらかわかりませんが、ここから明確な結論が得られます。
このグラフのこの部分だけでも、臨床医の精度が実際に最も低いことがわかります。
ここまで来ると、Med-Geminiに検索を加えることで、パフォーマンスが大幅に向上することがわかります。
ここで行われていることには大きなギャップがあり、AIが臨床医の知識のギャップを埋め、彼らを助けることができるのは非常に印象的だと思います。
これは間違いなく、人々に多くの詳細と助けを提供できるものだと思います。
ここで問題になると思うのは、人間がAIに完全に頼らないことを願っています。なぜなら、時にはAIが診断で特定のものを見逃す可能性があるからです。そして、人間は常にAIシステムよりも多くのデータポイントを持っていると思います。
少しそれましたが、ここでは意味があることです。GPT-4やその他のAIシステムにプロンプトを与えている場合、このシステムが私が外に出たいと思っていることを理解できないのはなぜだろうと時々考えるでしょう。
しかし、特定のエッセイの書き方を尋ねているときなど、締め切り、先生の好み、スタイル、長さ、必要なことをいくつか言えば、システムにできるだけ多くの情報を与えるほど、本質的に望む出力を与えるのにはるかに優れています。
これは個人的に見てきたことであり、だからこそ人間の方がはるかに多くの情報を持っていると述べています。なぜなら、人間はシステムに行って、「ああ、鼻水が出ている」と言うかもしれないからです。
しかし、AIシステムに「鼻水が出ている」と言っても、それが持っている唯一の情報です。一方、あなたと同じ部屋にいる人間は、あなたの肌の様子、動き回り方、疲れているかどうか、年齢、外見、家系図を知っています。
ここでのポイントは、これが将来改善されていくと思いますし、これが臨床医にとって非常に良いツールになることを願っています。
前に言ったように、はい、これはうまくいっていますが、いくつかの問題のあるベンチマークがあります。
以前にMedQAベンチマークを再検討したところ、いくつかの確率がありました。
しかし、一部のMedQAテスト質問には、図や検査結果などの情報が欠けていたり、地上の真実の答えが古くなっている可能性があります。
これらの懸念に対処するために、彼らは少なくとも3人の米国人医師に各質問をレビューさせ、自分で質問に答え、元の答えがまだ正しいかどうかを確認し、これらの質問で欠落している詳細やあいまいな要素を指摘させました。
彼らは、ブートストラッピングと呼ばれる方法を使用しました。3人のレビュアーの委員会が、欠陥のために質問を除外すべきかどうかを決定しました。
そのちょっとしたグリッチをお詫びします。
調査結果は、質問の3.8%に情報が欠落していて、2.9%に誤った答えがあり、0.7%があいまいだったことです。
ほとんどのレビュアーがこれらの評価に同意し、強力なコンセンサスを示しました。
欠陥のある質問を削除することで、AIのテストスコアが91.1%の精度から91.8%に改善されました。
多数決を使用した場合、つまり全会一致ではなくより緩やかな基準を使用した場合、問題のある質問の約5分の1を削除することで、精度はさらに92.9%に上昇しました。
つまり、テストを整理し、欠陥のある質問を削除または修正することで、医療クエリを処理するAIの能力を正確に評価するためのより良いツールにテストを作り上げたのです。
ここでは、このAIシステムの対話例のいくつかに実際に入ります。そして、このマルチモーダルシステムがどのように機能するかがわかると思います。
それほどクレイジーなものではありませんが、皆さんはこれがどのように機能するかを本当に理解できると思います。
対話の例が見えます。ここでは、人が実際に何が起こっているかを正確に述べるコメントを残すことを決定します。
メッドGeminiは、あなたの懸念を理解しています。
あなたが扱っているものの写真を送ってもらえますか?
写真を送ります。
それはクエリを実行し、より多くの情報を求めます。
これがそうだと思うと言っています。
ありがとうございました。
これが何なのか説明していただけますか?
それは正確に何であるかを教えてくれます。
それは診断です。
これは確定的な診断のみ可能です。
わかりましたと言っています。
これをどのように治療すればよいか教えていただけますか?
ここでは、この問題を解決するのに役立つ多くの情報を提供できることがわかります。
前に言ったように、このようなことは本当に良いと思います。なぜなら、医者は予約が必要で、15分から30分しかないかもしれません。
しかし、AIシステムでは、100万や10億の質問をすることができます。
それは忍耐強くなるでしょう。
あなたを理解するでしょう。
それは人よりもはるかに簡単に助けることができる多くの異なる方法であなたと話すことができるでしょう。
はい、医者がしていることに感謝していますし、彼らがどれほど優れているかを知っています。
唯一の問題は、私がこれから言おうとしていることが狂っているように聞こえるかもしれませんが、彼らは人間だということです。
つまり、時間などの人間の限界があるということです。
これは、AIシステムが助けることができるものです。
あなたがこの種のことについて話をするだけの仮想のAI医者を想像してください。
あなたはすぐに診断を受けることができるでしょう。
実際の皮膚科医からのフィードバックがありました。1枚の写真と簡単な説明という限られたデータに基づいて、比較的まれで専門的な状態であるこの状態の印象的な診断精度があると言っています。
これを含めた理由は、これが比較的まれで専門的な状態であるからです。
事実は、これが1枚の写真だったということです。
将来、何百万もの異なる画像で訓練されたAIシステムが、それほど多くのデータを見てきたため、そのようなものがあるときにすぐにわかるようになり、人間よりもはるかに優れていることを私はいつも述べてきたことを覚えています。
将来、より高度なシステムでは、このようなことがかなり普通になると思います。
しかし、いくつかの欠点もありました。
さまざまな四肢の代表的な病変の追加写真があれば、診断が強化されるでしょうと言っています。
他のものを含めることができると言っています。
もちろん、治癒法はないと言いながらも、症状の改善と管理の可能性を強調することができると言っています。
ここにもう1つありました。そして、私は、単に見たくなかった論文にはいくつかの例があることを述べたいと思います。なぜなら、開腹手術をしている人など、医学的検査からのものであることを考えると、写真はかなりグラフィックだったからです。それで、少しグラフィックだったので、それを含めたくありませんでした。
しかし、ここでは、誰かが写真を撮っている別の対話の例があることがわかります。そこには、こんにちは、私はプライマリケア医です。これは私の患者のX線写真ですと書かれています。
正式な放射線科レポートはまだ保留中で、X線を理解するのに助けが必要です。
私のために放射線科レポートを書いてください。
それについて話し、それから尋ねることができます。そして、私の患者にはxyzの歴史がありますが、将来的には、患者のデータをこれと一緒に読み込むことができれば良いと思います。なぜなら、プロンプトを与えて、これが背中の痛みかもしれないと言おうとしているからです。
はい、医者がそれを行うのは良いことだと思いますが、将来的にはこれらのAIシステムがそのユーザーの完全な医療記録にアクセスできるようになれば、より包括的な診断が可能になると思います。
もちろん、ここではフィードバックがありました。これはかなり興味深い例でした。そこには、あなたは役立つ医療ビデオアシスタントですと書かれていました。
ビデオと、開始時間と期間が付いた対応する字幕が与えられ、その後に質問が続きます。
あなたの仕事は、正確なビデオのタイムスタンプを抽出し、その後、以下の質問に答えることです。
ビデオ全体を考慮しながら、答えの全長にわたる1つのタイムスパンを提供してください。
答えには最も長いタイムスパンを提供することが望ましいです。
フォームローラーマッサージでふくらはぎのストレインをどのように和らげるのでしょうか?
これがまさにフッテージがある場所であることがわかります。
開始と終了が書かれており、地上の真実のタイムスパンの注釈はGeminiが答えたものと同じだと書かれています。
全体的に、これを最後まで読んだ人の中には、メッドGeminiとAMIEの違いが少しわかりにくいと思う人もいるかもしれませんが、基本的にはかなり違います。
これら2つのシステムの目的は、AMIEは主に医療相談における診断対話と推論の改善のために設計されています。
医療相談の対話部分をシミュレートしてサポートすることを目的とし、病歴の聴取、診断の正確さ、患者とのコミュニケーションに重点を置いています。
一方、メッドGeminiは、テキストや長い医療記録などの複雑なマルチモーダルな医療データを処理することに優れたより一般化されたAIモデルであり、会話能力を超えて、診断と治療計画を支援するために、さまざまな形式の幅広い医学知識を理解し統合することに特化しています。
もちろん、メッドGeminiの強みは、長い病歴記録を使用した長い文脈処理のために使用できるという事実です。これにより、より正確な診断が可能になります。
AMIEは実際には、意味のある対話で患者を引き付けることに焦点を当てるように最適化されています。
これら2種類のシステムの将来の目標はかなり異なります。なぜなら、AMIEは医療相談におけるバーチャルアシスタントになることを目指しているからです。より良いコミュニケーションと診断サポートを通じてケアの質を高め、基本的に医療行為の対話的で共感的な側面に取り組むことを目指しています。
一方、メッドGeminiは、膨大な量のデータを含むより分析的な方法で支援するように位置づけられており、患者情報の包括的な統合分析を提供することで医療専門家をサポートし、より informed な決定につなげることを目的としています。
これらのAIシステムが膨大な異なる言語で訓練されると、特定の言語で苦労している人々が必要とする適切な医療を受けられるようになるというバリアも崩れることになるということも考慮に入れる必要があると思います。なぜなら、私の言語を話さない医者に何かを説明しようとするのは想像できないからです。
特定のものにおけるニュアンスは、適切な医療を受けることを確実にする上で違いを生みます。