見出し画像

心エコーAIの最新情報 2024

今回は、気軽に読んで欲しい循環器疾患の医療AI研究についてです。
気軽に読んで欲しいことを念頭にしていますので、ノリは軽く、少しラフに書いています。
現在、米国ロサンゼルスにある循環器AIラボに留学しています。

https://twitter.com/Yuki_Sahashi

この記事で学べることは
・なんで心エコー検査AIは必要なのか
・最近の動向
・前向き試験が必要そうだよ
・今後の展望
・これ読んどくのおすすめっていうReference

でしょうか。

酒飲みながら書いているんで、みなさんも飲みながら読んでください。

- 論文のFigureなどは著作権に触れるのでコピペとかしてないです


はじめに

今回は心エコー検査のAIについて話します。ちなみに筆者は不整脈専門医で、心エコー検査は素人です。

心エコー図検査って、診断・予後の推定・パラメータ(LVEF・壁厚・拡張能の評価等)に用いられるし、治療効果の推定にも使用され、循環器疾患診断には
不可欠ですよね。心エコー図検査は、手軽に画像情報の取得が可能ですし、非侵襲的だしCTや冠動脈造影のように被爆しないんで、心血管画像診断の中心として日常的に行われるんですよ。

心エコー検査は心電図・レントゲンと並んで
循環器疾患の三種の神器と呼ばれているかもしれません。


昨今、大規模言語モデルや画像解析・生成を中心とした人工知能技術は、我々の日常生活にも浸透しています。みんな使ってますよね。

現在、すでに医療機器市場には人工知能アシストの心エコー機器が上市され、一般的に使用可能となっていますし、人工知能搭載心エコーの臨床上の有用性評価を行う比較試験も実施されています(後述)。

てか、なぜ心エコー検査に人工知能は必要とされるの

2010年半ばから後半にかけて人工知能領域の研究が大きく発展し、それに伴った形で、心エコー図領域でも機械学習を用いた研究が幅広く行われるようになりました。

心エコー動画は、ピクセルの集合体からなる空間的な画像集合であり、疾患の分類や回帰タスクを行うためには、画像データを読み込んで計算を行ったのちに、ニューラルネットワーク内の数百万単位の重みとバイアスを更新することが求められます。
動画の場合、単純な1枚の画像データの学習よりも多くの計算コスト・時間を要する。アーキテクチャには、主に畳み込みニューラルネットワーク(CNN)を用いており、Viewの自動分類や壁運動の異常検出・左室収縮能の自動測定や拡張能の推定、弁膜症やHFpEFの診断に応用する研究が数多く報告されてます。(Ouyang et al. 2020; Duffy et al. 2022; Wehbe et al. 2023; Kagiyama et al 2020, Kusunose et al 2020)

これらの研究では、後方視的に集めた内部データから学習し、別コホートで集めた患者群(テストデータ)でも、正しく予測や回帰を行うことができるかを検討する研究が多い です。

後方視的にできそうなことはわかったんすけど、こうした研究って
長期的な視点で見るとどのような価値があり、何を目指しているんでしょう


主語が大きめなんよ

1. 人間による診断は,いつも主観的なんよ

第一に、人間による診断は主観的であり、数多くのバイアスが適切な診断を困難にし、患者の予後にも影響を及ぼす可能性があります。(Ly, Shekelle, and Song 2023), (Olenski et al. 2020)) (ちなみにこの2本の論文はエコー関係ないですが、おもろいんで読んでください)


心エコーの臨床プラクティスでも、同様のBehavior heuristics は存在し、例えばLVEFの報告値はしばしば5%ずつ報告されます(本来下1桁は0-9まで均等に取るにも関わらず、下一桁が0か5が不自然に多いです)。(Savarese et al. 2023 / B Pillai · 2024) 

あと、心エコー図の解釈は検査者に依存してて、疾患の推定や測定誤差には大きなばらつきがあることも報告されています。(初心者と熟練ではLVEFの誤差が大きいこともしばしばですよね)
ガイドラインだと、複数の断面をトレーシングし、左室収縮能を測定することが求められているにも関わらず、救急外来などの時間の限られた場面では、視覚的(Eyeball evaluation)に収縮能の推定を行うこともしばしばですよね。

では、このような主観的評価による差とか術者の経験の差って、治療内容や予後に影響を及ぼすのでしょうか? 

例えば、ある前向き研究では、LVEFのtest-retest評価を行うと、mean average error (MAE)は 平均6.2%あると報告されてます(He et al. 2023) 現代の循環器診療では、ICDやMitraclipなどの手技では明確にLVEFの値によって適応が決められるし、心不全の病型分類もLVEFの数値によって細かく決められるんで、治療方針にも大きく影響を及ぼすじゃないですか?

”診断の正確さ”は、施行者の経験に依存し、それらは適切な評価に影響を及ぼす事が考えられることから、可能な限りバイアスや誤差を低減する試みを導入する必要があるんですよね

これが、心エコー検査AIに求められている最も大きなモチベーションの一つです。つまり、人間による測定に加えて、機械による自動測定・診断補助を行うことは、臨床的かつ効率面から期待されているんですね~。

2. 心エコー検査って時間かかるし、件数多すぎなんよ

一般的には1件あたり15-30分前後と思いますが、手作業でのトレーシングやレポートを記載する時間も含まれます。私もたまにやっていましたが、大変なんですよね。あと、よく非心臓手術前にルーチンの心エコー検査が必要なのか、と話題や論文になります。(原則ルーチンは必要ないです)そんなようにとにかく心エコー検査をやって”安心したい”みたいな風潮は正直あります。
あと現在は、TAVI, MitraClip, Impella, LVADなど手技が高度化したんで、必要となるパラメータの測定が多くなって時間がかかることもしばしばです。

現在の心エコー検査機器には、パラメータの自動測定・自動トレーシング機能が搭載されており、これらの技術の活用や、自動レポーティングシステムの構築により検査時間・検査の負担をより軽減できますが、まだ完全なものではないでしょう。

普通に教えますけどね

これからの心エコーAI研究


1. 超巨大化するサンプルサイズ

最近トップジャーナルに乗っているような心エコー検査研究、平気でn=60000の患者データとかあります。(Lau 2023) これが実現できるかどうかは、話が長くなるのでやめます(聞きたい人いたらいいね押してください)

多分n=1000000とか出ます。(プレプリントですでにあるので確実です)
たくさんのデータ突っ込むと精度があがることは、よく生成AI関連ではScaling Law(スケール則)と言われます(厳密な定義は別ですので)が、これはこの界隈(心エコー検査)でもあります。

つまりnが巨大だと推定誤差が減るってことです。
わかりやすくいうと、LVEFをきちんと評価できることに繋がりそう ということです。

日本でもn=500000とかやりたいですね!!!

2.前向き試験をやりましょー


ここ真面目なんでビールおいて読んでください。

これまでに行われてきた深層学習を利用した心エコー研究って、過去数年~数十年で取得されたデータを用いてモデルを作成して、その検証を別コホートから後向きもしくは前向きに取得したテストセットで行われいて。

従来の方法は、データセットで学習したパラメータ・モデルの性能を、テストデータを用いて検証するには有効な方法であるが、”日常診療における有効性”を確認するには十分じゃないんですよね

少し具体的に言うと、
”僧帽弁閉鎖不全症の重症度を自動評価するAI(例)ができたとして、実際の臨床現場でどう生かされて何が改善するかっていうのはAI開発とはまた別の枠組みだよ”ということです。

ただ現在までに前向き試験は複数の試験しか行われていないんですよね。(He et al. 2023; Narang et al. 2021; Woodward et al. 2023)
ちなみに、前向き試験で評価する主要評価項目は、開発されたプログラムや目的ごとに設定されます。AIの主要評価項目は、”疾患の推定(AUC)とかなんかの誤差(MAE)”とかが多いっすけど、臨床現場だと技師の負担がどれだけ減ったとか、新しくどれだけ疾患を探索できたかとかです。

具体例として、10,000件以上のデータセットで訓練されたLVEFの自動測定を行うAIモデルでは、評価指標は実際のLVEFと、AIにより予測されたLVEFの誤差(mean average error)としてて、その差を少なくするように損失関数を設定されてます。このデータセットで学習したモデルが、日常診療において有用かどうかは、前向きの盲検化比較試験で検討されてます。(Ouyang et al. 2020; He et al. 2023)

AIモデルによる予測が人間(超音波技師)によるトレーシングよりも早いこと、gold standardとの誤差が少ないことを報告してます。
検査時間の短縮と、LVEFの推定の誤差が低減し、正確に推定できることは、明らかに臨床上有用じゃん?
このようにモデルそのものの性能・一般化可能性と、臨床上の有用性は別に評価する必要がある。

その他にもあって、適切な撮像画面(View)の描出を提案するモデルでは、数名の初心者に対して人工知能モデルを搭載したデバイスを使用することにより、数時間のトレーニングを行うのみで心エコー図検査を適切に行うことができたと報告してます。(Narang et al. 2021) 

その他にも、英国のチームからは運動負荷心エコー中の心エコーデータから、壁運動異常や冠動脈疾患の検出を行うモデルが2022年に開発されてます。(Upton et al. 2022) それで同じチームから、臨床上の有用性を確認するために本モデルを利用した無作為化比較試験が計画されてます。(Woodward et al. 2023) 
昨今、米国や英国の一部の研究チームでは、このように深層学習補助下の心エコー図研究の臨床的有用性を、前向きに評価する流れが加速しています。

ただこの界隈、研究のバックには企業がついていることが多く、資金力との競争な感じも少しします。


心エコーでも来そうだよ

生成AIと心エコー


循環器内科の日常診療は、いわばマルチモーダルです。

具体的にいうと、患者から直接収集する情報や過去の診療記録(テキストデータ)、聴診所見(これはデータとしての取得が、一般的には難しい)、採血検査や体重などの生理的データ、数多くの循環器画像データ(レントゲン、心電図、心エコー図、心臓MRI、心臓CT、PET、病理組織、カテーテル検査)とそれに付随するレポート(テキストデータをもとに診断や予後、治療方針を決めるじゃないですか。
最近、あるプレプリントに報告された研究では100万件以上の心エコー検査とそのレポートのテキストデータを利用したマルチモーダルAIを開発し、左室収縮能の自動推定のみならず心エコー検査レポートの自動作成などを可能にしている。(Christensen et al. 2023) さらに興味深いことに、出力の説明可能性も有しており、具体的には、 “大動脈弁はどこですか?”と聞くと、大動脈弁にフォーカスしてアノテーションされる。

完全にAIさん、心エコー理解しとるやんけ とわかるわけです。

まだ現在は、大量のテキストデータと画像を有する大規模なトレーニングコーパスは限られており、今後、適切なデータの集約化が広まれば、複数のモダリティにまたがる汎用モデルの開発が拡大することが期待される。


最後に

主要な循環器雑誌やその姉妹紙、また Nature / Lancet / JAMA やその姉妹紙に掲載される心血管疾患に関する医用画像AI論文に目を通すと以下の特徴があるように感じられる。(Wehbe et al. 2023)

患者数・画像データサイズが極めて増大している。
データのマルチモーダル化(単一種類の画像データだけではなく、同一患者内で複数種類の循環器画像データを使用している。研究によってはカルテ情報や遺伝情報との合同解析がなされている。)
十分な外的妥当性を担保するために、多施設・多国間で外部検証がされている。

私見あるが、この数年間で、心エコー図を含む心血管画像AI研究のデータサイズが巨大化した理由は、複数あると考えている。サンプル数と精度は正の相関関係にあり、データサイズのスケーリング則は心エコー図研究でも証明されている。また別施設での外的妥当性を担保するために、十分なトレーニングサンプル数を必要とする。他には計算機や並列処理技術の進歩もあるだろう。心エコー図データの公的大規模データは、存在しないがUK Biobankに代表される大規模データが公開されていることなどがあげられる。

では、データサイズが巨大化する研究競争において、日本からのエビデンスをどのように発出すればいいのだろうか。データセットの取得と、データを扱う人材に焦点を当てて考察したいと思う。
循環器診療を行う病院では、大量の循環器画像検査(レントゲン・心エコー・カテーテル検査・心臓CT・心臓MRI・心臓PET検査・心電図など)が毎日行われているが、そのデータを、どのように保存しているだろうか?そして、どのように引き出すのだろうか?

どのように日々施行され続ける大量のデータを堅牢かつ自動的に保存し続けるか、また指定したクエリの条件に合致した情報を引き出せるように保存するかが重要なんですよね。

そろそろ書くの疲れてきたんで、いちばん大事なところだけ端折りますが、日本で今後、心エコーAI研究が発展するためには、柔軟なチームビルドが必要になると考えています。

日本の研究機関が多国籍・施設のネットワークに参入するためには、医用画像データを扱うことのできる人材育成(医療従事者・非医療従事者ともに)と先述した大規模データ基盤の構築が必須となると思ってます。


これでおしまいです。

ではまた。
最後まで読んでいただいて、他の希望もあればコメントくださいませ()

参考文献 おすすめなど:


Celi, Leo Anthony, Jacqueline Cellini, Marie-Laure Charpignon, Edward Christopher Dee, Franck Dernoncourt, Rene Eber, William Greig Mitchell, et al. 2022. “Sources of Bias in Artificial Intelligence That Perpetuate Healthcare Disparities-A Global Review.” PLOS Digital Health 1 (3): e0000022.

Christensen, Matthew, Milos Vukadinovic, Neal Yuan, and David Ouyang. 2023. “Multimodal Foundation Models For Echocardiogram Interpretation.” ArXiv E-Prints, August, arXiv:2308.15670.

Duffy, Grant, Paul P. Cheng, Neal Yuan, Bryan He, Alan C. Kwan, Matthew J. Shun-Shin, Kevin M. Alexander, et al. 2022. “High-Throughput Precision Phenotyping of Left Ventricular Hypertrophy With Cardiovascular Deep Learning.” JAMA Cardiology 7 (4): 386–95.

He, Bryan, Alan C. Kwan, Jae Hyung Cho, Neal Yuan, Charles Pollick, Takahiro Shiota, Joseph Ebinger, et al. 2023. “Blinded, Randomized Trial of Sonographer versus AI Cardiac Function Assessment.” Nature 616 (7957): 520–24.
Jabbour, Sarah, David Fouhey, Stephanie Shepard, Thomas S. Valley, Ella A. Kazerooni, Nikola Banovic, Jenna Wiens, and Michael W. Sjoding. 2023. “Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study.” JAMA: The Journal of the American Medical Association 330 (23): 2275–84.

Ly, Dan P., Paul G. Shekelle, and Zirui Song. 2023. “Evidence for Anchoring Bias During Physician Decision-Making.” JAMA Internal Medicine 183 (8): 818–23.
Moor, Michael, Oishi Banerjee, Zahra Shakeri Hossein Abad, Harlan M. Krumholz, Jure Leskovec, Eric J. Topol, and Pranav Rajpurkar. 2023. “Foundation Models for Generalist Medical Artificial Intelligence.” Nature 616 (7956): 259–65.

Narang, Akhil, Richard Bae, Ha Hong, Yngvil Thomas, Samuel Surette, Charles Cadieu, Ali Chaudhry, et al. 2021. “Utility of a Deep-Learning Algorithm to Guide Novices to Acquire Echocardiograms for Limited Diagnostic Use.” JAMA Cardiology 6 (6): 624–32.

Olenski, Andrew R., André Zimerman, Stephen Coussens, and Anupam B. Jena. 2020. “Behavioral Heuristics in Coronary-Artery Bypass Graft Surgery.” The New England Journal of Medicine 382 (8): 778–79.

Kusunose K, Abe T, Haga A, Fukuda D, Yamada H, Harada M, Sata M. A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images. JACC Cardiovasc Imaging. 2020 Feb;13(2 Pt 1):374-381

Ouyang, David, Bryan He, Amirata Ghorbani, Neal Yuan, Joseph Ebinger, Curtis P. Langlotz, Paul A. Heidenreich, et al. 2020. “Video-Based AI for Beat-to-Beat Assessment of Cardiac Function.” Nature 580 (7802): 252–56.

Savarese, Gianluigi, Paolo Gatti, Lina Benson, Marianna Adamo, Ovidiu Chioncel, Maria G. Crespo-Leiro, Stefan D. Anker, et al. 2023. “Left Ventricular Ejection Fraction Digit Bias and Reclassification of Heart Failure with Mildly Reduced vs Reduced Ejection Fraction Based on the 2021 Definition and Classification of Heart Failure.” American Heart Journal 267 (November): 52–61.

Upton, Ross, Angela Mumith, Arian Beqiri, Andrew Parker, William Hawkes, Shan Gao, Mihaela Porumb, et al. 2022. “Automated Echocardiographic Detection of Severe Coronary Artery Disease Using Artificial Intelligence.” JACC. Cardiovascular Imaging 15 (5): 715–27.

Kagiyama N, Shrestha S, Cho JS, Khalil M, Singh Y, Challa A, Casaclang-Verzosa G, Sengupta PP. A low-cost texture-based pipeline for predicting myocardial tissue remodeling and fibrosis using cardiac ultrasound. EBioMedicine. 2020 Apr;54:102726

Wehbe, Ramsey M., Aggelos K. Katsaggleos, Kristian J. Hammond, Ha Hong, Faraz S. Ahmad, David Ouyang, Sanjiv J. Shah, Patrick M. McCarthy, and James D. Thomas. 2023. “Deep Learning for Cardiovascular Imaging: A Review.” JAMA Cardiology, September. https://doi.org/10.1001/jamacardio.2023.3142.

Woodward, Gary, Mamta Bajre, Sanjeev Bhattacharyya, Maria Breen, Virginia Chiocchia, Helen Dawes, Hakim-Moulay Dehbi, et al. 2023. “PROTEUS Study: A Prospective Randomized Controlled Trial Evaluating the Use of Artificial Intelligence in Stress Echocardiography.” American Heart Journal 263 (September): 123–32.

Lau ES, Di Achille P, Kopparapu K, Andrews CT, Singh P, Reeder C, Al-Alusi M, Khurshid S, Haimovich JS, Ellinor PT, Picard MH, Batra P, Lubitz SA, Ho JE. Deep Learning-Enabled Assessment of Left Heart Structure and Function Predicts Cardiovascular Outcomes. J Am Coll Cardiol. 2023 Nov 14;82(20):1936-1948


この記事が気に入ったらサポートをしてみませんか?