見出し画像

Detecting changes in the performance of a clinical machine learning tool over time

https://www.sciencedirect.com/science/article/pii/S2352396423003894

  1. 本研究の学術的背景と核心となる学術的「問い」は、緊急医療部門(EDs)での血液培養(BCs)の過度な利用と、その結果としての低い陽性率、高い汚染率、抗生物質の過度な使用、不必要な診断などに関連する問題に対して、血液培養の結果を予測し診断の効率化を図る機械学習モデルの開発・検証が過去に行われたことです。しかし、患者の人口統計学的変動、臨床慣行、結果率の変化による性能の変動(パフォーマンスドリフト)が懸念されるため、そのようなモデルの継続的な監視と評価がどのように行われるべきかという問いを設定しています。

  2. 本研究の目的は、機械学習モデルのパフォーマンスドリフトを統計的プロセス管理(SPC)の手法を用いて監視し、評価することです。学術的独自性と創造性は、機械学習モデルの実際の臨床応用におけるパフォーマンスの変動を定量的にモニタリングし、その経過を評価する統計的手法を開発し適用している点にあります。

  3. 本研究の発端は、病院での血液培養の過度な利用という問題に対する解決策として、過去に機械学習モデルが開発された点から来ています。しかし、患者の人口統計学的特徴や臨床慣行が変化する中で、そのモデルの性能が変動する可能性があるため、そのモデルのパフォーマンスをどのように一貫して監視して評価するかという新たな課題が生じており、本研究がその課題に取り組んだ形になります。

  4. 本研究では、2021年10月から2022年9月までの期間中に、3,035名の患者に対する血液培養の結果を予測するための機械学習モデルを実戦投入しました。具体的な性能指標としてROC曲線下面積(AUC)、適合度再現度曲線下面積(AUPRC)、ブライヤーのスコアを計測し、統計的プロセス制御チャートを用いてその変動をモニタリングしました。その結果、患者人口の特性が時間と共に変動しても、これらの指標には統計的に制御範囲外の点が検出されず、つまりモデルの性能が安定していたことを確認しました。

  5. モデルの妥当性は、統計的プロセス制御の手法を用いて、時間と共に変化する可能性のあるモデルの性能(パフォーマンスドリフト)を継続的に監視・評価することで確認しました。

この記事が気に入ったらサポートをしてみませんか?