見出し画像

いつになったらChatGPTは病歴要約を自動で作ってくれるのか? 入院後経過と考察編

※ 最新バージョン (2023/8) の ChatGPT-4 とpluginsで「ほぼ全自動」の病歴要約作ってみました。興味がある方はこちらどうぞ。



0. はじめに 

0.1 この記事について

この記事はAIを使って文章作成を高率化することを目的としています。
文章作成の時間を削減し, 余った時間を参考文献を読むなど有意義な時間に有効活用出来ればと思います。

このような方におすすめ
・AIを使った考察系の文章に興味がある。
品質は問わない, 下書きlevelでいいから作って欲しい。
おすすめしない
high qualityなものを自動で作りたい。

0.2 背景

前回の記事で解説しました通り, ChatGPTの能力は基本的に要約であって, 人工知能と名前がついていますが, いわゆる考える能力はなく, 考察作成は不向きです。多くの方が示しますように現時点での考察の精度は低く, こちらから詳細な条件 (プロンプト) を指示しない限りまともなサマリーを返してくれません。

あまり期待してませんが, 今回はJOSLER【入院後経過と考察】, 【総合考察】の形式の作成をtryしてみます。プロンプトが詳細, 膨大化することが予想されます。準備の手間がかかるので自動化からは程遠いと思われます…

※患者情報の取り扱い
chat履歴 offで作業することが推奨されます。

1. 課題点

ChatGTP自身に「病歴要約を作成する上での課題」を聞いたところ, 以下の 4点が返ってきました。

1.  知識の更新制約:最新の研究結果や治療法、ガイドラインについては知識がありません。これは医療分野で特に問題となり得る点です。
2. 深い理解と考察の欠如:AIは現状では人間のような深い理解や考察を持つことはできません。AIはあくまで大量のデータからパターンを学習し、それに基づいて予測や生成を行います。そのため、特定の病態や臨床状況に対する深い洞察や独自の考察を提供することはできません
3. 患者のプライバシーとデータセキュリティ: 医療情報は個人を特定でき, 非常にセンシティブな情報です。
4. 誤情報のリスク: AIはトレーニングデータに基づいて情報を生成するため, 誤った情報や偽の情報を生成する可能性があります。また、実在しない論文や研究を引用することもあり得ます。

これらのうちで病歴要約を作成する上で最も致命的なのが, 嘘の情報を返すことと考察の能力がないことです…

1.1 嘘の情報, 架空論文提示問題

よく「ChatGPTは嘘つき」「嘘の論文を提示してくる」などの声をききます。

病歴要約で必要な機能は「早期から医療ソーシャルワーカーなどと情報の共有化を図ることが重要である.[川越 雅弘 海外社会保障研究 Spring 2008;162:4]」のように引用文献を[雑誌名; 巻:ページ]の形式で提示し文章を作成してもらうことです。このような文章を出力するためには, 要約, 文章作成, 文献引用の機能が備わったAIでなければ作成不可です。文献検索に絞ったAIの特徴を以下にまとめます。
① ChatGPT
② Google Bard
③ Perplexity AI

唯一 激烈バカの作者を正確に返答する事ができたPerplexity AI

① ChatGPT

事前学習した, 大量のテキストの中に架空の論文, 質の低い論文があり, それらが信憑性が高い文献かどうかを判断する能力がありません。
メリット:文章作成能力が高い (病歴要約向き)
デメリット:嘘論文を提示する。Pubmedを参照することができない.

② Perplexity AI

信憑性が高い文献を引用元を提示してくれると話題のPerplexity AIです
メリット:嘘論文は提示しない 最新の情報 引用つき Pubmedを参照できる 
デメリット:文章作成能力は低い  日本語では精度が落ちる 

無難な文献を返してきますので, 条件を詳しく入力することが必要です。

③ Google Bard
最近, 話題になっていますが, google 検索を会話形式で行う検索エンジン的な位置づけです。

結論: 厳しい 手動でお願いします。

1.2 考察能力がない問題

そもそもChatGPTに考察する能力があるかについて,ですが前回のAIによるグラフ作成理論で解説しましたが, 基本的にChatGTPは自然言語でやりとりして, あたかも考えて回答しているように見えますが, 原則, 過去にトレーニングした膨大な資料から「確率, 統計的手法でそれらしい答えを返答している」だけです。というわけで基本的に考察能力はないと思われます。

さらに考察能力がない理由について本人 (GPT) に語ってもらいました。

GPT「AIは大量のデータからパターンを学習し, それに基づいて予測や生成を行う能力がありますが, 人間のように深い理解を持つことは現状ではできません。これは, 「理解」という概念が, 単に情報を処理しパターンを学習すること以上のものを含むからです。たとえば、人間の医師は, 患者の症状, 生活習慣, 体調変化などの情報に基づいて,  病態の進行を理解し, その背後にある可能性のある原因を考察します。それに対し, AIは訓練データに基づいて予測を行うだけであり, それ以上の理解や考察をする能力はありません。」

要は, AIは「理解」「考察」も行う能力がないとのことです。

間違った情報で学習, 記憶して, 理解, 考察が伴わないので 間違った情報をそのまま返すということですね。要は記憶力にステータスを全振りしてしまったわけですね。

さらに自己分析が進みます。

GPT「文脈の理解: AIは訓練データに基づいて情報を生成するため, その文脈やニュアンスを完全に理解することが難しいです。たとえば、ある症状が他の症状と連動しているか, あるいは特定の生活習慣が症状に影響を及ぼしている可能性があるかなど, 患者の全体像を把握し、全ての情報を繋げて理解することはAIには難しいです。
独自の考察: AIは基本的に学習した情報を再現するだけで, 新たな洞察や独自の考察を提供する能力はありません。医療専門家は, 複雑な臨床状況を解釈し, これまでの経験や知識に基づいて独自の解釈や見解を提供します。しかし, AIはこのような深い考察を行う能力を持ちません。」

現病歴を「入院するまでの経過について述べてください。」と何回いってもできなかった理由が分かった気がします。
事前学習でそういうやり取りがなかったからではないでしょうか…

まとめるとGPTは 文章を理解する能力も考察する能力もないということです…

2. 方法について考察

という訳で 考察する能力がない相手に考察をしてもらう という試みが始まります。

GPT「入力された情報に基づいてテキストを生成しますが, その背後にある複雑な医療的な考察を行う能力はありません。したがって病歴要約を作成する際には, 具体的な情報と指示をAIに提供する必要があります。これには患者の具体的な情報, 病状の経過, 治療の結果などが含まれます。」

要は1から10まで細かく指示するということですね。


まずはJOSLERの公式sample良い例を何個か食べさせて, ChatGPTが【入院後経過と考察】の文章の構造をどのように認識しているか確かめました。
平均化すると, 下のような感じです。

GPT:この文章は以下の構成を持っています。
1. 症状と診断:患者が〇〇の症状で入院し, 〇〇と診断されました。
2. 治療 :〇〇に対し〇〇の治療をしました。
3. 治療中の問題とその対処:〇〇が発生し〇〇しました。
4. 治療結果:経過良好です。
5. 退院:退院しました。

ChatGPTが認識している【入院後経過と考察】のザックリとした構成

という訳でChatGPTが困らないよう分かりやすい, 具体的な構成。かつ, JOSLERで減点対象にならないような universalな形式で構成 (プロンプト)を考えてみました。
一度に大量の指示をすると混乱するので 【入院後経過と考察】をさらに診断治療に分割しました。

3. 作成

3.1 診断part

繰り返しになりますが, 1から10まで指示しないと確率的手法で毎回GPT側が補間しますので病歴要約のようなあるていど決まった形式がある文章の作成は不適です。tightなプロンプトである必要と文献提示は必要です…

手動で入力が必要な項目は:確定診断名, 診断基準が示されているガイドライン, Reviewなど出典もと, 診断基準の合致項目 の3点です。
なかっても適当に作ってくれますが…

↓診断 プロンプトです 例:成人スティル病

user側の提示情報 
確定診断名:成人スティル病 ASD
診断基準:山口の分類基準
診断基準の合致項目:大項目(発熱, 関節痛, 定型的な皮疹), 小項目(肝機能障害, リウマトイド因子陰性と抗核抗体陰性)

user側の提示情報を参照し以下の文章を出力してください。出力文のみ提示してください。
他の説明は一切不要です。出力文の例を下に示しますが実際の出力は■を表示する必要はなく
以下の条件に従い■を文章で置き換えてください。 ●の部分はuser情報に記述があれば置き換えて, 
なければ●のまま出力して下さい。

条件: 
■1:「●1(■r)の●2を満たした。」
●1にはuserの情報の診断基準のガイドライン名を日本語で入力してください。userの記載がなければ
webを検索して確定診断名のガイドライン名を入力して下さい。
●2はuserが提示した「診断基準の合致項目」に変換して下さい。
ガイドラインについて複数候補がある場合は [雑誌名; 巻:ページ]が具体的に明示されたガイドラインを
選択。
■rにはガイドライン, 論文の出典元を[雑誌名; 巻:ページ]で表示して下さい。
■2 「●3の鑑別疾患として●4, ●5, ●6が挙げられる。」
●3は確定診断名。除外項目における, 除外するべき他の疾患(mimicker), 鑑別診断名をガイドライン, 
webの文献を参照して3疾患挙げて●4, ●5, ●6に入力して下さい。疾患群が共通する場合は1つまで。
例えばSLE, RA, 皮膚筋炎であればいずれも膠原病という疾患群のためSLEのみ。胃癌, 大腸癌, は
悪性腫瘍としてひとつにカウント。細菌感染症はひとまとめ。
■3 「●4に見られるような●7を認めなかった。また, ●8, ●9を認めずこれらの鑑別疾患を否定した」と
してください。
 ■3には■2で挙げた鑑別診断●4, ●5, ●6を否定する医学的根拠を示します。すなわち●7には疾患●4に
見られる特徴, (症状, 身体所見, 検査異常)●8には●5, ●9には●6の。例えば細菌感染症を示唆する所見は
, CT画像検査や血液培養などの各種細菌学的検査で。 内分泌疾患 (下垂体, 甲状腺, 副腎機能):血液
ホルモン値, 負荷試験。 悪性腫瘍:画像検査, 内視鏡検査。などです userの入力情報がないことは
明記しないでください。 これらの医学的根拠はWebから参照してください。
 ■rには参考文献 [雑誌名; 巻:ページ]の形で ガイドラインであれば省略 
■5 「以上より●と診断した。」確定診断名を引用 出力:「■1。■2。■3。■4。」


PTEで試した診断part

それなりの日本語で再現性が高いです。 60点

3.2 治療part

治療経過で必須入力項目は:治療経過 論文 (自分で見つけてくる必要あり) 考察の原案です

DLBCL 公式サンプルを参考に

↓治療 プロンプト

user側の提示情報 

確定診断名:びまん性大細胞型B細胞リンパ腫DLBCL
治療1(確定診断名に対して): 9/21 1コース目 RCHOP.施行後12日 FN発症 セフェピム 
フィルグラスチム投与。10/11 2コース目 
治療ガイドライン, 根拠となる論文:American Society of Clinical Oncologyのガイドライン
考察: 悪性リンパ腫患者へのG-CSFの一次予防的投与は,65歳以上で特に合併症のある場合にのみ
考慮されるべき(Smith TJ. J Clin Oncol 2015;33:3199),今回はしてない 次回考慮


user側の提示情報を参照し以下の文章を出力してください。出力文のみ提示してください。
他の説明は一切不要です。出力文の例を下に示しますが実際の出力は■を表示する必要はなく以下の条件に
従い■を文章で置き換えてください。 ●の部分はuser情報に記述があれば置き換えて, なければ●のまま
出力して下さい。すべて医学用語で。略語は初めは元のかたちに変換してください。2回目以降は略語に
してください。例えば GEM→ゲムシタビン(gemcitabine:以下GEM)と変換して 2回目以降は「GEM」と表記。
ABVD→ドキソルビシン, ブレオマイシン, ビンブラスチン, ダカルバジン療法(以下ABVD療法)。
2回目以降 ABVD療法。

条件
■1(主病名に対する治療の記述):●月●日より▲を開始した。最後の治療の記述の後に「その後症状は改善傾向と
なった。」を付け加えてください
▲は治療1で置き換えてください
■2(一般的な治療との比較):ガイドラインはuser側の提示情報を参照してください。なければwebを検索して
下さい。複数ある場合は [雑誌名; 巻:ページ]が具体的に明示されたガイドラインを選択してください。
ガイドラインがあれば, 「●本ガイドライン■rによれば●が推奨されており, 本例では●を選択した。」
ガイドラインで推奨されている治療法と本疾患で行った治療を記述して下さい。
ガイドラインがなければ, 「●の治療に統一的な見解はないが, ●を行うことが一般的である■r」参考文献を
必ず引用。user治療の根拠を支持する文献から引用。Userの記述がなければwebを検索。なければ
 [●雑誌名:巻:ページ●]でそのまま表示。
■3(そのほかの治療) あれば:「また●に対して●を行った。」のような形で治療2を記述して下さい。
なければ省略。
■4その他の考察:user側の考察をまとめてください
 ■rには参考文献 [雑誌名; 巻:ページ]の形で ガイドラインであれば省略 

出力:「■1。■2。■3。■4。」


DLBCL 治療出力文


CRBSI入力
CRBSI出力文

まあまあの文章が出力されました。 70点 

文章のqualityは低いですが, 再現性は高いです。

4. 結論

自動化は

非常に厳しい


ですが。

・下書きするのも面倒と考えると ありかも といったところです。 

今後に期待です。