Performance of ChatGPT on Ophthalmology-Related Questions Across Various Examination Levels: Observational Study

Ikemen Mas Kot

2024年1月23日 12:33

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

論文タイプ：観察研究
掲載誌：JMIR Medical Education（ジャーナル）
本研究の背景と関連研究：ChatGPTや言語学習モデルは、さまざまな学問領域の試験問題に対する回答能力が注目されています。しかし、ChatGPTが医学教育の一環として利用できるかどうかは、特に眼科領域においてはまだ明らかにされていません。
本研究の目的とその重要性：本研究の目的は、ChatGPT-3.5（GPT-3.5）およびChatGPT-4.0（GPT-4.0）が、眼科学の訓練の異なるレベルにおける眼科学に関連する質問に回答できる能力を評価することです。この研究の重要性は、ChatGPTが医学教育において有用であるかどうかを明らかにすることにあります。
本研究で用いた材料やデータの詳細：アメリカ合衆国医師免許試験（USMLE）のステップ1（44問）、ステップ2（60問）、およびステップ3（28問）からの質問がAMBOSSから抽出され、眼科学の知識評価プログラムと眼科学委員会（OB）の筆記試験（WQE）のために、書籍「Ophthalmology Board Review Q&A」から248問（簡単な質問64問、中程度の質問122問、難しい質問62問）が抽出されました。これらの質問は、GPT-3.5とGPT-4.0に同じように提示され、入力されました。
本研究で何をどのように、どこまで明らかにした？：GPT-3.5は合計で55％（210問）の正解を達成し、一方、GPT-4.0は合計で70％（270問）の正解を達成しました。GPT-3.5は、USMLEステップ1で75％（33問）、USMLEステップ2で73.33％（44問）、USMLEステップ3で60.71％（17問）、OB-WQEで46.77％（116問）の質問に正しく回答しました。一方、GPT-4.0は、USMLEステップ1で70.45％（31問）、USMLEステップ2で90.32％（56問）、USMLEステップ3で96.43％（27問）、OB-WQEで62.90％（156問）の質問に正しく回答しました。GPT-3.5は、試験レベルが上がるにつれて性能が低下しました（P<.001）。一方、GPT-4.0は、USMLEステップ2と3では性能が向上し、USMLEステップ1とOB-WQEでは性能が低下しました（P<.001）。ChatGPTが正しく回答することと人間のユーザーが正しく回答することとの相関係数（r）は、GPT-3.5では0.21（P=.01）、GPT-4.0では-0.31（P<.001）でした。GPT-3.5は難易度レベルに関係なく同様のパフォーマンスを示しましたが、GPT-4.0は難易度レベルが上がるにつれて性能が低下しました。両モデルとも、特定のトピックにおいて他のトピックよりも優れたパフォーマンスを示しました。
本研究の有効性はどのように検証した？：本研究では、ChatGPTが眼科学に関連する質問にどの程度正確に回答できるかを評価しました。具体的には、GPT-3.5とGPT-4.0がUSMLEのステップ1、2、および3、およびOB-WQEの質問に対してどの程度正確に回答できるかを比較しました。また、ChatGPTの回答の正確性と人間のユーザーの回答の正確性との相関係数を計算しました。
効果的なキーワードの提案：#ChatGPT #医学教育 #眼科学 #試験対策

この記事が気に入ったらサポートをしてみませんか？