エビデンスライブラリ
Cross-SecN=106中品質
問診訓練のための言語モデル駆動模擬患者と自動フィードバック
A Language Model-Powered Simulated Patient With Automated Feedback for History Taking
Holderried F, et al. — JMIR Medical Education, 2024
GPT-4模擬患者の応答は99%以上が医学的に妥当。人間評価者との一致度κ=0.832
対象集団医学部3年生106名サンプルサイズN=106
エビデンスの限界
ドイツの単一大学(テュービンゲン大学)の医学部3年生のみを対象としており、他の学年・他大学・他国への一般化は未検証。45のフィードバックカテゴリのうち8つではκ<0.6と一致度が低く、特に過度に具体的なフィードバックでAIと人間の評価が乖離するケースが確認されている。またGPT-4のバージョン更新による再現性への影響は不明
読者の方へ
テュービンゲン大学で106名の医学部3年生を対象に、GPT-4を模擬患者兼フィードバック生成器として使った前向き研究です。
