Cross-SecN=106中品質

問診訓練のための言語モデル駆動模擬患者と自動フィードバック

A Language Model-Powered Simulated Patient With Automated Feedback for History Taking

Holderried F, et al. — JMIR Medical Education, 2024

GPT-4模擬患者の応答は99%以上が医学的に妥当。人間評価者との一致度κ=0.832

対象集団医学部3年生106名サンプルサイズN=106

エビデンスの限界

ドイツの単一大学（テュービンゲン大学）の医学部3年生のみを対象としており、他の学年・他大学・他国への一般化は未検証。45のフィードバックカテゴリのうち8つではκ<0.6と一致度が低く、特に過度に具体的なフィードバックでAIと人間の評価が乖離するケースが確認されている。またGPT-4のバージョン更新による再現性への影響は不明

読者の方へ

テュービンゲン大学で106名の医学部3年生を対象に、GPT-4を模擬患者兼フィードバック生成器として使った前向き研究です。

エビデンス品質：中品質原文を読む →PubMed

この研究を解説した記事

未来の医療

問診訓練のための言語モデル駆動模擬患者と自動フィードバック

エビデンスの限界

読者の方へ

この研究を解説した記事

医療とAI——「ChatGPTに診てもらう」時代は本当に来るのか