エビデンスライブラリ
Case中品質
AgentClinic:模擬臨床環境でAIを評価するマルチモーダルベンチマーク
AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments
Schmidgall S, et al. — arXiv preprint, 2024
LLMを医師役として臨床シミュレーションに配置。診断精度が1/10以下に急落
対象集団MedQA・MIMIC-IV・NEJM Case Challenge由来の臨床症例
エビデンスの限界
査読前のプレプリント(arXiv)であり、第三者による独立検証がまだ行われていない。シミュレーション環境は実臨床の複雑さ(身体所見、画像、非言語コミュニケーション等)を完全には再現できず、結果の外的妥当性に限界がある。また模擬患者もLLMが演じているため、人間患者との応答の質的な違いが結果に影響している可能性がある
読者の方へ
AgentClinicは、AIに「医師役」をやらせて模擬患者と対話させ、検査を指示し、最終診断にたどり着くまでの全プロセスをシミュレーションした画期的な研究です。
エビデンス品質:中品質原文を読む →
