Case中品質

AgentClinic：模擬臨床環境でAIを評価するマルチモーダルベンチマーク

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

Schmidgall S, et al. — arXiv preprint, 2024

LLMを医師役として臨床シミュレーションに配置。診断精度が1/10以下に急落

対象集団MedQA・MIMIC-IV・NEJM Case Challenge由来の臨床症例

エビデンスの限界

査読前のプレプリント（arXiv）であり、第三者による独立検証がまだ行われていない。シミュレーション環境は実臨床の複雑さ（身体所見、画像、非言語コミュニケーション等）を完全には再現できず、結果の外的妥当性に限界がある。また模擬患者もLLMが演じているため、人間患者との応答の質的な違いが結果に影響している可能性がある

読者の方へ

AgentClinicは、AIに「医師役」をやらせて模擬患者と対話させ、検査を指示し、最終診断にたどり着くまでの全プロセスをシミュレーションした画期的な研究です。

エビデンス品質：中品質原文を読む →

この研究を解説した記事

未来の医療

AgentClinic：模擬臨床環境でAIを評価するマルチモーダルベンチマーク

エビデンスの限界

読者の方へ

この研究を解説した記事

医療とAI——「ChatGPTに診てもらう」時代は本当に来るのか