本文へスキップ
医学よろず相談
エビデンスライブラリ
Case中品質

AgentClinic:模擬臨床環境でAIを評価するマルチモーダルベンチマーク

AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments

Schmidgall S, et al.arXiv preprint, 2024

LLMを医師役として臨床シミュレーションに配置。診断精度が1/10以下に急落

対象集団MedQA・MIMIC-IV・NEJM Case Challenge由来の臨床症例

エビデンスの限界

査読前のプレプリント(arXiv)であり、第三者による独立検証がまだ行われていない。シミュレーション環境は実臨床の複雑さ(身体所見、画像、非言語コミュニケーション等)を完全には再現できず、結果の外的妥当性に限界がある。また模擬患者もLLMが演じているため、人間患者との応答の質的な違いが結果に影響している可能性がある

読者の方へ

AgentClinicは、AIに「医師役」をやらせて模擬患者と対話させ、検査を指示し、最終診断にたどり着くまでの全プロセスをシミュレーションした画期的な研究です。

エビデンス品質:中品質原文を読む →

この研究を解説した記事

免責事項:本サイトの情報は医療行為(診断・処方・治療)を提供するものではありません。健康上の判断は必ず医師にご相談ください。