エビデンスライブラリ
Cross-SecN=16,254高品質
大規模言語モデルのパフォーマンスと臨床推論タスク
Large Language Model Performance and Clinical Reasoning Tasks
Rao AS, et al. — JAMA Network Open, 2026
GPT-5含む21モデルを評価。鑑別診断の失敗率が全モデルで0.80超
対象集団21のLLM、29臨床ビネット、計16,254回答サンプルサイズN=16,254
エビデンスの限界
標準化された29の臨床ビネット(模擬症例)での評価であり、実際の外来の多様性・複雑性を完全には反映していない。また臨床推論の各段階を独立に評価しているが、実臨床ではこれらは連続的・同時並行的に行われるため、段階ごとの評価が総合的な診療能力を正確に測定できているかは不明
読者の方へ
ハーバード大学の研究チームが、GPT-5やClaude 4.5 Opusなど最新の21モデルを、臨床推論の各段階(情報収集→鑑別診断→検査指示→最終診断→治療方針)でテストした大規模研究です。
