Cross-SecN=16,254高品質

大規模言語モデルのパフォーマンスと臨床推論タスク

Large Language Model Performance and Clinical Reasoning Tasks

Rao AS, et al. — JAMA Network Open, 2026

GPT-5含む21モデルを評価。鑑別診断の失敗率が全モデルで0.80超

対象集団21のLLM、29臨床ビネット、計16,254回答サンプルサイズN=16,254

標準化された29の臨床ビネット（模擬症例）での評価であり、実際の外来の多様性・複雑性を完全には反映していない。また臨床推論の各段階を独立に評価しているが、実臨床ではこれらは連続的・同時並行的に行われるため、段階ごとの評価が総合的な診療能力を正確に測定できているかは不明

ハーバード大学の研究チームが、GPT-5やClaude 4.5 Opusなど最新の21モデルを、臨床推論の各段階（情報収集→鑑別診断→検査指示→最終診断→治療方針）でテストした大規模研究です。

エビデンス品質：高品質原文を読む →PubMed

この研究を解説した記事