本文へスキップ
医学よろず相談
エビデンスライブラリ
Cross-SecN=16,254高品質

大規模言語モデルのパフォーマンスと臨床推論タスク

Large Language Model Performance and Clinical Reasoning Tasks

Rao AS, et al.JAMA Network Open, 2026

GPT-5含む21モデルを評価。鑑別診断の失敗率が全モデルで0.80超

対象集団21のLLM、29臨床ビネット、計16,254回答サンプルサイズN=16,254

エビデンスの限界

標準化された29の臨床ビネット(模擬症例)での評価であり、実際の外来の多様性・複雑性を完全には反映していない。また臨床推論の各段階を独立に評価しているが、実臨床ではこれらは連続的・同時並行的に行われるため、段階ごとの評価が総合的な診療能力を正確に測定できているかは不明

読者の方へ

ハーバード大学の研究チームが、GPT-5やClaude 4.5 Opusなど最新の21モデルを、臨床推論の各段階(情報収集→鑑別診断→検査指示→最終診断→治療方針)でテストした大規模研究です。

エビデンス品質:高品質原文を読む →PubMed

この研究を解説した記事

免責事項:本サイトの情報は医療行為(診断・処方・治療)を提供するものではありません。健康上の判断は必ず医師にご相談ください。