SR/MAN=4,762中品質

臨床専門家とLLMの診断精度比較：メタアナリシス

Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models

Shan G, et al. — JMIR Medical Informatics, 2025

19種のLLMを4,762症例で評価。診断精度25-97.8%と大きなばらつき

対象集団30研究、19種のLLM、4,762症例サンプルサイズN=4,762

採用された30研究の多くが高バイアスリスクと評価されており、結果の信頼性に影響する。研究間の異質性が高く（モデル・対象疾患・評価方法がバラバラ）、統合的な精度の単一数値を出すことが困難。また急速にモデルが更新される分野のため、掲載時点で既に古くなっている研究結果が含まれている可能性がある

この研究は、19種のLLM（ChatGPT、Claude、Gemini等）の診断精度を30研究・4,762症例のデータで統合分析した、現時点で最も包括的なメタアナリシスです。

エビデンス品質：中品質原文を読む →PubMed

この研究を解説した記事