エビデンスライブラリ
SR/MAN=4,762中品質
臨床専門家とLLMの診断精度比較:メタアナリシス
Comparing Diagnostic Accuracy of Clinical Professionals and Large Language Models
Shan G, et al. — JMIR Medical Informatics, 2025
19種のLLMを4,762症例で評価。診断精度25-97.8%と大きなばらつき
対象集団30研究、19種のLLM、4,762症例サンプルサイズN=4,762
エビデンスの限界
採用された30研究の多くが高バイアスリスクと評価されており、結果の信頼性に影響する。研究間の異質性が高く(モデル・対象疾患・評価方法がバラバラ)、統合的な精度の単一数値を出すことが困難。また急速にモデルが更新される分野のため、掲載時点で既に古くなっている研究結果が含まれている可能性がある
読者の方へ
この研究は、19種のLLM(ChatGPT、Claude、Gemini等)の診断精度を30研究・4,762症例のデータで統合分析した、現時点で最も包括的なメタアナリシスです。
