Cross-Sec高品質

DeepSeek大規模言語モデルの医学タスクと臨床推論における比較ベンチマーク

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning

Tordjman M, et al. — Nature Medicine, 2025

DeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bを医学タスクで比較。USMLEでは92-95%だがテキスト症例では55-57%に低下

対象集団USMLE問題・NEJM症例・RECIST分類・画像報告

テキストベースの評価のみで画像・音声を含むマルチモーダル臨床には未対応。USMLE形式の選択問題と限定的な症例セットでの評価であり、実臨床の多様性を十分に反映していない。また比較対象が3モデルのみで、モデル間差の一般化には限界がある

この研究は、ChatGPT-o1・DeepSeek-R1・Llama 3.1という3つの最新AIモデルを、米国医師国家試験（USMLE）の問題と実際の症例問題の両方でテストしたものです。

エビデンス品質：高品質原文を読む →PubMed

この研究を解説した記事