エビデンスライブラリ
Cross-Sec高品質
DeepSeek大規模言語モデルの医学タスクと臨床推論における比較ベンチマーク
Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning
Tordjman M, et al. — Nature Medicine, 2025
DeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bを医学タスクで比較。USMLEでは92-95%だがテキスト症例では55-57%に低下
対象集団USMLE問題・NEJM症例・RECIST分類・画像報告
エビデンスの限界
テキストベースの評価のみで画像・音声を含むマルチモーダル臨床には未対応。USMLE形式の選択問題と限定的な症例セットでの評価であり、実臨床の多様性を十分に反映していない。また比較対象が3モデルのみで、モデル間差の一般化には限界がある
読者の方へ
この研究は、ChatGPT-o1・DeepSeek-R1・Llama 3.1という3つの最新AIモデルを、米国医師国家試験(USMLE)の問題と実際の症例問題の両方でテストしたものです。
