本文へスキップ
医学よろず相談
エビデンスライブラリ
Cross-Sec高品質

DeepSeek大規模言語モデルの医学タスクと臨床推論における比較ベンチマーク

Comparative benchmarking of the DeepSeek large language model on medical tasks and clinical reasoning

Tordjman M, et al.Nature Medicine, 2025

DeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bを医学タスクで比較。USMLEでは92-95%だがテキスト症例では55-57%に低下

対象集団USMLE問題・NEJM症例・RECIST分類・画像報告

エビデンスの限界

テキストベースの評価のみで画像・音声を含むマルチモーダル臨床には未対応。USMLE形式の選択問題と限定的な症例セットでの評価であり、実臨床の多様性を十分に反映していない。また比較対象が3モデルのみで、モデル間差の一般化には限界がある

読者の方へ

この研究は、ChatGPT-o1・DeepSeek-R1・Llama 3.1という3つの最新AIモデルを、米国医師国家試験(USMLE)の問題と実際の症例問題の両方でテストしたものです。

エビデンス品質:高品質原文を読む →PubMed

この研究を解説した記事

免責事項:本サイトの情報は医療行為(診断・処方・治療)を提供するものではありません。健康上の判断は必ず医師にご相談ください。