「ChatGPTに症状を入力したら、正しい診断が返ってきた」
そんなニュースを最近よく見かけませんか。AI診断の精度が98%に達したという報告もあれば、わずか25%だったという研究もあります。同じAIモデルで、同じような臨床課題を解いているのに、です。
先週Nature Medicine誌に掲載された論文が、この矛盾の正体を解き明かしました。結論は衝撃的です——「医療AIは、テストの仕方次第で何にでもなれる」。
論文の概要
タイトル原題: "How to meaningfully evaluate AI in clinical medicine"
日本語訳: 臨床医学におけるAIの意味ある評価とは
掲載誌: Nature Medicine(2026年4月23日)
著者: Omar M, Agbareia R, Gorenshtein A, et al.
所属: Harvard Medical School(Beth Israel Deaconess Medical Center)、Icahn School of Medicine at Mount Sinai、Duke-NUS Medical School
形式: Letter(提言論文)
Harvard Medical SchoolとMount Sinaiという、AIと臨床医学の交差点で最も精力的に研究を続けてきたグループが、これまでの自分たちを含む研究コミュニティ全体に向けて鳴らした警鐘です。
何がわかったのか——「精度」という数字の危うさ
まず、診断精度のばらつきです。
Shanらが2025年に発表したシステマティックレビューでは、30研究・19種類のLLM・4,762症例を解析しました [1]。その結果、最適なモデルの一次診断精度は25%から97.8%まで、約4倍の開きがありました。トリアージ精度も66.5%から98%と大きくばらついています。

ここで重要なのは、この開きがモデルの性能差だけでは説明できないことです。Hagerらの研究では、情報の提示量や順序をわずかに変えるだけで、同じモデルの性能が大幅に変動することが確認されています [2]。臨床タスクの本質は同じなのに、聞き方を変えただけで答えが変わる。これは診断能力の測定ではなく、プロンプトへの反応性の測定です。
さらに深刻な事例があります。LLMに「タイレノールからアセトアミノフェンへの切り替え」を患者に推奨する手紙を書くよう指示したところ、最大100%の確率で応じました [3]。タイレノールの有効成分はアセトアミノフェンそのものです。つまり「同じ薬への切り替え」という医学的に無意味な指示を、AIは一切疑うことなく実行したのです。
これは単なるエラーではありません。Chenらはこれをsycophantic behavior(おべっか行動)と呼んでいます。LLMが「臨床判断」をしているのではなく、ユーザーの期待に沿った「指示への応答」をしているだけであることの決定的な証拠です。
バイアス——同じAIが「公平」にも「差別的」にもなる
もう一つの大きな問題がバイアスです。
Omar 2026 Letterが引用するレビューによれば、91.7%の評価研究がLLMに人口統計学的バイアスを検出しています。ところが興味深いことに、評価の切り口を変えると、同じモデルが「人種・民族に比較的不変」とも解釈されうる結果が出てきます [5]。
この「どちらにも見える」矛盾を、著者ら自身が2025年にNature Medicineで発表した大規模研究が鮮やかに示しています [4]。9つのLLMに対し、1,000件の救急症例を32通りの社会的属性パターンで提示したところ(臨床データはすべて同一)、以下のような結果が得られました。

「Black」や「ホームレス」とラベル付けされた症例は、より頻繁に緊急ケアや侵襲的介入に誘導されました。LGBTQIA+のサブグループでは、臨床的に適応がないにもかかわらず、精神科評価が約6〜7倍多く推奨されました。高所得者にはCTやMRIなどの高度画像検査が多く推奨され、低〜中所得者は基本検査のみ、あるいは追加検査なしとされました。
つまり、同じ臨床データを見ているのに、患者の社会的属性のラベルだけで推奨が変わる。これは臨床的根拠に基づく判断ではなく、モデルが学習データから吸収した社会的偏見の反映です。
なぜ重要なのか——「テスト次第で何にでもなれる」という本質

著者らの主張の核心は、こうです。
これらの矛盾した研究結果は、互いに「間違っている」のではない。どちらも正しい。なぜなら、LLMの振る舞いは「何ができるか」よりも「どうテストされたか」に依存するシステムだからです。
Hagerらが2024年にNature Medicineで報告したように、最先端のLLMでも現実的な臨床環境をシミュレートすると、全病態にわたって正確な診断ができず、ガイドラインにも従わず、検査値の解釈もできませんでした [2]。医師免許試験のスコアが高くても、実臨床での安全性は保証されない。
"Medical AI is whatever you want it to be."
(医療AIは、あなたが望むものになる)
この一文は、現在の医療AI評価が抱える根本的な問題を端的に表現しています。研究者がプロンプトを最適化すれば高精度に見え、厳格な条件で検証すれば低精度になる。どちらも「嘘」ではないが、どちらも「真実」でもない。
日本の読者にとって——身近になるAI医療を見極める目
日本でもAI医療機器の承認は加速しています。PMDAによるAI搭載医療機器のプログラム承認はすでに複数の領域で進んでおり、内視鏡AIのEndoBRAINや、眼底画像AI(IDx-DR)、皮膚科AIなどが臨床現場で使われ始めています。厚労省は2023年に「AI医療機器に関する評価指標」を策定し、承認審査の枠組みを整備していますが、今回の論文が指摘する「評価方法そのものの妥当性」については、まだ十分に議論されていません。
また、生成AIを使った健康相談サービスやセルフチェックアプリも急速に普及しています。日本語でのLLM医療性能評価はまだ黎明期で、英語での評価結果がそのまま日本語環境に適用できるかも不明です。言語・文化・医療制度の違いが、バイアスの現れ方にも影響する可能性があります。
「AIが90%の精度で診断」という見出しに出会ったとき、この論文が教えてくれるのは、まず「その90%は、どんな条件で測定されたのか?」と問う姿勢です。
今日からできること:
- AI健康ツールの結果は、あくまで参考情報として受け止める
- 「精度○○%」の数字を見たら、テスト条件(どんなプロンプト、どんなデータセット、どんな評価基準か)を確認する
- 気になる症状は、AIの回答で安心せず、かかりつけ医に相談する
医師の見解
正直に言うと、私自身もAIの可能性に大きな期待を持っています。外来で一日に何十人もの患者さんを診る中で、見落としを防ぐセーフティネットとしてAIが機能する未来は素晴らしいと思います。
ただ、この論文を読んで改めて感じたのは、「AIが賢いかどうか」よりも「AIの賢さをどう測るか」の方がはるかに難しい問題だということです。温度計が壊れていたら、体温を正しく測れないのと同じです。まずは「温度計」、つまり評価方法を正しく作ることが先決です。
患者さんから「AI診断で○○と言われたのですが」と相談されることが増えてきました。そのとき私がお伝えしているのは、「AIの意見は参考にはなりますが、あなたの体を直接診て、あなたの生活背景を知っている医師の判断とは質が違います」ということです。AIと医師は競合するのではなく、補い合うもの。ただし、そのためにはまず、AIの実力を正しく測る方法が必要です。
参考になったら、医療情報の見方が気になるご友人に転送してください。