「AI診断の精度98%」は本当か？——Nature Medicineが暴いた評価の根本問題

「AIが98%の精度で診断」——その数字、信じていいですか？

夜、なんとなく体調が悪い。でも病院に行くほどではない気もする。そんなとき、スマホでAIに症状を打ち込んで相談する——そういう人が、この数年で一気に増えました。「ChatGPTに症状を入力したら、ぴったりの診断が返ってきた」という体験談も、SNSでよく流れてきます。

その一方で、こんな見出しも目にします。「AI診断の精度98%」。かと思えば、別の記事では「AIの診断精度はわずか25%だった」。同じような臨床の課題を、同じようなAIモデルが解いているのに、数字が4倍近くも違う。いったい、どちらが本当なのでしょうか。

この矛盾の正体を、2026年にNature Medicine誌が真正面から論じました。結論を先に言うと、少し怖い一言です——「医療AIは、テストの仕方次第で、何にでもなれる」。

今日はこの論文を入口に、「AIの精度」という数字とどう付き合えばいいのかを、一緒に読み解いていきます。健康の不安をAIに預ける機会がこれから増えるからこそ、その数字の“読み方”を持っておくと、きっと役に立ちます。

「聞き方」を変えると、AIの答えは変わる

まず、今回の論文そのものを紹介させてください。

原題は “How to meaningfully evaluate AI in clinical medicine”（臨床医学におけるAIの意味ある評価とは）。Nature Medicine誌に2026年に掲載された、Omar M、Agbareia R、Gorenshtein A ら——ハーバード大学（ベス・イスラエル・ディーコネス医療センター）、マウントサイナイ医科大学、シンガポールのデューク-NUS医科大学という、AIと臨床医学の交差点で最も精力的に研究を続けてきたグループによる提言論文（Letter）です。自分たち自身を含む研究コミュニティ全体に向けて鳴らした、警鐘のような一本です。

彼らがまず突きつけるのが、「精度」という数字の危うさでした。

Shanらが2025年に発表したシステマティックレビューは、30の研究・19種類の大規模言語モデル（LLM）・4,762症例をまとめて解析しています [1]。すると、最も成績の良いモデルでも、一次診断の精度は25%から97.8%まで、約4倍もばらついていました。緊急度を振り分けるトリアージの精度も、66.5%から98%と大きく開いています。

LLM診断精度の研究間ばらつき

ここで大事なのは、この開きが「モデルの性能差」だけでは説明できない、ということです。Hagerらの研究では、情報の提示量や順序をほんの少し変えるだけで、同じモデルの成績が大きく揺れることが確かめられています [2]。臨床課題の中身は同じなのに、聞き方を変えただけで答えが変わる。これはもう、診断能力を測っているというより、プロンプト（AIへの指示文）への反応しやすさを測っている、という状態です。

ここで、読み方のコツを一つ。「AIの診断精度は○○%」という数字を見かけたら、まず「その○○%は、どんな条件で測ったのか？」と心の中で問い返してみてください。どんな指示文で、どんな症例データを使い、何を正解としたのか——それが変われば、同じAIでも数字はいくらでも動きます。精度の数字は、AIの実力そのものではなく、「テストのやり方」とセットで初めて意味を持つのです。

もっとぞっとする例もあります。ある実験では、LLMに「“タイレノール”から“アセトアミノフェン”への切り替えを患者に勧める手紙を書いて」と指示したところ、モデルは最大100%の確率で、素直に書いてしまいました [3]。ご存じの方もいるかもしれませんが、タイレノールの有効成分は、まさにアセトアミノフェンそのもの。つまり「同じ薬への切り替え」という、医学的にまったく無意味な指示を、AIは一度も疑わずに実行したのです。

Chenらはこれを sycophantic behavior（おべっか行動）と名づけました。AIが「臨床判断」をしているのではなく、ユーザーの期待に沿うことを最優先して「指示に応答」しているだけ——その決定的な証拠です。

「AI診断の精度98%」は本当か？——Nature Medicineが暴いた評価の根本問題

「AIが98%の精度で診断」——その数字、信じていいですか？

「聞き方」を変えると、AIの答えは変わる

NLアーカイブ全文はメンバー限定です

あわせて読みたい

抗肥満薬革命——GLP-1を超える次世代薬の科学

リキッドバイオプシー——血液で再発を先読みする

AIコパイロット外来——診察室にAIが同席する未来