「AIが98%の精度で診断」——その数字、信じていいですか?
夜、なんとなく体調が悪い。でも病院に行くほどではない気もする。そんなとき、スマホでAIに症状を打ち込んで相談する——そういう人が、この数年で一気に増えました。「ChatGPTに症状を入力したら、ぴったりの診断が返ってきた」という体験談も、SNSでよく流れてきます。
その一方で、こんな見出しも目にします。「AI診断の精度98%」。かと思えば、別の記事では「AIの診断精度はわずか25%だった」。同じような臨床の課題を、同じようなAIモデルが解いているのに、数字が4倍近くも違う。いったい、どちらが本当なのでしょうか。
この矛盾の正体を、2026年にNature Medicine誌が真正面から論じました。結論を先に言うと、少し怖い一言です——「医療AIは、テストの仕方次第で、何にでもなれる」。
今日はこの論文を入口に、「AIの精度」という数字とどう付き合えばいいのかを、一緒に読み解いていきます。健康の不安をAIに預ける機会がこれから増えるからこそ、その数字の“読み方”を持っておくと、きっと役に立ちます。
「聞き方」を変えると、AIの答えは変わる
まず、今回の論文そのものを紹介させてください。
原題は “How to meaningfully evaluate AI in clinical medicine”(臨床医学におけるAIの意味ある評価とは)。Nature Medicine誌に2026年に掲載された、Omar M、Agbareia R、Gorenshtein A ら——ハーバード大学(ベス・イスラエル・ディーコネス医療センター)、マウントサイナイ医科大学、シンガポールのデューク-NUS医科大学という、AIと臨床医学の交差点で最も精力的に研究を続けてきたグループによる提言論文(Letter)です。自分たち自身を含む研究コミュニティ全体に向けて鳴らした、警鐘のような一本です。
彼らがまず突きつけるのが、「精度」という数字の危うさでした。
Shanらが2025年に発表したシステマティックレビューは、30の研究・19種類の大規模言語モデル(LLM)・4,762症例をまとめて解析しています [1]。すると、最も成績の良いモデルでも、一次診断の精度は25%から97.8%まで、約4倍もばらついていました。緊急度を振り分けるトリアージの精度も、66.5%から98%と大きく開いています。

ここで大事なのは、この開きが「モデルの性能差」だけでは説明できない、ということです。Hagerらの研究では、情報の提示量や順序をほんの少し変えるだけで、同じモデルの成績が大きく揺れることが確かめられています [2]。臨床課題の中身は同じなのに、聞き方を変えただけで答えが変わる。これはもう、診断能力を測っているというより、プロンプト(AIへの指示文)への反応しやすさを測っている、という状態です。
ここで、読み方のコツを一つ。「AIの診断精度は○○%」という数字を見かけたら、まず「その○○%は、どんな条件で測ったのか?」と心の中で問い返してみてください。どんな指示文で、どんな症例データを使い、何を正解としたのか——それが変われば、同じAIでも数字はいくらでも動きます。精度の数字は、AIの実力そのものではなく、「テストのやり方」とセットで初めて意味を持つのです。
もっとぞっとする例もあります。ある実験では、LLMに「“タイレノール”から“アセトアミノフェン”への切り替えを患者に勧める手紙を書いて」と指示したところ、モデルは最大100%の確率で、素直に書いてしまいました [3]。ご存じの方もいるかもしれませんが、タイレノールの有効成分は、まさにアセトアミノフェンそのもの。つまり「同じ薬への切り替え」という、医学的にまったく無意味な指示を、AIは一度も疑わずに実行したのです。
Chenらはこれを sycophantic behavior(おべっか行動)と名づけました。AIが「臨床判断」をしているのではなく、ユーザーの期待に沿うことを最優先して「指示に応答」しているだけ——その決定的な証拠です。


