前回のおさらい
前回は、RCT(ランダム化比較試験)の仕組みを一緒に見ました。ランダム化・盲検化・プラセボ対照・ITT解析——この4本の柱が、RCTの信頼性を支えているのでしたね。
でも、たった1つのRCTの結果だけで、本当に安心していいのでしょうか。今日はこの素朴な引っかかりから出発します。
「たまたまうまくいった」可能性は消せない
ある新薬のRCTで「有効」という結果が出た。そう聞くと、こんな疑問が浮かびませんか。
「たまたま、うまくいっただけでは?」 「別の国、別の集団でやっても、同じ結果になる?」 「この研究は500人だけど、10,000人でやったらどうなる?」
じつは、同じテーマでRCTを何本も走らせると、結果がそろわないことは珍しくありません。ある研究では「有効」、別の研究では「差なし」、また別の研究では「むしろ有害」——そんなことも起こります。
では、どうすれば「本当のところ」に近づけるのか。その答えが「システマティックレビュー」と「メタアナリシス」です。
システマティックレビューとメタアナリシスの違い
この2つ、よく混同されますが、じつは別ものです。

「システマティックレビュー(SR)」は、あるテーマについて世界中の研究を網羅的に探し集め、一定の基準で選び・評価していくプロセスです。「系統立てて文献を総ざらいする」作業全体を指します。
「メタアナリシス(MA)」は、集まった複数の研究の結果を、統計の手法で1つの数値に統合する分析方法です。
つまり、システマティックレビューは「研究の集め方・評価の仕方」、メタアナリシスは「統合の計算方法」。システマティックレビューの中で、数値データを束ねられるときにメタアナリシスを行います。統合がなじまないときは、システマティックレビューだけで終わることもあります。
例えるなら
裁判を思い浮かべてください。
1つのRCT = 1人の目撃者の証言 システマティックレビュー = すべての目撃者を探し出し、証言の信頼性を吟味するプロセス メタアナリシス = すべての証言を突き合わせ、最終的な事実認定を下す作業
1人の目撃者より、複数の証言を慎重に照らし合わせたほうが、真実に近づける。そう考えると、しっくりきますよね。
フォレストプロットの読み方——1分でマスター
メタアナリシスの結果を絵にしたのが「フォレストプロット(forest plot)」です。論文やガイドラインで何度も出会うこのグラフ、じつは読み方はとてもシンプルです。

構成要素を順番に見ていきましょう。
-
中央の垂直線(効果なしのライン): 「治療と対照に差がない」を意味する線です。リスク比なら1.0、リスク差なら0の位置になります。
-
各研究の四角形(□): 四角1つが研究1本。四角の大きさは、その研究のサンプルサイズ(重み)を映します。大きい四角ほど、統合結果への影響力が大きい研究です。
-
四角から伸びる水平線: 95%信頼区間です。「真の効果は、この範囲のどこかにある可能性が95%」という意味。この線が中央の垂直線をまたいでいたら、「差がない可能性も否定できない」ということになります。
-
最下段のダイヤモンド(◆): メタアナリシスの統合結果です。フォレストプロットで一番大事なのはここ。ダイヤモンドの中心が効果の推定値、幅が95%信頼区間です。
読み方のコツ: ダイヤモンドが中央の垂直線をまたいでいなければ、「統計的に有意な差がある」と読めます。垂直線から離れているほど、効果は大きい。ここだけ押さえれば十分です。
異質性(I²)——研究どうしのバラつきを見る
メタアナリシスでもう1つ大切なのが「異質性(いしつせい、heterogeneity)」です。

束ねる研究の結果がバラバラなら、それを無理に1つの数値へまとめても意味は薄い。このバラつきの程度を表すのが「I²統計量」です。
I² = 0%: バラつきなし。研究結果がほぼ一致している。統合の信頼度はとても高い。 I² = 25-50%: 軽度のバラつき。まずまず信頼できる。 I² = 50-75%: 中等度のバラつき。解釈に少し注意が必要。 I² > 75%: 高度のバラつき。結果が大きく食い違っていて、素直に統合してよいか疑問が残る。
I²が高いときは、「なぜここまで結果が違うのか」を探る「サブグループ解析」が効いてきます。たとえば「若い人には効くが、高齢者では効果がない」——そんな違いが隠れているかもしれません。
ファンネルプロット——出版バイアスを見破る

「効果あり」と出た研究は論文になりやすく、「効果なし」の研究はお蔵入りしがち。これを「出版バイアス」と呼びます。
出版バイアスがあると、メタアナリシスに集まる研究が「効果あり」に偏り、統合結果も実際より良く見えてしまいます。
これを見抜く道具が「ファンネルプロット」です。縦軸に研究の精度(サンプルサイズ)、横軸に効果の大きさをとります。出版バイアスがなければ、大きな研究(上部)を頂点にした、左右対称の「漏斗(ファンネル)」型になります。
もし片側に偏っている(とくに左下がぽっかり欠けている)なら、「効果なし」の小さな研究が世に出ていない可能性がある——そう疑ってよい注意信号です。
実例で学ぶ: メタアナリシスの力
実例1: レチノイドのシワ改善効果(アンチエイジング)
「レチノール(ビタミンA誘導体)はシワに効く」。これも、100人規模の小さなRCTを一つずつ積み重ねて確かめられてきたことです [1]。
個々の研究は小さく、単独では「たまたまでは?」を疑う余地が残ります。ところが、同じテーマの複数のRCTをメタアナリシスで統合すると、「効果あり」という結論の確かさは一気に増します。
これが「小さな研究を束ねて、大きな結論を導く」メタアナリシスの真価です。
実例2: アルツハイマー新薬レカネマブ——大規模RCTの結果
アルツハイマー病の新薬レカネマブ(商品名: レケンビ)は、1,795名を対象にした大規模RCT(Clarity AD試験)で、認知機能の低下を27%抑えたと報告されました [2]。
ここで一呼吸おきたいのは、この薬にはまだ大規模RCTが1本しかない、という点です。エビデンスのピラミッドではRCTレベル(★★★★☆)であって、メタアナリシスレベル(★★★★★)ではありません。
これから複数のRCTが積み上がり、メタアナリシスにかけられたとき、この27%という数字が再現されるかどうか。それが真の値打ちを決めます。
日本では2023年にレカネマブが承認され、一定の条件下で保険適用になりました。ただしアミロイドPETやCSF検査でアルツハイマー病だと確かめること、ARIA(アミロイド関連画像異常)という副作用への慎重な対応が求められます。
実例3: ホルモン補充療法——「1つのRCTに振り回された教訓」
2002年、WHI(Women's Health Initiative)という大規模RCTが、更年期障害のホルモン補充療法(HRT)は乳がんや心血管リスクを高める、と報告しました。世界中で「HRT=危険」というイメージが広まり、多くの女性がHRTをやめました。
ところがその後の再解析やメタアナリシスで、リスクは年齢層によって大きく違うことがわかってきます。60歳以上で始めた場合はリスクが高い一方、50代前半(更年期の直後)で始めた場合はむしろ心血管に保護的——そんな「タイミング仮説」が支持されるようになったのです。
これは、1つのRCTの結果だけで白黒つけることの危うさを示す、大切な教訓です。異なる集団で複数のRCTを行い、メタアナリシスで束ねて初めて、全体像が見えてくる。エビデンスは、積み重ねるものなのですね。
メタアナリシスにも限界がある
ピラミッドの頂点に立つメタアナリシスですが、万能ではありません。
-
「ゴミを入れれば、ゴミが出る(GIGO)」: 質の低いRCTをいくら集めて統合しても、質の高い結論は生まれません。だからこそ、システマティックレビューの段階で研究の質を厳しく見極めることが大切です。
-
出版バイアスの影響: さきほどの通り、「効果なし」の研究が世に出ていなければ、メタアナリシスの結果も偏ります。
-
異質性が高いときの統合の妥当性: I²がとても高い場合、そもそも統合してよいのかを慎重に問う必要があります。「リンゴとオレンジを足しても、フルーツの平均にはならない」というわけです。
-
組み入れ基準による揺らぎ: どの研究を含めるか(組み入れ基準)で、結果が変わることがあります。コクラン共同計画の2007年の分析では、レビューの44%が治療の有益性を支持し、7%が有害性を示唆、49%は「明確なエビデンスがない」と結論づけました。
「メタアナリシスだから安心」ではなく、「どんなメタアナリシスか」を見る目。ここが分かれ目です。
メタアナリシス読解チェックリスト
メタアナリシスの論文に出会ったら、次の5点をのぞいてみてください。
- 検索は網羅的か?(PubMed以外のデータベースも探しているか)
- 組み入れた研究の質は評価されているか?(バイアスリスクの評価)
- I²値はどのくらいか?(50%以上なら注意)
- ファンネルプロットは左右対称か?(出版バイアスの確認)
- サブグループ解析はあるか?(年齢・性別・重症度別の結果)
次回予告
次回(3日後)は、「研究で証明済み」でも鵜呑みにしてはいけない場合がある——バイアスと利益相反の正体に迫ります。
「誰がお金を出したか」で結果が変わる? P値ハッキングとは何か? コラーゲンサプリの研究にひそむ落とし穴——数字のウソを見抜く技術を、一緒に解いていきましょう。