コロナ時代の疫学レビュー 連載・読み物

コロナ時代の疫学レビュー
第4回 ランダム化比較対照試験の理論――ランダム化・バッドラック・エクイポイズ

8月 03日, 2021 坪野吉孝

 
 
疫学研究において、最も信頼性が高いといわれる「ランダム化比較対照試験」とは、どういう研究方法なのでしょうか。今回は、高い信頼性を担保するためにとられている手法と、その理論的背景を解説していただきました。世にあふれる医療情報を読み解くためにも、スタンダードとなる知識のベースをこの機会にぜひ。[編集部]
 
 
 前回は、ファイザー社のワクチンに関する『ニュー・イングランド・ジャーナル・オブ・メディシン(NEJM)』論文の概要と意義を解説した。この研究は、ランダム化比較対照試験と呼ばれる研究デザイン(研究方法)を採用している。今回は、理論編の1回目として、ランダム化比較対照試験の概略について説明する。
 

研究デザイン

 
 いまたとえば、「ファイザー社mRNAワクチンのCovid-19発症に対する有効性を評価する」というテーマで、研究を計画することを考えるとしよう。このとき、おなじテーマの研究であっても、研究者が採用できる研究方法は1つだけではない。複数の研究方法が存在する。この複数の研究方法を、研究デザイン(study designs)と呼ぶ。「デザイン」というと、洋服や自動車の見かけとしての「デザイン」を思い起こすが、この場合は「設計図」くらいの意味である。研究者は、複数の設計図の中から1つを選んで、研究を計画する。
 
 図表4-1に、代表的な研究デザインを示す。また、これらの研究デザインで用いられる主要な8つの構成要素も示す。8つの構成要素は、研究デザインという「設計図」を組み立てる際の、「部品」に相当する。研究デザインによって、使われる部品と使われない部品がある。逆に言えば、使われる部品の違いによって、研究デザインの違いが生ずることになる。
 

図表4-1 代表的な研究デザインとおもな構成要素

 

ランダム化比較対照試験の構成要素

 
 ランダム化比較対照試験は、薬剤や手術などの治療法や、ワクチンやがん検診などの予防法の有効性と安全性を評価するための研究デザインの1つである。図表4-1に示すように、研究デザインのおもな8つの構成要素(部品)が、すべて使われている。
 
 ランダム化比較対照試験は、つぎの8つの部品をすべて使った、フルスペックの研究デザインともいえる。①「対象者の選択」、②対象者の「ランダム化」、③「対照群」の設定、④「介入」、⑤「追跡調査」、⑥「健康アウトカムの有無の確認」、⑦「健康アウトカムの頻度の算出」、⑧相対リスクなどの「関連性の指標の算出」。このため、各種の研究デザインの中でも、結果の信頼性はもっとも高いと一般に考えられている。
 
 ランダム化比較対照試験は、Randomized Controlled Trialと英語表記され、RCTと略される。”Randomized”は対象者のランダム化を指し、”Controlled”は対照群を設定することを意味する。”Trial”は臨床試験のことである。つまりRCTは、「対象者をランダム化して」「対照群を設定する」「臨床試験」を意味する。
 

ランダム化比較対照試験の調査の流れ

 
 図表4-2に、8つの部品を用いてどのようにランダム化比較対照試験が行われるか、その流れを示す。
 

図表4-2 ランダム化比較対照試験のシェーマ


 
 ①対象者の候補の中から、適格基準と除外基準を用いて、条件にあった「対象者の選択」を行う。②選び出された対象者を「ランダム化」して2群に分け、介入群と③「対照群」を設定する。介入群には、当該の研究で評価しようとしている④「介入」(治療法や予防法)を行なう。いっぽうの対照群には、この研究で評価しようとしている介入は行わず、プラセボ(偽薬、後述)の投与や通常の治療法や予防法を行う。
 
 つづいて介入群と対照群に対して⑤「追跡調査」を行い、⑥「健康アウトカムの有無」を確認する。「健康アウトカム」(health outcomes)の具体例としては、疾患の発症、進行、再発、疾患による死亡、死因を問わない死亡(全死因死亡)、生存などがある。この結果に基づいて、介入群と対照群のそれぞれの⑦疾患の発生率や死亡率などの「健康アウトカムの頻度の算出」を行う。介入群のアウトカムの頻度と対照群のアウトカムの頻度の2つを使い、相対リスクなどの⑧「関連性の指標の算出」を行う。おもにこの指標を使って、治療法や予防法の有効性や安全性の評価についての解釈や判断を行う。
 
 ①から⑧の部品は、ランダム化比較対照試験以外の研究デザインでも用いられる場合がある。ランダム化比較対照試験に固有の部品は、②の「ランダム化」である。ランダム化を行うことにより、他の研究デザインよりも結果の信頼性が高まる。
 
 以下ではまず、④「介入」、③「対照群の設定」、②「ランダム化」について、この順番で説明する。つづいて、ランダム化比較対照試験で薬剤などの有効性と安全性を評価する際に用いられることのある「プラセボ」と、「盲検化」の措置についても解説する。さらに、ランダム化比較対照試験の長所や倫理的な問題点について述べる。
 

介入(intervention)

 
 介入の原語はinterventionである。このinterventionは、「干渉」とも訳されることがある。国際政治における「軍事介入」(military intervention)や「人道的介入」(humanitarian intervention)のような場面でも使われるし、法律用語としては「調停」や「仲裁」を意味する。干渉、調停、仲裁などの用法からわかるように、対象に対して、第三者が、いわば「余計なお節介」を働きかけるというニュアンスがある。
 
 疫学における介入は、「当該の研究において、有効性や安全性を評価しようとしている治療法や予防法を、提供(offer)すること」を意味する。研究の対象者に対して、第三者である研究者が、「余計なお節介」として治療法や予防法を提供し、その有効性や安全性を評価する。
 
 ここで注意が必要なのは、対象者に行われる治療法や予防法が、すべて介入とみなされるわけではない点である。たとえば、うつ病の患者を対象に、新しく開発された抗うつ薬の有効性と安全性を評価するために、ランダム化比較対照試験を行う場合を考える。このとき、介入群の患者には、この新しい抗うつ薬を投与する。いっぽうの対照群の患者には、プラセボ(偽薬)を投与する場合もあれば、すでに有効性や安全性が明らかにされている既存の抗うつ薬を投与する場合もある。
 
 この場合、対照群の患者に既存の抗うつ薬を投与するのも、研究の対象者に行われる治療であることは事実だが、この治療を介入とは呼ばない。介入群に対する新規の抗うつ薬の投与のみを介入と呼ぶ。「新規の抗うつ薬の投与」は、上記の「当該の研究において、有効性や安全性を評価しようとしている治療法や予防法」という介入の定義を満たすが、「既存の抗うつ薬の投与」は、この定義を満たさない。
 
 対照群に投与する既存の抗うつ薬の有効性や安全性は、いま行おうとしている当該の研究で、あらたに評価を行うわけではない。それ以前に行われた先行の研究で、すでに評価が行われ、有効性や安全性が明らかにされている。
 

対照群(control group)

 
 ランダム化比較対照試験では、対象者を、介入を行う介入群と、介入を行わない対照群の2群に分ける。そのうえで、介入群に対する治療法や予防法の有効性や安全性を、対照群に対する措置(通常の治療法や予防法、プラセボなど)の有効性や安全性と比較する。
 
 対照群を設定することは、一見自明に思えるかも知れない。けれども実際には、大きな意義がある。この点を説明しよう。
 
 たとえばいま、対照群を設定せず、1つの介入群だけで、新規の抗うつ薬の有効性や安全性を評価することを考える。うつ病患者100人からなる介入群に、新規の抗うつ薬を3か月間投与したところ、うつ症状が大きく改善した患者の割合は40%、不眠や吐き気などの有害作用が生じた患者の割合は20%という結果が出たとする。
 
 この研究は、図表4-1に示した研究デザインのうち、「対照群を伴わない臨床試験」に相当する。新規の抗うつ薬を開発する初期の段階などで、このタイプの研究が行われる場合も、むろんある。
 
 ただしこの際、改善率が40%、有害作用の発生率が20%というデータだけで、この新規の抗うつ薬の有効性や安全性を十分に評価することはできない。40%の有効性がはたして高いのか低いのか、十分に判断できないということだ。十分に判断するためには、40%の有効性というデータが、なにと比べて高いか低いかを、相対的に評価することが重要になる。この相対的な比較の参考となるデータを得るために、対照群を設定することが必要になるのである。
 
 たとえばいま、200人のうつ病患者を、介入群100人と対照群100人の2群に分けるとする。介入群には新規の抗うつ薬を3か月投与し、対照群には従来の抗うつ薬を3か月投与する。その結果、うつ症状の改善率は介入群が40%、対照群が20%で、有害作用の発生率は介入群が30%で、対照群も30%という結果が出たとする。
 
 この場合、介入群に投与した新規の抗うつ薬は、対照群に投与した従来の抗うつ薬よりも、有効率は高く(40%-20%=+20%)、有害作用の発生率には差がない(30%-30%=0%)と解釈できる。つまり、介入を行わない対照群を設定し、相対的な比較を行うことではじめて、介入群に行った介入の有効性や安全性を、適切に評価することが可能になるのである。
 
 なお、ランダム化比較対照試験では、1つの対照群に対して、介入群を2つ以上設定する場合もある。たとえば、従来の抗うつ薬を投与する対照群に対して、新規の抗うつ薬を少量投与する群と多量投与する群という2つの介入群を設定することなどが考えられる。この場合、少量投与と多量投与のどちらが、有効性と安全性のバランスが優れているかを評価することになる。
 

ランダム化(randomization, random allocation)

 
 この研究方法のいちばん大事な部品はランダム化である。無作為割付、無作為化とも呼ばれる。研究参加者を介入群と対照群にグループ分けするとき、偶然だけが影響する形でランダムに分ける措置のことである。具体的には、サイコロを振って偶数の目が出たら介入群、奇数の目が出たら対照群に分けるような措置である。
 
 ランダム化を行うと、対象者を介入群と対照群にグループ分けする際に、「研究者の恣意」や「参加者の希望」などの影響が排除される。
 
 「研究者の恣意」について説明する。たとえば、新しい薬物を評価する研究を行う研究者は、新しい薬物を、効果が出そうな患者に使いたいという誘惑にかられるかもしれない。患者の病状が軽症で効果が出そうな患者には新薬を使うような状況が考えられる。いっぽう、病状が重症で効果が出にくそうな患者には従来薬を使うといった操作を、意識的にも無意識的にもしかねない。
 
 また、研究に対して協力的で、決められた投与量を決められた日数きちんと服薬してくれそうな患者には新薬を使ういっぽう、研究に対する協力が不十分で、服薬量や日数を守れなさそうな患者には従来薬を使うという操作を、やはりしかねない。どちらの状況でも、従来薬と比べた場合の新薬の有効性を、実際以上に過大評価する懸念がある。
 
 「参加者の希望」を考慮して介入群と対照群に分けるとどうなるか。たとえば抗うつ薬の新薬を介入群に投与し、従来薬を対照群に投与する場合を考える。新薬は、従来薬よりも、大きな有効性が期待される反面、有害作用などの安全性のリスクも高いかもしれない。あえて新薬を希望する患者は、新薬を希望せず従来薬を選ぶ患者よりも、もともと重症度が高いかもしれない。この場合、参加者の希望を考慮して、もともと重症の患者に新薬を投与し、もともと軽症の患者に従来薬を投与すれば、新薬の有効性を実際以上に過小評価する懸念がある。
 
 しかし、ランダム化を行い偶然の影響のみで対象者を介入群と対照群に分ければ、研究者の恣意や参加者の希望は排除され、介入群と対照群の特性を偏りなく揃えることが可能になる。この場合の「特性」には、性別、年齢、病気の重症度、合併症の有無などの既知の要因だけでなく、新薬への遺伝的反応性、有害作用の生じやすさなど、未知の要因もふくまれる。ランダム化によって分けられた介入群と対照群は、既知の要因も未知の要因も分布が揃っていると想定することができる。そのため、介入の有効性や安全性について、過大評価や過小評価をしないで、偏りのない評価をすることが可能になる。
 

プラセボ(placebo)

 
 プラセボは、ランダム化比較対照試験などで評価しようとする薬物と見かけ上はおなじ形をしているが、特別な薬効成分を含有していないものをいう。偽薬とも呼ばれる。評価対象の薬物が赤い錠剤なら、これに対応するプラセボは、おなじ形の赤い錠剤が使われる。評価対象の薬物が無色透明の注射液であれば、これに対応するプラセボは、無色透明の注射液が使われる。
 
 医療者が患者にプラセボを投与すると、症状の改善などの効果が生じる場合がある。この現象をプラセボ効果(placebo effect)という。特別な薬効成分を含有しなくても、医療者が患者の容態を気にかけ処方したこと自体が原因となり、効果が生じる。
 
 いっぽう、通常の薬剤には、固有の薬効成分が含まれている。この場合、医療者が患者に通常の薬剤を投与した場合に生ずる効果は、固有の薬効成分だけに起因するわけではなく、プラセボ効果の分が上乗せされている。したがって、通常の薬剤の効果には、「固有の薬効成分に起因する効果」+「プラセボ効果」という、2つの成分が加算されている。
 
 ランダム化比較対照試験では、介入群に対して新規の薬剤を投与するいっぽう、対照群に対してプラセボを投与する場合がある。介入群に新規の薬剤を投与すると、「固有の薬効成分に起因する効果」と「プラセボ効果」が加算された効果が生ずることが期待される。いっぽう対照群にプラセボを投与すると、「新規の薬剤に固有の薬効成分」による効果は生じず、「プラセボ効果」に起因する効果のみが生ずると期待される。
 
 介入群に対する新規の薬剤の効果と(「固有の薬効成分に起因する効果」+「プラセボ効果」)、対照群に対するプラセボの効果(「プラセボ効果」のみ)の差を比較することで、プラセボ効果を除外し、新規の薬剤に固有の薬効成分の効果の大きさを評価するのである。
 

盲検化(blinding)

 
 介入群に新規の薬物などを投与し、対照群にプラセボを投与する際に、盲検化と呼ばれる措置が取られることがある。「二重盲検」(double blind)では、患者にも、患者の診療をする医療者にも、患者の所属が介入群なのか対照群なのかを知らせない。患者を介入群や対照群に割り付ける作業を行う、研究の中央事務局は、患者の所属が介入群か対照群なのかわかるようになっている。
 
 そのため、患者も医療者も、患者に投与しているのが新規の薬物(=介入群)なのかプラセボ(=対照群)なのかわからない。患者は、自分の処方されている薬物の内容について盲目状態で服用する。医療者も、患者の薬物の内容について盲目状態で投与し、その有効性や安全性を検証する。「単盲検」(single blind)の場合、患者には、自分の所属が介入群なのか対照群なのかを知らせないが、患者の診療をする医療者には知らせる。
 
 盲検化が行われる理由について述べる。患者の診療にあたる医療者が、患者に処方しているのが新規の薬物なのかプラセボなのかを知っていると、有効性や安全性を評価する際に判断の偏りが生ずる危険性がある。有効性については、患者に処方しているのが新規の薬剤であれば、実際以上に過大に評価する傾向が、意識的であれ無意識的であれ生ずるだろう。逆に、患者に処方しているのがプラセボであれば、実際以上に過小評価する懸念がある。
 
 患者の立場ではどうなるか。自分が服薬しているのが新規の薬物であることを知っていれば、有効性や有害作用(安全性)を、実際以上に過大評価する傾向が生じる場合もあれば、過小評価する傾向が生じる場合もある。いっぽう、自分が服薬しているのがプラセボであることを知っていれば、プラセボを服薬し続ける意義を感じずに、服薬を中止し、研究への参加を取りやめるかもしれない。
 
 こうした患者や医療者の予断を排除し、新規の薬物とプラセボの有効性や安全性の比較を、過大評価や過小評価なしに行えるように、盲検化の措置が取られる。
 

ランダム化比較対照試験の長所

 
 各種の研究デザインの中でも、ランダム化比較対照試験は、研究結果の信頼性がもっとも高いと一般に位置づけられている。信頼性の高さを担保している最大の要因は、ランダム化により、対象者を介入群と対照群にグループ分けしている点にある。
 
 臨床試験の研究デザインの中には、ランダム化を行わない比較対照試験もある。例として、2つの病院の一方の患者を介入群として新規の薬物を投与し、他方の病院の患者を対照群としてプラセボを投与する研究が考えられる。図表4-1に示した「ランダム化を伴わない比較対照試験」が、これに該当する。
 
 この研究デザインでは、介入群と対照群のあいだで、介入の評価に影響を及ぼす可能性のある既知の要因や未知の要因が、偏りなく揃って分布していることは担保されない。介入群と対照群の間で、年齢や重症度などの既知の要因や、遺伝的体質のような未知の要因の分布が、異なっているかもしれない。
 
 たとえばこの際、新規の薬剤とプラセボの治療成績に差が見られたとしても、その差が新規の薬剤とプラセボの差に起因するのか、介入群と対照群のもともとの特性の差に起因するのか、十分に区別することはできない。つまり、介入群に対して介入を提供し、対照群に対して介入を提供しなかったことが「原因」となって、2群の治療成績の差という「結果」が生じたという、因果関係の判断をするのが、ランダム化比較対照試験の場合よりも困難である。
 
 介入群と対照群のもともとの特性の分布の偏りを統計的に補正する方法はいくつかある。とはいえ、補正の前提になる統計的仮定の正しさが、つねに保証されるわけではない。また、未知の要因や、既知の要因でも情報が収集されていなければ、データが存在しないので統計的な補正も行えない。
 

ランダム化のバッドラック

 
 ただし、ランダム化により介入群と対照群に分けた場合でも、問題が生じることがある。具体的には、バッドラック(不幸な偶然)としてのランダム化の失敗である。サイコロを振って偶然の影響のみでグループ分けをするような措置を取ったにもかかわらず、結果としては、介入群と対照群の特性が揃わない状態が生ずる場合がある。たとえば平均年齢や重症度の分布などが、介入群と対照群で揃わなければ、介入の有効性や安全性を評価する際に支障が生じる可能性がある。
 
 ランダム化のバッドラックは、参加者の人数が少ない研究の方が、人数が多い研究よりも、生じる可能性が高い。たとえば、40人の対象者をランダムに介入群20人と対照群20人に分けた場合、結果的に介入群の平均年齢が対照群より4~5歳高くなるような事態は、それほど珍しくない。いっぽう、4,000人の対象者をランダムに介入群2,000人と対照群2,000人に分けた場合、介入群と対照群の平均年齢が4~5歳も異なるような事態は、ほとんど考えられない。
 
 けっきょく、ランダム化により対象者を介入群と対照群に分ける措置を取ったというだけでは、介入群と対照群の特性が揃った2グループが形成されたという結果までも保証するものではない。「ランダム化」イコール「介入群と対照群の特性に偏りなし」とはいえないので、留保が必要である。ランダム化比較対照試験の論文には、介入群と対照群の特性(性別・年齢・重症度・合併症など)を比較した表が掲載されるのがふつうである。論文の読者はこの表を見て、介入群と対照群の特性が偏りなく揃っているか、ランダム化のバッドラックが生じていないかを、自分で確かめることができる。
 

倫理的な問題

 
 ランダム化比較対照試験では、参加者の希望を考慮せずに、介入群と対照群とにグループ分けする。対照群には特異的な薬効のないプラセボを投与する。また、盲検化の措置を取るため、参加者が服用しているのが新規の薬剤なのかプラセボなのかを教えない。
 
 これらの措置はいずれも、研究の科学的信頼性を高める目的で実施される。いわば、研究者の目線で取られる措置である。けれども、研究の参加者の目線で見れば、本来なら知りたい情報を知らされず、受けたい治療を受けられない場合も生ずることになる。
 
 そのため、研究への参加を検討する人に対して、ランダム化・プラセボの使用・盲検化を含む研究計画を、事前に十分に説明し、同意を得ることが不可欠である。説明と同意のプロセスを十全に踏まえないと、倫理的な問題が生ずる懸念がある。
 

臨床的均衡状態:もう1つの倫理的問題

 
 ランダム化比較対照試験を計画し実施する際に、守るべき倫理的原則がもう1つある。これは「臨床的均衡状態」または「エクイポイズ」(equipoise)と呼ばれる。治療法Aと治療法Bを比較する事例で説明する。
 
 いま、治療法Aの有効性や安全性が、治療法Bよりも優れていることが、すでに科学的知見として確立しているとする。この場合は、患者の全員に治療法Aを提供すべきであり、治療法Aと治療法Bを比べるランダム化比較対照試験を計画することは、それじたいが倫理的に不適切である。治療法Aが治療法Bより優れていることが明らかな場合、2つの治療法には、「臨床的均衡状態」が成立していないことになる。
 
 つぎに、治療法Aと治療法Bのどちらが、有効性や安全性が優れているかについて、まだ科学的知見が確立していないとする。このとき、患者に治療法Aと治療法Bのどちらを提供するのが妥当かについて、「臨床的均衡状態」が成立している。この場合には、治療法Aと治療法Bを比べるランダム化比較対照試験を計画し実施することが、倫理的に適切である。
 
 治療法Aを開発した研究者の主観には、治療法Bより優れているという確信があるかも知れない。しかし、研究者の主観的確信を根拠にして、ランダム化比較対照試験のプロセスを省略し、治療法Aを日常診療で実施することは倫理的に不適切である。この場合は、治療法Aと治療法Bを比較するランダム化比較対照試験を行うことこそが、むしろ倫理的に適切な対応となる。
 
 ランダム化比較対照試験には、ランダム化・プラセボの使用・盲検化など、倫理的に慎重な配慮が必要な要素が含まれている。いっぽうで、ランダム化比較対照試験を行うことこそが、もっとも倫理的に適切な状況もまた、存在するのである。
 
疫学論文を読む際のベースになる理論解説、いかがでしたか? 論文を読解できるようになるための道先案内として本連載をご活用ください。次回はまたケースに戻り、イスラエルで行われたファイザー社ワクチンの後向きコホート研究結果について、8月10日の更新予定です。[編集部]
 
 


 
 
》》》バックナンバー
第1回 感染と情報の爆発
第2回 パンデミックの転換点を、300語で読む――ファイザー社ワクチンのランダム化比較対照試験①
第3回 「重症化」予防がワクチンの目的か︖――ファイザー社ワクチンのランダム化比較対照試験②
第4回 ランダム化比較対照試験の理論――ランダム化・バッドラック・エクイポイズ
第5回 リアルワールドエビデンスの「マジック」――ファイザー社ワクチンの後向きコホート研究
第6回 Covid-19ワクチンによる「発症」予防と「感染」予防――ファイザー社とモデルナ社のmRNAワクチンの前向きコホート研究
 
 

坪野吉孝

About The Author

つぼの・よしたか  医師・博士(医学)。1962年東京生。1989年東北大学医学部卒業。国立がん研究センター、ハーバード大学公衆衛生大学院などを経て、2004年東北大学大学院教授(医学系研究科臨床疫学分野・法学研究科公共政策大学院)。2011年より精神科臨床医。2020年、厚生労働省参与(新型コロナウィルス感染症対策本部クラスター対策班)。現在、東北大学大学院客員教授(医学系研究科微生物学分野・歯学研究科国際歯科保健学分野・法学研究科公共政策大学院)および早稲田大学大学院客員教授(政治学研究科)。専門は疫学・健康政策。