「統計学の限界」を整理する――ランダム化の3つの壁（ダイヤモンド・オンライン）

Photo: Adobe Stock

　統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ統計学が最強の学問である』が発売されました。第17回では、統計学における最も強力な武器であるランダム化比較実験の「限界」について解説します。（本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。）　ここまでの内容を読んでいただければ、ランダム化の威力の素晴らしさはご理解いただけたと思う。本書において統計学は「最速かつ最善の答えを得るもの」として位置づけているが、ランダム化はまさにその中で最も強力な武器であると言える。　だが残念なことにこの武器はいつでも使えるわけではない。　世の中にはランダム化を行なうこと自体が不可能な場合、行なうことが許されない場合、そして行なうこと自体は本来何の問題もないはずだが、やると明らかに大損をする場合、という3つの壁がある。1つめの壁は「現実」、2つ目の壁は「倫理」、そして3つ目の壁のことを「感情」と呼ぶこともできるだろう。以下、それぞれの壁について説明していきたい。 ●　「現実」の壁　ランダム化に対する「現実」の壁とは、つまり「絶対的なサンプルサイズの制限」と「条件の制御不可能性」である。　たとえばスペースシャトルで月に行くにあたり、乗組員は3人で行くほうがよいか、4人で行くほうがよいか、という議題でNASA内がもめたとしよう。もちろんランダム化比較実験はこうした議題に対しても白黒つける力を持っている。今後月に100回飛ぶうちの半分を3人で、半分を4人で行くことにする。そしてかけたコストあたりの成果を比較して、「偶然とは思えない差が生じるかどうか」を比較すればいいのだ――。　などという答えを返す統計家がいたら容赦なくバカにしてくれていい。少なくとも宇宙関連技術に劇的なイノベーションが起こるまでは間違いなく。可能な限り条件を近づけた訓練や部分的なテストを複数回繰り返すなら、ランダム化が威力を発揮することもあるだろうが、いったいどこに今後100回も月に行くだけの予算があるのかと。　月へのフライトに限らず、「1回こっきりのチャンス」あるいは、あったとしてもせいぜい数回程度しかチャンスの与えられないもの自体を取り扱うことに対して、ランダム化しようがしまいが統計学は無力である。　ある会社が大規模な企業買収を仕掛けるべきか、とか、ある人が今の恋人と結婚すべきか、といった一世一代の決断をランダム化することはできないのだ。　余談だが、自分の知人の統計家には生涯1人の女性とだけ交際しそのまま結婚した男がいる。そして我々は彼の恋愛について、「統計学では解析できない」という表現で敬意を口にすることがある。データがたった1つしかないということは、誤差も標準偏差もなく、たった1つの値が平均値であり、最大値であり、最小値だ。統計学など無力もいいところである。　そしてもう1つの「現実」の壁は、ランダム化しようにも条件を制御すること自体ができない、というものがある。たとえば「大地震を体験した社員は精神的にタフになる」という仮説を検証しようと思っても、地震をコントロールする技術を人類がまだ持ちあわせていなければ、ランダム化も何も実験しようがないのである。　また研究の問いが、特に東京以外にオフィスがなく出張もほとんどない会社から発せられたりするものだったりすると、仮に大地震をコントロール可能な技術が開発されたとしても条件の制御が不可能ということになる。なぜなら一度大地震を起こしてしまえば、全員が被災してしまうことが避けられないため、ランダム化も何もないからだ。 ●　「倫理」の壁　なおこの大地震の実験に関しては、2つめの「倫理」の壁も重大な問題となるだろう。　すなわち、社員の精神力に対する興味ぐらいで自宅を倒壊させられたり大けがをさせられたりした人はたまったものではない。またもし「この実験がうまくいけば、今後地震による死亡者が救われるんです」と言われても、不確実な「将来救われる人間」のために、今確実な死傷者が出る事態は果たして正しいと言えるのだろうか？　もし正義論で有名なサンデル教授であれば、ここから議論を深めるところなのかもしれないが、そうすると話題が脇道にそれすぎてしまうので、ここでは一般的に統計家たちの間で共有されている倫理的ガイドラインを紹介するに留めよう。 ①ランダム化によって人為的にもたらされる、どれか1つまたはすべての介入が明らかに有害である（またはその可能性が高い）場合はダメ ②仮にすべてが有害でなくても、明らかに不公平なレベルで「ものすごくいい」ものと、「それほどでもない」ものが存在していると事前にわかっている場合もダメ　①は、「悪いことはしちゃダメ」という小学生でもわかるシンプルな理屈だ。明らかに悪いとわかっている実験はナチスの人体実験と同じくアウトだ、というのである。　たとえばタバコが肺がんや心臓病などを誘発する体に悪い物かどうか、という問いに対して、歴史上大っぴらにランダム化比較実験が行なわれたことはないし、何かとんでもなく倫理的な常識が覆される事態にでもならない限り、今後もランダム化比較実験が行なわれることはないだろうと断言できる。　それはなぜなら、これまでランダム化こそ行なっていないものの、ありとあらゆる状況で採集されたさまざまなデータをどう統計解析しても、「喫煙は肺がんや心臓病と関連している」という結果が得られているためである。わざわざランダム化比較実験を行なうことが倫理的に許されないレベルまでその健康被害が実証されてしまっているなら、科学者が受けるべき倫理的な審査をパスしようがないのだ。　②は①よりやや穏健な状況だが、たとえば特に理由もなくランダムな国民の半数のみに減税する、とか、ランダムな半数のがん患者にのみ明らかに効果が実証されたよい薬を投与する、ということである。これは裏を返せば「残りの半数に明らかに悪いことをする」のと変わりがない。こうした傾向は特に高い公平性が求められる行政の施策において顕著である。　ただし、一見して「一方のグループにとってよいこと」であっても統計学的実証が不十分で、「実際のところどっちがよいのだかわからない」という状況であれば、ランダム化比較実験は正当化されうる。　実際にアメリカで行なわれた事例として、ランダム化のもと、　・一部の貧困家庭のみに家賃の補助券を配る・一部の失業者のみに仕事の探し方と面接の受け方を指導する・一部の低所得者のみにベーシックインカムを保証（所得が一定水準を下回ったらその水準に足りなかった額を支給）する　といった実証実験が行なわれている。　これらすべての事例に共通して言えるのは、一見低所得者や失業者に支援を与えることはよいことのように見えるかもしれないが、実際にはそれがかえって「無益もしくは有害」なものではないか、という議論があったからこそ、倫理的な許可が下りたということである。　その結果、たとえば家賃補助を出すことで貧困家庭環境の悪いスラムから脱出させても、子どもの学業や犯罪率が改善したわけではなく、むしろ男の子においては悪影響すら見られた、という結果が示されたりもした。　それまでの研究成果や議論をきちんと踏まえたうえで、「一見こちらのほうがよさそうだが、実際のところよくわかっていない」という提案さえできれば、社会的意義の大きなランダム化比較実験に大きな予算と倫理的許可が下りる、というのはアメリカという国から我々が見習うべき点の1つだろう。 ●　「感情」の壁　だが科学的および倫理的な議論のうえで、どちらがよいか実際わかっていないからランダム化を行なうことが正当化されたとしても、「そういう運次第で自分の運命が左右されるのが何かイヤ」と実験に参加する人が思うことを止めることはできない。これが最後の「感情」の壁である。　先ほどの貧困家庭への家賃補助が、「全体的にかえって有害な傾向にある」ということがランダム化比較実験の結果検証されたとしても、「うちがそうとは限らないから、つべこべ言わずに補助券をよこせ」とか、「一部の家だけそういう物をもらってズルい」という感情的な反感を持つ人がいることは容易に予測できる。　社会保障制度にしても、医療にしても、教育にしても、ランダム化比較実験を行なうことで長期的にはよい社会が実現できることは間違いないはずだが、「テキトーに決められているっぽいのは何かイヤ」「たまたま自分が損する側に回るかもしれないのはイヤ」といった、感情的な強い抵抗が受益者や関係者の中にあるのであれば、それはそれで倫理的に考慮すべき問題となるわけである。　ビジネス上でランダム化比較実験を行なうのであれば、科学者や役人ほど倫理的にどうこう言われることは少ないが、むしろこうした感情的な面での反感には気をつけておかないと、顧客やパートナー、上司などから手痛い仕打ちを食らうこともある。　たとえばAmazon.comは、かつて値段の付け方に関してランダム化比較実験を「偶然行なってしまった」ことがあるが、それがはじめて顧客にバレたときには大問題になったそうだ。以前から買おうとしていたDVDを、たまたま友達のパソコンからチェックしたらなぜか5ドルほど安かった、といった現象が徐々に顧客間で知られるようになったというのだ。彼らはAmazonが何かズルいことをして自分からちょくちょく小銭をすろうとしているのではないか、と騒ぎはじめた。　結局CEOがわざわざ直接声明を出し、「値段に関するランダム化比較実験はこちらの手違いです」と言い訳してみたり、「もし今後こうした値付けに関するテストをやった場合、最終的な請求額はすべてのユーザーに対して最低金額とします」と約束することで何とかその場を収めたらしい。　こうした問題はランダム化に限らず、ビジネスにおいては統計学を駆使しようとすればいつかは直面しかねない問題である、ということは覚えていてほしい。　前節で紹介した航空会社の事例においても、もし「自分がたまたまランダムに選ばれたためにお詫び状が送られてきた」とか、逆に「たまたまランダムに選ばれたためにお詫び状を送らず無視することに決められた」ということを知ってしまえば、ブランドに対する愛着なんて一気に消し飛ぶという顧客だっていたはずだ。　「顧客から不信感を持たれること」がどれほど業績にマイナスの効果をもたらすかという点については、「現実の壁」と「倫理の壁」に阻まれてランダム化による検証を行なうことがむずかしい。しかし、だからといって気にしなくていいということはないだろう。

西内啓

ダイヤモンド・オンライン

＊＊＊＊＊＊＊

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

＊＊＊＊＊＊＊