にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

にんじんと読む「統計学を哲学する(大塚淳)」🥕 第五章(②)

carrot-lanthanum0812.hatenablog.com

第五章 因果推論(②)

 因果推論の根本問題は、私たちがこの世界に生きており、他の世界ではないということである。なんとか歩みを進めるために、何ができるだろうか。それがフィッシャーの無作為比較試験Randomized Control Trial;RCTである。これはたとえば「甘党だと確認された人が虫歯になる」のと「仮に甘党だった場合に虫歯になる」のと、ふたつの確率を実験的に等しくさせる。これはふつうは一致しない。甘党のひとは単に甘いものを食べるだけでなく、それ以外にもたくさん、虫歯要因を抱えているだろう。だからランダムに選ばれた人が甘党だったときを仮定した世界で虫歯になる確率よりも、ふつうは高くなる(単に甘党だと仮定された人は、甘いものを食べる以外になにもしない)。

 RCTはこれを等しくするため、「甘いものを食べる」という処置をコインで決める。そして処置群と非処置群の虫歯発生確率を比較して、その差が有意に大きければ処置には因果的な効果があったと考えるのである。その根拠は、無作為化によって処置が、〈甘党じゃないときに虫歯になる〉〈甘党のときに虫歯になる〉という二つの結果と独立になるということによる。前者をY1,Y2とすれば、ルイスの二条件が満たされることはY1が成立、Y0が不成立であることを意味し、つまり、Y1=1、Y2=0、すなわち、Y1-Y2=1が成立することである。つまりどのぐらい因果関係が認められたかどうかは、Y1-Y2の期待値が1に近いかどうかで見極められる。:

 E(Y1-Y0)=E(Y1)-E(Y0)

 が成立するから、それぞれの期待値を計算すればよいのだが、何度も言っているように、私たちはこの世界にしか生きてはおらず、観測することはできない。だが「仮に甘党だった場合に虫歯になる」期待値と、「仮に甘党でなかった場合に虫歯にならない」期待値は求めることはできる。上で独立性を実験的に確保したのは、E(Y1)=E(Y1│甘党)とE(Y2)=E(Y2│甘党じゃない)という等式を成立させるためだったのである。

 

 ややこしいがともかく、RCTは科学的知見を得るための、因果推論の王道である。ところがRCTには倫理的な問題が生じる場合もある。たとえば喫煙リスクを知るために、募集した人にランダムで「タバコ吸え」と強要するわけにはいかない。というわけで今度は喫煙習慣と病歴などのデータに基づいて、可能世界を覗き見する方法を画策する。形而上学的な観点からいえば可能世界ののぞき見は不可能だが、一定の想定のもとでそれを推論することは十分できる。たとえば実験したいある一点以外はまったく同じのそっくりさんを引き連れて来れば、問題は解決する。

 しかし、そっくりさんを見つけてくるなんて無理だし、そもそもそれをどう評価するのかが今度は問題になって来る。というわけで考え出されたのが、強く無視できる割り当て条件strongly ifnoravle treatment assignmentである。これがそっくりさんを決める。

 以上のような検定とは異なるアイディアをルービンの反実仮想モデルといい、広く用いられている。しかし未知の交絡要因がいくらでも存在し得る点などを鑑みても、このモデルを使えば安心安全というわけでは全くない。

 

つまりまとめると反実仮想モデルは、因果命題とは可能世界のあり方についての主張であるというルイス流の意味論を受け入れた上で、現実に得られたデータからその主張の成否を推論するための認識論を与える。

 

  因果についてのふつうの考え方をすれば、それは「反事実的関係」といったものよりも、むしろ「向きを持った影響関係」だろう。XはYの原因であるといったときに、X→Yと言う風にかけば、複数の変数の間の因果構造は有向グラフによって表される(因果グラフ)。数学的にはグラフというのは一周して戻って来ることもありうるので、簡単のためにサイクルを除外した非巡回有向グラフDirected Acyclic Graph;DAGのみを考慮しよう。

 グラフによって変数同士の因果が目に見えて表示されるようになる。そしてさらにここには、因果的マルコフ条件causal Markov conditionが仮定される。これは「グラフにおいて因果的に切断されているものは、確率的にも独立になっている」ということを表す条件である。グラフの各変数から別の変数に移り変わりを関数で表したものを構造方程式structual ewuationと呼ぶが、それぞれの移り変わりの誤差が独立な確率分布に従うと仮定したときに、それら確率分布をすべてまとめて考えてみるとやっぱりマルコフ条件を満たすので、結論からいえば、「因果構造がグラフと構造方程式で表される」と思うなら、マルコフ条件を満たすと考えることは当然なのである。

 このアプローチは「グラフ」から攻めるもので、反事実条件から攻めようとする反実仮想モデルとは違い、構造的因果モデルと呼ばれる。これによって因果関係というものに「介入」という当たり前の考え方をもたらす。つまり、甘党のやつが虫歯になるなら、チョコを控えるようにいえば虫歯になる確率を変えられるはずだ、というふつうの発想である。すなわち、XがYの原因であるというのは、Xをいじくって他の分布に変えてしまうことによってYの分布も一緒に変えられるということも意味するはずだ。とはいえ、これは反事実条件における「因果」解釈と衝突するものではなく、むしろそのもう一つの側面をあぶり出したといえる。そしてやはりグラフによって視覚的に見やすくなるのもありがたい。

 さて、それはいいが、じゃあどうやって「因果グラフ」など見つけ出すのかといわれると問題になる。これに取り込むのが因果探索causal discoverであり、複数のアルゴリズムが提唱されている。因果探索の根底にあるアイディアは「確率分布というのはもととなる因果構造から生み出される!」というものである。だから確率分布があればその痕跡が残るはずであり、それをデータからなんとか絞り出そうとするのだ。

 

 とはいえ、いずれにせよ、帰納推論では何らかの仮定を置かない限り何も結論することはできない。そもそもIID条件や統計モデルを仮定して確率分布を推定するわけだし、強く無視できる割り当て条件がなければ期待値も計算できないし、なんらかの前提がなければ因果グラフも作れない。そしてこれらの仮定はその内部では絶対に正当化されない。

 

 私たちの道行きは因果的説明と予測には本質的に異なるところがないとして扱うところからはじまり、それを定量化してきたが、徐々にわかってきたことは因果関係というのは単純に確率という概念で完璧に説明しきれるようなものではないということである。因果を確率に還元するアプローチはもはや維持できず、確率モデルを超えた道具立てを必要としている。それが可能世界や因果グラフだったわけだ。

 これによって「データ」「確率モデル」「因果モデル」の三元論でぶつかることになった。伝統的には「データから確率モデルを見つければよい」というのが因果のすべてだったのだが、今となっては「介入を行うとどんな世界が実現するのか」になった。そのマッピングの法則性が問題となっている。これらの三つの要素はすべて異なる世界に属するものであり、たとえばデータから確率モデルを直接計算することなどできないし、いくら確率モデルを用意したところで因果モデルは推測するしかできない。

 

 データ → 確率モデル → 因果モデル の→(推測)の流れ

 

 数学的表現は、この存在論的区別を忘れさせる。私たちは正当性について考えるにあたって、対象を「確率種」としてみなすか「因果種」としてみなすかを試されている。つまり、主張の成否は、それが存在論的にどちらに帰属しているかによって決まる。

 

以上をまとめると、次のようになる。数理統計学の手法を使うことで対象について何を主張できるかは、我々が対象をどのようなモノとみなしているのかという、我々の存在論に依存する。統計学は、そうした存在に関する想定を、確率分布や潜在結果、因果グラフなどの道具立てによって形式的に表現し、またそうした想定が満たされているかをデータに基づいて判断するための認識論的手段を与える。一方、対象がそもそもどのレベルの存在としてみなされるべきかについては、定まった答えはなく、むしろ与えられた関心や課題によってその都度意思決定されるべき事柄だろう。もしわれわれの関心が予測のみにあるのであれば、確率種の想定で十分であり、一方介入結果の予測や制御が問題になるのであれば、因果的想定が必要になってくる。つまり我々は問題に応じて、我々の存在論的な「態度」を決定する必要があり、またそれに応じた認識論的手法を選択する必要があるのである。

統計学を哲学する

 

 

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本