にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

にんじんと読む「統計学を哲学する(大塚淳)」🥕 第二章①

carrot-lanthanum0812.hatenablog.com

第二章 ベイズ統計 (①)

 確率モデルのあり方について仮説をたて、与えられたデータをもとにその仮説を評価することを通じて帰納的推論を行う。そのようなことを具体化するための方法論はベイズ統計、古典統計、モデル選択などいろいろの流派がある。

しかしその前にやっておかなければならないことがある。それは、前章で導入した確率モデルの数学的道具立てを、現実の帰納推論の文脈で具体的に解釈すること、すなわち、そもそも確率とは一体何であるのかを明らかにしておくことである。

統計学を哲学する

  確率とは集合論的に、数学的に定義されている。専門用語はともかく、そこでは確率というのは0から1の間の値をとる関数だとされた。だが、この大きさがそもそも一体何を意味しているというのか。まず確率の意味論semanticsを明らかにしよう。そしてこの点で生じる哲学的対立がベイズ統計と古典統計という二派に分かれさせるのである。結論からいえば、確率というものを、ベイズ統計では『信念の度合いを示す主観的な指標』として扱い、古典統計では『物事の起こる客観的な頻度』として扱う。短く言えば、主観主義と頻度主義の対立である。注意しておかなければならないのは、主観主義vs頻度主義とベイズ統計vs古典統計という対立は、前者が意味論的、後者が認識論的な対立であり、そもそも論理的には別々のものである。だから、別に古典統計がやっていることを主観主義的に解釈することに何か矛盾が生じるわけではない。

 さて、確率の主観主義的解釈である。

 彼らにとって、標本空間は命題から成る。たとえばサイコロを振るという試行について考えてみれば、標本空間Ω={1,2,3,4,5,6}とされる。このそれぞれの数字は「1が出る」という風に命題に対応する。確率関数はこれらの複合命題(たとえば「1が出る または 2が出る」)などに値を割り振る。そしてこれは信念の度合いを表すと解釈される。信念の度合いとは、簡単にいえば、当該命題をどの程度正しいと考えているかということだ。まず疑問が起こるのは「一体誰の信念なのか」ということであろうがこの点については心配いらない。確率関数はその解釈が許す範囲で自由に設定することが許されており、「1が出る」確率が他よりも圧倒的に高いと感じている人はそのように定義すればよい。

 しかしそうだとしても、私の、そしてあなたの『信念の度合い』など一体どのようにして数値化すればよいのか。そしてまた、それがなぜ「確率の公理」とやらに従わなければならないのか。この件については確率の哲学理論 (ポスト・ケインジアン叢書)が詳しい。簡単に述べればその一般的方法は「公正な掛け金」と呼ばれるものであり、命題Aが起これば一万円ゲットできる権利をあなたはいくらで買うか、というギャンブルで測られる。もし「来年の正月は雨!」を6000円で買ったとしよう。「来年の正月は雨じゃない!」を6000円で買うことはできない。なぜなら、こうなるとあなたは2000円必ず損をするからだ。というわけで、確率の公理は守られなければならない。

 確率をあいまいな信念の度合いとやらに任せることに不安を感じるかもしれない。その利点は、およそ命題として表せるものならなんにでも確率が割り当てられるということである。そして、もし目の前のコインが「1ばっかり」なら、私たちのコインに対する確率もアップデートすることができる。証拠をもとにしたアップデートこそ、ベイズ統計における「帰納的推論」の意味であり、ベイズの定理がその手引きを与える。

 

 実際に使ってみよう。あなたが商店街に行くと日曜クジをやっていた。二種類の壺A,Bがあり、それぞれ1割、3割ずつ当たりが入っている。毎週末どちらかの壺が使われるのだが、今日がラッキーデーなのかは全くわからない。あなたはこの前の日曜に試しにやってみたのだが、ハズレを引いてしまった。これを証拠Eと見て、この証拠をもとに壺がAであるという確率と、壺がBであるという確率はどのようにアップデートされるのか見てみることにする。

  •  クジを引く前、壺がAとBのどっちかなどということはわかるわけがないので、事前確率は半々としよう。:P(A),P(B)=0.5
  •  もしAだったら90%でハズレ、Bだったら70%でハズレ。:P(E│A)=0.9、P(E│B)=0.7。

 これをベイズの定理に当てはめると、証拠EのもとでのAの確率P(A│E)は56%、証拠EのもとでのBの確率P(B│E)は44%となる! つまりハズレを引かされた1回分、「これってハズレの多いほうの壺なんじゃね?」という疑惑が高まったわけだ。確率の変化によって分布にも変化が生じる。

 こうした作業を通して、私たちが得たものはなんだったのか。意味論ではなく、今度は認識論に移ろう。ベイズを用いた確率計算は、帰納推論を行なうためのルールすなわち帰納論理(indective logic)として考えられる』という。帰納論理というのがよくわからないが、演繹論理ならわかるだろう。「A→BでAならば、Bだ」というように、ベイズ推論も論理的な規則を与えている。ただ異なるのは、0か1か、というような話ではなく、0から1まで、という話になっていることだけだ。

以上まとめると次のようになる。演繹推論における妥当性とは、前提の真理値割り当てに対し整合的な形で結論の真偽を導き出すことであり、これは健全な論理規則に従って推論することで担保される。一方、帰納推論における妥当性とは、前提の信念の度合い(すなわち事前確率と尤度)に対し整合的な形で結論の信念の度合い(事後確率)を調整することであり、これはベイズ定理に代表される確率規則に従って計算することで担保される。このような意味で、ベイズ定理を始めとした確率計算は帰納推論についての論理を与えるのである。

統計学を哲学する

  しかし演繹論理が「すべての人間は死ぬ」「あいつは人間」「だからあいつは死ぬ」というとき、なんの情報も増えていないことに注意してほしい。帰納論理は、それとは違って、未観測の事柄を推論することに特徴がある。なぜこんなことができるのか? 私たちはもはや哲学的認識論の領域に足を踏み入れている。

 

 

carrot-lanthanum0812.hatenablog.com