にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

にんじんと読む「統計学を哲学する(大塚淳)」🥕 第三章①

carrot-lanthanum0812.hatenablog.com

第三章 古典統計(①)

 ベイズ統計も古典統計も観測されたデータをもとにその背後にある確率モデルについて知ろうとする点においては同じだが、(1)主観主義vs頻度主義という確率についての意味論がまず異なり、(2)帰納推論についての考え方、もまた異なる。ベイズ統計においては、帰納推論とはデータに基づき確率モデルについての信念を調整していくことだったが、古典統計においてはまず仮説を立て、棄却または保持し、徐々に確率モデルに肉薄していくことなのである。

 まず頻度主義について見てみよう。たとえばコインの表が出る確率は1/2だと誰でも知っているが、頻度主義は、一定の試行を行った際にその事象が生じる回数を試行全体の回数で割ったものだと考える。とはいえ、コインを100回振れば、50回表が出るとは限らないのは当たり前の話である。だから頻度主義は確率を有限系列から無限に引き延ばす。確率とはその収束値なのである。実際、コイン投げの表の相対頻度は試行回数が増えるに従って1/2へと近づいていく。だから、確率は1/2なのである。

 というわけで、極限を用いて確率を定義することが出来る。ベイズ主義においては公理さえ満たしていればなんでも良かったのとは対照的である。もちろん、頻度主義における確率も、確率の公理を満たす。頻度主義の利点は確率を客観的に定めてしまえることにある。とはいえ、当然のように無限回の試行などできるわけもなく、あくまで仮定的なものに留まらざるを得ない。もちろん数学的には極限の値はそうなるとしても、いつそのコインの化けの皮が剝がれるかは、絶対保証できないからである。つまり、1000回目まではいい感じに進んでいたとしても、1001回目からは裏しか出なくなるかもしれない。するとその収束値は0である。これに対処するため、確率を定義する集まりのランダム性条件を仮定する必要があるが、なにがランダムなのかというのは恐ろしく厄介な話なので、これ以上の分析は確率の哲学理論 (ポスト・ケインジアン叢書)に譲ることにしよう。

 さて、頻度主義は確率をはっきりと定義することができたが、もちろん欠陥もある。何回もくり返し起こらないようなことに対しては、定義できない。一方、主観主義においてはそうではなかったことを思い起こそう。「恐竜が絶滅したのが〇年前だ」という命題にも確率を付与することが出来た。「明日は晴れだ」これにもできる。だが、頻度主義にはこれが出来ない。宇宙の歴史が無限回繰り返される結果を考えなければならないが、そんな想定は客観的意味をなさない。これに関連して、たとえば「このコインを投げて表が出る確率は1/2!」とはいえるが、「今投げるけど、表が出る確率は1/2だ」とはいえない。なぜなら今投げるのは一回限りのことだからだ。そしてまた、科学的仮説についても確率を考えることなど不可能である。ベイズ統計であれば実験をして修正をして、実験をして、とアップデートすることが可能だったが、古典統計は正しいか正しくないかであり、アップデートなどあり得ない。

 そこで現れるのが仮説検定である。これはポパー反証主義falsificationismに近いところがある。「まず仮説がある。データと突き合わせる。駄目なら捨てて新しいものを、良ければ””一応は””大丈夫」だ。このサバイバルゲームを繰り返すことの意味は、科学を、真理に近づいていくものというよりむしろ、間違いを斥けていくプロセスとして描き出すことにある。これは、仮説をもとにして見たデータが正しく合致しているからといって仮説が正しいとは限らないが、データが合わなければ仮説はまちがいだというのは論理的に正しい、ということを利用したゲームだ。

 しかし実際の科学的仮説がここまで強力な予測をすることはほとんどない。たとえば『喫煙は肺がんの原因である』という仮説は、ヘビースモーカーのくせに肺がんにならない人間を見つけてしまったが最後、間違いとして棄却されるわけではない。われわれが併せて考えるべきなのは、その仮説がもし間違いだった場合にそのデータが得られる確率である。検定はこの二つの仮説を同時に検証することで、棄却すべきか否かを判定する。手続きとしては棄却域critical region、つまりどれぐらいの確率であれば仮説を切るかの取り決めをしておかなければならない。とはいえ、この取り決めはこっちが勝手に決めるのだから、間違う可能性がある。棄却してはいけないものを棄却することを第一種の誤りと呼び、棄却し損なうことを第二種の誤りと呼ぶ。この誤りのどちらからも完全に逃れることはできない。ふたつはトレードオフの関係にある、即ち、一方を避けようとすれば一方の危険が高まるのだ。