推測統計総論
記述統計の禁欲的態度の欠点をうけて、未観測の事象を予測・推定する方法論が推測統計である。その原理は、簡単にいえば、「昼時、学食は混むだろう」という推論が昔も今も同じようなことが起こるという前提に基づいているであろうことに求められる。詳しくいうなら、まず確率空間を想定し、データをそこから生み出されてきたものだと捉える。そのデータの抽出は確率変数という関数によって表現され、それが昔も今も同じだろうという気分を数学的に表現したIID条件を満たすものとして仮定される。
データ → 確率変数+IID条件を満たす
データの背後にある分布をIID条件を備えたものとして前提することだけでも、私たちは『大数の法則』や『中心極限定理』などの重要な結果を得ることができる。ただこれらの成果は「無限回テストすれば~」という現実的に無茶なものであるため、限りなく大きくすればそうなることを保証してはくれるものの、そこまでテストするわけにはいかない。そこでIID条件に加えて、さらなる仮定が必要になってくる。それが、確率変数の形を大まかに決めておいてしまう、というある意味での荒業である。
私たちがよく利用するカタチにはいろいろ定番のものがある。
- 二項分布
- ベルヌーイ分布
- 一様分布
- 正規分布
さて、「仮定する」「前提する」といったとき、つまりそれらは理論的にはなんの正当化もなしに受け入れられるということを意味する。そうすると、当然疑問になるのはそれらの正当性であろう。しかし、IID条件とカタチ決定(分布族の仮定)の上記二つの仮定は、同じ仮定といえどもまったく同列のものではないことに注意しなければならない。なぜなら、IID条件を疑うということは帰納推論を捨てることに等しいからだ。推測統計のそもそもの目的からして、そんなことができるわけがない。
だからいつも問題になるのは、その現象をよく再現するような分布(モデル)を選択できているか、という後者の条件だということになる。一番わかりやすいのは、データを並べてみると、いわゆる棒グラフが山形になっているという分布だが、明らかに現実においてはそのような例ばかりではない。どのモデルを選ぶかは分析者である我々に委ねられている訳である。そしてこのことが意味するのは、分析者の力量が結果を歪めるということ以上に、結果が分析者一般の認識能力に依存するということである。もしかしたら、コンピュータは私たちが考えもしないような分布を区別し、それに基づいてよりよい結果をはじきだすかもしれない。
この意味で、分布というのは現象というものの分類でもある。分布が同じものは統計学的には存在者としてまったく同等だという意味なのだ。コインを投げるのも、靴を蹴り上げて表と裏が出るのも、私たちはだいたい同じ分布に従うと考えている。
推測統計学的に存在するのは同じ分布かどうかによって区別されたモノであり、
何を分布とみなすかは分析者それぞれの認識能力、その立場に依存する。