にんじんと読む「統計学が最強の学問である」①

なぜ統計学が最強の学問なのか？

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるから。

統計学が最強の学問である

　果たして「どんな分野でも」なのかはともかく、多くの分野で役に立つのは間違いない。

サンプリングが情報コストを激減させる

　なんでもかんでもデータを集めればいいわけではないし、目的によってはたいていの場合集める必要さえない。正確なことを知るためには全数調査をしろというのは素朴な感覚だが、全体の様子を知るのに全体を調べる必要などない。

　失業者を一億二千万人の中から調べよう。全部調べれば真の失業率が0.5%であることがわかるだろう。だがそれにかかるコストはとんでもない。そこで60万人だけ調べることにしてその割合を「だいたいの失業率」にするわけだ。心配性の人間はランダムに選ばれた人間が全員失業者であることを心配するが、まあほぼありえないし、真の失業率が0.5%なのにどちらかに徹底的に偏ることは確率的にほぼありえない。たとえば0.5%のくじを引くことを考えればわかりやすい。サンプルは少なすぎてもいけないが充分調べれば調査結果と真の値との誤差が1%も生じることさえ確率的にほぼありえない。

　サンプリング失業率をとったところ25%であったとしよう。ここで「標準誤差」というものを計算すると、0.5%であったとする。サンプリング失業率から標準誤差の二倍を引いたものと、足したもののあいだに真の失業率がある信頼性が約95%であることが「標準誤差」の指し示す意味である。今回の場合、真の失業率は24~26%にあると考えて間違いないというわけだ。

　そしてこのことが「どれぐらいデータをとればいいの？」という答えにも結び付く。サンプルを集めまくったとき標準誤差はどんどん縮まっていく（この値がでかいと真の値がどこにあるかまったくわからない）が、ある数だけ集めると急に標準誤差がほとんど動かなくなる。もちろん1%ぐらいは動くが、その程度のために数千万円お金をかけると言い出すのはやはりどうかしている。