にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

にんじんと読む「統計学が最強の学問である」

なぜ統計学が最強の学問なのか?

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができるから。

統計学が最強の学問である

 果たして「どんな分野でも」なのかはともかく、多くの分野で役に立つのは間違いない。

サンプリングが情報コストを激減させる

 なんでもかんでもデータを集めればいいわけではないし、目的によってはたいていの場合集める必要さえない。正確なことを知るためには全数調査をしろというのは素朴な感覚だが、全体の様子を知るのに全体を調べる必要などない。

 失業者を一億二千万人の中から調べよう。全部調べれば真の失業率が0.5%であることがわかるだろう。だがそれにかかるコストはとんでもない。そこで60万人だけ調べることにしてその割合を「だいたいの失業率」にするわけだ。心配性の人間はランダムに選ばれた人間が全員失業者であることを心配するが、まあほぼありえないし、真の失業率が0.5%なのにどちらかに徹底的に偏ることは確率的にほぼありえない。たとえば0.5%のくじを引くことを考えればわかりやすい。サンプルは少なすぎてもいけないが充分調べれば調査結果と真の値との誤差が1%も生じることさえ確率的にほぼありえない。

 サンプリング失業率をとったところ25%であったとしよう。ここで「標準誤差」というものを計算すると、0.5%であったとする。サンプリング失業率から標準誤差の二倍を引いたものと、足したもののあいだに真の失業率がある信頼性が約95%であることが「標準誤差」の指し示す意味である。今回の場合、真の失業率は24~26%にあると考えて間違いないというわけだ。

 そしてこのことが「どれぐらいデータをとればいいの?」という答えにも結び付く。サンプルを集めまくったとき標準誤差はどんどん縮まっていく(この値がでかいと真の値がどこにあるかまったくわからない)が、ある数だけ集めると急に標準誤差がほとんど動かなくなる。もちろん1%ぐらいは動くが、その程度のために数千万円お金をかけると言い出すのはやはりどうかしている。

 

 

 

60万回当たりを引き続ける確率は予想されるようにクソ難しい。人間どものうち0.5%を拾い上げて全員が失業者だったら失業率は100%になってしまうといった心配をするやつはちょっとどうかしているわけだ。

 

誤差と因果関係が統計学のキモである

 何を調べるかは人間が決める。だからたいてい、人は集めてもどうにもならないようなしょうもないデータを集める。たとえば、「〇〇というブランドについてどう思いますか?」だ。たいへん好ましい、好ましい、ふつう、好ましくない、たいへん好ましくないという割合がわかったとして、なんの役にも立たない

  1.  ブランドが好ましいやつが全員商品を買うわけではないし、
  2.  たいへん好ましいやつが一番金を落とすわけでもないし、
  3.  なにをすればブランドの好感度が上がるのかもわからない。

 今度はもっと努力して年代別の売上単価を出してみよう。その結果、60代がかなり金を落としていることがわかった。この結果はさきほどよりマシだが、60代向けのキャンペーンを打つぐらいしかこの統計は役に立たない。

 ナイチンゲールは不潔な場所にいる兵士がめちゃくちゃ死んでいることを明らかにしたが、現代ではこのような単なる集計で結果をあげられる時代ではなくなっている。統計解析をわざわざする場合、次の三つの問いに答えられなければならない。

  1.  何かの要因が変化すれば利益は向上するのか?
  2.  そうした変化を起こすような行動は実際に可能なのか?
  3.  変化を起こす行動が可能だとしてそのコストは利益を上回るのか?

 今度はDMを送り付けた人と送らなかった人間の客単価を比較してみよう。その小売企業は数千万人の会員を抱えており、無作為にDMを送付していた。キャンペーンもつけていたので送付コストは一通100円である。

 会員全員を調査しなくてもいいので、とりあえず二万人だけ抽出して調べると、そのうち1500人がDM送付あり、それ以外はDMの送付がなかった。そして解析期間中の売り上げを比べると、なんとDMを送付したほうが売り上げが高いことがわかった。500円も差があるのである。この結果から示唆されることはDMを送りさえすれば解析期間幅で500円の売り上げアップが見込めるということだ。DMを送らなかった18500人全員にDMを送ってそのコストを差し引いても、売り上げは1.2倍になる。

 だが500円の差はたまたまかもしれない。そこで統計学では「p値」というものを調べる。これが5%以下なら、その結果は偶然の産物ではないと理解される。p値とはつまり、実際にはなんの差もないのにサンプリングのせいで出てしまった偶然をはかる値である。