誤差と因果関係が統計学のキモである
何を調べるかは人間が決める。だからたいてい、人は集めてもどうにもならないようなしょうもないデータを集める。たとえば、「〇〇というブランドについてどう思いますか?」だ。たいへん好ましい、好ましい、ふつう、好ましくない、たいへん好ましくないという割合がわかったとして、なんの役にも立たない。
- ブランドが好ましいやつが全員商品を買うわけではないし、
- たいへん好ましいやつが一番金を落とすわけでもないし、
- なにをすればブランドの好感度が上がるのかもわからない。
今度はもっと努力して年代別の売上単価を出してみよう。その結果、60代がかなり金を落としていることがわかった。この結果はさきほどよりマシだが、60代向けのキャンペーンを打つぐらいしかこの統計は役に立たない。
ナイチンゲールは不潔な場所にいる兵士がめちゃくちゃ死んでいることを明らかにしたが、現代ではこのような単なる集計で結果をあげられる時代ではなくなっている。統計解析をわざわざする場合、次の三つの問いに答えられなければならない。
- 何かの要因が変化すれば利益は向上するのか?
- そうした変化を起こすような行動は実際に可能なのか?
- 変化を起こす行動が可能だとしてそのコストは利益を上回るのか?
今度はDMを送り付けた人と送らなかった人間の客単価を比較してみよう。その小売企業は数千万人の会員を抱えており、無作為にDMを送付していた。キャンペーンもつけていたので送付コストは一通100円である。
会員全員を調査しなくてもいいので、とりあえず二万人だけ抽出して調べると、そのうち1500人がDM送付あり、それ以外はDMの送付がなかった。そして解析期間中の売り上げを比べると、なんとDMを送付したほうが売り上げが高いことがわかった。500円も差があるのである。この結果から示唆されることはDMを送りさえすれば解析期間幅で500円の売り上げアップが見込めるということだ。DMを送らなかった18500人全員にDMを送ってそのコストを差し引いても、売り上げは1.2倍になる。
だが500円の差はたまたまかもしれない。そこで統計学では「p値」というものを調べる。これが5%以下なら、その結果は偶然の産物ではないと理解される。p値とはつまり、実際にはなんの差もないのにサンプリングのせいで出てしまった偶然をはかる値である。