にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

にんじんと読む「統計学を哲学する(大塚淳)」🥕 第一章

第一章 現代統計学パラダイム

 この記事では数学的な定義を行なわない。

大まかに言って統計学とは、数字や数学を用いてデータをまとめ、それに基づき推論するための学問である。(略)現代統計学には、「記述統計」と「推測統計」という二つの側面がある。

統計学を哲学する

 記述統計decriptive staticsとは、得られた膨大なデータを適切に要約し、真に必要とされる情報を抽出するための技術のことを言う。データ要約の種々の指標を統計量statisticsと呼び、たとえば標本平均・標本分散・標準偏差などがある。

 要約することで、二つのデータの連関が見えてくることがある。『つまり若干大げさに言えば、データの中に潜む規則性ないし法則をあぶり出す』ことができる。実証主義positivismの基本的な考え方は、科学的な言明は現実の経験や観測に基づかなければならない、ということだが、実証主義的見地からいえば、観測されたデータをそのようにまとめることこそ科学の目的であった。とはいえ、実証主義者の真の狙いは、それ自体は観測されないような概念を排斥することにあった。たとえば統計力学創始者のひとりであるボルツマンの時代、原子といったようなものは観察不可能であり、それは説明のために持ち出されたものに過ぎなかった。そんなものを持ち出して現象を理解できるようになるよりも、きちんと観察に基づいてまとめることが大事なのだ―――そのように噛みついたのが実証主義の親玉・エルンストマッハであった。

 この考え方を引き継いだのが記述統計の基盤を確立したカール・ピアソン。たとえばビリヤードをしてみよう。ここで観察できるのはボールが衝突し、当てられたボールが動いたということだけである。私たちは思わず「一つ目のボールの衝突が、二つ目のボールの運動を引き起こした」と言いそうになるが、「引き起こし」などどこにも観察できない。これを記述統計的にいえば、ある変数Xが他の変数Yと相関しているということ、両者の回帰直線の傾きが大きいというだけのことである。「相関から因果は導けない」といっているのではなく、そもそも因果など不要なのだ。相関は「引き起こし」ということについての厳密な定義を与える。

実証主義は、極端なデータ一元論である。すなわち、科学において「ある」と認められるのは客観的な仕方で計測されたデータとそこから導かれる概念だけであり、それ以外のものは人間の作り出した人工物に過ぎない、という考え方である。

統計学を哲学する

  この代償はヒュームによって指摘されていた。帰納推論の不可能性である。たとえば「学期中の学食は混むから今日も席はとれないだろうな」も無理だし、「治験の結果を見ると薬にはこんな効果があるようです」も無理である。なぜならまだ今日の昼の学食のデータは得られていないし、薬を使っていない人が薬を使ったデータも得られていないから。帰納的推論を可能にするところの、自然は過去・現在・未来いつでも同じように働くだろうという暗黙の前提を自然の斉一性uniformity of natureと呼んだ。しかしこの前提自体、過去の経験から得られたものではあるが。というわけで、実証主義者は自然の斉一性を前提できず、帰納的推論も不可能である。そしてそれは記述統計の限界でもある。データが来なければ記述統計は何もできない。

 

 推測統計とはデータをもとに未観測の事象を予測、推定する技術である。帰納的推論はデータのみからは正当化できず自然の斉一性を使う必要がある。そこでこの斉一性を確率モデルprobability modelとして定式化し、数学的に精緻化する。つまりデータというのはその背後にある確率モデルから一部を抽出してきたサンプルだと見られる。ただ、背後にある全体は私たちには見渡せないので、これを推測しようというわけだ。

  1.  サンプリングは同一の確率モデルからなされている
  2.  サンプリングはランダムである

 データのとり方をそういう風にしておくと、数学的には確率変数が独立同分布に従うindependent and identically distributed:IIDと仮定できる。IID条件は自然の斉一性の具体的内実であり、換言すれば、未観測な状況においても現在と同様な状況が成立するということである。

 当たり前だが、何千人の身長をすべて測ったところで、個々人の、たとえばあなた個人の身長が割り出せるわけがない。我々の関心は観測されたデータから背後にある未観測のデータの様子を知ることである。たとえば日本国民の平均身長などが考えられる。数百万人の身長の平均が全国民の平均身長に近いという発想はきわめて自然なことであろう。言い換えれば、データ数を増やせば増やすほど標本平均はそのバッググラウンドにある真の平均に近づいていくはずだ。実は、これはIID条件を仮定するだけで数学的に証明することができる。これを大数の法則という。しかも中心極限定理というより強いこともいえる(中心極限定理については機会あれば後で戻ってこよう)。

 私たちは大数の法則中心極限定理によって、「データをひたすらかき集め続ければガンガン近づくし、最終的には合う」という終局的な保証を得た。だが私たちはコインを無限回投げることはできない。もし無限回投げれば本当に表がでる場合の数は半々になるはずなのだが。そのようなわけで、私たちが与えられるのは100%の保証ではありえない。ここまではIID条件のみを仮定してきたが、たいていの推測統計はもっと強い条件を与え考察を行う。だが強い条件とはなにか。それは人間がひねり出した仮説であり、多分そうだろうというフィクションである。私たちがここで求めているのはもはや世界の真の記述ではなく、私たちの目的に資する程度に正確な値=近似値である。「sべてのモデルは偽であるが、そのうちいくつかは役に立つ」というのは統計学者ジョージ・ボックスの箴言である。私たちにとって偽であったときに本当に困るのは確率モデル、自然の斉一性である。もしこれが間違っていたら、私たちに帰納的推論は一切できない。

 IID条件→さらにそこに加える一定の制約→そしてそれがどのような分布族であるか仮定してしまう、という順序でどんどんわかることは増える。たとえばどんなふうに分布しているのかという分布族はいろいろな形があるからそこは統計の教科書を見ていただくことにしよう。

 

 世界はありのままには現れてこない。現れるのは私たちがそれに基づいて思考や推論を行うところの単位・自然種natural kindである。たとえば化学者は炭素や金、アルゴンなどの種に分類して化学反応を説明するように。つまり、各学問分野における「世界」は、当該分野における自然種によって構成される。さらに分節化の仕方は文脈によって異なるということである。統計学における諸々の分布族というのは自然種の役割を果たすといってよい。たとえばコイン投げの表・裏の分布族は、下駄を放り投げたときの表・裏の分布族と同じくベルヌーイ分布だと考えられる(もちろんパラメータは異なる)。つまり私とあなたが生物学者から見て同じホモ・サピエンスであるのと同じ意味で、二つの試行は同じことなのである。以後、統計学における自然種を確率種と呼ぼう。

 確率種は化学種のように物理的構成によって完全に性質が決定されない。実際、先ほど下駄を投げたときの話をしたが、フチで立つという可能性を無視している。もしその可能性を考慮するなら多項分布を用いるべきだ。すなわち、どのような統計モデルを用いるかは、我々の決め方にもよる。しかしこのことは確率種が「自然種」と呼ばれる資格がないことを意味しない。世界の分節化の方法はその学問によって異なるからである。多種多様の分布は統計の勉強をする学生をうんざりさせるが、もし周期表に原子が二つしかなかったら恐ろしく貧相な内容になっていたことだろう。

以上をまとめると、次のようになる。推測統計では、帰納推論を行うために、データの背後の斉一的な構造すなわち確率モデルを仮定することで、データとモデルからなる二元論的存在論を採用する。斉一性は確率モデルとして定式化され、さらにパラメトリック統計ではそれぞれ固有の関数型(分布型)を持つ確率種への類別される。化学者が化学反応を元素によって説明するように、統計学者は多種多様な帰納問題をそれぞれふさわしい確率種へと帰着させることで理解する。

統計学を哲学する

  自然種が実在するのか、それとも我々の作り上げ理論的措定物かについては議論がある。興味がある読者は、実在論と知識の自然化: 自然種の一般理論とその応用科学的実在論を擁護するを参考に。にんじんブログでも以前読んだことがある。

 

carrot-lanthanum0812.hatenablog.com

carrot-lanthanum0812.hatenablog.com

 

⇩ 続き

carrot-lanthanum0812.hatenablog.com

 

 

統計学を哲学する

統計学を哲学する

  • 作者:大塚 淳
  • 発売日: 2020/10/26
  • メディア: 単行本(ソフトカバー)