にんじんブログ

にんじんの生活・勉強の記録です。

MENU にんじんコンテンツを一望しよう!「3CS」

データから度数分布表へ&データを代表する値

 本日のテーマは「統計」です。

 

 

日本統計学会公式認定 統計検定 3級・4級 公式問題集[2016〜2018年]

日本統計学会公式認定 統計検定 3級・4級 公式問題集[2016〜2018年]

 

 

度数分布表の作り方

 あなたが運営しているブログのことを考えましょう。

 無作為に30日を選び出し、その日の訪問者数を調べます。

 

19, 20, 10, 30, 98, 100, 45, 32, 78, 2, 2, 45, 32, 43, 54, 87, 21, 11, 10, 2

12, 43, 54, 10, 33, 22, 100, 43, 66, 43

 

STEP1:データの最大と最小を見つけて、範囲を計算しましょう。

 データの最大値:100

 データの最小値:2

 

 範囲:最大値ー最小値=98

 

STEP2:データの個数を確認して、スタージェスの公式を使いましょう。

 データの個数:30

 スタージェスの公式:1+3.322log(10)30=1+3.322×1.4771=1+4.9069262…

 

 ということでスタージェスの公式によってだいたい「6」という値が出ます。

 

STEP3:範囲÷STEP2

 98÷6=16.33333

 

 ということでまぁ大体キリよく「16」ぐらいとみておきます。

 

STEP4:度数分布表を作る

2~18未満 : 8

18~34未満 : 8

34~50未満 : 6

50~66未満 : 2

66~82未満 : 2

82~100未満 : 4

 

 元のデータをある幅(STEP3)でいくつか(STEP2)に区切ったものを度数分布表といいます。データを見やすくするための技術みたいなものです。度数分布表を作ったら今度はそれをヒストグラムという絵にします。

 

2-2. ヒストグラム | 統計学の時間 | 統計WEB

 

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

 

 

データの中心をはかる指標

算術平均

 テストの平均点などはこれによって計算されます。

 

 50点、40点、25点、35点、21点、100点、80点、60点

 

 という人たちの平均点はこれらすべてを足し合わせた数をデータの個数で割ったものです。つまり、

 

 (50+40+25+35+21+100+80+60)/8 = 51.375点

 

 になります。

 

 算術平均のデメリットとして取り上げられるのは「外れ値」に強く引っ張られることです。どういうことかというと、4人が0点とってるのに、一人だけ出木杉君がいて100点とってると、平均点が20点になるのです。そのときに「このクラスの人は大体20点をとりますね」と言えるでしょうか。

 日本人の年収分布などを見ると驚かされます。日本人の平均年収は560万なのですが、年収560万円の人間が典型的な日本人でしょうか。「日本人は大体年収560万円ですね」と言われたら……。

carrot-lanthanum0812.hatenablog.com

 

中央値

 「外れ値の影響を受けない」ことが、算術平均との違いです。

 たとえば、

 

 0, 0 , 0, 0, 100

 

 の中央値は0点です。このクラスは間違いなく0点の奴が代表なので、中央値が適切だと考えられます。データの数が偶数のときはズバリ真ん中がありませんが、そういうときはど真ん中の左右にある数を平均します。

 中央値の欠点としては、

  •  真ん中以外何も見ない

 ことです。データを集めてざっと並べたら、もう真ん中以外見ません。真ん中以外の数字に対して意味はないのです。

 

最頻値

 この最頻値も外れ値の影響を受けません。

 クラスに出木杉がいて困るのは、出木杉が一人だけ突出しているせいでした。最頻値ではそういう突出した奴は無視して、人数の多い点だけを見ます。0点が4人で、100点が一人の先ほどのクラスの最頻値は0点で、クラスの代表値としては妥当になります。

 

 ところが次のようなケースはどうでしょうか。

 

 0, 0, 10, 10,100

 

 この場合、最頻値は二つあることになります。0点と10点です。それどころか全員が違う点数だった場合、最頻値は「すべて」になってしまいます!

 

 

データの散らばり

範囲

 クラスの点数が、

 50, 52, 60, 46, 55

 のときことを考えましょう。このとき範囲は、

 

 範囲 = 60-46 = 14

 

 これによって明らかになることは、どの二人を比較してもこの点数以上の差は出ないということです。このクラスのテスト点数範囲は14ですといえば、だいたいみんな似たような点数だなということがわかります。

 ところが、普通にわかるようにいくつか欠点があります。

  •  100点と0点など、とびぬけたやつがいると役に立たない(外れ値の影響)
  •  範囲が大きすぎると役に立たない
  •  最大と最小しか使わないので、他のデータの情報が無駄になる

 

四分位範囲

 外れ値の影響を避けるため、上と下を切り取って範囲を求める方法がとられたりする。25%、25%、25%、25%と区切って、あいだにあるふたつの差を計算するのである。

 

標準偏差

 平均値からどれぐらい離れているかの平均をとるやりかたがコレです。

 「どれぐらい離れているか」なので値は正の数になってもらわないと困ります。そこで少し修正を施さなければなりません。当初は自然に「データ - 平均値」の絶対値をとることが考えられましたが、絶対値の計算は面倒くさいので、今は単に2乗することになっています。

 分散が計算できると、それは正確には平均値からどれぐらい離れているか「の2乗」になっているので、最後にルートをとります。これを標準偏差と呼びます。