統計初心者が復習ついでに電車の要約統計量を考えてみる。

こんにちは。

大学に通っている私は、今後、音と人が感じる感覚についてをテーマに研究を進めていく予定です。
その中で必ず必要になってくるのが心理統計ですが、実は私は統計学という分野に触れたことはないし、そもそも高校の文系数学以来、数学はほとんどやっていないので、完全にこのような分野に関しては初心者です。

そこで今回は、最近読んだネットニュースを参考に、要約統計量を復習してみたいと思います。

まず、そもそも要約統計量についてですが、統計で使うデータはすごく膨大だったり、すごく複雑だったりします。
それらに傾向を見ていく為に統計手法を用いて検定を行うのですが、その前段階として、簡単な手法を使ってそれらのデータのおおよその特徴を1つの値にすることを数値要約、それによって出てきた値を要約統計量です。

それでは今回見つけたデータを紹介します。
データは(株)レスキューナウ様(以下、レスキューナウ)の記事です。
人身事故による運転見合わせ状況一覧(6/8~6/14) http://www.rescuenow.net/%e5%8d%b1%e6%a9%9f%e7%ae%a1%e7%90%86%e3%83%88%e3%83%94%e3%83%83%e3%82%af%e3%82%b9/1701

  • 検索条件:「事象:人身事故」「当該パターン:当該路線支障のみ」「発生位置未指定」
  • データ期間:2015年6月8日~2015年6月14日
  • 対象件数:15件
  • 最短最長(最大値・最小値):12~152分
  • 平均時間(平均値):74分
  • 中央値 :65分
  • 最頻値 :50分
  • 第1四分位数:56分
  • 第2四分位数:65分
  • 第3四分位数:77分
  • 標準偏差:±36分(38~110分)
  • 変動係数:0.49

(※本文中「検索条件・傾向」項より抜粋。)

各要約統計量について少しだけ説明します。(最大値・最小値は割愛します)
・平均値
各データをそれぞれ加算し、その個数で割った値です。
・中央値
各データを大小に関して並べた時に一番中央にくるデータです。但しデータが偶数個の時は、中央にくる値が2つになるので、その2つを平均して中央値とします。
・最頻値
各データの中で一番多く出た値です。
・四分位数
各データを大小に関して並べ、4分割したところにくるデータです。小さい順に第一四分位数、第二四分位数、第三四分位数と呼び、第二四分位数は中央値と同じ値になります。また、第一四分位数から第三四分位数までの間を四分位範囲と言います。

また、要約統計量と呼ぶのか分かりませんが、以下のものも説明します。
標準偏差
各データと平均値の差(偏差)を2乗して平均を取った値(分散)の平方根をとった値です。分散は、t-testやANOVAなどの分析手法の基礎的な考え方として統計学上重要な値ですが、今回のような予備的な比較をする際には、分散の平方根をとった標準偏差が便利です。
・変動係数
標準偏差を更に平均値で割った物です。これによって母集団が異なる代表値同士が、一定の条件下で比較できるようになります。


それでは、今回のデータをみていきましょう。
今回の最大値・最小値は12〜152分で、データの範囲は140分です。また、平均値は74分、中央値は65分ですので、平均値以上のデータ個数は、平均値未満の個数よりも少ない事が推測されます。また、最頻値は50分であるので、全体的に鉄道路線が1時間程度で運転再開が出来ていると言えます。

また、四分位値が10〜12分の間に収まっているので、中央値付近には値が密集しており、また最頻値は50分なので第一四分位値より外にも、1時間程度の値が密集していることが分かります。このことは標準偏差の値からも分かりますが、μを平均値、ρを標準偏差としたときに、μ±ρが38分なので、38分から110分の間に約2/3のデータが集まっていることが分かります。対象件数が15本であるから、その内約12回は110分までの間に運転再開しており、そのうち大半は1時間程度であったことがいえます。

以上のことから、データの個数をヒストグラム等で当てはめたとき、山は平均値よりもやや時間が短い方に出来、時間が短い方が裾野が緩やかで、反対に時間が長くかかった方は裾野が急になるような図が出来るかと思います。
今回の記事からは実際にどの路線がいつどれくらい遅延したか、という時間は掲載されていませんでしたが、各要約統計量をみるだけで全体の傾向が明らかになるというわけです。

仮に値を当てはめてみて、ヒストグラム化するとこういう図になりました。
f:id:beatwave:20150621173555p:plain
ちなみに、赤い線は平均値、青い線がそれぞれの四分位値を表しています。

この図を見ると150の所にある2と言う数値は、この分布が正規分布していると仮定すると外れ値として考えられますので、それを外してみてみると、確かに0方向に向かってなだらか、∞方向に向かって急峻な裾野を作っています。



余談ですが、今回の様なデータをRで観る場合は、summary(x)という関数を使います。
試しに、Rにデフォルトで入っているirisというデータを使ってsumary(iris)をみてみるとこのように返ってきました。

 Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500

irisは菖蒲の事を指しますが、このデータの中にはそれぞれSepal、Petalという種類のLengthとWidthという種類のデータが入っています。
Min.が最小値、1st Qu.が第一四分位値、Medianが中央値、Meanが平均値、3rd Qu.が第三四分位値、Max.が最大値です。

興味があれば、これらのデータから分布を読み解いてみる、というのもおもしろいかも知れませんね。