平均値・中央値・最頻値とは何かをわかりやすく解説します!

平均値 中央値 最頻値 についてデータの分析
Photo by Pathum Danthanarayana on Unsplash

今回は、平均値・中央値・最頻値についてまとめます!

スポンサーリンク

1. 平均値

平均値とは、データの合計を個数で割ったもののことです。


例えば、3人の身長が、

160cm , 170cm , 180cm

のとき、このデータの合計は、

160+170+180=510 (cm)

であり、データの個数は3なので、平均は

\(\displaystyle \frac{510}{3}=170\) (cm)

となります。


平均値について、数式を用いて定義すると下のようになります。

平均値

\(n\)個のデータ \(x_1,x_2,\cdots,x_n\)に対して、\(\overline{x}\)を

$$\overline{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^nx_i$$

と定めるとき、\(\overline{x}\)を\(x\)の平均値という。


途中で出てきた\(\sum\)って何!?

という人もいると思いますが、数Bの数列で習う記号なので気にしなくて大丈夫です。


「\(\sum\)について詳しく知りたい!」という人は、下の記事を読んでください!



平均値はデータの中心的な位置を表します。


例えば、3人の身長 160cm , 170cm , 180cm の平均は 170cm でしたが、これはまさにデータの中心を表しています。


しかし、ここにキリンが4人目として加わったとします。


キリンの身長はおよそ5m=500cmなので、このときの4人(3人と1匹)の身長の平均は、

\(\displaystyle\frac{160+170+180+500}{4}=252.5\) (cm)

となります。

ですが、252.5cmはデータの真ん中を表しているとは言えないですよね。


このように、平均値は他と大きく離れた値(外れ値という)をデータに持つと、強く影響を受けてしまいます。


そのため、平均値を求めるときは、外れ値をのぞいて計算することもあります。

スポンサーリンク

2. 中央値

次に、中央値について紹介します。


中央値は文字通りデータの中央の値のことです。

もう少し正確にいうと、データを小さい順に並べたときの真ん中の値を中央値と呼びます。


具体例として、次の例題を解いてみましょう。

例題1

7人の小テストの点数が、

3 , 2 , 9 , 2 , 1 , 5 , 6 (点)

だったとする。このときの中央値を求めよ。


 例題1の解説 

まさか、単純に真ん中だから 2 だと思った人はいませんよね。


まずはちゃんとデータを小さい順に並べましょう。

すると、

1 , 2 , 2 , 3 , 5 , 6 , 9

となるので、真ん中は3ですね。

よって、中央値は3ということがわかります。

(例題終わり)



ここで、次のような疑問が浮かびます。

真ん中が2つあるときはどうするの?


例えば、例題1で4点の人を追加して、8人の中央値を求めます。

そして小さい順に並べると、

1 , 2 , 2 , 3 , 4 , 5 , 6 , 9

となりますが、真ん中は3と4のどちらにすべきかという問題が生じます。


このように、データの個数が偶数個のときは、真ん中に値が存在しません。

そのときは、中央の2つの値の平均を中央値とします。

今回の例なら、3と4の平均をとった3.5が中央値になります。


最後に中央値についてまとめておきましょう。

中央値(メジアン)

データを値の小さい順(または大きい順)に並べたときに真ん中にくる値を中央値メジアン)という。

データの大きさが偶数のときは、中央の2つの値の平均を中央値とする。

3. 最頻値

最後に最頻値について紹介します。


最頻値はいちばん多く登場する数のことです。

例えば、例題1では、7人の小テストの点数が

1 , 2 , 2 , 3 , 5 , 6 , 9 (点)

でした。

このとき、いちばん多く登場する数は2なので、最頻値は2となります。


また、最頻値は度数分布表とセットで登場することが多いです。


例えば、下にある都市の1月の最高気温の度数分布表です。

このときの、最高気温の最頻値を考えます。

階級(℃)度数(日)
12℃以上4
11℃以上12℃未満5
10℃以上11℃未満12
9℃以上10℃未満6
9℃未満4

上の表でいちばん度数が多いのは、10℃以上11℃未満の階級です。

このとき、10℃と11℃の間の10.5℃が最頻値となります。


このように、度数分布表から最頻値を求めるときは、

まず、度数がいちばん多い階級を求めて、その階級の中央の値を最頻値とします。


では、最後に最頻値についてまとめておきます。


最頻値(モード)

データの中で、最も多くある数を最頻値モード)という。

度数分布表から最頻値を求めるときは、度数がいちばん多い階級の中央の値を最頻値とする。

データの分析数学Ⅰ
スポンサーリンク
OchibaAtsuoをフォローする
ますますmathが好きになる!魔法の数学ノート

コメント

タイトルとURLをコピーしました