データの分析の公式まとめ!!分散や相関係数の求め方など 

データの分析 公式まとめデータの分析
Image by David Schwarzenberg from Pixabay 


今回はデータの分析の公式についてまとめました!

スポンサーリンク

1. 平均値・中央値・最頻値

平均値

データの合計を個数で割って求まる値\(\overline{x}\)を平均値という。

つまり、

$$\overline{x}=\frac{1}{n}(x_1+x_2+\cdots+x_n)$$


中央値

データを値の小さい順(または大きい順)に並べたときに真ん中にくる値を中央値メジアン)という。

データの大きさが偶数のときは、中央の2つの値の平均を中央値とする。


最頻値

データの中で、最も多くある数を最頻値モード)という。

度数分布表から最頻値を求めるときは、度数がいちばん多い階級の中央の値を最頻値とする。


平均値・中央値・平均値については、下の記事でもっと詳しく解説しています!

スポンサーリンク

2. 四分位数

四分位数

データを小さい順に並べて4等分する位置にある値を四分位数という。

小さい方から順に、第一四分位数第二四分位数第三四分位数と呼び、それぞれ \(Q_1\) , \(Q_2\) , \(Q_3\)で表す。


四分位数について詳しくは下の記事で!

3. 偏差と分散・標準偏差

偏差

変量\(x\)の各値と平均値の差を偏差という。

$$x_1-\overline{x} \ , \ x_2-\overline{x} \ , \ \cdots \ , \ x_n-\overline{x}$$


分散と標準偏差

偏差の2乗の平均値を分散という。

$$s^2=\frac{1}{n}\{(x_1-\overline{x})^2+\cdots+(x_n-\overline{x})^2\}$$


また、分散の正の平方根を標準偏差という。

$$s=\sqrt{\frac{1}{n}\{(x_1-\overline{x})^2+\cdots+(x_n-\overline{x})^2\}}$$


また、分散は次の式でも求めることができます。

分散の公式

$$s^2=\overline{x^2}-(\, \overline{x} \,)^2$$


分散と標準偏差についても、下の記事で詳しく解説しているので参考にしてください!

4. 共分散と相関係数

共分散

$$s_{xy}=\frac{1}{n}\{(x_1-\overline{x})(y_1-\overline{y})+\cdots+(x_n-\overline{x})(y_n-\overline{y})\}$$

を\(x\)と\(y\)の共分散という。


この共分散を用いることで、相関係数を求めることができます。

相関係数

$$r=\frac{s_{xy}}{s_xs_y}$$

を\(x\)と\(y\)の相関係数という。

\(s_x,s_y\)はそれぞれ\(x,y\)の分散を表しています。


また、相関係数は一般に次の式で求めることが多いです。

相関係数


この相関係数\(r\)は、\(-1 \leq r \leq 1\)の範囲に値をとり、

1に近ければ近いほど、2つのデータに正の相関があることを表し、

-1に近ければ近いほど、2つのデータに負の相関があることを表します。


正の相関とは、一方が増えるともう一方も増える関係のことで、

逆に負の相関とは、一方が増えるともう一方が減る関係のことです。


相関係数が0に近いときは、2つのデータには相関がない、つまり関係性がないことを表します。


相関係数についてもっと詳しく知りたい方は下の記事をご覧ください。

データの分析数学Ⅰ
スポンサーリンク
OchibaAtsuoをフォローする
ますますmathが好きになる!魔法の数学ノート

コメント

タイトルとURLをコピーしました