分散(標準偏差)は平均とデータを2乗した平均値からも求められる

令和2年センター本試>数2B>第5問 (1)解いてみた」で標準偏差を求める際に、分散の定義から求めたのですが、そのとき「各データの二乗の平均」から「データの平均の二乗」を引くと分散を求められるということを知りました。

$n$個の$a_1, \, a_2, \, a_3 \cdots , \, a_{n-1}, \, a_n$というデータがあって、標準偏差を$\sigma$としたとき、分散$\sigma ^ 2$は

$\displaystyle \sigma ^2 = \frac{1}{n} \sum_{k=1}^n (a_k – \mu_a )^2 $と定義されています。

これがデータの平均を$\mu$、各データの二乗の平均を$\mu2$、と置いたとき、

$\displaystyle \sigma ^2 = \mu2 \, – \, \mu^2 $で求められます。

定義を変形していくことで、$\displaystyle \sigma ^2 = \mu2 \, – \, \mu^2 $を実際に求めてみて分散・標準偏差の理解を深めようと思います。

関連リンク:標準偏差とは?
※標準偏差を二乗したものが分散です

データ

データ$A$

データ$A$の数は$n$個で、$a_1, \, a_2, \, a_3 \cdots , \, a_{n-1}, \, a_n$と表します。

データ$B$($A$の各データを二乗したデータ)

$A$の各データを二乗したデータをデータ$B$とします。

よって、データ$B$の数は$n$個で、$a_1^2, \, a_2^2, \, a_3^2 \cdots , \, a_{n-1}^2, \, a_n^2$と表せます。

データ$A$

まず、データ$A$の合計と平均を確認します。

データ$A$の合計

このとき$A$の全データの合計は、$a_1$~$a_n$の全ての値を足せばいいだけなので、下記のように書けます。

$\displaystyle a_1 + a_2 + a_3 + \cdots + a_{n-1} + a_n$

また、数学では$a_1$~$a_n$の合計を$\sum$という記号を使って$\displaystyle \sum_{k=1}^n$と表すので、下記のように書けます。

$\displaystyle \sum_{k=1}^n a_k = a_1 + a_2 + a_3 + \cdots + a_{n-1} + a_n$

なんで、$\sum$←この記号なの?

合計になぜ、$\sum$(シグマ)という記号を使うかといいますと…

まず、$\sum$はギリシア文字で、アルファベットの「S」に対応します。「sa」が日本語ん「さ」に対応するようなものですね。で、合計・総和のことを英語でSummation と言います。エクセルとか使う人だと関数の「sum」が思い浮かぶのではないでしょうか。

話が少し逸れましたが、合計の英語Summation の頭文字をとって「S」。それに対応するギリシア文字「$sum$」が使われているというみたいです。

けっこう単純ですよね。数学の記号といっても、長く書きたくないから記号に意味を持たせて簡単に表現できるようにしたという感じです。「〒」を見れば郵便番号とか郵便関係を表しているのと何も変わりません。

記号に苦手意識を持つ必要はなさそうですね。$\sum$・・・とは言っても、威圧的な感じは拭えませんがw

データ$A$の平均値

データ$A$の平均値を$\mu_a$とすると、データ$A$の合計を個数で割ればよいので、

$\displaystyle \mu_a = \frac{1}{n} \sum_{k=1}^n a_k $

更に書くと、

$\displaystyle \mu_a =\frac{ a_1 + a_2 + a_3 + \cdots + a_{n-1} + a_n}{n}$.

となります。

データ$A$の分散

分散とは標準偏差を二乗したものです。$A$の標準偏差を$\sigma_a$とすると、

$\displaystyle \sigma ^2 = \frac{1}{n} \sum_{k=1}^n (a_k – \mu_a )^2 $

となります。

※分散は標準偏差を二乗しただけです。標準偏差の式の詳細は関連記事の「標準偏差とは?」を見ていただければと思います

データ$B$

次に、データ$B$の合計と平均を確認します。

データ$B$の合計

データ$A$と同様$B$の全データを足せば良いだけです。

$\displaystyle \sum_{k=1}^n a_k^2 = a_1^2 + a_2^2 + a_3^2 + \cdots + a_{n-1}^2 + a_n^2$

データ$B$の平均値

データ$B$の平均値を$\mu_b$とすると、データ$B$の合計を個数で割ればよいので、

$\displaystyle \mu_b = \frac{1}{n} \sum_{k=1}^n a_k^2 $

更に書くと、

$\displaystyle \mu_b =\frac{ a_1^2 + a_2^2 + a_3^2 + \cdots + a_{n-1}^2 + a_n^2}{n}$.

となります。

データ$A$の分散

では、本題のデータ$A$の分散をいじってみて、データ$A$の平均とデータ$B$の平均で求められるか確認してみたいと思います。

$\displaystyle \sigma ^2 = \frac{1}{n} \sum_{k=1}^n (a_k – \mu_a )^2 $

計算中…
※下の計算(ピンク)の方が楽

$\displaystyle \sigma ^2 = \frac{1}{n} \sum_{k=1}^n (a_k \, – \, \mu_a )^2 $

$\displaystyle = \frac{1}{n} \{ (a_1 \, – \, \mu_a )^2 + (a_2 \, – \, \mu_a )^2 + \cdots + (a_{n-1} \, – \, \mu_a )^2 + (a_n \, – \, \mu_a )^2 \}$

$\displaystyle = \frac{1}{n} \{ (a_1^2 \, – \, 2 a_1 \mu_a + \mu_a^2) + (a_2^2 \, – \, 2 a_2 \mu_a + \mu_a^2) + \cdots + (a_{n-1}^2 \, – \, 2 a_{n-1} \mu_a + \mu_a^2) + (a_n^2 \, – \,2 a_n \mu_a + \mu_a^2) \}$

$a$の二乗のグループ、$a$も$\mu$もあるグループ、$\mu_a^2$はすべて同じで$n$個あるので$n \mu_a^2$、この3つに分け直して、並び替えると、

$\displaystyle = \frac{1}{n} \{ (a_1^2+a_2^2 + \cdots + a_{n-1}^2 + a_n^2) -2 \mu_a (a_1 + a_2 + \cdots a_{n-1} + a_n) +n \mu_a^2 \}$

$\sum$を使って置き換えると、

$\displaystyle = \frac{1}{n} (\sum_{k=1}^n a_k^2 \, – \,2 \mu_a \sum_{k=1}^n a_k +n \mu_a^2)$

$\displaystyle = \frac{1}{n} \sum_{k=1}^n a_k^2 \, – \,2 \mu_a \frac{1}{n} \sum_{k=1}^n a_k +\mu_a^2$

「データ$A$の平均値」より$\displaystyle \mu_a = \frac{1}{n} \sum_{k=1}^n a_k $、「データ$B$の平均値」より$\displaystyle \mu_b = \frac{1}{n} \sum_{k=1}^n a_k^2 $なので、

$\displaystyle = \mu_b \, – \,2 \mu_a \mu_a +\mu_a^2$

$\displaystyle = \mu_b \, – \,2 \mu_a^2+\mu_a^2$

$\displaystyle = \mu_b \, – \, \mu_a^2$

普通に中を展開してもOK

$\displaystyle \sigma ^2 = \frac{1}{n} \sum_{k=1}^n (a_k \, – \, \mu_a )^2 $

$\displaystyle = \frac{1}{n} \sum_{k=1}^n (a_k^2 \, – \, 2a_k \mu_a + \mu_a^2 ) $

各項に$\sum$、※$k$が関係ない部分は$\sum$の外に出せます

$\displaystyle = \frac{1}{n} (\sum_{k=1}^n a_k^2 \, – \, 2\mu_a \sum_{k=1}^n a_k + \mu_a^2\sum_{k=1}^n 1 ) $

$\displaystyle \sum_{k=1}^n 1 $は$1$を$n$回足すので$\displaystyle \sum_{k=1}^n 1 = n$です。

$\displaystyle = \frac{1}{n} (\sum_{k=1}^n a_k^2 \, – \, 2\mu_a \sum_{k=1}^n a_k + n\mu_a^2 ) $

$\displaystyle = \frac{1}{n} \sum_{k=1}^n a_k^2 \, – \, 2\mu_a \frac{1}{n} \sum_{k=1}^n a_k + \mu_a^2 ) $

「データ$A$の平均値」より$\displaystyle \mu_a = \frac{1}{n} \sum_{k=1}^n a_k $、「データ$B$の平均値」より$\displaystyle \mu_b = \frac{1}{n} \sum_{k=1}^n a_k^2 $なので、

$\displaystyle = \mu_b \, – \,2 \mu_a \mu_a +\mu_a^2$

$\displaystyle = \mu_b \, – \,2 \mu_a^2+\mu_a^2$

$\displaystyle = \mu_b \, – \, \mu_a^2$

$\displaystyle \sigma ^2 = \mu_b \, – \, \mu_a^2$

以上より、「各データの二乗の平均」から「データの平均の二乗」を引くと分散を求められるということが分かりました。

まとめ

実際に解いてみたらたしかに「各データの二乗の平均」から「データの平均の二乗」を引くと分散を求められるということが分かります。

これを知っていれば、「令和2年センター本試>数2B>第5問 (1)解いてみた」の標準偏差も誘導通りで求めれたんですがね…。

精進します。

スポンサーリンク

当ページの注釈
  1. 問題の解答例など解法は見ずに解いています。覚えていない部分は学習はしますが、直接問題の解き方は調べていません。
    よって、順当な解法かは分かりませんが、何か参考になれば幸いです
  2. なるべく細かく書くようにしています。不明点はコメントいただければ嬉しいです
  3. また、正解かどうかのチェックは行い、正解にはなっています

 

キーワード

気になる人は調べてみてね。

分散、標準偏差、平均値