1. 高校数学の美しい物語
  2. 分散の意味と二通りの計算方法

分散の意味と二通りの計算方法

更新日時 2021/03/07

分散とは,データの散らばりの大きさを表す指標です。分散が小さいほど「全員が平均に近い」と言え,分散が大きいほど「平均から遠いデータが多い」と言えます。

このページでは, 分散の意味分散の定義式の理由 ,そして 分散を効率的に計算する方法 について解説します。

目次
  • 分散の意味

  • 分散の定義と計算例

  • 分散の記号・呼び方

  • 分散の式の理由

  • 分散の効率的な計算法

  • 分散の効率的な計算式の証明

分散の意味

「5人のテストの点数」について,以下の2つの状況を考えてみます。

状況1:

テストの点数がそれぞれ (50,60,70,70,100)(50,60,70,70,100)

状況2:

テストの点数がそれぞれ (69,70,70,70,71)(69,70,70,70,71)

どちらの状況も平均点を計算してみると 7070 点になります。しかし,

状況1は「点数が比較的バラバラ」

状況2は「全員が平均点に近い」

と言えます。

このように,平均点が同じでも 「データがどれくらいバラついているか」によって,状況が変わります。分散は「データがどれくらいバラついているか」を数値で表したものです。

分散の定義と計算例

分散の定義は 「平均からの差の二乗」の平均です。

例えば,

状況1:

テストの点数がそれぞれ (50,60,70,70,100)(50,60,70,70,100)

の分散を計算してみましょう。

手順1. 平均を計算

50+60+70+70+1005=70\dfrac{50+60+70+70+100}{5}=70

手順2.「平均からの差の二乗」を計算

それぞれ,

(5070)2=400(50-70)^2=400

(6070)2=100(60-70)^2=100

(7070)2=0(70-70)^2=0

(7070)2=0(70-70)^2=0

(10070)2=900(100-70)^2=900

手順3. 計算結果の平均を計算

400+100+0+0+9005=280\dfrac{400+100+0+0+900}{5}=280

つまり,分散は 280280 になります。

式で書くと,分散は

1ni=1n(xiμ)2\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2

となります。

ただし,nn はデータの数で,xix_i は各データの値,μ\mu は平均です。

分散の記号・呼び方

分散は σ2\sigma^2 という記号で表されることが多いです。

また,分散は英語で Variance なので,確率変数 XX の分散を V[X]V[X]Var[X]\mathrm{Var}[X] で表すことが多いです。

また,分散は (Xμ)2(X-\mu)^2 の期待値なので E[(Xμ)2]E[(X-\mu)^2] と表すこともあります。分散は, 平均まわりの二次モーメントと呼ばれることもあります。

分散の式に登場する (xiμ)(x_i-\mu) のこと(平均との差のこと)を 偏差と言います。

分散の式の理由

分散はデータの散らばり具合を表す指標ですが,なぜ

1ni=1n(xiμ)2\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2

という式で定義されるのでしょうか?

理由

データ xix_i が平均 μ\mu から離れているほど (xiμ)2(x_i-\mu)^2 は大きくなるので,上の式で分散を定義すれば 「散らばりが大きいほど分散が大きくなる」と言えます。つまり,分散はデータの散らばり具合を表す指標と言えます。

散らばり具合を表す指標は他にもある

分散の定義は偏差の二乗和の平均ですが「二乗」であることに絶対的な意味はありません。例えば,

1ni=1nxiμ\dfrac{1}{n}\displaystyle\sum_{i=1}^n|x_i-\mu|

という式で定義される 絶対値平均誤差という指標もあります(絶対値をつけないと必ず0になり意味のある指標にはなりません)。

ただし,多くの確率分布に対して分散の計算は楽(綺麗な形で求まる)なので分散が広く使われています。

また,単位の次元をそろえるために 分散の平方根を取った標準偏差 σ\sigma が用いられることも多いです:

σ=1ni=1n(xiμ)2\sigma=\displaystyle\sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}

参考:標準偏差の意味と分散との違い

分散の効率的な計算法

分散は 「二乗の平均」「平均の二乗」 の差で計算できる。つまり,分散 σ2\sigma^2

σ2=1ni=1nxi2(1ni=1nxi)2\sigma^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i^2-\left(\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i\right)^2

となる。

最初の例題について,こちらの方法で計算してみます。

例題(再掲): (50,60,70,70,100)(50,60,70,70,100) の分散を求めよ。

平均は

50+60+70+70+1005=70\dfrac{50+60+70+70+100}{5}=70

なので

「平均の二乗」702=490070^2=4900

一方 「二乗の平均」

502+602+702+702+10025=259005=5180\dfrac{50^2+60^2+70^2+70^2+100^2}{5} \\=\dfrac{25900}{5}=5180

よって,分散は 「二乗の平均」「平均の二乗」 の差なので

51804900=2805180-4900=280

となり,さっきと同じ答えになりました!

分散の計算方法を2つ紹介しました:

方法1.「平均からの差の二乗」の平均

方法2.「二乗の平均」と「平均の二乗」の差

今回の例では,どちらの計算方法でも手間はあまり変わりませんが,平均値がキリの悪い数字のときは2番目の方法が楽なことも多いです。少なくとも検算にはなります(エクセルとかで計算するなら関係ありませんが)。

分散の効率的な計算式の証明

分散が 「二乗の平均」「平均の二乗」 の差で計算できることを証明しておきます。

xix_i などの値は直接用いずに,期待値のまま計算していきます。

証明

Var[X]=E[(Xμ)2]=E[X22μX+μ2]=E[X2]2μE[X]+μ2=E[X2]2μ2+μ2=E[X2]μ2\mathrm{Var}[X]=E[(X-\mu)^2]\\ =E[X^2-2\mu X+\mu^2]\\ =E[X^2]-2\mu E[X]+\mu^2\\ =E[X^2]-2\mu^2+\mu^2\\ =E[X^2]-\mu^2

ただし,三行目への変形で期待値の線形性E[X+Y]=E[X]+E[Y],E[aX]=aE[X]E[X+Y]=E[X]+E[Y],E[aX]=aE[X]

を用いた。

ちなみにこの定理と証明について,似たようなものが共分散にも存在します。→共分散の意味と簡単な求め方

僕は日常会話でも「当たり外れが大きい」という意味で「分散」という言葉をけっこう使います。

Tag:数学1の教科書に載っている公式の解説一覧

人気記事
  1. 高校数学の美しい物語
  2. 分散の意味と二通りの計算方法