分散の意味と2通りの求め方・計算例

分散の意味

分散とは,データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。

  • 分散が大きい → バラつきが大きい,平均から遠いものが多い
  • 分散が小さい → バラつきが小さい,全部が平均に近い,まとまっている

分散の意味

分散の意味分散の定義式の理由分散をすばやく計算する方法 について解説します。

分散の定義と計算例

分散の定義

分散とは,「平均からの差」の二乗の平均のこと。式で書くと,分散は σ2=1ni=1n(xiμ)2 \sigma^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2 ただし,nn はデータの数で,xix_i は各データの値,μ\mu は平均です。

つまり,分散は以下の3ステップで計算できます。

  1. 「平均 μ\mu」を計算する
  2. 「平均からの差の二乗 (xiμ)2(x_i-\mu)^2」を計算する
  3. その結果の平均を計算する

具体例で分散を計算してみましょう。

例題

(5,6,7,7,10)(5,6,7,7,10) というデータに対して分散を計算せよ。

解答

手順1. 平均を計算

5+6+7+7+105=7\dfrac{5+6+7+7+10}{5}=7

手順2.「平均からの差の二乗」を計算

それぞれのデータと 77 の差の二乗を計算する:

  • (57)2=4(5-7)^2=4
  • (67)2=1(6-7)^2=1
  • (77)2=0(7-7)^2=0
  • (77)2=0(7-7)^2=0
  • (107)2=9(10-7)^2=9

手順3. 計算結果の平均を計算

4+1+0+0+95=2.8\dfrac{4+1+0+0+9}{5}=2.8

つまり,分散は 2.82.8 になります。

分散の意味

「5人のテストの点数(10点満点)」について,以下の2つの状況を考えてみます。

  • 状況1: テストの点数がそれぞれ (5,6,7,7,10)(5,6,7,7,10)
  • 状況2: テストの点数がそれぞれ (6,7,7,7,8)(6,7,7,7,8)

どちらも平均点を計算してみると 77 点になります。しかし,

  • 状況1は「点数が比較的バラバラ」
  • 状況2は「全員が平均点に近い」

と言えます。このように,平均点が同じでも「データがどれくらいバラついているか」によって,状況が変わります。分散は「データがどれくらいバラついているか」を数値で表したものです。実際,状況1の分散は 2.82.8 で状況2の分散は 0.40.4 になります。

分散の記号・呼び方

  • 分散は σ2\sigma^2 という記号で表されることが多いです。

  • 分散は英語で Variance なので,確率変数 XX の分散を V[X]V[X]Var[X]\mathrm{Var}[X] で表すことが多いです。

  • 分散は (Xμ)2(X-\mu)^2 の期待値なので E[(Xμ)2]E[(X-\mu)^2] と表すこともあります。分散は,平均まわりの二次モーメントと呼ばれることもあります。

  • 分散の式に登場する (xiμ)(x_i-\mu) のこと(平均との差のこと)を偏差と言います。

分散をすばやく計算する方法

公式

分散は 「二乗の平均」「平均の二乗」 の差で計算できる。つまり,分散 σ2\sigma^2 σ2=1ni=1nxi2(1ni=1nxi)2 \sigma^2=\dfrac{1}{n} \sum_{i=1}^nx_i^2-\left(\dfrac{1}{n} \sum_{i=1}^nx_i\right)^2 となる。

最初の例題について,こちらの方法で計算してみます。

例題(再掲)

(5,6,7,7,10)(5,6,7,7,10) の分散を求めよ。

解答
  • 平均は 5+6+7+7+105=7\dfrac{5+6+7+7+10}{5}=7 なので 「平均の二乗」72=497^2=49

  • 一方 「二乗の平均」52+62+72+72+1025=2595=51.8\begin{aligned} &\dfrac{5^2+6^2+7^2+7^2+10^2}{5}\\ &=\dfrac{259}{5}=51.8 \end{aligned}

  • よって,分散は 「二乗の平均」「平均の二乗」 の差なので 51.849=2.851.8-49=2.8

さっきと同じ答えになりました!

分散の計算方法を2つ紹介しました:

  • 方法1: 分散の定義から計算。つまり「平均からの差の二乗」の平均
  • 方法2. 「二乗の平均」と「平均の二乗」の差,という公式で計算。

今回の例では,どちらの計算方法でも手間はあまり変わりませんが,平均値がキリの悪い数のときは2番目の方法が楽なことも多いです。少なくとも検算にはなります(エクセルなどの関数で計算するなら関係ありませんが)。

分散をすばやく計算する方法の証明

分散が 「二乗の平均」「平均の二乗」 の差で計算できることを証明しておきます。

xix_i などの値は直接用いずに,期待値のまま計算していきます。

証明

Var[X]=E[(Xμ)2]=E[X22μX+μ2]=E[X2]2μE[X]+μ2=E[X2]2μ2+μ2=E[X2]μ2\begin{aligned} \mathrm{Var}[X]&=E[(X-\mu)^2]\\ &=E[X^2-2\mu X+\mu^2]\\ &=E[X^2]-2\mu E[X]+\mu^2\\ &=E[X^2]-2\mu^2+\mu^2\\ &=E[X^2]-\mu^2 \end{aligned}

ただし,三行目への変形で期待値の線形性E[X+Y]=E[X]+E[Y], E[aX]=aE[X] E[X+Y]=E[X]+E[Y],\ E[aX]=aE[X]

を用いた。

ちなみにこの定理と証明について,似たようなものが共分散にも存在します。→共分散の意味と簡単な求め方

分散の式の理由

分散はデータのバラつき具合を表す指標ですが,なぜ 1ni=1n(xiμ)2 \dfrac{1}{n} \sum_{i=1}^n(x_i-\mu)^2 という式で定義されるのでしょうか?

理由

データ xix_i が平均 μ\mu から離れているほど (xiμ)2(x_i-\mu)^2 は大きくなるので,上の式で分散を定義すれば 「バラつきが大きいほど分散が大きくなる」と言えます。つまり,データのバラつき具合を表す指標になります。

バラつき具合を表す指標は他にもある

分散の定義は偏差の二乗和の平均ですが「二乗」であることに絶対的な意味はありません。例えば,

1ni=1nxiμ \dfrac{1}{n} \sum_{i=1}^n|x_i-\mu|

という式で定義される絶対値平均誤差という指標もあります(絶対値をつけないと必ず0になり意味のある指標にはなりません)。

ただし,多くの確率分布に対して分散の計算は楽(綺麗な形で求まる)なので分散が広く使われています。

また,単位の次元をそろえるために 分散の平方根を取った標準偏差 σ\sigma が用いられることも多いです:

σ=1ni=1n(xiμ)2 \sigma= \sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}

参考:標準偏差の意味と分散との違い

私は日常会話でも「当たり外れが大きい」という意味で「分散」という言葉をけっこう使います。

Tag:数学1の教科書に載っている公式の解説一覧