不偏分散と自由度n-1のカイ二乗分布

定理

X1,X2,,XnX_1,X_2,\cdots,X_n が互いに独立に平均 μ\mu,分散 σ2\sigma^2 の正規分布に従うとき,

1σ2i=1n(XiX)2\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 は自由度 n1n-1 のカイ二乗分布に従う。

ただし,X=X1+X2++Xnn\overline{X}=\dfrac{X_1+X_2+\cdots +X_n}{n} です。

定理の意味,重要性

  • 不偏分散 u2=1n1i=1n(XiX)2u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 を用いて, (n1)u2σ2\dfrac{(n-1)u^2}{\sigma^2} が自由度 n1n-1 のカイ二乗分布に従うと言うことも多いです。 (不偏分散については→不偏標本分散の意味とn-1で割ることの証明
  • 正規分布の母分散を検定する際(ただし母平均が未知の場合)に使われる重要な定理です。→母分散の意味と区間推定・検定の方法
  • 重要な定理のわりに,多くの統計の教科書では定理の証明が割愛されているので,以下で証明します。直交変換を用いた美しい証明です。

標準正規分布の場合の証明

まず標準正規分布の場合(μ=0\mu=0σ2=1\sigma^2=1)に証明します。本質的な部分です。

証明の概略

一行目の要素が全て 1n\dfrac{1}{\sqrt{n}} であるような直交行列の一つを QQ とする。

(Y1Y2Yn)=Q(X1X2Xn)\begin{pmatrix}Y_1\\Y_2\\\vdots\\Y_n\end{pmatrix}=Q\begin{pmatrix}X_1\\X_2\\\vdots\\X_n\end{pmatrix} と変数変換する。

このとき,Y1,Y2,,YnY_1,Y_2,\cdots,Y_n は互いに独立に平均 00,分散 11 の標準正規分布に従う(→補足1)。

また,i=1n(XiX)2=i=2nYi2\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2=\displaystyle\sum_{i=2}^nY_i^2

である(→補足2)。

つまり i=1n(XiX)2\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 は,標準正規分布に独立に従う n1n-1 個の確率変数の二乗和で表現できたので,自由度 n1n-1 のカイ二乗分布に従うことが分かる。→正規分布の二乗和がカイ二乗分布に従うことの証明

以下細かい計算などです。

補足1

X1,X2,,XnX_1,X_2,\cdots,X_n は互いに独立に標準正規分布に従う

XiX_i たちの同時密度関数は 1(2π)n2exp(12xx)\dfrac{1}{(2\pi)^{\frac{n}{2}}}\exp(-\dfrac{1}{2}x^{\top}x)

→(QQ の行列式が 11 であることと X=Y\|X\|=\|Y\| より)

YiY_i たちの同時密度関数は 1(2π)n2exp(12yy)\dfrac{1}{(2\pi)^{\frac{n}{2}}}\exp(-\dfrac{1}{2}y^{\top}y)

Y1,Y2,,YnY_1,Y_2,\cdots,Y_n は互いに独立に標準正規分布に従う

補足2

i=1n(XiX)2=i=1nXi22Xi=1nXi+nX2=i=1nXi2nX2\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\\ =\displaystyle\sum_{i=1}^nX_i^2-2\overline{X}\sum_{i=1}^nX_i+n\overline{X}^2\\ =\displaystyle\sum_{i=1}^nX_i^2-n\overline{X}^2

ここで,直交変換の性質 X=Y\|X\|=\|Y\| を用いると上式は,

i=1nYi21n(i=1nXi)2=i=1nYi2Y12=i=2nYi2\displaystyle\sum_{i=1}^nY_i^2-\dfrac{1}{n}(\sum_{i=1}^nX_i)^2\\ =\displaystyle\sum_{i=1}^nY_i^2-Y_1^2\\ =\displaystyle\sum_{i=2}^nY_i^2

一般の場合の証明

正規分布の標準化を使うだけです。

証明

X1,X2,,XnX_1,X_2,\cdots,X_n が互いに独立に平均 μ\mu ,分散 σ2\sigma^2 の正規分布に従うので

Zi=XiμσZ_i=\dfrac{X_i-\mu}{\sigma} たちは互いに独立に標準正規分布に従う。

標準正規分布の場合にはさきほど証明したので,

i=1n(ZiZ)2\displaystyle\sum_{i=1}^n(Z_i-\overline{Z})^2 は自由度 n1n-1 のカイ二乗分布に従う。

ここで,ZiZ=XiXσZ_i-\overline{Z}=\dfrac{X_i-\overline{X}}{\sigma} なので,1σ2i=1n(XiX)2\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 は自由度 n1n-1 のカイ二乗分布に従うことが分かる。

副産物

さきほどの証明の副産物としてもう一つ重要な定理が得られます。

平均 X\overline{X} と不偏分散 u2=1n1i=1n(XiX)2u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2 は独立である。

証明

Y1,Y2,,YnY_1,Y_2,\cdots,Y_n は独立(さっき示した)

Y1Y_1i=2nYi2\displaystyle\sum_{i=2}^nY_i^2 は独立

X\overline{X}u2u^2 は独立

自力で思いつくのは難しいトリッキーな証明方法です。

確率・統計分野の記事一覧