正規分布の二乗和がカイ二乗分布に従うことの証明

カイ二乗分布と正規分布の関係

確率変数 X1,X2,,XnX_1,X_2,\cdots,X_n が互いに独立に標準正規分布 N(0,1)N(0,1) に従うとき,X=X12+X22++Xn2X=X_1^2+X_2^2+\cdots +X_n^2 は自由度 nn のカイ二乗分布に従う。

注:標準正規分布とは平均 00,分散 11 の正規分布です。→正規分布の標準化の意味と証明

カイ二乗分布とは

  • 自由度 nn のカイ二乗分布とは,以下の確率密度関数で表される分布です: fn(x)=12n2Γ(n2)xn21ex2(x>0)f_n(x)=\dfrac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}\:(x > 0)
    ただし,Γ(n2)\Gamma(\frac{n}{2}) はガンマ関数です。→ガンマ関数(階乗の一般化)の定義と性質

自由度2のカイ二乗分布の確率密度関数は Γ(1)=1\Gamma(1)=1 より

f2(x)=12ex2(x>0)f_2(x)=\dfrac{1}{2}e^{-\frac{x}{2}}\:(x > 0)

  • 一見複雑ですが,カイ二乗分布の形を決める重要な部分は xn21ex2x^{\frac{n}{2}-1}e^{-\frac{x}{2}} のみです。 12n2Γ(n2)\dfrac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})} はただの正規化定数です(確率密度関数なので全区間で積分して1になる必要がある)。
  • 確率密度関数なので当然ですが,limxfn(x)=0\displaystyle\lim_{x\to\infty}f_n(x)=0 です。
  • 自由度 nn のカイ二乗分布の平均は nn,分散は 2n2n です。
  • カイ二乗分布は適合度の検定,独立性の検定などにも登場する非常に重要な分布です。

自由度1の場合

以下では冒頭の定理:「独立な標準正規分布の二乗和はカイ二乗分布に従う」を証明します。数理統計をやるなら1度はやっておきたい計算です。

帰納法で証明するために,まずは n=1n=1 の場合を計算します。

目標

XX が標準正規分布に従うとき,X2X^2 は自由度1のカイ二乗分布に従う

方法1. 累積分布関数を用いた証明

標準正規分布の確率密度関数を,

f(x)=12πexp(x22)f(x)=\dfrac{1}{\sqrt{2\pi}}\exp \left(-\dfrac{x^2}{2}\right)

とする。また,f(x)f(x) の原始関数の1つを ff^{*} と書く。

Y=X2Y=X^2 が従う分布の確率密度関数 g(y)g(y) は,累積分布関数の微分であり,

g(y)=ddyP(X2y)=ddyP(yXy)=ddyyyf(x)dx=ddy{f(y)f(y)}=dydyf(y)d(y)dyf(y)=12y12πexp(y2)+12y12πexp(y2)=1212πy12exp(y2)g(y)=\dfrac{d}{dy}P(X^2\leq y)\\ =\dfrac{d}{dy}P(-\sqrt{y}\leq X\leq \sqrt{y})\\ =\dfrac{d}{dy}\displaystyle\int_{-\sqrt{y}}^{\sqrt{y}}f(x)dx\\ =\dfrac{d}{dy}\{f^{*}(\sqrt{y})-f^{*}(-\sqrt{y})\}\\ =\dfrac{d\sqrt{y}}{dy}f(\sqrt{y})-\dfrac{d(-\sqrt{y})}{dy}f(-\sqrt{y})\\ =\dfrac{1}{2\sqrt{y}}\dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{y}{2}\right)+\dfrac{1}{2\sqrt{y}}\dfrac{1}{\sqrt{2\pi}}\exp\left(-\dfrac{y}{2}\right)\\ =\dfrac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}\exp\left(-\dfrac{y}{2}\right)

となる。 Γ(12)=π\Gamma\left(\dfrac{1}{2}\right)=\sqrt{\pi} であり,これは自由度1のカイ二乗分布をと一致する。

方法2. 確率密度関数を用いた説明

Y=X2Y=X^2 が従う分布の確率密度関数 g(y)g(y) について考える。Δy\Delta y が十分小さいとき,P(yYy+Δy)=g(y)ΔyP(y\leq Y\leq y+\Delta y)=g(y)\Delta y

左辺を変形すると,P(yXy+Δy)+P(y+ΔyXy)P(yXy+12yΔy)+P(y12yΔyXy)=f(y)12yΔy+f(y)12yΔy=f(y)yΔyP(\sqrt{y}\leq X\leq \sqrt{y+\Delta y}) +P(-\sqrt{y+\Delta y}\leq X\leq -\sqrt{y})\\ \fallingdotseq P(\sqrt{y}\leq X\leq \sqrt{y}+\dfrac{1}{2\sqrt{y}}\Delta y)\\ +P(-\sqrt{y}-\dfrac{1}{2\sqrt{y}}\Delta y\leq X\leq -\sqrt{y})\\ =f(\sqrt{y})\dfrac{1}{2\sqrt{y}}\Delta y+f(-\sqrt{y})\dfrac{1}{2\sqrt{y}}\Delta y\\ =\dfrac{f(\sqrt{y})}{\sqrt{y}}\Delta y

よって,

g(y)=f(y)y=1212πy12exp(y2)g(y)=\dfrac{f(\sqrt{y})}{\sqrt{y}}\\ =\dfrac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}\exp\left(-\dfrac{y}{2}\right)

となる。

なお,方法2の途中で1次近似を使いました:一次近似の意味とよく使う近似公式一覧

一般の自由度の場合

帰納法を用います。畳み込みの計算をするだけです!

証明

Y=X12++Xn12Y=X_1^2+\cdots +X_{n-1}^2 が自由度 n1n-1 のカイ二乗分布に従い,Xn2X_n^2 が自由度1のカイ二乗分布に従うとき,Y+Xn2Y+X_n^2 が自由度 nn のカイ二乗分布に従うことを示せばよい。

つまり,以下を証明すればよい:
fn(x)=0xfn1(t)f1(xt)dtf_n(x)=\displaystyle\int_0^xf_{n-1}(t)\:f_1(x-t)dt

右辺を書き下してみると,指数関数部分が積分の外に出せる: ex22n2Γ(n12)π0xtn32(xt)12dt\displaystyle\dfrac{e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\sqrt{\pi}}\int_0^xt^{\frac{n-3}{2}}(x-t)^{-\frac{1}{2}}dt

ここで u=txu=\frac{t}{x} と変数変換すると xx が積分の外に出せる:

ex2xn3212+12n2Γ(n12)Γ(12)01un32(1u)12du\displaystyle\dfrac{e^{-\frac{x}{2}}x^{\frac{n-3}{2}-\frac{1}{2}+1}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})}\int_0^1u^{\frac{n-3}{2}}(1-u)^{-\frac{1}{2}}du

積分の部分はベータ関数の積分公式より

B(n12,12)=Γ(n12)Γ(12)Γ(n2)B\left(\dfrac{n-1}{2},\dfrac{1}{2}\right)=\dfrac{\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})}{\Gamma(\frac{n}{2})}

よって,Γ(n12)Γ(12)\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2}) が約分されて自由度 nn のカイ二乗分布の確率密度関数と一致する。

最後約分される瞬間がたまりませんね。

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ