ディリクレ分布の意味と正規化,平均などの計算

確率密度関数が,

f(x1,,xn1)={Cx1α11xnαn1(x1,,xn0)0(Otherwise)f(x_1,\cdots,x_{n-1}) =\begin{cases}Cx_1^{\alpha_1-1}\cdots x_n^{\alpha_n-1}&(x_1,\dots, x_n\geq 0)\\0&(\mathrm{Otherwise})\end{cases}

で表されるような多次元の確率分布をディリクレ分布と言う。ただし,

  • xnx_n は,x1++xn=1x_1+\cdots +x_n=1 という関係式によって,x1,,xn1x_1,\dots,x_{n-1} から定まる値。

  • α1,,αn\alpha_1,\cdots,\alpha_n はパラメータで CC は正規化定数。

ディリクレ分布とは

ディリクレ分布と他の分布の関係

  • ディリクレ分布はベータ分布を多変量に拡張したような分布です。実際,ディリクレ分布において n=2n=2 の場合を考えると,x1+x2=1x_1+x_2=1 より, f(x1)=Cx1α11(1x1)α21(0x11)f(x_1)=Cx_1^{\alpha_1-1}(1-x_1)^{\alpha_2-1}\:(0\leq x_1\leq 1) となり,ベータ分布になります。

  • ディリクレ分布から抽出したサンプル (x1,,xn1,xn=1x1xn1)(x_1,\cdots,x_{n-1},x_n=1-x_1-\dots -x_{n-1}) について,x1++xn=1,xi0(1in)x_1+\cdots +x_n=1,x_i\geq 0\:(1\leq i\leq n) が成立するので(確率 xix_i で事象 AiA_i が起こるとみなすことで)多項分布と対応します。つまり,ディリクレ分布は確率分布(多項分布)の分布とみなせます。

  • ベイズ推定の文脈でディリクレ分布は多項分布の共役事前分布です。

ディリクレ分布の正規化

ディリクレ分布の正規化定数は,C=Γ(α)Γ(α1)Γ(αn)C=\dfrac{\Gamma(\alpha)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_n)}

ただし,Γ\Gammaガンマ関数で,α\alpha が正の整数のとき Γ(α)=(α1)!\Gamma(\alpha)=(\alpha-1)! です。また,α=α1++αn\alpha=\alpha_1+\cdots +\alpha_n とおきました。

※以下でも,xn=1x1x2xn1x_n=1-x_1-x_2\dots -x_{n-1} に注意してください。独立な変数は x1,,xn1x_1,\dots,x_{n-1}n1n-1 個です。

正規化定数が上記のようになるのは,

「積分公式」:

x1α11xnαn1dx1dx2dxn1=Γ(α1)Γ(αn)Γ(α1++αn)\displaystyle\int x_1^{\alpha_1-1}\cdots x_n^{\alpha_n-1}dx_1dx_2\dots dx_{n-1}\\ =\dfrac{\Gamma(\alpha_1)\cdots \Gamma(\alpha_n)}{\Gamma(\alpha_1+\cdots +\alpha_n)}

(ただし,左辺の定積分の範囲は xi0(1in1)x_i\geq 0\:(1\leq i\leq n-1)x1++xn11x_1+\cdots +x_{n-1}\leq 1

からすぐに分かります。この積分公式の証明は多重積分の変数変換を使います。読み飛ばしても構いません。

「積分公式」の証明

ガンマ関数の定義より,

Γ(α1)Γ(αn)=0et1t1α11dt10etntnαn1dtn=00et1tnt1α11tnαn1dt1dtn\Gamma(\alpha_1)\cdots \Gamma(\alpha_n)\\ =\displaystyle\int_0^{\infty}e^{-t_1}t_1^{\alpha_1-1}dt_1\cdots \int_0^{\infty}e^{-t_n}t_n^{\alpha_n-1}dt_n\\ =\displaystyle\int_0^{\infty}\cdots \int_0^{\infty}e^{-t_1-\cdots -t_n}t_1^{\alpha_1-1}\cdots t_n^{\alpha_n-1}dt_1\cdots dt_n

ここで,t1=u1y,t2=u2y,tn1=un1y,tn=(1u1un1)yt_1=u_1y,t_2=u_2y,\cdots t_{n-1}=u_{n-1}y,t_n=(1-u_1-\cdots-u_{n-1})y と変数変換すると,ヤコビアンは yn1y^{n-1} であることが分かり,上式は

0eyyα1++αnnyn1dy×u1α11un1αn11(1u1un1)αn1du1dun1\displaystyle\int_0^{\infty} e^{-y}y^{\alpha_1+\cdots +\alpha_n-n}y^{n-1}dy\\ \times\displaystyle\int u_1^{\alpha_1-1}\cdots u_{n-1}^{\alpha_{n-1}-1}(1-u_1-\cdots -u_{n-1})^{\alpha_n-1}du_1\cdots du_{n-1}

となる(ただし,2つ目の積分の積分範囲は ui0(1in1)u_i\geq 0\:(1\leq i\leq n-1)u1++un11u_1+\cdots +u_{n-1}\leq 1 )。

1つ目の積分は Γ(α1++αn)\Gamma(\alpha_1+\cdots +\alpha_n) であり,2つ目の積分は「積分公式」の左辺と等しい。

ディリクレ分布の平均,分散,共分散

(X1,,Xn)(X_1,\cdots, X_n) がパラメータ (α1,,αn)(\alpha_1,\cdots,\alpha_n) のディリクレ分布に従うとき,

平均: E[Xi]=αiαE[X_i]=\dfrac{\alpha_i}{\alpha}

分散: Var[Xi]=αi(ααi)α2(α+1)\mathrm{Var}[X_i]=\dfrac{\alpha_i(\alpha-\alpha_i)}{\alpha^2(\alpha+1)}

共分散: Cov(Xi,Xj)=αiαjα2(α+1)\mathrm{Cov}(X_i,X_j)=\dfrac{-\alpha_i\alpha_j}{\alpha^2(\alpha+1)}

いずれもさきほどの「積分公式」を使えば簡単に導出できます。表記簡略化のため,i=1,j=2i=1,j=2 について証明します(一般の i,ji,j についても全く同様)。

証明(平均)

E[X1]=x1f(x1,,xn)dx1dxn1E[X_1]=\displaystyle\int x_1f(x_1,\cdots,x_n)dx_1\dots dx_{n-1} なので「積分公式」において α1α1+1\alpha_1\to\alpha_1+1 とすれば,

E[X1]=CΓ(α1+1)Γ(α2)Γ(αn)Γ(α+1)=Γ(α)Γ(α1+1)Γ(α+1)Γ(α1)=α1αE[X_1]=C\dfrac{\Gamma(\alpha_1+1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_n)}{\Gamma(\alpha+1)}\\ =\dfrac{\Gamma(\alpha)\Gamma(\alpha_1+1)}{\Gamma(\alpha+1)\Gamma(\alpha_1)} =\dfrac{\alpha_1}{\alpha}

ただし,最後の変形でガンマ関数の公式: Γ(α+1)=αΓ(α)\Gamma(\alpha+1)=\alpha\Gamma(\alpha) を用いた。

証明(分散)

平均とほぼ同じ計算。 α1α1+2\alpha_1\to \alpha_1+2 として「積分公式」を使う。

Var[X1]=E[X12]E[X1]2=α1(α1+1)α(α+1)α12α2=α1(αα1)α2(α+1)\mathrm{Var}[X_1]=E[X_1^2]-E[X_1]^2\\ =\dfrac{\alpha_1(\alpha_1+1)}{\alpha(\alpha+1)}-\dfrac{\alpha_1^2}{\alpha^2}\\ =\dfrac{\alpha_1(\alpha-\alpha_1)}{\alpha^2(\alpha+1)}

証明(共分散)

こちらもほぼ同じ計算。 α1α1+1,α2α2+1\alpha_1\to \alpha_1+1,\alpha_2\to\alpha_2+1 として「積分公式」を使う。

Cov(X1,X2)=E[X1X2]E[X1]E[X2]=α1α2α(α+1)α1α2α2=α1α2α2(α+1)\mathrm{Cov}(X_1,X_2)=E[X_1X_2]-E[X_1]E[X_2]\\ =\dfrac{\alpha_1\alpha_2}{\alpha(\alpha+1)}-\dfrac{\alpha_1\alpha_2}{\alpha^2}\\ =\dfrac{-\alpha_1\alpha_2}{\alpha^2(\alpha+1)}

ディリクレ分布の正規化はぜひヤコビアンの計算も含めてやってみてください,感動します!

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ