正規分布の条件付き分布

ガウス分布の多変数バージョンにおける,条件付き確率の話題です。

  • 多変量正規分布に従う確率変数(ベクトル)x\vec{x} のうち,一部の変数 xB\vec{x_B} がわかったもとで,残りの変数 xA\vec{x_A} が従う条件付き分布 P(xAxB)P(\vec{x_A}\mid\vec{x_B}) は,多変量正規分布になる。

  • その多変量正規分布 P(xAxB)P(\vec{x_A}\mid\vec{x_B}) の平均 μAB\vec{\mu}_{A\mid B} と分散共分散行列 ΣAB\Sigma_{A\mid B} は簡単な行列計算で求められる。

多変量正規分布の条件付き分布

冒頭の主張をもう少し正確に述べます。

多変量正規分布の条件付き分布
  • 確率変数(のベクトル)x\vec{x} が「平均が μ\vec{\mu} で分散共分散行列が Σ\Sigma である多変量正規分布」に従う状況を考える。

  • 確率変数を x=(xAxB)\vec{x}=\begin{pmatrix}\vec{x_A}\\\vec{x_B}\end{pmatrix} と2つに分割する。xB\vec{x_B} がわかっているもとでの xA\vec{x_A} の条件付き分布は,多変量正規分布になる。

  • その平均 μAB\vec{\mu}_{A\mid B} と分散共分散行列 ΣAB\Sigma_{A\mid B} は以下のようになる: μAB=μA+ΣABΣBB1(xBμB)\vec{\mu}_{A\mid B}=\vec{\mu}_A+\Sigma_{AB}\Sigma_{BB}^{-1}(\vec{x_B}-\vec{\mu_B}) ΣAB=ΣAAΣABΣBB1ΣBA\Sigma_{A\mid B}=\Sigma_{AA}-\Sigma_{AB}\Sigma_{BB}^{-1}\Sigma_{BA} ただし,x\vec{x} に合わせて,μ\vec{\mu}Σ\Sigma も分割した各ブロックを μ=(μAμB)\vec{\mu}=\begin{pmatrix}\vec{\mu_A}\\\vec{\mu_B}\end{pmatrix}Σ=(ΣAAΣABΣBAΣBB)\Sigma=\begin{pmatrix}\Sigma_{AA}&\Sigma_{AB}\\\Sigma_{BA}&\Sigma_{BB}\end{pmatrix} とおいた。

赤文字の式から,以下がわかります:

  • xB=μB\vec{x_B}=\vec{\mu_B} なら μAB=μA\vec{\mu}_{A\mid B}=\vec{\mu_A},つまり「既知の変数が平均と等しい」なら「未知変数の条件付き期待値は μA\mu_A のまま変わらない」
  • 共分散行列 ΣAB\Sigma_{A\mid B}xB\vec{x_B} によらない

2変数の場合の例

2変数の場合,μ=(μAμB)\vec{\mu}=\begin{pmatrix}\mu_A\\\mu_B\end{pmatrix}Σ=(σA2ρσAσBρσAσBσB2)\Sigma=\begin{pmatrix}\sigma_A^2&\rho\sigma_A\sigma_B\\\rho\sigma_A\sigma_B&\sigma_B^2\end{pmatrix} とおけます(ρ\rho は2つの変数の相関係数で,σA,σB\sigma_A,\sigma_B は標準偏差)。

よって, μAB=μA+ρσA(xBμB)σB\mu_{A\mid B}=\mu_A+\rho\sigma_A\dfrac{(x_B-\mu_B)}{\sigma_B} ΣAB=σA2(1ρ2)\Sigma_{A\mid B}=\sigma^2_A(1-\rho^2) となります。

  • ρ=0\rho=0 なら,μAB=μA\mu_{A\mid B}=\mu_A かつ ΣAB=σA2\Sigma_{A\mid B}=\sigma_A^2,つまり「xBx_B の情報を得ても xAx_A の情報はわからない」
  • ρ=±1\rho=\pm 1 なら,ΣAB=0\Sigma_{A\mid B}=0,つまり「xBx_B の情報を得ると xAx_A が完全に決定される」

条件付き分布の導出

以下の方針で導出します。

  • 条件付き確率の定義式 P(xAxB)=P(xA,xB)P(xB)P(\vec{x_A}\mid\vec{x_B})=\dfrac{P(\vec{x_A},\vec{x_B})}{P(\vec{x_B})} を使うために,多変量正規分布の確率密度関数 P(xA,xB)P(\vec{x_A},\vec{x_B}) からスタートして計算していく。
  • 途中で,「ブロック行列を3つの行列の積に分解する」ことで,2次形式を分解する。
証明

正規分布の確率密度関数より,xundefined\overrightarrow{x} が従う分布は P(xA,xB)=Cexp{12(xμ)Σ1(xμ)}P(\vec{x_A},\vec{x_B})=C\exp \left\{-\dfrac{1}{2}(\vec{x}-\vec{\mu})^{\top}\Sigma^{-1}(\vec{x}-\vec{\mu})\right\} である(CC は正規化定数)。既知の部分 xB\vec{x_B} と未知の部分 xA\vec{x_A} にわけて計算したいが,Σ1\Sigma^{-1} は分割できない。そこで,ブロック行列の逆行列の公式の証明中の式(と類似のもの): Σ1=(IOΣBB1ΣBAI)(S1OOΣBB1)(IΣABΣBB1OI)\Sigma^{-1}=\begin{pmatrix}I&O\\-\Sigma_{BB}^{-1}\Sigma_{BA}&I\end{pmatrix}\begin{pmatrix}S^{-1}&O\\O&\Sigma_{BB}^{-1}\end{pmatrix}\begin{pmatrix}I&-\Sigma_{AB}\Sigma_{BB}^{-1}\\O&I\end{pmatrix} (ただし,S=ΣAAΣABΣBB1ΣBAS=\Sigma_{AA}-\Sigma_{AB}\Sigma_{BB}^{-1}\Sigma_{BA}) を使って2次形式の部分を分解すると, (xμ)Σ1(xμ)={(xAμA)ΣABΣBB1(xBμB)}S1{(xAμA)ΣABΣBB1(xBμB)}+(xBμB)ΣBB1(xBμB)\begin{aligned}&(\vec{x}-\vec{\mu})^{\top}\Sigma^{-1}(\vec{x}-\vec{\mu})\\ &=\{(\vec{x_A}-\vec{\mu_A})-\Sigma_{AB}\Sigma_{BB}^{-1}(\vec{x_B}-\vec{\mu_B})\}^{\top}S^{-1}\\ &\:\:\:\:\:\:\{(\vec{x_A}-\vec{\mu_A})-\Sigma_{AB}\Sigma_{BB}^{-1}(\vec{x_B}-\vec{\mu_B})\}\\ &\:\:\:+(\vec{x_B}-\vec{\mu_B})^{\top}\Sigma_{BB}^{-1}(\vec{x_B}-\vec{\mu_B})\end{aligned} となる。この第二項から P(xB)P(\vec{x_B}) が出てくるので, P(xA,xB)=f(xA,xB)×P(xB)P(\vec{x_A},\vec{x_B})=f(\vec{x_A},\vec{x_B})\times P(\vec{x_B}) という形になる。ただし,ff は上記第一項から出てくる分布(exp\exp の中身が多変数の2次関数なので,多変量正規分布)。

よって,求める条件付き分布は, P(xAxB)=P(xA,xB)P(xB)P(\vec{x_A}\mid\vec{x_B})=\dfrac{P(\vec{x_A},\vec{x_B})}{P(\vec{x_B})} なので,ff である。つまり,多変量正規分布であり,その平均 μAB\vec{\mu}_{A\mid B} と分散共分散行列 ΣAB\Sigma_{A\mid B} は以下のようになる: μAB=μA+ΣABΣBB1(xBμB)\vec{\mu}_{A\mid B}=\vec{\mu}_A+\Sigma_{AB}\Sigma_{BB}^{-1}(\vec{x_B}-\vec{\mu_B}) ΣAB=S=ΣAAΣABΣBB1ΣBA\Sigma_{A\mid B}=S=\Sigma_{AA}-\Sigma_{AB}\Sigma_{BB}^{-1}\Sigma_{BA}

考え方は難しくないですが,細かい部分まで計算を理解するのはけっこう大変です。