分散共分散行列の定義と性質

分散共分散行列とは,分散(散らばり具合を表す指標)を多次元の確率変数に拡張したもの

分散共分散行列の定義からはじめて,具体例や半正定値になることなどをわかりやすく説明します。

確率変数が2つの場合の定義

分散共分散行列の定義(2次元)

確率変数 X1,X2X_1,X_2 に対して,分散共分散行列(単に共分散行列とも言う)Σ\Sigma を以下で定める: Σ=(σ12σ12σ12σ22)\Sigma=\begin{pmatrix}\sigma_{1}^2&\sigma_{12}\\\sigma_{12}&\sigma_{2}^2\end{pmatrix} ただし,σ12\sigma_{1}^2X1X_1 の分散,σ22\sigma_{2}^2X2X_2 の分散,σ12\sigma_{12}X1X_1X2X_2 の共分散。

つまり,分散共分散行列は「対角成分が分散」で「非対角成分が共分散」である行列です。

参考:→共分散の意味と簡単な求め方

確率変数が nn 個の場合も同様です。

分散共分散行列の定義

nn 個の確率変数 X1,X2,,XnX_1,X_2,\dots , X_n に対して,

  • iiii 成分が σi2\sigma_{i}^2
  • ijij 成分(iji\neq j)が σij\sigma_{ij}

である n×nn\times n 行列を分散共分散行列と言う。

分散共分散行列は,データの散らばり具合や相関という情報を集約したものともいえます。

補足:データの分散共分散行列

ここまでは「複数の確率変数」に対して定まる分散共分散行列を紹介しました。

同様に,「nn 次元のデータ」に対しても分散共分散行列が定義されます。特に,標本分散共分散行列といいます(対角成分には標本分散,非対角成分には標本共分散が並ぶ)。

具体例

例題

データとして,(xi,yi)=(40,80),(80,90),(90,100)(x_i,y_i)=(40,80),(80,90),(90,100) が与えられたとき,このデータの(標本)分散共分散行列を求めよ。

例えば xix_iii 番目の人の国語の点数,yiy_i が数学の点数と思って下さい。

解答

E[X]=70,E[Y]=90E[X]=70,E[Y]=90

であり,偏差ベクトル(平均からの差)は (30,10),(10,0),(20,10)(-30,-10),(10,0),(20,10)

よって σX2=13{(30)2+102+202}=14003\sigma_X^2=\dfrac{1}{3}\{(-30)^2+10^2+20^2\}=\dfrac{1400}{3} σY2=13{(10)2+102}=2003\sigma_Y^2=\dfrac{1}{3}\{(-10)^2+10^2\}=\dfrac{200}{3} σXY=13(300+200)=5003\sigma_{XY}=\dfrac{1}{3}(300+200)=\dfrac{500}{3} 分散共分散行列は,Σ=(14003500350032003)\Sigma=\begin{pmatrix}\dfrac{1400}{3}&\dfrac{500}{3}\\ \dfrac{500}{3}&\dfrac{200}{3}\end{pmatrix}

注:共分散は負になることがあるので,分散共分散行列の要素(非対角成分)が負になることもあります。

別の表現

分散と共分散の定義を思い出してみると,分散共分散行列の第 ijij 成分は E[(Xiμi)(Xjμj)]E[(X_i-\mu_{i})(X_j-\mu_{j})] と書けることが分かります。

ただし μi\mu_{i}XiX_i の平均です。

この表現を使うことで,対角成分と非対角成分を場合分けせずに統一的に扱うことができます。

分散共分散行列の定義(別の言い方)

nn 個の確率変数 X1,X2,,XnX_1,X_2,\dots , X_n に対して,

ijij 成分が E[(Xiμi)(Xjμj)]E[(X_i-\mu_{i})(X_j-\mu_{j})] である n×nn\times n 行列を分散共分散行列と言う。

独立な場合

確率変数たちが互いに独立な場合,共分散は全て 00 になります。(独立なら無相関)→独立と無相関の意味と違いについて

つまり,分散共分散行列の非対角成分は 00 になるので,この場合には分散共分散行列は対角行列になります。対角成分には分散(=固有値)が並びます。

半正定値であること

分散共分散行列は半正定値であるという重要な性質があります。

22 変数の場合について証明します。一般の nn 次元の場合も全く同様に証明できます。

証明

任意の 22 次元縦ベクトル yundefined=(y1,y2)\overrightarrow{y}=(y_1,y_2)^{\top} に対して yundefinedΣyundefined0\overrightarrow{y}^{\top}\Sigma\overrightarrow{y} \geq 0

つまり σ12y12+2σ12y1y2+σ22y220\sigma_{1}^2y_1^2+2\sigma_{12}y_1y_2+\sigma_{2}^2y_2^2\geq 0 を示すのが目標。

ここで,新たな確率変数 X=y1X1+y2X2X=y_1X_1+y_2X_2 というものを考えてみる。 XX の分散が非負であること,分散の公式(注),および共分散の線形性より 0Var[y1X1+y2X2]=σ12y12+2σ12y1y2+σ22y220\leq \mathrm{Var}[y_1X_1+y_2X_2]=\sigma_{1}^2y_1^2+2\sigma_{12}y_1y_2+\sigma_{2}^2y_2^2 となるので目標の式が証明できた。

注:期待値と分散に関する公式一覧より,

  • Var[aX]=a2Var[X]\mathrm{Var}[aX]=a^2\mathrm{Var}[X]
  • Var[X1+X2]=Var[X1]+Var[X2]+2σX1X2\mathrm{Var}[X_1+X_2]=\mathrm{Var}[X_1]+\mathrm{Var}[X_2]+2\sigma_{X_1X_2}

注:一次元の場合の分散は非負ですが 00 になることもあります。同様に,分散共分散行列も半正定値ですが正定値とは限りません。

補足

なお,nn 次元縦ベクトルとして確率変数を並べたもの: X=(X1,X2,,Xn)X=(X_1,X_2,\dots, X_n)^{\top}

期待値を並べたもの: μ=(μ1,μ2,,μn)\mu=(\mu_{1},\mu_{2},\dots, \mu_{n})^{\top}

とすれば Σ=E[(Xμ)(Xμ)]=E[XX]μμ\Sigma=E[(X-\mu)(X-\mu)^{\top}]=E[XX^{\top}]-\mu\mu^{\top} となります。

真ん中の式より分散共分散行列が半正定値であることが分かります。最右辺は実際の計算に役立ちます。

「ぶんさんきょうぶんさんぎょうれつ」って早口で三回言えますか?