相関行列の定義と分散共分散行列との関係

相関行列とは,各成分に相関係数を並べた行列のことです。

相関行列について解説します。

相関係数の復習

相関係数とは,2つの確率変数の間の関係を表す数です。

  • 相関係数は 1-1 から 11 の間
  • 相関係数が大きい(1に近い)
    → 片方が大きいとき,もう片方も大きい傾向がある
  • 相関係数が 00 に近い
    → 2つの変数にあまり関係はない
  • 相関係数が小さい(-1に近い)
    → 片方が大きいとき,もう片方は小さい傾向がある

→相関係数の意味と6つの性質(範囲が-1以上1以下、など)

相関行列とは

相関行列の定義

nn 個の変数 X1,X2,,XnX_1,X_2,\dots,X_n に対して,相関行列とは,ijij 成分に XiX_iXjX_j の相関係数 ρij\rho_{ij} を並べた行列のことです。

例えば n=3n=3 の場合,相関行列は (1ρ12ρ13ρ121ρ23ρ13ρ231)\begin{pmatrix}1&\rho_{12}&\rho_{13}\\\rho_{12}&1&{\rho_{23}}\\\rho_{13}&\rho_{23}&1\end{pmatrix} のようになります。

  • XiX_iXiX_i の相関係数は ρii=1\rho_{ii}=1 です。つまり,相関行列の対角成分は 11 です。

  • 相関行列の非対角成分は 1-1 以上 11 以下です。

  • ρij=ρji\rho_{ij}=\rho_{ji} より,相関行列は対称行列です。

  • X1,X2,,XnX_1,X_2,\dots,X_n は互いに相関係数が計算できる「変数」です。具体的には,確率変数またはnn 組の対応する)データ,例えば nn 個の説明変数です。後者の場合の相関行列を,特に標本相関行列と言うことがあります。

分散共分散行列との関係1

確率変数 X1,X2,,XnX_1,X_2,\cdots, X_n に対する相関行列 CC は,

XiX_i たちをスケール変換した)確率変数 X1σ1,X2σ2,,Xnσn\dfrac{X_1}{\sigma_1},\dfrac{X_2}{\sigma_2},\cdots,\dfrac{X_n}{\sigma_n} に対する分散共分散行列 Σ\Sigma' と一致します(σi\sigma_iXiX_i の標準偏差)。

実際,

  • CCiiii 成分は 11Σ\Sigma'iiii 成分は Xiσi\dfrac{X_i}{\sigma_i} の分散なので 11 となり一致します。
  • CCijij 成分は ρij\rho_{ij}Σ\Sigma'ijij 成分は Xiσi\dfrac{X_i}{\sigma_i}Xjσj\dfrac{X_j}{\sigma_j} の共分散なので Cov(Xi,Xj)σiσj=ρij\dfrac{\mathrm{Cov}(X_i,X_j)}{\sigma_i\sigma_j}=\rho_{ij} となり一致します。

分散共分散行列との関係2

確率変数 X1,X2,,XnX_1,X_2,\cdots, X_n に対する相関行列 CC と分散共分散行列 Σ\Sigma の間には C=DΣDC=D\Sigma D という関係が成り立ちます。ただし,DDiiii 成分が 1σi\dfrac{1}{\sigma_i} であるような対角行列です。

この関係式は成分計算で簡単に確認できます。

2次元の場合の例

(1ρ12ρ121)=(1σ1001σ2)(σ12σ12σ12σ22)(1σ1001σ2)\begin{pmatrix}1&\rho_{12}\\\rho_{12}&1\end{pmatrix}=\begin{pmatrix}\dfrac{1}{\sigma_1}&0\\0&\dfrac{1}{\sigma_2}\end{pmatrix}\begin{pmatrix}\sigma_1^2&\sigma_{12}\\\sigma_{12}&\sigma_2^2\end{pmatrix}\begin{pmatrix}\dfrac{1}{\sigma_1}&0\\0&\dfrac{1}{\sigma_2}\end{pmatrix}

半正定値であること

相関行列は半正定値です。 →半正定値対称行列の意味と性質【固有値・二次形式・分解・小行列式】

これは,分散共分散行列が半正定値であることと「分散共分散行列との関係2」から分かります。

証明

任意の nn 次元縦ベクトル yy に対して yCy0y^{\top}Cy\geq 0 を示すのが目標。

さきほどの関係式より,

yCy=yDΣDy=(Dy)Σ(Dy)y^{\top}Cy=y^{\top}D\Sigma Dy\\ =(Dy)^{\top}\Sigma (Dy)

これは Σ\Sigma が半正定値であることから 00 以上である。

分散共分散行列を Σ\Sigma で表すのは一般的ですが,相関行列にはどの記号を用いるのが適切か迷いました。correlation matrixの頭文字 CC を使いましたが,異論がある方はご一報ください。