偏相関係数の意味と式の導出

XX の影響を除いた YY」と「XX の影響を除いた ZZ」の相関係数 ρYZ,X\rho_{YZ,X} は,

ρYZ,X=ρYZρXYρXZ1ρXY21ρXZ2\rho_{YZ,X}=\dfrac{\rho_{YZ}-\rho_{XY}\rho_{XZ}}{\sqrt{1-\rho^2_{XY}}\sqrt{1-\rho^2_{XZ}}}

ただし,ρXY\rho_{XY}XXYY の(普通の)相関係数です(ρXZ,ρYZ\rho_{XZ}, \rho_{YZ} も同様)。

他の確率変数の影響を除いた相関を偏相関と言います。この記事では偏相関係数について説明します。

XX の影響を除いた YY とは

XXYY のペアのデータ (xi,yi)(x_i,y_i) がたくさん与えられた状況を考えます。このとき,最小二乗法を使うと XXYY の関係を表すもっともらしい直線(図の点線)を求めることができます。

偏相関係数の説明の準備

このとき,各データ (xi,yi)(x_i,y_i) について,残差(図の赤い部分,直線より下のときはマイナスになる)を「XX の影響を除いた YY」と呼ぶことにします。つまり,真値を YY,直線による予測値を Y^\hat{Y} としたとき,Y=YY^Y'=Y-\hat{Y} のことです。

あくまでイメージですが,

AABB の睡眠時間は AA の方が長い。しかし,高校生の方が幼稚園児より,一般的に睡眠時間は短いはず。年齢の影響を除いて両者を比較するため,年齢から予想される値を基準に考えよう」という気持ちです。

偏相関係数の式の導出

証明に興味がない人はこの節を読み飛ばしてOKです!

回帰直線 Y^=aX+b\hat{Y}=aX+b の傾きと切片が,

a=Cov(X,Y)σX2a=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2}

b=μYaμXb=\mu_Y-a\mu_X

で与えられることを使います。 →最小二乗法(直線)の簡単な説明

導出

XX に対する YY の回帰直線は,

Y^=aX+b=Cov(X,Y)σX2(XμX)+μY\hat{Y}=aX+b\\ =\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2}(X-\mu_X)+\mu_Y

よって「XX の影響を除いた YY」は

Y=YY^=(YμY)(XμX)Cov(X,Y)σX2Y'=Y-\hat{Y}\\ =(Y-\mu_Y)-(X-\mu_X)\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2}

同様に「XX の影響を除いた ZZ」は

Z=(ZμZ)(XμX)Cov(X,Z)σX2Z'=(Z-\mu_Z)-(X-\mu_X)\dfrac{\mathrm{Cov}(X,Z)}{\sigma_X^2}

求めたい偏相関係数は,YY'ZZ' の相関係数:

ρYZ,X=Cov(Y,Z)σYσZ=E[YZ]E[Y]E[Z]E[Y2]E[Y]2E[Z2]E[Z]2\rho_{YZ,X}=\dfrac{\mathrm{Cov}(Y',Z')}{\sigma_{Y'}\sigma_{Z'}}\\ =\dfrac{E[Y'Z']-E[Y']E[Z']}{\sqrt{E[Y'^2]-E[Y']^2}\sqrt{E[Z'^2]-E[Z']^2}}

である。

そこで,さきほどの2つの式から YY'ZZ' のモーメントを計算すると,

E[Y]=E[Z]=0E[Y']=E[Z']=0

E[YZ]=Cov(Y,Z)Cov(X,Y)Cov(X,Z)σX2=(ρYZρXYρXZ)σYσZE[Y'Z']=\mathrm{Cov}(Y,Z)-\dfrac{\mathrm{Cov}(X,Y)\mathrm{Cov}(X,Z)}{\sigma_X^2}\\ =(\rho_{YZ}-\rho_{XY}\rho_{XZ})\sigma_Y\sigma_Z

E[Y2]=σY2Cov(X,Y)2σX2=σY2(1ρXY2)E[Y'^2]=\sigma_Y^2-\dfrac{\mathrm{Cov}(X,Y)^2}{\sigma_X^2}=\sigma_Y^2(1-\rho_{XY}^2)

E[Z2]=σZ2(1ρXZ2)E[Z'^2]=\sigma_Z^2(1-\rho_{XZ}^2)

となる。これらを ρYZ,X\rho_{YZ,X} の式に代入して整理すると

ρYZ,X=ρYZρXYρXZ1ρXY21ρXZ2\rho_{YZ,X}=\dfrac{\rho_{YZ}-\rho_{XY}\rho_{XZ}}{\sqrt{1-\rho^2_{XY}}\sqrt{1-\rho^2_{XZ}}}

となる。

細かい計算は省略しています。気持ちいいのでやってみてください!

偏相関係数の使用例

小学生から高校生までの多くの人に,同じテストを受けてもらった状況を考えます。

XX:年齢,YY:睡眠時間,ZZ:テストの点数

とします。

ρXY=0.7\rho_{XY}=-0.7:小学生の方がよく寝る

ρXZ=0.8\rho_{XZ}=0.8:高校生の方がテストの点数が高い

ρYZ=0.35\rho_{YZ}=-0.35:睡眠時間が短い方がテストの点数が高い??←疑似相関

偏相関係数を使った説明

ρYZ,X\rho_{YZ,X} を計算すると,約 0.490.49 になります。年齢の影響を除いて考えると,睡眠時間が長い方がテストの点数が高いと言えます。

最後の例,数値は適当です。「点数上げたいならいっぱい寝よう」は個人的に伝えたいメッセージです。