相関係数の数学的性質とその証明

更新日時 2021/03/07

二組の対応するデータ (X,Y)(X,Y) に対して,相関係数 ρ\rho を以下で定義する:

ρ=Cov(X,Y)σXσY\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}

ただし,Cov(X,Y)\mathrm{Cov}(X,Y) は共分散,σX\sigma_XσY\sigma_Y は標準偏差です。

目次
  • 相関係数の性質と意味

  • 性質1:相関係数の絶対値が1以下であることの証明

  • 性質2:相関係数は単位によらない

相関係数の性質と意味

性質1

1ρ1-1\leq \rho\leq 1

相関係数は XXYY の関係を表す量で,1-1 以上 11 以下です。共分散と同様に,

相関係数が大きい(1に近い)→ XX が大きいとき YY も大きい傾向がある

相関係数が0に近い→ XXYY にあまり関係はない

相関係数が小さい(-1に近い)→ XX が大きいとき YY は小さい傾向がある

と言うことができます。

性質2

相関係数はスケール変換に対して不変

スケール変換とは(この記事では)「どちらかのデータを全て一定倍する操作」です。例えば,メートルで表された長さのデータをセンチメートルになおすときには,数値を全て 100100 倍しますね。

なお,相関係数と同様に,共分散も二組の対応するデータの間の関係を表す数値です。しかし,共分散はスケール変換に対して不変でないという問題点がありました。→共分散の意味と簡単な求め方

「相関係数は共分散を規格化して,この問題点を解決したもの」と言うことができます。

以下では性質1と2の証明をします。

性質1:相関係数の絶対値が1以下であることの証明

シュワルツの不等式を使えば一発です。

証明

コーシーシュワルツの不等式より,

(i=1nai2)(i=1nbi2)(i=1naibi)2{\displaystyle(\sum_{i=1}^n a_i^2)}{\displaystyle(\sum_{i=1}^n b_i^2)}\geq{\displaystyle(\sum_{i=1}^n a_ib_i)^2}

であり,ai=xiμX,bi=yiμYa_i=x_i-\mu_X, b_i=y_i-\mu_Y を代入すると,

σX2σY2Cov(X,Y)2\sigma_X^2\sigma_Y^2\geq \mathrm{Cov}(X,Y)^2

よって,相関係数の定義より,

ρ21\rho^2\leq 1

となり相関係数の絶対値が 11 以下であることが証明できた。

ちなみにシュワルツの不等式の等号成立条件を考えると,

「全ての ii に対して xiμX:yiμYx_i-\mu_X:y_i-\mu_Y が一定」

なのでこの比を 1:k1:k とおくと,

yi=k(xiμX)+μYy_i=k(x_i-\mu_X)+\mu_Y となり,(xi,yi)(x_i, y_i) が全て同一直線上にあることが分かります!

性質3

相関係数の絶対値が 11

(xi,yi)(x_i,y_i) が全て同一直線上

性質2:相関係数は単位によらない

相関係数がスケール変換に対して不変であることを証明します。

証明

YY についても同様なので,XX についての単位の取り方を変えることで xix_i たちが全て kk 倍されるような場合を考える。

(例えば 100100 点満点のテストの点数を 1010 点満点で測りなおす場合は k=0.1k=0.1

このとき xix_i たちの平均値 μX\mu_Xkk 倍される

よって,相関係数は

ρ=i=1n(kxikμX)(yiμY)i=1n(kxikμX)2i=1n(yiμY)2\rho=\dfrac{\sum_{i=1}^n(kx_i-k\mu_X)(y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(kx_i-k\mu_X)^2}\sqrt{\sum_{i=1}^n(y_i-\mu_Y)^2}}

となり分母も分子も kk 倍される。

つまり,相関係数は単位の取り方によらない。

相関係数を考えることで,「単位の取り方によって値が変わってしまう」という共分散の問題点が解消されました!

つまり,相関係数の数値が XXYY の関係性を判断する指標になるのです。

共分散は偏差ベクトルの内積,標準偏差は偏差ベクトルの長さと見ると美しいです。

Tag:数学1の教科書に載っている公式の解説一覧