相関係数の意味と6つの性質(範囲が-1以上1以下、など)

相関係数とは,2種類の対応するデータの間の関係を表す値です。 pic01 相関係数について,定義と6つの性質を整理しました。相関係数が 1-1 以上 11 以下である証明も紹介します。

相関係数の定義

2種類の対応するデータ (x1,y1),...,(xn,yn)(x_1,y_1),...,(x_n,y_n) の間の相関係数の定義です。定義の1つめの式は複雑なので,標準偏差と共分散を使った2つめの式を覚えるのがオススメです。

相関係数の定義

相関係数 ρ\rho は,

ρ=1ni=1n(xix)(yiy)1ni=1n(xix)21ni=1n(yiy)2\rho=\dfrac{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2}{\sqrt{\dfrac{1}{n}\displaystyle\sum_{i=1}^n(y_i-\overline{y})^2}}}

で定義される。標準偏差 σX,σY\sigma_X,\sigma_Y と共分散 Cov(X,Y)\mathrm{Cov}(X,Y) を使うと,

ρ=Cov(X,Y)σXσY\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}

とも書ける。

ただし,x\overline{x} は平均値 x1+x2++xnn\dfrac{x_1+x_2+\cdots +x_n}{n} です。y=y1+y2++ynn\overline{y}=\dfrac{y_1+y_2+\cdots+y_n}{n} も同様です。

相関係数の意味・性質

XXYY の相関係数について覚えておくと良い性質を整理しました。

相関係数の性質
  1. 相関係数は 1-1 以上 11 以下

  2. 相関係数が大きい(1に近い)
    XX が大きいとき YY も大きい傾向がある pic02

  3. 相関係数が0に近い
    XXYY にあまり関係はない

  4. 相関係数が小さい(-1に近い)
    XX が大きいとき YY は小さい傾向がある pic03

  5. 相関係数の絶対値が 1    (xi,yi)1\iff (x_i,y_i) がすべて同一直線上

  6. 片方を何倍かしても相関係数は変わらない。例えば,XX を「メートル」で表すかわりに「センチメートル」で表すと各 xix_i100100 倍されるが相関係数は変わらない。

性質1・3・5・6について,より詳しく見ていきましょう。

相関係数が 1-1 以上 11 以下であることの証明

まずは,上記の性質1と性質5を証明します。

  • 性質1:相関係数は 1-1 以上 11 以下
  • 性質5:相関係数の絶対値が 1    (xi,yi)1\iff (x_i,y_i) がすべて同一直線上

シュワルツの不等式を使えば一発で証明できます。

性質1の証明

コーシーシュワルツの不等式より,

(i=1nai2)(i=1nbi2)(i=1naibi)2{\displaystyle(\sum_{i=1}^n a_i^2)}{\displaystyle(\sum_{i=1}^n b_i^2)}\geq{\displaystyle(\sum_{i=1}^n a_ib_i)^2}

であり,ai=xix,bi=yiya_i=x_i-\overline{x}, b_i=y_i-\overline{y} を代入すると,

σX2σY2Cov(X,Y)2\sigma_X^2\sigma_Y^2\geq \mathrm{Cov}(X,Y)^2

よって,相関係数の定義より,

ρ21\rho^2\leq 1

となり相関係数の絶対値が 11 以下であることが証明できた。

性質5の証明

さらに,シュワルツの不等式の等号成立条件を考えると,

「全ての ii に対して xix:yiyx_i-\overline{x}:y_i-\overline{y} が一定」

なのでこの比を 1:k1:k とおくと,

yi=k(xix)+yy_i=k(x_i-\overline{x})+\overline{y} となり,(xi,yi)(x_i, y_i) が全て同一直線上にあることが分かる。逆に,同一直線上なら相関係数の絶対値が 11 であることも計算すればわかる。

相関係数が 0 の場合

次は性質3について補足です。

  • 相関係数が 00 の場合,共分散も 00 です。つまり,i=1n(xix)(yiy)=0\displaystyle\sum_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})=0 です。XXYY の間に「直線的な関係は無い」と言えます。

  • XXYY は無相関であるとも言います。

  • 「直線的な関係は無い」と言えますが,「全く関係が無い」とは言えません。無相関でも独立とは限らないためです。→独立と無相関の意味と違いについて

定数倍してもかわらない

次は性質6の確認です。

性質6:相関係数はスケール変換に対して不変(片方を kk 倍しても相関係数は変わらない)

スケール変換とは(この記事では)「どちらかのデータを全て一定倍する操作」です。

なお,相関係数と同様に,共分散も二組の対応するデータの間の関係を表す数値です。しかし,共分散はスケール変換に対して不変でないという問題点がありました。→共分散の意味と簡単な求め方

「相関係数は共分散を規格化して,この問題点を解決したもの」と言うことができます。

証明

YY についても同様なので,XX についての単位の取り方を変えることで xix_i たちが全て kk 倍されるような場合を考える。

(例えば 100100 点満点のテストの点数を 1010 点満点で測りなおす場合は k=0.1k=0.1

このとき xix_i たちの平均値 x\overline{x}kk 倍される

よって,相関係数は

ρ=i=1n(kxikx)(yiy)i=1n(kxikx)2i=1n(yiy)2\rho=\dfrac{\sum_{i=1}^n(kx_i-k\overline{x})(y_i-\overline{y})}{\sqrt{\sum_{i=1}^n(kx_i-k\overline{x})^2}\sqrt{\sum_{i=1}^n(y_i-\overline{y})^2}}

となり分母も分子も kk 倍される。

つまり,相関係数は単位の取り方によらない。

共分散は偏差ベクトルの内積,標準偏差は偏差ベクトルの長さと見ると美しいです。

Tag:数学1の教科書に載っている公式の解説一覧