相関係数の意味と6つの性質(範囲が-1以上1以下、など)
相関係数とは,2種類の対応するデータの間の関係を表す値です。 相関係数について,定義と6つの性質を整理しました。相関係数が 以上 以下である証明も紹介します。
こちらの記事もどうぞ。
相関係数の定義
相関係数の定義
2種類の対応するデータ の間の相関係数の定義です。定義の1つめの式は複雑なので,標準偏差と共分散を使った2つめの式を覚えるのがオススメです。
相関係数 は, で定義される。標準偏差 と共分散 を使うと, とも書ける。
ただし, は平均値 です。 も同様です。
相関係数の意味・性質
相関係数の意味・性質
と の相関係数について覚えておくと良い性質を整理しました。
-
相関係数は 以上 以下
-
相関係数が大きい(1に近い)
→ が大きいとき も大きい傾向がある -
相関係数が0に近い
→ と にあまり関係はない -
相関係数が小さい(-1に近い)
→ が大きいとき は小さい傾向がある -
相関係数の絶対値が がすべて同一直線上
-
片方を何倍かしても相関係数は変わらない。例えば, を「メートル」で表すかわりに「センチメートル」で表すと各 は 倍されるが相関係数は変わらない。
性質1・3・5・6について,より詳しく見ていきましょう。
相関係数が 以上 以下であることの証明
相関係数が 以上 以下であることの証明
まずは,上記の性質1と性質5を証明します。
- 性質1:相関係数は 以上 以下
- 性質5:相関係数の絶対値が がすべて同一直線上
シュワルツの不等式を使えば一発で証明できます。
コーシーシュワルツの不等式より,
であり, を代入すると,
よって,相関係数の定義より,
となり相関係数の絶対値が 以下であることが証明できた。
さらに,シュワルツの不等式の等号成立条件を考えると,
「全ての に対して が一定」
なのでこの比を とおくと,
となり, が全て同一直線上にあることが分かる。逆に,同一直線上なら相関係数の絶対値が であることも計算すればわかる。
相関係数が 0 の場合
相関係数が 0 の場合
次は性質3について補足です。
-
相関係数が の場合,共分散も です。つまり, です。 と の間に「直線的な関係は無い」と言えます。
-
と は無相関であるとも言います。
-
「直線的な関係は無い」と言えますが,「全く関係が無い」とは言えません。無相関でも独立とは限らないためです。→独立と無相関の意味と違いについて
定数倍してもかわらない
定数倍してもかわらない
次は性質6の確認です。
性質6:相関係数はスケール変換に対して不変(片方を 倍しても相関係数は変わらない)
スケール変換とは(この記事では)「どちらかのデータを全て一定倍する操作」です。
なお,相関係数と同様に,共分散も二組の対応するデータの間の関係を表す数値です。しかし,共分散はスケール変換に対して不変でないという問題点がありました。→共分散の意味と簡単な求め方
「相関係数は共分散を規格化して,この問題点を解決したもの」と言うことができます。
についても同様なので, についての単位の取り方を変えることで たちが全て 倍されるような場合を考える。
(例えば 点満点のテストの点数を 点満点で測りなおす場合は )
このとき たちの平均値 も 倍される
よって,相関係数は
となり分母も分子も 倍される。
つまり,相関係数は単位の取り方によらない。
共分散は偏差ベクトルの内積,標準偏差は偏差ベクトルの長さと見ると美しいです。