偏相関係数の意味と式の導出
「 の影響を除いた 」と「 の影響を除いた 」の相関係数 は,
ただし, は と の(普通の)相関係数です( も同様)。
他の確率変数の影響を除いた相関を偏相関と言います。この記事では偏相関係数について説明します。
の影響を除いた とは
の影響を除いた とは
と のペアのデータ がたくさん与えられた状況を考えます。このとき,最小二乗法を使うと と の関係を表すもっともらしい直線(図の点線)を求めることができます。
このとき,各データ について,残差(図の赤い部分,直線より下のときはマイナスになる)を「 の影響を除いた 」と呼ぶことにします。つまり,真値を ,直線による予測値を としたとき, のことです。
あくまでイメージですが,
「 と の睡眠時間は の方が長い。しかし,高校生の方が幼稚園児より,一般的に睡眠時間は短いはず。年齢の影響を除いて両者を比較するため,年齢から予想される値を基準に考えよう」という気持ちです。
偏相関係数の式の導出
偏相関係数の式の導出
証明に興味がない人はこの節を読み飛ばしてOKです!
回帰直線 の傾きと切片が,
で与えられることを使います。 →最小二乗法(直線)の簡単な説明
に対する の回帰直線は,
よって「 の影響を除いた 」は
同様に「 の影響を除いた 」は
求めたい偏相関係数は, と の相関係数:
である。
そこで,さきほどの2つの式から と のモーメントを計算すると,
となる。これらを の式に代入して整理すると
となる。
細かい計算は省略しています。気持ちいいのでやってみてください!
偏相関係数の使用例
偏相関係数の使用例
小学生から高校生までの多くの人に,同じテストを受けてもらった状況を考えます。
:年齢,:睡眠時間,:テストの点数
とします。
:小学生の方がよく寝る
:高校生の方がテストの点数が高い
:睡眠時間が短い方がテストの点数が高い??←疑似相関
偏相関係数を使った説明
を計算すると,約 になります。年齢の影響を除いて考えると,睡眠時間が長い方がテストの点数が高いと言えます。
最後の例,数値は適当です。「点数上げたいならいっぱい寝よう」は個人的に伝えたいメッセージです。