決定係数の定義と相関係数との関係

決定係数 とは,予測式の精度(予測式によってデータをどれくらい説明できているか)を表す値です。

回帰分析の重要な概念である 決定係数 について詳しく解説します。 決定係数の意味 や,決定係数と相関係数の関係 について紹介します。

決定係数のイメージ

決定係数は,予測式(回帰式,回帰モデル)の精度を表す値です。

決定係数のイメージ

例えば,左側の図では,予測式がデータにうまく当てはまっているので決定係数が大きくなります(決定係数が 11 に近くなります)。

右側の図では,予測式でデータをあまり説明できていないので,決定係数は小さくなります(決定係数が 00 に近くなります)。

決定係数は R2R^2 という記号で表されることが多いです。

決定係数の定義

決定係数 R2R^2 の定義はいくつかありますが,以下の式で定義することが多いです:

R2=1i=1n(yif(xi))2i=1n(yiμY)2R^2=1-\dfrac{\sum_{i=1}^n(y_i-f(x_i))^2}{\sum_{i=1}^n(y_i-\mu_Y)^2}

ただし,(xi,yi)(x_i,y_i) たちがデータ,μY\mu_Yyiy_i の平均,f(x)f(x) は予測式を表します。

第二項の分母は全変動と呼ばれ,データのそもそものばらつき具合を表します。分子は残差変動と呼ばれ,回帰モデルと実測値とのズレを表します。

決定係数が 11 に近い

    \iff 残差変動が(全変動に比べて)小さい

    \iff よい予測式である

とみなせます。

決定係数はマイナスになるか

決定係数のことを R2R^2 と書いていますが,これは必ずしも何かの二乗になるという意味ではありません。

あまりにひどいモデルを考えると,決定係数をマイナスにすることもできます。

しかし,単純に f(xi)=μYf(x_i)=\mu_Y という定数関数(テキトーなモデル)を考えると決定係数は R2=0R^2=0 となります。つまり,決定係数がマイナスであるようなモデルはこのテキトーな定数関数にも負けるモデルということになり,考える意味はなさそうです。

決定係数=相関係数の二乗

定理

最小二乗法による直線フィッティングの場合,相関係数の二乗と決定係数は一致する。

つまり「もともとのデータの相関係数の絶対値が大きいほど最小二乗法による直線フィッティングの精度がよくなる」と言えます。

相関係数と決定係数は全く別の文脈で(それぞれが意味を持つように)定義された量なので,その両者の間に美しい関係があるというのは驚きです!

また,定理により(最小二乗法による直線フィッティングの場合は)決定係数が 00 以上 11 以下の値を取ることも分かります。

※相関係数が 1-1 以上 11 以下になることの証明は,シュワルツの不等式を使ってできます:

詳細は相関係数の意味と6つの性質(範囲が-1以上1以下、など)参照。

定理の証明

定理の証明には以下の前提知識が必要となります。

証明

決定係数を変形していく。全変動ー残差変動=回帰変動なので,

R2=i=1n(f(xi)μY)2i=1n(yiμY)2R^2=\dfrac{\sum_{i=1}^n(f(x_i)-\mu_Y)^2}{\sum_{i=1}^n(y_i-\mu_Y)^2}

である。あとは比較的単純な式変形だけでできる。

R2=1nσY2i=1n{(Axi+B)(AμX+B)}2=A2nσY2i=1n(xiμX)2=Cov(X,Y)2nσY2σX4nσX2=Cov(X,Y)2σX2σY2R^2=\dfrac{1}{n\sigma_Y^2}\displaystyle\sum_{i=1}^n\{(Ax_i+B)-(A\mu_X+B)\}^2\\ =\dfrac{A^2}{n\sigma_Y^2}\displaystyle\sum_{i=1}^n(x_i-\mu_X)^2\\ =\dfrac{\mathrm{Cov}(X,Y)^2}{n\sigma_Y^2\sigma_X^4}\cdot n\sigma_X^2\\ =\dfrac{\mathrm{Cov}(X,Y)^2}{\sigma_X^2\sigma_Y^2}

これは相関係数の二乗に等しい!

決定係数を変形していって相関係数に一致したときの感動を多くの人に味わって欲しいです。

Tag:数学的モデリングまとめ(回帰分析)