全変動，回帰変動，残差変動の意味と関係

更新 2021/03/07

最小二乗法による直線フィッティング（単回帰分析）において

全変動＝回帰変動＋残差変動

全変動・回帰変動・残差変動の定義，意味および上記の定理の証明（かなり美しい！）を解説します。

問題設定

単回帰

$(x_1,y_1),\cdots ,(x_n,y_n)$ というように，2組のデータの対が $n$ 個与えられたときに， $y_i\fallingdotseq f(x_i)$ となる単純な関数 $f(x)$ を求めたいという状況を考えます。
$f(x)$ を一次関数に制限して最小二乗法により適切な直線の式を求める場合が非常に多いです。
以下， $\mu_X,\mu_Y$ はデータの平均， $\sigma_X^2,\sigma_Y^2$ はデータの分散， $\mathrm{Cov}(X,Y)$ は共分散を表します。

全変動，回帰変動，残差変動

・全変動（総変動）：∑i=1n(yi−μY)2\displaystyle\sum_{i=1}^n(y_i-\mu_Y)^2i=1∑n​(yi​−μY​)2
データがそもそもどれくらい散らばっているかを表す指標です。分散の定義により，全変動は
yiy_iyi​
 たちの分散
σY2\sigma_Y^2σY2​
 を
nnn
 倍したものと一致します。
・回帰変動：
∑i=1n(f(xi)−μY)2\displaystyle\sum_{i=1}^n(f(x_i)-\mu_Y)^2i=1∑n​(f(xi​)−μY​)2
xix_ixi​
 たちを回帰モデルに当てはめたときにその値がどれくらい散らばっているかを表します。
・残差変動：∑i=1n(yi−f(xi))2\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2i=1∑n​(yi​−f(xi​))2
回帰モデルと実測値とのズレの二乗和です。二乗誤差とも言います。残差変動が大きいほどズレが大きい残念なモデルです。

直線回帰の場合

「全変動＝回帰変動＋残差変動」の証明の準備です。
最小二乗法を用いた直線回帰モデルの場合，f(x)=Ax+Bf(x)=Ax+Bf(x)=Ax+B
 となります。
ただし，
A=Cov(X,Y)σX2, B=μY−AμXA=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_XA=σX2​Cov(X,Y)​,B=μY​−AμX​
なぜこの式が最適な一次関数なのかについては最小二乗法（直線）の簡単な説明をご覧ください。

定理の証明

最小二乗法を用いた直線回帰の場合に「全変動＝回帰変動＋残差変動」を証明します。

証明

$a_i=f(x_i)-\mu_Y,\:b_i=y_i-f(x_i)$ とおく。

全変動＝ $\displaystyle\sum_{i=1}^n(a_i+b_i)^2$

回帰変動＝ $\displaystyle\sum_{i=1}^na_i^2$

残差変動＝ $\displaystyle\sum_{i=1}^nb_i^2$

なので，全変動ー回帰変動ー残差変動＝ $2\displaystyle\sum_{i=1}^na_ib_i$ が $0$ であることを証明すればよい。

実際， $A=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_X$ に注意すると，

$a_ib_i=(f(x_i)-\mu_Y)(y_i-f(x_i))\\ =(Ax_i+B-\mu_Y)(y_i-Ax_i-B)\\ =(Ax_i-A\mu_X)(y_i-Ax_i-\mu_Y+A\mu_X)\\ =A(x_i-\mu_X)(y_i-\mu_Y)-A^2(x_i-\mu_X)(x_i-\mu_X)$

よって，これを $i=1$ から $n$ まで足し合わせると（分散，共分散， $A$ の定義を使うことで）

$\displaystyle\sum_{i=1}^na_ib_i=nA\mathrm{Cov}(X,Y)-nA^2\sigma_X^2\\ =nA(\mathrm{cov}(X,Y)-A\sigma_X^2)=0$

さらに，この定理を使うことで「決定係数＝相関係数の二乗」を比較的簡単に導出できます。→決定係数の定義と相関係数との関係

最近，数理統計学もなかなか綺麗な世界だと感じています。

Tag:数学的モデリングまとめ（回帰分析）

この記事の監修者

マスオ

高校数学の美しい物語の管理人。「わかりやすいこと」と「ごまかさないこと」の両立を意識している。著書に『高校数学の美しい物語』『超ディープな算数の教科書』。記事の誤植やわかりにくい等のご指摘はお気軽にメールください！