最良線形不偏推定量(BLUE)とガウス・マルコフの定理

ガウス・マルコフの定理

最小二乗法による傾きの推定値 A^=Cov(X,Y)σX2\hat{A}=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2}最良線形不偏推定量である。

最良線形不偏推定量についてわかりやすく説明します。

最良線形不偏推定量とは

最良線形不偏推定量(best linear unbiased estimator,BLUE)とは,線形不偏推定量の中で最良のもののことです。

  • 推定量が不偏とは,推定量の期待値が真値と等しい(かたよっていない)ことを表します。
  • 推定量が線形とは,推定量が観測値の線形和(ciyi\sum c_iy_i という形)で書けることを表します。
  • 線形不偏推定量が最良とは,分散が最小である(散らばりが少ない)ことを表します。

以下の「最小二乗法による単回帰の例」を見ると意味がわかりやすいです。

最良線形不偏推定量の例

ガウス・マルコフの定理

最小二乗法による傾きの推定値 A^=Cov(X,Y)σX2\hat{A}=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2}最良線形不偏推定量である。

前提

  • xi(i=1,...,n)x_i\:(i=1,...,n) は決まっている(知っている)
  • A,BA,B も決まっている(知らないので推定したい)
  • yi=Axi+B+εiy_i=Ax_i+B+\varepsilon_i という1次式によって yiy_i が決まる
  • ただし,ノイズ εi\varepsilon_i は確率変数である。平均は 00 で分散は σ2\sigma^2ii によらない)
  • εi\varepsilon_i が確率変数なので yiy_i も確率変数
  • εi\varepsilon_i たちは無相関(よって yiy_i たちも無相関)
  • xix_i たちの平均値を x\overline{x},分散を σX2\sigma_X^2XXYY の共分散を Cov(X,Y)\mathrm{Cov}(X,Y) と書く。

「線形」推定量であることの証明

これは簡単です。共分散の定義を書き下して,推定量 A^\hat{A}yiy_i たちの1次式で表せることを確認するだけです。

証明

A^=1σX2i(xix)(yiy)=1σX2{i(xix)yi+yi(xix)}=1σX2i(xix)yi\begin{aligned}\hat{A}&=\dfrac{1}{\sigma_X^2}\displaystyle\sum_{i}(x_i-\overline{x})(y_i-\overline{y})\\ &=\dfrac{1}{\sigma_X^2}\left\{\displaystyle\sum_{i}(x_i-\overline{x})y_i+\overline{y}\sum_i(x_i-\overline{x})\right\}\\ &=\dfrac{1}{\sigma_X^2}\displaystyle\sum_{i}(x_i-\overline{x})y_i\end{aligned} これは,yiy_i たちの1次式である。係数は xixσX2\dfrac{x_i-\overline{x}}{\sigma_X^2}

「不偏」推定量であることの証明

目標は,E[A^]=AE[\hat{A}]=A であることの証明です。どれが定数でどれが確率変数かを意識すれば変形自体は難しくありません(yi,y,A^y_i,\overline{y},\hat{A} が確率変数)。

証明

まず,E[yi]=Axi+BE[y_i]=Ax_i+B である。

これを ii についてたしあげて nn で割ると, E[y]=Ax+BE[\overline{y}]=A\overline{x}+B を得る。以上2つの式を使うと, E[A^]=E[1σX2i(xix)(yiy)]=1σX2i(xix)(E[yi]E[y])=AσX2i(xix)(xix)=A\begin{aligned}E[\hat{A}]&=E\left[\dfrac{1}{\sigma_X^2}\displaystyle\sum_{i}(x_i-\overline{x})(y_i-\overline{y})\right]\\& =\dfrac{1}{\sigma_X^2}\sum_i(x_i-\overline{x})(E[y_i]-E[\overline{y}])\\ &=\dfrac{A}{\sigma_X^2}\sum_i(x_i-\overline{x})(x_i-\overline{x})\\ &=A\end{aligned}

ただし,1つめの等号は期待値の線形性,最後の等号は分散 σX2\sigma_X^2 の定義を使った。

「最良」不偏推定量であることの証明

目標は,線形推定量の中で A^\hat{A} が最良であること(分散が最小であること)の証明です。

証明

線形推定量 iciyi\displaystyle\sum_i c_iy_i が不偏推定量のとき, E[iciyi]=E[ici(Axi+B+εi)]=AE\left[\displaystyle\sum_i c_iy_i\right]=E\left[\displaystyle\sum_i c_i(Ax_i+B+\varepsilon_i)\right]=Axix_i によらず成立するので icixi=1,ici=0\sum_ic_ix_i=1,\sum_i c_i=0 である。この制約のもとで,分散 V[iciyi]=ici2V[yi]=σ2ici2V\left[\displaystyle\sum_i c_iy_i\right]=\sum_{i}c_i^2V[y_i]=\sigma^2\sum_i c_i^2 を最小化したい(上記変形で yiy_i たちが無相関であることを使った)。

これは,シュワルツの不等式を以下のように使うとできる: (ici2){i(xix)2}{ici(xix)}2(\sum_i c_i^2)\left\{\sum_i (x_i-\overline{x})^2\right\}\geq \left\{\sum_ic_i(x_i-\overline{x})\right\}^2 (制約より右辺は1で左辺は σX2ici2\sigma_X^2\displaystyle\sum_ic_i^2 になる)

よって,分散を最小にするのは,シュワルツの不等式の等号成立条件より,ci=w(xix)c_i=w(x_i-\overline{x}) となる定数 ww が存在するときである。そして,ci=xixσX2c_i=\dfrac{x_i-\overline{x}}{\sigma_X^2} とすれば制約も満たす。

シュワルツの不等式の使い方が,等号成立条件まで含めてきれいでおもしろいです。