ガウス・マルコフの定理
最小二乗法による傾きの推定値
A^=σX2Cov(X,Y)
は最良線形不偏推定量である。
前提
- xi(i=1,...,n) は決まっている(知っている)
- A,B も決まっている(知らないので推定したい)
- yi=Axi+B+εi という1次式によって yi が決まる
- ただし,ノイズ εi は確率変数である。平均は 0 で分散は σ2(i によらない)
- εi が確率変数なので yi も確率変数
- εi たちは無相関(よって yi たちも無相関)
- xi たちの平均値を x,分散を σX2,X と Y の共分散を Cov(X,Y) と書く。
「線形」推定量であることの証明
これは簡単です。共分散の定義を書き下して,推定量 A^ が yi たちの1次式で表せることを確認するだけです。
証明
A^=σX21i∑(xi−x)(yi−y)=σX21{i∑(xi−x)yi+yi∑(xi−x)}=σX21i∑(xi−x)yi
これは,yi たちの1次式である。係数は σX2xi−x
「不偏」推定量であることの証明
目標は,E[A^]=A であることの証明です。どれが定数でどれが確率変数かを意識すれば変形自体は難しくありません(yi,y,A^ が確率変数)。
証明
まず,E[yi]=Axi+B である。
これを i についてたしあげて n で割ると,
E[y]=Ax+B
を得る。以上2つの式を使うと,
E[A^]=E[σX21i∑(xi−x)(yi−y)]=σX21i∑(xi−x)(E[yi]−E[y])=σX2Ai∑(xi−x)(xi−x)=A
ただし,1つめの等号は期待値の線形性,最後の等号は分散 σX2 の定義を使った。
「最良」不偏推定量であることの証明
目標は,線形推定量の中で A^ が最良であること(分散が最小であること)の証明です。
証明
線形推定量 i∑ciyi が不偏推定量のとき,
E[i∑ciyi]=E[i∑ci(Axi+B+εi)]=A
が xi によらず成立するので
i∑cixi=1,i∑ci=0
である。この制約のもとで,分散
V[i∑ciyi]=i∑ci2V[yi]=σ2i∑ci2
を最小化したい(上記変形で yi たちが無相関であることを使った)。
これは,シュワルツの不等式を以下のように使うとできる:
(i∑ci2){i∑(xi−x)2}≥{i∑ci(xi−x)}2
(制約より右辺は1で左辺は σX2i∑ci2 になる)
よって,分散を最小にするのは,シュワルツの不等式の等号成立条件より,ci=w(xi−x) となる定数 w が存在するときである。そして,ci=σX2xi−x とすれば制約も満たす。
シュワルツの不等式の使い方が,等号成立条件まで含めてきれいでおもしろいです。