大数の法則をわかりやすく【意味・具体例・証明】

大数の法則とは,大雑把に言うとたくさん実験すればデータの平均は真の平均に近づくという法則のことです。

大数の法則について,前半では大雑把な意味を説明します。また,後半では大数の弱法則を数学的に定式化してきちんと証明します。

ちなみに,大数の法則の読み方は いすうのほうそく」ではなく「いすうのほうそく」です。

大数の法則の意味,コイン投げの例

大数の法則の意味を,例を使って説明します。

まず,表が出る確率が 12\dfrac{1}{2} であるコインを何回も投げる状況を考えます。この設定に大数の法則を適用すると,何回もコインを投げると,表が出る割合は 12\dfrac{1}{2} に近づくと言えます。

例題

試しにコインを10000回投げて表が出る割合を計算せよ。

解答例
  • 100回投げると,表が49回出た→表の割合は0.49で 12\dfrac{1}{2} との差は 0.10.1(図では,横軸がコインを投げた回数で,縦軸が表の割合) 大数の法則の例
  • 10000回投げると,表が5010回出た→表の割合は0.5010で 12\dfrac{1}{2} との差は 0.010.01 大数の法則の例

このように,実験の回数を増やしていくと サンプル平均が真の平均にどんどん近づいていきます。

もちろん,10000回連続で表が出る確率も 00 ではありませんが,試行回数を増やしていくと,そのように偏ってしまう確率は 00 に収束するので,基本的には無視できるというのが,大数の法則です。

大数の法則のサイコロでの例

次は,サイコロ投げの例で大数の法則について考えてみます。

サイコロを1回ふると,出る目の平均は 1+2+3+4+5+66=3.5\dfrac{1+2+3+4+5+6}{6}=3.5 です。ただし,1が出るかもしれませんし,6が出るかもしれません。

しかし,試行回数を増やしていくと,出た目の平均はどんどん 3.53.5 に近づきます。つまり,サイコロを10000回くらい振ってみると(きちんとしたサイコロなら)サンプル平均(出た目の平均)が 3.53.5 にかなり近くなってきます。

もう少しきちんと述べると,以下のようになります。

それぞれの目が出る確率が 16\dfrac{1}{6} であるようなサイコロを考える。 ii 回目に出た目を XiX_i (確率変数)とおくと,X1,X2,X_1,X_2,\cdots たちはそれぞれ独立に同一の分布(平均は μ=3.5\mu=3.5)に従う。

このとき,nn 回目までに出た目の算術平均 X1+X2++Xnn\dfrac{X_1+X_2+\cdots +X_n}{n}μ\mu にどんどん近づいていく(偏る確率は0に収束する)。

大数の法則の定式化

大数の法則を数学的にきちんと書いてみます。

大数の弱法則

平均 μ\mu,分散 σ2\sigma^2 の分布に互いに独立に従う確率変数 X1,X2,X_1,\:X_2,\cdots と,任意の ϵ>0\epsilon > 0 に対して,

limnP(X1+X2++Xnnμϵ)=0\displaystyle\lim_{n\to\infty}P\left(\left|\dfrac{X_1+X_2+\cdots+X_n}{n}-\mu\right|\geq\epsilon\right)=0

「サンプル平均と真の平均の差が ϵ\epsilon 以上になってしまう確率は試行回数 nn を増やすと0に収束する」ことを式で表しています。 サンプルサイズを増やしていくと,サンプル平均は真の平均に確率収束すると言うこともできます。

なお,大数の法則には二種類(確率収束を表す大数の弱法則と概収束を表す大数の強法則)ありますが,ここでは弱法則だけ解説します(弱法則と強法則の違いがけっこう分かりにくい&強法則の証明は難しいので)。

なお,同じ大数の弱法則でも分布の平均や分散がそれぞれ異なるパターン,無相関のみを仮定するパターンなどいくつかありますが,とりあえず上記の基本形を理解しましょう。

大数の弱法則の証明

マルコフの不等式の証明→(確率論における)チェビシェフの不等式の証明→大数の弱法則の証明という非常に有名な流れです。

前半の二つについては別記事にしています→マルコフの不等式とその証明。以下ではチェビシェフの不等式を認めた上で大数の弱法則を証明します。

チェビシェフの不等式: P(XE[X]ϵ)Var[X]ϵ2P(|X-E[X]|\geq \epsilon)\leq \dfrac{\mathrm{Var}[X]}{\epsilon^2}

証明

サンプル平均を表す確率変数を Yn=X1+X2++XnnY_n=\dfrac{X_1+X_2+\cdots +X_n}{n} とおくと,期待値,分散の性質(注)より

E[Yn]=nμn=μE[Y_n]=\dfrac{n\mu}{n}=\mu

Var[Yn]=nσ2n2=σ2n\mathrm{Var}[Y_n]=\dfrac{n\sigma^2}{n^2}=\dfrac{\sigma^2}{n}

よって,確率論におけるチェビシェフの不等式より, P(Ynμϵ)σ2nϵ2P(|Y_n-\mu|\geq \epsilon)\leq \dfrac{\sigma^2}{n\epsilon^2} 両辺 nn\to\infty の極限を取ることで大数の弱法則を得る:

limnP(Ynμϵ)=0\displaystyle \lim_{n\to\infty}P(|Y_n-\mu | \geq \epsilon) =0

注:期待値の線形性はいつでも成立しますが,分散の和が和の分散に分解できるのは XiX_i たちが互いに無相関のときだけです。→期待値と分散に関する公式一覧の公式7参照。

この部分で「 XiX_i たちが独立」という定理の仮定が効いています(つまり,実は大数の弱法則は XiX_i たちの独立性を仮定しなくても無相関を仮定するだけでOK)。

実際にコインを10000回投げるのは無理なので乱数を使いました。コインを10000枚同時に投げるのなら可能かもしれませんね。

Tag:難しめの数学雑学・ネタまとめ