1. 高校数学の美しい物語
  2. 超幾何分布の意味と期待値の計算

超幾何分布の意味と期待値の計算

更新日時 2021/03/07

合計 NN 個のものの中に,当たりが AA 個入っている。この NN 個から nn 個選んだときに,当たりが何個あるか?

を表す分布を超幾何分布と言う(パラメータは N,A,nN,A,n の3つ)。

目次
  • 超幾何分布の確率質量関数

  • 超幾何分布の期待値(きれいな方法)

  • 超幾何分布の期待値(がんばる方法)

超幾何分布の確率質量関数

当たりが xx 個入っている確率 fN,A,n(x)f_{N,A,n}(x) を計算してみましょう。

まず,全ての選び方の数は,NCn{}_N\mathrm{C}_n 通りです。

このうち,当たりが xx 個(つまりハズレが nxn-x 個)である選び方の数はいくつでしょうか?

そもそも,当たりの数とハズレの数の制約から,

0xA0\leq x\leq A かつ 0nxNA0\leq n-x\leq N-A

の場合にのみ,そのような選び方が存在します。この条件を変形すると,

max{0,nN+A}xmin{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\}

となります。

そして,この条件を満たすときには,当たりが xx 個となる選び方は,

ACxNACnx{}_A\mathrm{C}_x\cdot {}_{N-A}\mathrm{C}_{n-x} 通りです。

よって,超幾何分布の確率質量関数は,

fN,A,n(x)=ACxNACnxNCnf_{N,A,n}(x)=\dfrac{{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

(ただし,xx は上記の条件を満たす範囲)となります。

超幾何分布の期待値(きれいな方法)

超幾何分布の期待値は,nAN\dfrac{nA}{N}

和の期待値が分解できることを使った面白い計算方法です。

証明1

超幾何分布の問題設定における抽出について

ii 個目に選んだものが当たりなら 11,ハズレなら 00 となる確率変数」

XiX_i とします。

このとき,超幾何分布の期待値は,

E[X1+X2++Xn]E[X_1+X_2+\cdots +X_n]

となります。

XiX_i は互いに独立ではありませんが,そのような場合でも和の期待値は期待値の和に分解できるので,上式は

E[X1]+E[X2]++E[Xn]E[X_1]+E[X_2]+\cdots +E[X_n]

となります。

そして,i=1,2,,ni=1,2,\cdots,n に対して,E[Xi]=ANE[X_i]=\dfrac{A}{N} なので,求める期待値は nAN\dfrac{nA}{N} となります。

超幾何分布の期待値(がんばる方法)

期待値の定義に従って直接計算することもできます。

rnCrr{}_n\mathrm{C}_r = nn1Cr1n{}_{n-1}\mathrm{C}_{r-1}

という公式を使います。→二項係数の有名公式

証明2(計算の詳細は省略)

期待値は,定義より,

xXxfN,A,n(x)=xXxACxNACnxNCn\displaystyle\sum_{x\in X}xf_{N,A,n}(x)\\ =\displaystyle\sum_{x\in X}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

です。ただし,和を取る範囲 XX は,max{0,nN+A}xmin{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\} を満たす整数 xx 全体の集合です。ここで,x=0x=0 の部分は和に寄与しないので,

xXxACxNACnxNCn\displaystyle\sum_{x\in X'}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

ただし,XX'max{1,nN+A}xmin{A,n}\max\{1,n-N+A\}\leq x\leq \min\{A,n\} を満たす整数 xx 全体の集合

としても値は同じです。

これを上記の二項係数の公式を使って変形すると,

nANxXA1Cx1NACnxN1Cn1\dfrac{nA}{N}\displaystyle\sum_{x\in X'}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_{N-1}\mathrm{C}_{n-1}}

となります。 11 平行移動すると,

nANx1YA1Cx1(N1)(A1)C(n1)(x1)N1Cn1\dfrac{nA}{N}\displaystyle\sum_{x-1\in Y}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{(N-1)-(A-1)}\mathrm{C}_{(n-1)-(x-1)}}{{}_{N-1}\mathrm{C}_{n-1}}

となります。ただし,YY

max{0,(n1)(N1)+(A1)}ymin{A1,n1}\max\{0,(n-1)-(N-1)+(A-1)\}\leq y\\ \leq \min\{A-1,n-1\}

を満たす整数 yy 全体の集合です(XX' を定める不等式の各辺から 11 を引いた)。

上式のシグマの中身は,パラメータが (N1,A1,n1)(N-1,A-1,n-1) である超幾何分布の確率質量関数です。和を取る範囲も,パラメータが (N1,A1,n1)(N-1,A-1,n-1) である超幾何分布のものと対応しています。そのため,和を取ると 11 になります。

結局残るのは nAN\dfrac{nA}{N} です。

※場合分けを意識していない計算(max{0,nN+A}=0\max\{0,n-N+A\}=0 を仮定してしまっている計算)をやってしまいがちです。きちんとやるとけっこうめんどうです。

パラメータが3つもあると,どの文字を使うか迷ってしまいます。当たりの頭文字が「あ」なので,入っている当たりの個数パラメータを AA としました。

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ

人気記事
  1. 高校数学の美しい物語
  2. 超幾何分布の意味と期待値の計算