超幾何分布の意味と期待値の計算
合計 個のものの中に,当たりが 個入っている。この 個から 個選んだときに,当たりが何個あるか?
を表す分布を超幾何分布と言う(パラメータは の3つ)。
超幾何分布の確率質量関数
超幾何分布の確率質量関数
-
超幾何分布の確率質量関数は,
-
ただし, がとりうる範囲は,
当たりが 個入っている確率 を計算したい。
まず,全ての選び方の数は, 通り。
このうち,当たりが 個(つまりハズレが 個)である選び方の数を計算したい。
そもそも,当たりの数とハズレの数の制約から,
かつ
の場合にのみ,そのような選び方が存在する。この条件を変形すると,
となる。そして,この条件を満たすときに,当たりが 個となる選び方は,
通り。よって,超幾何分布の確率質量関数は,
超幾何分布の期待値(きれいな方法)
超幾何分布の期待値(きれいな方法)
超幾何分布の期待値は,
これを2通りの方法で導出します。まずは,和の期待値が分解できることを使ったおもしろい計算方法です。
超幾何分布の問題設定における抽出について
「
個目に選んだものが当たりなら
,ハズレなら
となる確率変数」を
とする。
このとき,超幾何分布の期待値は,
各 は互いに独立ではないが,そのような場合でも和の期待値は期待値の和に分解できるので,上式は
となる。 して, に対して, なので,求める期待値は
超幾何分布の期待値(がんばる方法)
超幾何分布の期待値(がんばる方法)
期待値の定義に従って直接計算することもできます。
=
という公式を使います。→二項係数の有名公式
期待値は,定義より,
ただし,和を取る範囲 は, を満たす整数 全体の集合。ここで, の部分は和に寄与しないので,
ただし, は を満たす整数 全体の集合,としても値は同じ。
これを上記の二項係数の公式を使って変形すると,
となる。 平行移動すると,
となります。ただし, は
を満たす整数 全体の集合( を定める不等式の各辺から を引いた)。
上式のシグマの中身は,パラメータが である超幾何分布の確率質量関数である。和を取る範囲も,パラメータが である超幾何分布のものと対応している。そのため,和を取ると になる。
結局残るのは
※場合分けを意識していない計算( を仮定してしまっている計算)をやってしまいがちです。きちんとやるとけっこうめんどうです。
パラメータが3つもあると,どの文字を使うか迷ってしまいます。当たりの頭文字が「あ」なので,入っている当たりの個数パラメータを としました。