統計学における推定の考え方(点推定,区間推定)
統計学における推定
- (専門用語で)標本集団から母集団の特徴を推定すること
- (意訳)一部のデータの特徴から全体の特徴を予想すること
統計といえば推定と検定。その1つ,推定の基本的な考え方について解説します。
点推定と区間推定
点推定と区間推定
「母集団の特徴を推定する」をもう少し詳しく言うと, 母集団の平均や分散など,分布を表現するパラメータの値を予想するとなります。
値の予測の仕方によって「点推定」と「区間推定」という手法に分けることができます。
(図は値の平均の推定を表す。)
- 点推定:値をピンポイントで推定
- 区間推定:値を「この幅の間におそらくいる!」という区間で推定
点推定
点推定
以下,点推定と区間推定の具体例についてそれぞれ詳しく解説します。
とある国には小学6年生が 万人(母集団)いる。この 万人の身長の平均値(とついでに分散も)を知りたい。しかし, 万人の身長を測るのは大変なので,代表して 人(標本集団)の身長を測り,そのデータをもとに平均と分散を推定したい,どうすればよいか。
普通は 「 人の身長の平均と分散を全体の平均と分散とみなそう」と考えますね。実は(推定量が不偏かどうかという観点で見ると)平均はOKで分散は厳密にはNGです。
- 「標本集団の平均」の期待値と「母集団の平均」は等しい。
- 「標本集団の分散」の期待値と「母集団の分散」はわずかに異なる。
注:推定量の良さの数学的な表現には「不偏性」だけでなく「有効性」や「一致性」などもあります。
注: 人をランダムに選出する必要があります。同じ地域からまとめて取ったりしたら偏る可能性があります。
区間推定
区間推定
次は区間推定です。さきほどの例より数学色が濃いです。
平均が ,分散が である正規分布から 個の標本を抽出したところ,平均が であった。 を区間推定せよ。
おそらく は あたりでしょう(点推定)。では や になりうるのか,そんなことはほぼありえないのか?というところまで考えるのが区間推定です。
詳細は省略しますが,正規分布の性質と正規分布表より, が分かります。つまり, となり, は から の間にありそうと推定できます。
信頼区間
信頼区間
上記の結果は統計学の言葉で言うと「 に対する %信頼区間は である」と言います。ここで決めた %という数字は信頼水準と呼ばれ,別の値にすることもできます(自分で好きに決められる)。
信頼水準を大きくする(外れる確率が小さくなる)と信頼区間は広がり(推定が甘くなる),信頼水準を小さくすると信頼区間は狭くなります。外れる確率を下げたいのか,鋭い推定をしたいのか,トレードオフです。
私は点推定の方が潔くて好きです。