統計学的仮説検定の考え方と手順

統計学における仮説検定

仮説検定とは,データから,ある仮説が正しいかどうかを分析する手法。

pic01

「仮説検定」と言わずに単純に「検定」ということも多いです。統計検定という資格と混同しないようにご注意下さい。

仮説検定の例

まずは具体例で仮説検定の流れを説明します。

例題1

(表が出る確率が 12\dfrac{1}{2} 以上であることがわかっている)コインを 100100 回投げたときに表が 6363 回出た。これは公平なコイン(表が出る確率が 12\dfrac{1}{2} であるコイン)と言えるか?

公平なら表が出る回数は50回くらいになりそうです。63回は偶然なのか,それともコインが不公平(表が出る確率が高い)なのか,分析しましょう。

解答
  1. コインが公平であると仮定する。つまり,表が出る確率が 12\dfrac{1}{2} であると仮定する。

  2. この仮定のもとで,表が出る回数が 6363 回以上になる確率は,およそ 0.460.46%(具体的な計算方法は後述)

  3. つまり,0.460.46%でしか起こらない「とても珍しいこと」が起こっているので,1の仮説は間違っているのではないか? つまりコインは公平ではない。

重要な注:
上記では3で「0.46%はとても珍しいこと」と勝手に結論づけていますが,正確にはデータを見る前に決めた基準にもとづいて「珍しいのか珍しくないのか」を判断する必要があります。詳細は後述しますが具体的には,「有意水準」および「帰無仮説・対立仮説」をデータを見る前に決めておく必要があります。データを見てから基準を決めてしまうと,結論を操作できてしまうためです。上記の例題1は仮説検定の問題としては不十分で,例えば「有意水準:5%のもとで検定せよ」などといった基準を与えるべきです。

仮説検定の手順

例題1をふまえて,仮説検定のやり方を一般的に解説します。

仮説検定のやり方
  1. 何かを仮定する
  2. その仮定のもとで,「実現したデータ以上に極端になる確率」を計算する
  3. 計算した確率が十分小さければ,(1の仮定が正しいとしたら極端に変なことが起こっているので)その仮定は間違っている!と判断する。逆に確率が大きい場合,その仮定は正しいかもしれないし間違っているかもしれない,と判断する。

仮説検定で得られる結論は1の仮定が間違っているまたはよくわからない(何も言えない)です。1の仮定が正しいことは結論づけられません。

補足:仮説検定の用語

統計学的仮説検定で登場する用語について解説します。考え方は難しくないのですが,特有の用語が多いので慣れるまでは少し大変です。

  • 手順1における仮定を帰無仮説(きむかせつ)と言います。例題1の場合,「表が出る確率が 12\dfrac{1}{2} である」が帰無仮説です。帰無仮説のことを H0H_0 と表記することが多いです。

  • 帰無仮説と対になる仮説のことを対立仮説と言います。例題1の場合対立仮説は例えば以下の2種類が考えられます。

    1. p>12p>\dfrac{1}{2}」,つまり表が出る確率が 12\dfrac{1}{2} 以上であることはわかっているもとで,p=12p=\dfrac{1}{2} なのか否かを検定します。このような検定を片側検定と言います。
    2. p12p\neq \dfrac{1}{2}」,つまり表が出る確率は全く知らない状況で p=12p=\dfrac{1}{2} なのか否かを検定します。このような検定を両側検定と言います。
  • 手順3で「十分小さければ」を判断する境界値が有意水準です。有意水準は α\alpha で表すことが多いです。例えば,例題1の場合,計算した確率は 0.4610.461%でした。有意水準を1%としていた場合は「0.461%は珍しい→1の仮定は間違っている」となりますが,有意水準を0.1%としていた場合は「0.461%はそんなに珍しくない→何も言えない」となります。

  • 先述のように,「有意水準」および「片側検定にするのか両側検定にするのか」はデータを見る前に決めておく必要があります。

  • 手順2で計算した確率のことをp値と言います。例題1の場合,p値は0.461%(0.00461)です。→p値の意味と具体例

仮説検定の結論

繰り返しですが,仮説検定の結論は以下の二通りのいずれかとなります。

  • 1の仮定(帰無仮説)は間違っている
    帰無仮説が正しいとしたら極端に変なことが起こっているので,その仮定は間違っている!(帰無仮説を棄却すると言います)

  • 帰無仮説は正しいかもしれないし間違っているかもしれない(何も言えない)
    帰無仮説を仮定していろいろ計算すると,そんなに変なことは起きていなかった→「帰無仮説がおかしい」とはみなせない→帰無仮説が正しいかどうかは分からない。

※仮説検定は背理法と似ています。

  • 帰無仮説を棄却するのは,背理法が成功した場合と似ています。背理法をやろうとして,矛盾が導けたら仮定は間違いです。
  • 何も言えないのは,背理法が失敗した場合と似ています。背理法をやろうとして,矛盾が導けないからと言って,仮定が正しいとは限りません。仮定が正しいかどうかはわかりません。

具体的な計算方法

手順2では「実現したデータ以上に極端になる確率」を計算します。具体的な計算方法は問題によります。例題1の場合は以下のように計算します。

例題1における確率計算の例

表が出る確率が 12\dfrac{1}{2} であるコインを,100100 回投げたとき,表が 6363 回以上出る確率を計算したい。

  • 実は,表が出る回数は,二項分布 Bin(100,12)\mathrm{Bin}(100,\dfrac{1}{2}) に従う。→二項分布
    このとき,T=n5025T=\dfrac{n-50}{\sqrt{25}} は標準正規分布に従うとみなせる(二項分布の正規近似)。

  • 「表が出る確率が63回以上になる確率」
    TT635025=2.6\dfrac{63-50}{\sqrt{25}}=2.6 以上になる確率
    =標準正規分布に従う確率変数が 2.62.6 以上になる確率
    =0.00461…
    となります。(最後の等号は標準正規分布表を見るとわかる)

このように,仮説検定の「確率を計算する部分」では TT が確率分布 FF に従うというタイプの数学の定理を利用することが多いです。例題1では FF は標準正規分布です。TT のことを統計量と言います。

検定における誤り

  • 第一種の誤り:帰無仮説が本当は正しいのに棄却してしまう誤り
    (例題の場合:コインが公平なのに「公平でない」と言ってしまう誤り)

  • 第二種の誤り:帰無仮説が本当は間違いなのに棄却できない誤り
    (例題の場合:コインが公平でないのに「公平かどうか分からない」と言ってしまう誤り)

第一種の誤り,第二種の誤りについて表にまとめると以下のようになります。

第一種・第二種の誤り

なお,有意水準 α\alpha は第一種の誤りを犯してしまう確率です。

有意水準について

  • 有意水準は5%や1%を使うことが多いです。

  • 有意水準が小さい
        \iff 帰無仮説が棄却される可能性が低い
        \iff 「安全」だが「何も言えない確率が高い」
        \iff 第一種の誤り確率は低いが,第二種の誤り確率は高い

実用上は手順2(確率を計算する部分)は既存の定理を使うことが多いです。私は手順2の計算が好きです。