検定
母数の値に対する、二者択一的な命題について、偶然原因によるばらつきを踏まえて統計学的に結論を出す手法
(⇔推定:母数の値を、具体的な数値で求める手法)
仮説検定
頻度主義統計学における検定の一般的な手法。
「2つの分布の間に違いはあるか?」を検定する際、まずは「違いは無い」として両者のパラメータを同じと想定する。その上で実際に取れたデータを見て、「もし違いが無ければ、こんなデータになる確率は○%だ」を算出し、それが低すぎるようであれば「違いがある」と結論づける。
- 帰無仮説H0:H1を主張するために、否定されることを期待して立てられる仮定
- 対立仮説H1:主張したい仮定
もちろん、H0の起こりうる確率がいくら低くても、完全に0%になることはまず無い。よって「どの程度起こりにくければ、違いがあると結論づけることにするか」は、あらかじめ決めておく必要がある。これを有意水準といい、αで表す。データの性質によるが、5%や1%が用いられることが多い。
H0の起こる確率が有意水準を下回るために否定することを、棄却するという。
手順
- 仮説の設定
- 有意水準の設定
- 棄却域の確認: 帰無仮説と有意水準によって、棄却域Rが定まる
- 検定統計量の計算
- 統計量: サンプルデータを一定のアルゴリズムに従って処理した値
- 検定
- 検定統計量の値がRにあれば、有意と判定し、H0を棄却する
両側、片側
- 両側検定
- 等しくないかどうかを検定
- 有意水準5%とすると、両側に2.5%ずつの棄却域をとる
- 片側検定
- 以上/以下かどうかを検定
- 有意水準5%とすると、そのまま上or下側に5%の棄却域をとる
検定の誤り
違いがあるのに違いは無いとしてしまう、逆に無いのにあるとしてしまうことは避けられない。しかし、どの程度の割合で誤った結論を下してしまう危険があるのか、把握しておくことは重要である。
検定結果 | |||
H0 | H1 | ||
真実 | H0 | 正しい | 第1種の過誤 |
H1 | 第2種の過誤 | 正しい |
- 第1種の過誤
- 有意で無いのに有意としてしまう
- 確率は自分で設定した有意水準αに等しい
- 第2種の過誤
- 有意なのに有意で無いとしてしまう
- 確率はβで表す
- 比較した分布の違いの大きさや、サンプル数に依存し、0∼1−αまでの値をとる
- 検出力
- 有意なものに有意と言える確率(表右下)
- 1−βで示される
- 第2種の過誤よりこちらの方がダイレクトに知りたい内容なので、使われることが多い
検出力
1−βで示され、α∼1までの値を取る。基本的に大きいほど望ましい。
- 帰無仮説での期待値と実際の期待値とのズレ|μ−μ0|が大きいほど、1−βは大きくなる。
- データ数nを大きくすると、1−βは大きくなる。
- 厳密には、最小値は変化しないが、|μ−μ0|が少し大きくなっただけでより速く1に近づく。
両側検定H0:μ=μ0,H1:μ≠μ0,α=0.05の検出力は、以下の式で求められる。
1−β=Pr{ˉx≤μ0−K0.025√σ2/n}+Pr{ˉx≥μ0+K0.025√σ2/n}=Pr{ˉx−μ√σ20/n≤μ0−μ√σ20/n−K0.025}+Pr{ˉx−μ√σ20/n≥μ0−μ√σ20/n+K0.025}=Pr{u≤μ0−μ√σ20/n−K0.025}+Pr{u≥μ0−μ√σ20/n+K0.025}
前半の項は「帰無仮説で仮定した確率分布より、期待値が有意に低いと判定され、かつ実際に有意である確率」、後半の項は「期待値が有意に高いと(以下同)」である。移項して正規化している。(u∼N(0,1))
ここでKPは、「KP以上を取る確率がPとなるような値」で、標準正規分布ではK0.025=1.960となる。これは正規分布表を逆引きすることで導き出せる。Pが有意水準0.05の半分となっているのは、両側検定では上に外れる(有意となる)確率と下に外れる確率、両方合わせて0.05と取るからで、正規分布は左右対称なので上下に外れる確率は等しくなり、それぞれ0.025として計算することになる。
これが上側検定の検出力の算出なら後半の項だけでいいし、下側検定なら前半だけでよい。片側検定の場合は、K0.05=1.645と有意水準そのままの値でKを算出する。