[[検定]]

検定

母数の値に対する、二者択一的な命題について、偶然原因によるばらつきを踏まえて統計学的に結論を出す手法

(⇔推定:母数の値を、具体的な数値で求める手法)

仮説検定

頻度主義統計学における検定の一般的な手法。

「2つの分布の間に違いはあるか?」を検定する際、まずは「違いは無い」として両者のパラメータを同じと想定する。その上で実際に取れたデータを見て、「もし違いが無ければ、こんなデータになる確率は○%だ」を算出し、それが低すぎるようであれば「違いがある」と結論づける。

  • 帰無仮説$H_0$:$H_1$を主張するために、否定されることを期待して立てられる仮定
  • 対立仮説$H_1$:主張したい仮定

もちろん、$H_0$の起こりうる確率がいくら低くても、完全に0%になることはまず無い。よって「どの程度起こりにくければ、違いがあると結論づけることにするか」は、あらかじめ決めておく必要がある。これを有意水準といい、$\alpha$で表す。データの性質によるが、5%や1%が用いられることが多い。

$H_0$の起こる確率が有意水準を下回るために否定することを、棄却するという。

手順

  1. 仮説の設定
  2. 有意水準の設定
    • 棄却域の確認: 帰無仮説と有意水準によって、棄却域$R$が定まる
  3. 検定統計量の計算
    • 統計量: サンプルデータを一定のアルゴリズムに従って処理した値
  4. 検定
    • 検定統計量の値が$R$にあれば、有意と判定し、$H_0$を棄却する

両側、片側

  • 両側検定
    • 等しくないかどうかを検定
    • 有意水準5%とすると、両側に2.5%ずつの棄却域をとる
  • 片側検定
    • 以上/以下かどうかを検定
    • 有意水準5%とすると、そのまま上or下側に5%の棄却域をとる

検定の誤り

違いがあるのに違いは無いとしてしまう、逆に無いのにあるとしてしまうことは避けられない。しかし、どの程度の割合で誤った結論を下してしまう危険があるのか、把握しておくことは重要である。

検定結果
$H_0$$H_1$
真実$H_0$正しい第1種の過誤
$H_1$第2種の過誤正しい
  • 第1種の過誤
    • 有意で無いのに有意としてしまう
    • 確率は自分で設定した有意水準$\alpha$に等しい
  • 第2種の過誤
    • 有意なのに有意で無いとしてしまう
    • 確率は$\beta$で表す
    • 比較した分布の違いの大きさや、サンプル数に依存し、$0\sim 1-\alpha$までの値をとる
  • 検出力
    • 有意なものに有意と言える確率(表右下)
    • $1-\beta$で示される
    • 第2種の過誤よりこちらの方がダイレクトに知りたい内容なので、使われることが多い

検出力

$1-\beta$で示され、$\alpha \sim 1$までの値を取る。基本的に大きいほど望ましい。

  • 帰無仮説での期待値と実際の期待値とのズレ$|\mu-\mu_0|$が大きいほど、$1-\beta$は大きくなる。
  • データ数$n$を大きくすると、$1-\beta$は大きくなる。
    • 厳密には、最小値は変化しないが、$|\mu-\mu_0|$が少し大きくなっただけでより速く1に近づく。

両側検定$H_0:\mu=\mu_0, H_1:\mu \ne \mu_0, \alpha=0.05$の検出力は、以下の式で求められる。

\begin{eqnarray} 1-\beta &=&Pr\{\bar{x}\le\mu_0-K_{0.025}\sqrt{\sigma^2/n}\}+Pr\{\bar{x}\ge\mu_0+K_{0.025}\sqrt{\sigma^2/n}\} \\ &=&Pr\{\frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\le\frac{\mu_0-\mu}{\sqrt{\sigma_0^2/n}}-K_{0.025}\}+Pr\{\frac{\bar{x}-\mu}{\sqrt{\sigma_0^2/n}}\ge\frac{\mu_0-\mu}{\sqrt{\sigma_0^2/n}}+K_{0.025}\} \\ &=&Pr\{u\le\frac{\mu_0 -\mu}{\sqrt{\sigma_0^2/n}}-K_{0.025}\}+Pr\{u\ge\frac{\mu_0 -\mu}{\sqrt{\sigma_0^2/n}}+K_{0.025}\} \end{eqnarray}

前半の項は「帰無仮説で仮定した確率分布より、期待値が有意に低いと判定され、かつ実際に有意である確率」、後半の項は「期待値が有意に高いと(以下同)」である。移項して正規化している。$(u\sim N(0,1))$

ここで$K_P$は、「$K_P$以上を取る確率がPとなるような値」で、標準正規分布では$K_{0.025}=1.960$となる。これは正規分布表を逆引きすることで導き出せる。Pが有意水準0.05の半分となっているのは、両側検定では上に外れる(有意となる)確率と下に外れる確率、両方合わせて0.05と取るからで、正規分布は左右対称なので上下に外れる確率は等しくなり、それぞれ0.025として計算することになる。

これが上側検定の検出力の算出なら後半の項だけでいいし、下側検定なら前半だけでよい。片側検定の場合は、$K_{0.05}=1.645$と有意水準そのままの値でKを算出する。

study/statistics/010_test.txt · 最終更新: 2016/08/01 by ikatakos
CC Attribution 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0