推定
検定が「同じか同じでないか」など、二者択一的な問題に答えを出す手法だったのに対し、推定はサンプルから得られたデータから、母集団の各パラメータ(母数)がどのような値になっているかを具体的に数値で求める手法である。
- 母数$\theta$
- 母平均、母分散、など求める対象としている母集団のパラメータ。基本的に神のみぞ知る。
- 推定量$\hat{\theta}$
- サンプルから推定されるべき母数の値
- 推定値
- 具体的な数値で算出された推定量の値
- 点推定
- $\theta$の値を、1つの値で求める
- 区間推定
- $\theta$の値は95%の確率で0.15から0.18の間にありますよ、というように区間で求める
- 正しく推定値が区間内にある確率を信頼率という。$1-\alpha$で表す。上の「95%の確率で~」なら、$\alpha=0.05$
- 区間を信頼区間、上限と下限をそれぞれ信頼上限、信頼加減という
点推定
最小分散不偏推定量を用いる。
不偏推定量
全ての$\theta$に対して、$E(\hat{\theta})=\theta$となる$\hat{\theta}$を不偏推定量という。
不偏推定量は1つの母数に対して複数存在するが、その中で分散が最小となるものを不偏分散推定量という。
なんか意味がいまいち取れないのだが、要は「サンプルいっぱい集めたら偏りは減るよね! 基本的にはサンプルの平均や分散を、そのまま母平均や母分散として推定するんだけど、できるだけいっぱいサンプル採って算出しようね!」くらいの意味だろう、たぶん。(絶対違う)
区間推定
信頼率$\alpha$、サンプルデータ$x_i$は互いに独立に$N(\mu,\sigma^2)$に従うとした場合、
$\displaystyle u=\frac{\bar{x}-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1^2)$ | 正規化 |
$\displaystyle Pr\{-u(\alpha) \le u \le u(\alpha)\}=1-\alpha$ | |
$\displaystyle Pr\{-u(\alpha) \le \frac{\bar{x}-\mu}{\sqrt{\sigma^2/n}} \le u(\alpha)\}=1-\alpha$ | 正規化を元に戻す |
$\displaystyle Pr\{\bar{x}-u(\alpha)\sqrt{\frac{\sigma^2}{n}} \le \mu \le \bar{x}+u(\alpha)\sqrt{\frac{\sigma^2}{n}}\}=1-\alpha$ | $\mu$について整理 |
より、$\mu$は$\displaystyle (\bar{x}-u(\alpha)\sqrt{\frac{\sigma^2}{n}},~~~~\bar{x}+u(\alpha)\sqrt{\frac{\sigma^2}{n}})$の区間に$1-\alpha$の確率で含まれていると導き出せる。
ここで$u(\alpha)$とは、検定のページで解説した$K_P$と同じく、「標準正規分布で$u(\alpha)$以上の値を取る確率が$\alpha/2$となるような値」で、$u(0.05)=1.960$である。ただし文脈によっては取る確率を$\alpha$のままで計算してたりすることもあるので、注意。