推定
検定が「同じか同じでないか」など、二者択一的な問題に答えを出す手法だったのに対し、推定はサンプルから得られたデータから、母集団の各パラメータ(母数)がどのような値になっているかを具体的に数値で求める手法である。
- 母数θ
- 母平均、母分散、など求める対象としている母集団のパラメータ。基本的に神のみぞ知る。
- 推定量ˆθ
- サンプルから推定されるべき母数の値
- 推定値
- 具体的な数値で算出された推定量の値
- 点推定
- θの値を、1つの値で求める
- 区間推定
- θの値は95%の確率で0.15から0.18の間にありますよ、というように区間で求める
- 正しく推定値が区間内にある確率を信頼率という。1−αで表す。上の「95%の確率で~」なら、α=0.05
- 区間を信頼区間、上限と下限をそれぞれ信頼上限、信頼加減という
点推定
最小分散不偏推定量を用いる。
不偏推定量
全てのθに対して、E(ˆθ)=θとなるˆθを不偏推定量という。
不偏推定量は1つの母数に対して複数存在するが、その中で分散が最小となるものを不偏分散推定量という。
なんか意味がいまいち取れないのだが、要は「サンプルいっぱい集めたら偏りは減るよね! 基本的にはサンプルの平均や分散を、そのまま母平均や母分散として推定するんだけど、できるだけいっぱいサンプル採って算出しようね!」くらいの意味だろう、たぶん。(絶対違う)
区間推定
信頼率α、サンプルデータxiは互いに独立にN(μ,σ2)に従うとした場合、
u=ˉx−μ√σ2/n∼N(0,12) | 正規化 |
Pr{−u(α)≤u≤u(α)}=1−α | |
Pr{−u(α)≤ˉx−μ√σ2/n≤u(α)}=1−α | 正規化を元に戻す |
Pr{ˉx−u(α)√σ2n≤μ≤ˉx+u(α)√σ2n}=1−α | μについて整理 |
より、μは(ˉx−u(α)√σ2n, ˉx+u(α)√σ2n)の区間に1−αの確率で含まれていると導き出せる。
ここでu(α)とは、検定のページで解説したKPと同じく、「標準正規分布でu(α)以上の値を取る確率がα/2となるような値」で、u(0.05)=1.960である。ただし文脈によっては取る確率をαのままで計算してたりすることもあるので、注意。