統計
勉強中ゆえに用語とか認識とかかなりいい加減なので信用しない。
頻度主義とベイズ主義
頻度主義
客観的な一つの真実の確率分布があると想定
真実の確率分布に従って「たまたま」発生したデータを集めることで、真実の確率分布を推定
真実の確率分布がこうだと仮定すると、こんなデータが取れる確率は何%か?
気象庁の降水確率は「過去の似たような気象条件の内、実際に雨が降った割合」
逆に、データを集められない事象に確率を定めることはできない。(日常的にはあまり意識せず使われているが)
データを同条件で多数集められる、機械工場の精度誤差などに向く
手法が定型化されているので、結果の数字の持つ意味と取り扱いを把握すれば、比較的簡単に使える
ベイズ主義
ベイズの定理(条件付き確率についての定理)を基礎にした統計
確率は個人の主観による。(または、主観によってもよい)
確率分布の候補はすべて同等に扱う。ある確率分布である確率を推定
事前確率が必要となる。これはかなり主観的に決めることができ、客観性の担保に疑いの声が出ることもあるが、更新数を増やすとだいたい収束する
同質なデータを多数集めるのが難しい対象に向く
ベイズは追々やるとして、まず古典的な頻度主義から。
期待値と分散
期待値E(x)…分布の中心の位置を示す
E(x+y)=E(x)+E(y)
E(x−y)=E(x)−E(y)
母集団と標本の平均と分散
正規分布
f(x)=1√2πσexp{−(x−μ)22σ2}
標準正規分布
f(x)=1√2πexp(−x22)
平均、分散はデータスケールによって変化するため、異なる分布を比べやすくするために標準化を行う。標準正規分布は、μ=0,σ2=1となる。
正規分布の線形性を利用して、x∼N(μ,σ2)のとき、u=x−μσとすると、u∼N(0,12)に変換できる。
正規分布は確率密度分布なので、「xがa以上b以下となる確率は?」を調べるには、Pr{a≤x≤b}=∫baf(x)dx、(f(x)は標準正規分布関数)を解く必要があるが、そんな計算毎回はやってられない。標準化してデータベース化しておけば、変換して参照するだけで十分な精度を持った近似値が得られる。(標準正規分布表)
基本定理
大数の法則
xiが互いに独立で、E(xi)=μ,V(xi)=σ2である時、n→∞とすると、¯x=μと見なせる
要は、どんな分布であろうと、データ数いっぱい集めたら、その標本平均を母平均と見なしちゃってもいいよ、ということ
ゆるい証明
n→∞の時、E(¯x)→μ,V(¯x)→0を示す
xiが互いに独立より、期待値の加法性、分散の加法性が使える
E(¯x)=E(1n∑xi)=1n∑E(xi)=1n∑μ=nμn=μ
V(¯x)=V(1n∑xi)=1n2∑V(xi)=1n2∑σ2=nσ2n2=σ2n
分散が0なら期待値を点として扱ってしまっていいのか、という話になると、チェビシェフの不等式を使用した厳密な証明になる
中心極限定理
どんな分布でも、そこからサンプルをいっぱい抽出して平均をとると、その取り得る値は正規分布に従う
xiが互いに独立で同一分布に従い、E(xi)=μ,V(xi)=σ2の場合
¯x∼N(μ,σ2n)
u=¯x−μ√σ2/n∼N(0,1)
例:6面ダイスを1000回振って出た目の平均は、N(3.5,2.92/1000)に従う
統計量の分布
標本平均
x∼N(μ,σ2)の場合、¯x∼N(μ,σ2n)に従う。
データ数を増やすほど分散が0に近づく、つまり、標本平均が母平均から大きく外れる確率が低くなる。
これを標準化した場合、u=¯x−μ√σ2/n∼N(0,12)となる。
不偏分散