Loading [MathJax]/jax/output/CommonHTML/jax.js
[[統計]]

統計

勉強中ゆえに用語とか認識とかかなりいい加減なので信用しない。

頻度主義とベイズ主義

頻度主義

  • 客観的な一つの真実の確率分布があると想定
    • 神が定めた真の値は人には知り得ない
  • 真実の確率分布に従って「たまたま」発生したデータを集めることで、真実の確率分布を推定
    • 真実の確率分布がこうだと仮定すると、こんなデータが取れる確率は何%か?
    • 気象庁の降水確率は「過去の似たような気象条件の内、実際に雨が降った割合」
    • 逆に、データを集められない事象に確率を定めることはできない。(日常的にはあまり意識せず使われているが)
  • データを同条件で多数集められる、機械工場の精度誤差などに向く
  • 手法が定型化されているので、結果の数字の持つ意味と取り扱いを把握すれば、比較的簡単に使える

ベイズ主義

  • ベイズの定理(条件付き確率についての定理)を基礎にした統計
  • 確率は個人の主観による。(または、主観によってもよい)
  • 確率分布の候補はすべて同等に扱う。ある確率分布である確率を推定
    • このデータが取れたということは、このような確率分布である確率は何%か? どの確率が一番高くなるか?
  • 事前確率が必要となる。これはかなり主観的に決めることができ、客観性の担保に疑いの声が出ることもあるが、更新数を増やすとだいたい収束する
  • 同質なデータを多数集めるのが難しい対象に向く
    • データを得るのに時間がかかる、測定誤差が大きい、など同質なデータを集めづらいもの。気象、地震、農林水産など
    • 独立変数が多くモデルが複雑になりやすい。経済、個人の行動原理など

ベイズは追々やるとして、まず古典的な頻度主義から。

期待値と分散

  • 期待値E(x)…分布の中心の位置を示す
    • E(x+y)=E(x)+E(y)
    • E(xy)=E(x)E(y)
  • 分散V(x)…確率変数のばらつきの程度を示す
    • V(x+y)=V(x)+V(y)
    • V(xy)=V(x)+V(y) (分散の加法性)
  • 共分散C(x,y)…二組の対応するデータの間の関係を表す
    • C(x,y)=E[(xE(x))(yE(y))]=E(xy)E(x)E(y)
    • 正の相関があれば大、負の相関があれば小、互いに独立なら0になる
    • データスケールに対して不変ではない⇒相関係数で標準化
  • 期待値の一般的な性質:線形性を持つ
    • E(ax+b)=aE(x)+b
    • E(ax+by)=aE(x)+bE(y)
    • E(ni=1aixi)=ni=1aiE(xi)
  • 分散の一般的な性質
    • V(ax+b)=a2V(x)
    • V(ax+by)=a2V(x)+b2V(y)+2abC(x,y)

母集団と標本の平均と分散

  • 母平均
    • 真の分布における、期待値。μで表す
  • 母分散
    • 真の分布における、分散。σ2で表す
  • 標本平均
    • サンプルデータから算出される平均で、母平均とは区別する
    • ¯xで表す
  • 標本分散
    • サンプルデータから算出される分散で、母分散とは区別する
    • s2で表す
    • s2=1nni=1(xi¯x)2

正規分布

f(x)=12πσexp{(xμ)22σ2}

  • 計量値の分布としてよく用いられる
  • 確率変数xが正規分布に従うとき、xN(μ,σ2)と記述する
  • 線形性を持つ
    • xN(μ,σ2)ax+bN(ax+b,a2σ2)
  • 再生性を持つ
    • 複数の正規分布xiN(μi,σ2i)があり、互いに独立の場合、足し合わせた結果も正規分布となる
    • aixiN(aiμi,a2iσ2i)

標準正規分布

f(x)=12πexp(x22)

平均、分散はデータスケールによって変化するため、異なる分布を比べやすくするために標準化を行う。標準正規分布は、μ=0,σ2=1となる。

正規分布の線形性を利用して、xN(μ,σ2)のとき、u=xμσとすると、uN(0,12)に変換できる。

正規分布は確率密度分布なので、「xがa以上b以下となる確率は?」を調べるには、Pr{axb}=baf(x)dx、(f(x)は標準正規分布関数)を解く必要があるが、そんな計算毎回はやってられない。標準化してデータベース化しておけば、変換して参照するだけで十分な精度を持った近似値が得られる。(標準正規分布表)

  • 例:xN(18,22)である時、20以上となる確率
    • u=xμσ=20182=1より、Pr(x20)=Pr(u1)
    • 数値表から、Pr(u1)0.1587より、およそ15.87%
  • 例:xN(50,102)である時、上位5%の境界はどれほどの値か
    • 数値表から、Pr(uk)=0.05となるkの値は、1.645
    • u=a5010=1.645となるので、a=66.45

基本定理

大数の法則

  • xiが互いに独立で、E(xi)=μ,V(xi)=σ2である時、nとすると、¯x=μと見なせる
  • 要は、どんな分布であろうと、データ数いっぱい集めたら、その標本平均を母平均と見なしちゃってもいいよ、ということ

ゆるい証明

  • nの時、E(¯x)μ,V(¯x)0を示す
  • xiが互いに独立より、期待値の加法性、分散の加法性が使える
  • E(¯x)=E(1nxi)=1nE(xi)=1nμ=nμn=μ
  • V(¯x)=V(1nxi)=1n2V(xi)=1n2σ2=nσ2n2=σ2n
    • ここで、nより、σ2n0
  • 分散が0なら期待値を点として扱ってしまっていいのか、という話になると、チェビシェフの不等式を使用した厳密な証明になる

中心極限定理

  • どんな分布でも、そこからサンプルをいっぱい抽出して平均をとると、その取り得る値は正規分布に従う
  • xiが互いに独立で同一分布に従い、E(xi)=μ,V(xi)=σ2の場合
    • ¯xN(μ,σ2n)
    • u=¯xμσ2/nN(0,1)
  • 例:6面ダイスを1000回振って出た目の平均は、N(3.5,2.92/1000)に従う

統計量の分布

標本平均

xN(μ,σ2)の場合、¯xN(μ,σ2n)に従う。

データ数を増やすほど分散が0に近づく、つまり、標本平均が母平均から大きく外れる確率が低くなる。

これを標準化した場合、u=¯xμσ2/nN(0,12)となる。

不偏分散

  • E(V)=σ2
  • Vχ2n1
    • カイ2乗分布については後述
study/statistics.txt · 最終更新: 2016/08/01 by ikatakos
CC Attribution 4.0 International
Driven by DokuWiki Recent changes RSS feed Valid CSS Valid XHTML 1.0