目次

統計

勉強中ゆえに用語とか認識とかかなりいい加減なので信用しない。

頻度主義とベイズ主義

頻度主義

ベイズ主義

ベイズは追々やるとして、まず古典的な頻度主義から。

期待値と分散

母集団と標本の平均と分散

正規分布

$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$$

標準正規分布

$$f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})$$

平均、分散はデータスケールによって変化するため、異なる分布を比べやすくするために標準化を行う。標準正規分布は、$\mu=0,\sigma^2=1$となる。

正規分布の線形性を利用して、$x\sim N(\mu,\sigma^2)$のとき、$\displaystyle u=\frac{x-\mu}{\sigma}$とすると、$u\sim N(0,1^2)$に変換できる。

正規分布は確率密度分布なので、「$x$がa以上b以下となる確率は?」を調べるには、$\displaystyle Pr\{a\leq x\leq b\}=\int_a^b f(x)dx$、($f(x)$は標準正規分布関数)を解く必要があるが、そんな計算毎回はやってられない。標準化してデータベース化しておけば、変換して参照するだけで十分な精度を持った近似値が得られる。(標準正規分布表)

  • 例:$x\sim N(18,2^2)$である時、20以上となる確率
    • $u=\frac{x-\mu}{\sigma}=\frac{20-18}{2}=1$より、$Pr(x\geq 20)=Pr(u\geq 1)$
    • 数値表から、$Pr(u\geq 1)\simeq 0.1587$より、およそ15.87%
  • 例:$x\sim N(50,10^2)$である時、上位5%の境界はどれほどの値か
    • 数値表から、$Pr(u\geq k)=0.05$となる$k$の値は、1.645
    • $u=\frac{a-50}{10}=1.645$となるので、$a=66.45$

基本定理

大数の法則

ゆるい証明

  • $n\rightarrow \infty$の時、$E(\overline{x})\rightarrow \mu, V(\overline{x})\rightarrow 0$を示す
  • $x_i$が互いに独立より、期待値の加法性、分散の加法性が使える
  • $\displaystyle E(\overline{x})=E(\frac{1}{n}\sum x_i)=\frac{1}{n}\sum E(x_i)=\frac{1}{n}\sum \mu=\frac{n\mu}{n}=\mu$
  • $\displaystyle V(\overline{x})=V(\frac{1}{n}\sum x_i)=\frac{1}{n^2}\sum V(x_i)=\frac{1}{n^2}\sum \sigma^2=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$
    • ここで、$n\rightarrow \infty$より、$\frac{\sigma^2}{n}\rightarrow 0$
  • 分散が0なら期待値を点として扱ってしまっていいのか、という話になると、チェビシェフの不等式を使用した厳密な証明になる

中心極限定理

統計量の分布

標本平均

$x\sim N(\mu,\sigma^2)$の場合、$\overline{x}\sim N(\mu,\frac{\sigma^2}{n})$に従う。

データ数を増やすほど分散が0に近づく、つまり、標本平均が母平均から大きく外れる確率が低くなる。

これを標準化した場合、$u=\frac{\overline{x}-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1^2)$となる。

不偏分散