統計

勉強中ゆえに用語とか認識とかかなりいい加減なので信用しない。

頻度主義とベイズ主義

頻度主義

客観的な一つの真実の確率分布があると想定
- 神が定めた真の値は人には知り得ない
真実の確率分布に従って「たまたま」発生したデータを集めることで、真実の確率分布を推定
- 真実の確率分布がこうだと仮定すると、こんなデータが取れる確率は何%か?
- 気象庁の降水確率は「過去の似たような気象条件の内、実際に雨が降った割合」
- 逆に、データを集められない事象に確率を定めることはできない。(日常的にはあまり意識せず使われているが)
データを同条件で多数集められる、機械工場の精度誤差などに向く
手法が定型化されているので、結果の数字の持つ意味と取り扱いを把握すれば、比較的簡単に使える

ベイズ主義

ベイズの定理（条件付き確率についての定理）を基礎にした統計
確率は個人の主観による。(または、主観によってもよい)
- 主観確率 - Wikipedia
確率分布の候補はすべて同等に扱う。ある確率分布である確率を推定
- このデータが取れたということは、このような確率分布である確率は何%か? どの確率が一番高くなるか?
事前確率が必要となる。これはかなり主観的に決めることができ、客観性の担保に疑いの声が出ることもあるが、更新数を増やすとだいたい収束する
同質なデータを多数集めるのが難しい対象に向く
- データを得るのに時間がかかる、測定誤差が大きい、など同質なデータを集めづらいもの。気象、地震、農林水産など
- 独立変数が多くモデルが複雑になりやすい。経済、個人の行動原理など

ベイズは追々やるとして、まず古典的な頻度主義から。

期待値と分散

期待値 $E(x)$ …分布の中心の位置を示す
- $E(x+y)=E(x)+E(y)$
- $E(x-y)=E(x)-E(y)$

分散 $V(x)$ …確率変数のばらつきの程度を示す
- $V(x+y)=V(x)+V(y)$
- $V(x-y)=V(x)+V(y)$ (分散の加法性)

共分散 $C(x,y)$ …二組の対応するデータの間の関係を表す
- $C(x,y)=E[(x-E(x))(y-E(y))]=E(xy)-E(x)E(y)$
- 正の相関があれば大、負の相関があれば小、互いに独立なら0になる
- データスケールに対して不変ではない⇒相関係数で標準化

期待値の一般的な性質:線形性を持つ
- $E(ax+b)=aE(x)+b$
- $E(ax+by)=aE(x)+bE(y)$
- $\displaystyle E(\sum_{i=1}^{n}a_ix_i)=\sum_{i=1}^{n}a_iE(x_i)$

分散の一般的な性質
- $V(ax+b)=a^2V(x)$
- $V(ax+by)=a^2V(x)+b^2V(y)+2abC(x,y)$

母集団と標本の平均と分散

母平均
- 真の分布における、期待値。 $\mu$ で表す
母分散
- 真の分布における、分散。 $\sigma^2$ で表す

標本平均
- サンプルデータから算出される平均で、母平均とは区別する
- $\overline{x}$ で表す
標本分散
- サンプルデータから算出される分散で、母分散とは区別する
- $s^2$ で表す
- $\displaystyle s^2=\frac{1}{n}\sum^n_{i=1}(x_i-\overline{x})^2$

不偏分散
- 標本分散の期待値は、母分散より少し小さめの値になる。その補正をしたのが不偏分散
  - $E(s^2)=\frac{n-1}{n}\sigma^2$
- $\displaystyle V=\frac{1}{n-1}\sum^n_{i=1}(x_i-\overline{x})^2$
- 不偏分散はなぜ n – 1 で割るのか？ - NaviPlus Engineers' Blog

正規分布

$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$

計量値の分布としてよく用いられる
確率変数 $x$ が正規分布に従うとき、 $x\sim N(\mu,\sigma^2)$ と記述する
線形性を持つ
- $x\sim N(\mu,\sigma^2)\rightarrow ax+b\sim N(ax+b,a^2\sigma^2)$
再生性を持つ
- 複数の正規分布 $x_i\sim N(\mu_i,\sigma_i^2)$ があり、互いに独立の場合、足し合わせた結果も正規分布となる
- $\displaystyle \sum a_ix_i\sim N(\sum a_i\mu_i,\sum a_i^2\sigma_i^2)$

標準正規分布

$f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})$

平均、分散はデータスケールによって変化するため、異なる分布を比べやすくするために標準化を行う。標準正規分布は、 $\mu=0,\sigma^2=1$ となる。

正規分布の線形性を利用して、 $x\sim N(\mu,\sigma^2)$ のとき、 $\displaystyle u=\frac{x-\mu}{\sigma}$ とすると、 $u\sim N(0,1^2)$ に変換できる。

正規分布は確率密度分布なので、「 $x$ がa以上b以下となる確率は?」を調べるには、 $\displaystyle Pr\{a\leq x\leq b\}=\int_a^b f(x)dx$ 、( $f(x)$ は標準正規分布関数)を解く必要があるが、そんな計算毎回はやってられない。標準化してデータベース化しておけば、変換して参照するだけで十分な精度を持った近似値が得られる。(標準正規分布表)

例: $x\sim N(18,2^2)$ である時、20以上となる確率
- $u=\frac{x-\mu}{\sigma}=\frac{20-18}{2}=1$ より、 $Pr(x\geq 20)=Pr(u\geq 1)$
- 数値表から、 $Pr(u\geq 1)\simeq 0.1587$ より、およそ15.87%

例: $x\sim N(50,10^2)$ である時、上位5%の境界はどれほどの値か
- 数値表から、 $Pr(u\geq k)=0.05$ となる $k$ の値は、1.645
- $u=\frac{a-50}{10}=1.645$ となるので、 $a=66.45$

基本定理

大数の法則

$x_i$ が互いに独立で、 $E(x_i)=\mu, V(x_i)=\sigma^2$ である時、 $n\rightarrow \infty$ とすると、 $\overline{x}= \mu$ と見なせる
要は、どんな分布であろうと、データ数いっぱい集めたら、その標本平均を母平均と見なしちゃってもいいよ、ということ

ゆるい証明

$n\rightarrow \infty$ の時、 $E(\overline{x})\rightarrow \mu, V(\overline{x})\rightarrow 0$ を示す
$x_i$ が互いに独立より、期待値の加法性、分散の加法性が使える
$\displaystyle E(\overline{x})=E(\frac{1}{n}\sum x_i)=\frac{1}{n}\sum E(x_i)=\frac{1}{n}\sum \mu=\frac{n\mu}{n}=\mu$
$\displaystyle V(\overline{x})=V(\frac{1}{n}\sum x_i)=\frac{1}{n^2}\sum V(x_i)=\frac{1}{n^2}\sum \sigma^2=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}$
- ここで、 $n\rightarrow \infty$ より、 $\frac{\sigma^2}{n}\rightarrow 0$
分散が0なら期待値を点として扱ってしまっていいのか、という話になると、チェビシェフの不等式を使用した厳密な証明になる

中心極限定理

どんな分布でも、そこからサンプルをいっぱい抽出して平均をとると、その取り得る値は正規分布に従う
$x_i$ が互いに独立で同一分布に従い、 $E(x_i)=\mu, V(x_i)=\sigma^2$ の場合
- $\displaystyle \overline{x}\sim N(\mu,\frac{\sigma^2}{n})$
- $\displaystyle u=\frac{\overline{x}-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1)$
例:6面ダイスを1000回振って出た目の平均は、 $N(3.5,2.92/1000)$ に従う

統計量の分布

標本平均

$x\sim N(\mu,\sigma^2)$ の場合、 $\overline{x}\sim N(\mu,\frac{\sigma^2}{n})$ に従う。

データ数を増やすほど分散が0に近づく、つまり、標本平均が母平均から大きく外れる確率が低くなる。

これを標準化した場合、 $u=\frac{\overline{x}-\mu}{\sqrt{\sigma^2/n}}\sim N(0,1^2)$ となる。

不偏分散

$E(V)=\sigma^2$
$V\sim \chi_{n-1}^2$
- カイ2乗分布については後述