分散分析
- 統計は、操作できる因子をいろいろ変えて応答を見る実験の解析に使われることも多い
- 化粧品の開発で、薬品の混合量(因子)を変えると保湿量(応答)がどれほど変わるか…etc
- 実験して得られたサンプルデータは、様々な測定誤差や、原因不明の誤差が混入している。
- 温度、湿度、実験機械の癖、疲労……etc
- サンプルデータのばらつきは、因子を操作することで生じたばらつきと、それ以外の誤差によるばらつきが混じっている。
- これを分離して、因子による効果をはっきりさせようというのが、分散分析である。
一元配置分散分析
因子が1つの場合の分散分析。
例
- 4種類の肥料があり、ある植物にどれが最も合うか知りたい
- 同程度の生育度合いの植物を12株用意し、3株ずつ4グループに分け肥料$A_1$~$A_4$を与え、3ヶ月後の成長(mm)を見る
$x_{i1}$ | $x_{i2}$ | $x_{i3}$ | 計 $T_{i\cdot}$ | 平均$\bar{x}_{i\cdot}$ | |
A1 | 20 | 22 | 21 | 63 | 21.0 |
A2 | 24 | 28 | 26 | 78 | 26.0 |
A3 | 22 | 24 | 26 | 72 | 24.0 |
A4 | 20 | 17 | 20 | 57 | 19.0 |
総合計$T=270$ | 全平均$\bar{\bar{x}}=22.5$ |
- 水準$A_i$
- 違いを比べることで効果があるか調べる因子
- データ$x_{ij}$、合計$T_{i\cdot}$、水準平均$\bar{x}_{i\cdot}$
- 水準$A_i$の$j$番目のデータと、その合計、平均値
- 総合計$T$
このデータの構造は、“肥料の違い” と “それ以外の誤差” に分けられる。
$$x_{ij}-\bar{\bar{x}}=(\bar{x}_{i\cdot}-\bar{\bar{x}})+(x_{ij}-\bar{x}_{i\cdot})$$
- 左辺:$x_{ij}-\bar{\bar{x}}$…個々のデータと全平均との差
- 右辺第1項:$\bar{x}_{i\cdot}-\bar{\bar{x}}$…水準$A_i$における平均と全平均との差
- 右辺第2項:$x_{ij}-\bar{x}_{i\cdot}$…個々のデータと、そいつが属する水準$A_i$における平均との差
ばらつきの分解は、平方和をとることで行う。
\begin{eqnarray} \sum^{a}_{i=1}\sum^{r}_{j=1}(x_{ij}-\bar{\bar{x}})^2 &=& \sum^{a}_{i=1}\sum^{r}_{j=1}\{(\bar{x}_{i\cdot}-\bar{\bar{x}})+(x_{ij}-\bar{x}_{i\cdot})\}^2 \\ &=& \sum\sum(\bar{x}_{i\cdot}-\bar{\bar{x}})^2 + \sum\sum(x_{ij}-\bar{x}_{i\cdot})^2 + 2\sum\sum(\bar{x}_{i\cdot}-\bar{\bar{x}})(x_{ij}-\bar{x}_{i\cdot}) \end{eqnarray}
- $a$…水準数
- $r$…繰り返し数
- 左辺:$\sum\sum(x_{ij}-\bar{\bar{x}})^2$…総平方和$S_T$
- 右辺第1項:$\sum\sum(\bar{x}_{i\cdot}-\bar{\bar{x}})^2$…水準間平方和$S_A$
- 右辺第2項:$\sum\sum(x_{ij}-\bar{x}_{i\cdot})^2$…誤差平方和$S_E$
- 右辺第3項:$2\sum\sum(\bar{x}_{i\cdot}-\bar{\bar{x}})(x_{ij}-\bar{x}_{i\cdot})$…誤差は平均0の正規分布に従うものとするので、0になる
結果の検定
水準の違いによる分散が、誤差の分散に比べてあまりにも小さければ、水準を変えても効果無いんじゃないの、という評価になる。2つの分散の比を取って、F検定を行う。分散分析では、分散のことを平均平方とも呼ぶ。
データの構造式
母平均$\mu$、各水準内での平均と全平均との差$\alpha_i$、誤差項$\epsilon_{ij}$を使って次のようにかける。
$x_{ij}=\mu+\alpha_i+\epsilon_{ij}~~~~$ただし$\sum\alpha_i=0,~~~~\epsilon\sim N(0,\sigma^2)$
帰無仮説
- 帰無仮説$H_0:\mu_1=\mu_2=\cdots =\mu_a$
- 対立仮説$H_1:H_0$の等号の少なくとも1つが不等号
検定統計量の計算
平方和は、上の式より少しだけ楽に(?)計算する方法がある。
- 誤差項$\displaystyle CT=\frac{T^2}{n}$
- $\displaystyle S_T=\sum^{a}_{i}\sum^{r}_{j}x_{ij}^2-CT$
- $\displaystyle S_A=\sum^{a}_{i}\frac{T_{i\cdot}^2}{r}-CT$
- $\displaystyle S_E=S_T-S_A$
- $S_T$の自由度:$\phi_T=n-1$
- $S_A$の自由度:$\phi_A=a-1$
- $S_E$の自由度:$\phi_E=S_T-S_A$
- 水準間平均平方:$V_A=S_A/\phi_A$
- 誤差平均平方:$V_E=S_E/\phi_E$
- 検定統計量:$F_0=V_A/V_E$
ここで、$R:F_0 \ge F(\phi_A, \phi_E; \alpha)$であれば、帰無仮説は棄却され、水準間の平均に有意な差があると言える。
分散分析後の推定
- 点推定
- $\hat{\mu}_i=\widehat{\mu+\alpha_i}=\bar{x}_{i\cdot}$
- 区間推定
- $\displaystyle (\bar{x}_{i\cdot}-t(\phi_E,\alpha)\sqrt{\frac{V_E}{r}},~~~~\bar{x}_{i\cdot}+t(\phi_E,\alpha)\sqrt{\frac{V_E}{r}})$