分散分析
- 統計は、操作できる因子をいろいろ変えて応答を見る実験の解析に使われることも多い
- 化粧品の開発で、薬品の混合量(因子)を変えると保湿量(応答)がどれほど変わるか…etc
- 実験して得られたサンプルデータは、様々な測定誤差や、原因不明の誤差が混入している。
- 温度、湿度、実験機械の癖、疲労……etc
- サンプルデータのばらつきは、因子を操作することで生じたばらつきと、それ以外の誤差によるばらつきが混じっている。
- これを分離して、因子による効果をはっきりさせようというのが、分散分析である。
一元配置分散分析
因子が1つの場合の分散分析。
例
- 4種類の肥料があり、ある植物にどれが最も合うか知りたい
- 同程度の生育度合いの植物を12株用意し、3株ずつ4グループに分け肥料A1~A4を与え、3ヶ月後の成長(mm)を見る
xi1 | xi2 | xi3 | 計 Ti⋅ | 平均ˉxi⋅ | |
A1 | 20 | 22 | 21 | 63 | 21.0 |
A2 | 24 | 28 | 26 | 78 | 26.0 |
A3 | 22 | 24 | 26 | 72 | 24.0 |
A4 | 20 | 17 | 20 | 57 | 19.0 |
総合計T=270 | 全平均ˉˉx=22.5 |
- 水準Ai
- 違いを比べることで効果があるか調べる因子
- データxij、合計Ti⋅、水準平均ˉxi⋅
- 水準Aiのj番目のデータと、その合計、平均値
- 総合計T
このデータの構造は、“肥料の違い” と “それ以外の誤差” に分けられる。
xij−ˉˉx=(ˉxi⋅−ˉˉx)+(xij−ˉxi⋅)
- 左辺:xij−ˉˉx…個々のデータと全平均との差
- 右辺第1項:ˉxi⋅−ˉˉx…水準Aiにおける平均と全平均との差
- 右辺第2項:xij−ˉxi⋅…個々のデータと、そいつが属する水準Aiにおける平均との差
ばらつきの分解は、平方和をとることで行う。
a∑i=1r∑j=1(xij−ˉˉx)2=a∑i=1r∑j=1{(ˉxi⋅−ˉˉx)+(xij−ˉxi⋅)}2=∑∑(ˉxi⋅−ˉˉx)2+∑∑(xij−ˉxi⋅)2+2∑∑(ˉxi⋅−ˉˉx)(xij−ˉxi⋅)
- a…水準数
- r…繰り返し数
- 左辺:∑∑(xij−ˉˉx)2…総平方和ST
- 右辺第1項:∑∑(ˉxi⋅−ˉˉx)2…水準間平方和SA
- 右辺第2項:∑∑(xij−ˉxi⋅)2…誤差平方和SE
- 右辺第3項:2∑∑(ˉxi⋅−ˉˉx)(xij−ˉxi⋅)…誤差は平均0の正規分布に従うものとするので、0になる
結果の検定
水準の違いによる分散が、誤差の分散に比べてあまりにも小さければ、水準を変えても効果無いんじゃないの、という評価になる。2つの分散の比を取って、F検定を行う。分散分析では、分散のことを平均平方とも呼ぶ。
データの構造式
母平均μ、各水準内での平均と全平均との差αi、誤差項ϵijを使って次のようにかける。
xij=μ+αi+ϵij ただし∑αi=0, ϵ∼N(0,σ2)
帰無仮説
- 帰無仮説H0:μ1=μ2=⋯=μa
- 対立仮説H1:H0の等号の少なくとも1つが不等号
検定統計量の計算
平方和は、上の式より少しだけ楽に(?)計算する方法がある。
- 誤差項CT=T2n
- ST=a∑ir∑jx2ij−CT
- SA=a∑iT2i⋅r−CT
- SE=ST−SA
- STの自由度:ϕT=n−1
- SAの自由度:ϕA=a−1
- SEの自由度:ϕE=ST−SA
- 水準間平均平方:VA=SA/ϕA
- 誤差平均平方:VE=SE/ϕE
- 検定統計量:F0=VA/VE
ここで、R:F0≥F(ϕA,ϕE;α)であれば、帰無仮説は棄却され、水準間の平均に有意な差があると言える。
分散分析後の推定
- 点推定
- ˆμi=^μ+αi=ˉxi⋅
- 区間推定
- (ˉxi⋅−t(ϕE,α)√VEr, ˉxi⋅+t(ϕE,α)√VEr)