分散分析 (ANOVA)
3つ以上のグループを「一気に」比較する、効率的な判断手法。
このモジュールで学ぶこと
「3つ以上のグループに差があるか」を調べるのに、t検定を何度も繰り返してはいけません——繰り返すほど「たまたまの差」を本物と誤認するリスクが膨らむからです。このモジュールでは、その問題を1回の検定で解決する分散分析(ANOVA)の仕組みと、差が見つかった後の「どこが違うか」を特定する方法を学びます。
「何度もくじを引くほど外れが増える」問題
まず用語を確認します。有意水準とは「この確率以下なら差があると判断する」というしきい値(通常 5%)で、第1種の過誤(偽陽性)とは「本当は差がないのに差があると誤判定してしまうこと」です(詳しくは「推定・検定の理論的背景」で学びます)。
コインを1回投げて「有意水準 5% で差ありと判定」するとき、偽陽性が起きる確率は 5% です。では 3ペアを3回検定するとどうなるでしょう?
計算の読み方:「3回すべて正しく判断できる確率」は なので、「少なくとも1回は誤判定する確率」は になります。
有意水準を5%に設定したつもりが、実際には14%で誤判定してしまいます。分散分析は「3グループを1回の検定でまとめて比較」することでこの問題を回避します。
仕組み:ばらつきを「意味ある差」と「誤差」に分解する
具体例:ラーメン屋でトッピング(煮玉子・チャーシュー・メンマ)が売上に与える効果を検証します。各トッピングを10日間試したところ、日ごとの売上(万円)は以下のとおりでした。
分散分析では全体の「ばらつき(変動)」を2つに分解します:
群間変動:トッピングの種類による「意味のある差」(3グループの平均 51・59・50 のばらつき)
群内変動:同じトッピングでも日によって違う「ランダムな誤差」
自由度(、)で割る理由:グループ数やデータ数が違っても公平に比較するため、「合計の変動」を「1自由度あたりの変動(平均平方)」に換算します。この比(群間の平均変動 ÷ 群内の平均変動)が大きいほど「グループの差 > ランダムな誤差」となり、本物の差がある証拠です( は群の数、 は全データ数)。
分散分析の前提条件(試験頻出):各グループが正規分布に従い、グループ間で分散が等しい(等分散性)こと。
一元配置・二元配置・交互作用
さらに「店舗の立地(オフィス街・住宅街)」という2つ目の要因を加えて分析するのが二元配置分散分析です。
一元配置:トッピング1種類の要因だけを見る(先ほどの例)
二元配置:トッピング+立地の2要因を同時に分析する
ここで重要な概念が交互作用です。例えば「オフィス街ではチャーシューが特に売れるが、住宅街では煮玉子が強い」——トッピングと立地の組み合わせによってだけ生まれる相乗効果のことです。単純な足し算以上の効果が出るとき「交互作用がある」と言います。
F統計量の自由度の読み方
自由度 の形で表します( は群の数、 は全データ数)。例えば自由度 なら より群の数は 3、全データ数は と読み解けます。
多重比較:「どこが違うか」を特定する
分散分析は「どこかに差がある」かどうかを判定しますが、「AとBが違うのか、BとCが違うのか」は教えてくれません。その特定を行うのが多重比較です。
なぜ改めて必要かというと——分散分析後にさらにt検定を繰り返すと、また最初の「14%の誤認問題」が発生するからです。そこで多重性を適切に補正した検定を使います。
代表的な多重比較法:
テューキー法(Tukey法):全ペアを比較したい場合の定番。多重性を補正しつつ検出力も高い
ボンフェローニ法:有意水準を比較回数で割る(3ペアなら )。シンプルだが少し保守的(差を見つけにくい)
試験頻出:「分散分析で有意 → テューキー法などで多重比較」という2段階の流れを覚えておきましょう。また、実験の割り付けをランダムにするランダム化は、未知要因の影響を排除するための実験計画の基本です。
実験計画法:ブロック化と効率的な実験設計
分散分析の精度を上げるには「ノイズを減らす」ことが重要です。そのための設計法が以下の3つです。
乱塊法(Randomized Complete Block Design, RCBD):「土質が違う農場で肥料の比較をしたい」——土質というノイズ要因をブロックとして分割し、各ブロック内で処理をランダムに割り付けます。ブロック内は条件が揃っているため、ブロック間の差を取り除くことで肥料の純粋な効果を比較できます。
ブロック効果を除いた残差 が小さくなり、ブロック化なしの一元配置より検出力が上がります。
一部実施要因計画(Fractional Factorial Design): 因子を2水準で全組み合わせ試すと 回の実験が必要です。 なら1024回——現実的ではありません。交互作用(高次のもの)を犠牲にして実験回数を に減らす計画です。「主効果と2因子交互作用だけ見る」という判断のもと、少ない実験で多くの因子を同時に調べられます。
直交配列(Orthogonal Array):タグチメソッド(品質工学)で有名な設計法。各因子の水準の組み合わせが均等になるよう(直交性)設計した実験表で、少ない実験回数でも主効果を効率よく独立に推定できます。・ などの記号で表されます( は「 行、つまり 通りの実験条件を持つ表」という意味で、因子の数ではありません)。
確認クイズ(抜粋)
Q1. 3つ以上の群の平均値の差を同時に検定する手法は?
A. 分散分析
Q2. 分散分析において、検定に用いられる統計量は?
A. F統計量
Q3. 2つの要因を同時に考慮し、それらの相乗効果も評価する分散分析は?
A. 二元配置
全10問のクイズはサイトのインタラクティブ版でお試しください。
第4章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。