検定の理論:ネイマン・ピアソンと大標本検定
最良の棄却域の理論(NP定理)と尤度比・ワルド・スコア検定——検定の数学的基礎を学びます。
このモジュールで学ぶこと
前のモジュール 1.18 で P値・過誤・検出力を学びました。ここでは「なぜその棄却域が最良なのか」という理論的根拠——ネイマン・ピアソンの基本定理——と、大標本で使う3種類の検定(尤度比・ワルド・スコア)を学びます。漸近的な分布論(ウィルクスの定理など)は 1.22 漸近理論で扱います。
検定の「設計問題」
仮説検定は「帰無仮説 を棄却するかどうか」の意思決定です。棄却域をどう決めれば第1種の過誤()を抑えながら検出力()を最大化できるか——これが検定の設計問題です。
よくある誤解:「P 値 = 帰無仮説が正しい確率」「 なら が誤りである確率は95%以上」と読むのは誤りです。正しくは「 が真であると仮定したときに、今回と同等以上に極端なデータが得られる条件付き確率」です。頻度論の枠組みでは 自体は確率変数でなく真か偽かの命題であり、「 が真である確率」という量は定義されません(その表現はベイズ的解釈に相当します)。
ネイマン・ピアソンの基本定理
「有意水準 を固定したとき、最も検出力が高い検定はどれか?」——この問いに答えるのがネイマン・ピアソンの基本定理(Neyman-Pearson Lemma)です。
単純仮説とはパラメータを1点に固定した仮説(例:)、複合仮説とは範囲で指定した仮説(例:)です。
単純仮説 対 の検定で、棄却域を次のように設定します:
なぜ「差」でなく「比」なのか
尤度比 は、各データ点ごとに「 のもとでの確率」と「 のもとでの確率」の掛け算で蓄積されます(独立データなら積):
これに対し差 は複数データの情報を統合できません(足し算では各データ点の証拠の強さが希釈される)。比なら をとれば となり、各観測の証拠が加算的に積み上がります——これがネイマン・ピアソンが比を選ぶ理論的理由です。
具体例:正規分布の NP 検定
で vs を考えます。 個の独立観測 の尤度比は:
という棄却条件を で書き直すと:
つまり「標本平均が閾値 を超える」という直感的な棄却域になります。 は水準 から を満たす値、例えば 、 なら 。尤度比という抽象的な条件が、実用的な統計量(標本平均)の閾値検定と等価になるのが NP 定理の威力です。
試験頻出:「一様最強力検定(UMP test)」とは、片側仮説に対して水準 を守りつつすべての対立仮説で検出力が最大になる検定です。両側検定では一般にUMPは存在しません。
複合仮説の大標本検定:3つのアプローチ
複合仮説()に対する大標本検定には3種類あります。
尤度比検定(Likelihood Ratio Test, LRT):制約あり・なしの最尤推定量の尤度の比:
は制約の数(自由度)。 倍の対数をとるのは、この変換によってウィルクスの定理が「漸近的にちょうど 分布になる」と保証できる係数だからです。
ワルド型検定(Wald Test):MLE がどのくらい から離れているかで判断:
スコア検定(Score Test / Lagrange Multiplier Test):「 が真なら でスコア関数(対数尤度の微分)はゼロになるはず」という性質を使います。
3つの検定の使い分け表
漸近的同値性
大標本()ではこの3つはすべて漸近的に同じ 分布に従い、検出力も同等になります。これを「3つの漸近的同値性」と呼びます。詳細はモジュール 1.22 のウィルクスの定理で扱います。
試験頻出:小標本では3つの性質が異なります。一般に LRT が最も信頼され、計算コストを抑えたい場面ではスコア検定、信頼区間との対応を見たい場面ではワルド検定が選ばれます。
関連モジュールへの導線
1.18 P値・検定の誤り・検出力:第1種の過誤 ・検出力 など本モジュールの前提を扱います。
1.22 漸近理論:ウィルクスの定理( の証明)、フィッシャー情報量との関係を扱います。
1.20 検定の実践:本モジュールで学んだ理論を、適合度検定・ノンパラメトリック検定などに応用します。
ネイマン・ピアソンの歴史的意義
NP定理(1933年)は「検定の最良性を客観的に評価する」枠組みを与えました。それ以前は検定の選択が経験的でしたが、NP定理以降は「水準 と対立仮説を与えれば最強力検定が一意に決まる」と数学的に保証されるようになりました。これが現代統計学における頻度論的推測(Frequentist inference)の理論的支柱です。
確認クイズ(抜粋)
Q1. ネイマン・ピアソンの基本定理が与える「最良の棄却域」とはどれか?
A. 有意水準 のもとで検出力が最大になる棄却域
Q2. 尤度比検定統計量 は のもとで漸近的にどの分布に従うか?
A. 分布(自由度 = 制約の数)
Q3. ワルド型検定とスコア検定の主な違いはどれか?
A. ワルド型は制約なし MLE を使い、スコア検定は制約あり評価点でスコアを測る
全10問のクイズはサイトのインタラクティブ版でお試しください。
第4章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。