信頼区間:2標本問題と発展的話題
2標本の信頼区間・被覆確率・片側信頼限界——区間推定の応用と正確な解釈を学びます。
このモジュールで学ぶこと
前のモジュールでは1標本の3種類の信頼区間(母平均・母比率・母分散)を学びました。このモジュールでは「AとBを比べる」2標本問題の信頼区間と、被覆確率・片側信頼限界などの発展的なトピックを扱います。
2標本問題の信頼区間
「AとBの2つのダイエット法で、体重減少量の差はどの範囲か?」——2グループの比較です。
2母平均の差 のCI(等分散仮定あり):
プール分散 (自由度 の 分布)。
等分散仮定がない場合(Welch法)は、2群の分散が異なるためプール分散が使えません。代わりに「実質的な自由度を近似的に計算する」Welch-Satterthwaiteの近似で修正自由度を求め、その 分布を使います:
2母比率の差 のCI(大標本):
Welch法 vs プール分散:使い分け表
「等分散と仮定してよいか」で選ぶべき手法が変わります。
実務的な指針:R の 「t.test()」 などはデフォルトで Welch 法を使います。「等分散かどうか不明なら Welch が安全」というのが現代の標準です。
Welchの自由度を計算する:具体例
設定:2グループの平均差を推定したいです。
グループ1:、、
グループ2:、、
ステップ1:各群の平均の分散を計算します。、。
ステップ2:Welch-Satterthwaiteの自由度 :
切り捨てて を使います。プール分散なら自由度 なので Welch のほうが少し小さい値です。
よくある誤解:「Welch の自由度は整数だから四捨五入で切り上げよう」と扱うのは誤りです。Welch-Satterthwaite の自由度 は一般に非整数(例:47.4)で、保守的に運用するなら切り捨てて小さい整数を使うのが原則です。切り上げると 分布の裾が薄くなる側に動き、第1種の過誤率が名目水準を超えるリスクがあります。R の 「t.test()」 は非整数自由度のまま 分布を扱うため、最も正確です。
ステップ3:標準誤差:。(表参照)。
ステップ4:95% CI:。
区間が0を含まないので「差はある」と結論できます。
被覆確率:「公称95%」は本当に95%か?
被覆確率(Coverage Probability):信頼区間の構成法が長期的に真の値を含む割合。理論上は (公称水準)ですが、漸近近似(母比率の CI など)では有限標本での実際の被覆確率が からずれることがあります。
直感:「区間の作り方が雑だと、本当に真値を捕まえる確率が下がる」という品質指標が被覆確率です。シミュレーションで「真値を 回設定して何回 CI に含まれたか」で実証できます。
対応あり vs 独立2標本:使い分け
「2グループの平均差」と一括りにせず、観測の独立性を確認します。
対応のある2標本では、各個人の差 を計算してから1標本問題に帰着させます。。
試験頻出:対応データに独立2標本の式を使うと標準誤差が過大評価され、検出力を失います。「同じ人を2回測ったか?」を必ず確認しましょう。
片側信頼限界:実務での使いどころ
片側信頼限界(One-sided Confidence Limit):「真の値はこれ以下」「真の値はこれ以上」という一方向の主張。両側の の代わりに (より小さい値)を使うため区間が狭くなります:
下側限界(「 はこの値以上」):
上側限界(「 はこの値以下」):
直感:両側 95% CI と片側 95% 限界は別物です。片側のほうが片端のみで をすべて使うため、限界値はより内側(厳しい主張)になります。
試験頻出:信頼区間の幅は が4倍になると半分になります。「区間を半分にしたければサンプルを4倍に」という関係を覚えておきましょう。
確認クイズ(抜粋)
Q1. 2標本問題(等分散仮定あり)で2母平均の差の信頼区間に使うプール分散 の自由度はどれか?
A.
Q2. 95%信頼区間の幅を半分にするには、サンプルサイズを何倍にすればよいか?
A. 4倍
Q3. 被覆確率(Coverage Probability)が理論値 からずれやすい状況はどれか?
A. が小さく母比率 が0や1に近いとき
全10問のクイズはサイトのインタラクティブ版でお試しください。
第4章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。