標本分布の相互関係 ($t, \chi^2, F$)
母分散がわからない…そんな「現場のジレンマ」を解決する分布たちです。
このモジュールで学ぶこと
「10人の血圧データだけで新薬の効果を証明できるか?」——この問いに答えるには、正規分布だけでは不十分です。なぜなら、真のばらつき(母分散)が分からないからです。このモジュールでは、その制約のもとで正確な推測を可能にする3つの分布 ・・ の意味と使い所を学びます。
「代用品を使う不確かさ」を正直に反映した分布
理想の統計では「真のばらつき (母分散)が既知」という前提で正規分布を使います。しかし現実に母分散が分かっていることはまずありません。
仕方なく「手元のデータから計算した (標本分散)」で代用するしかないのですが——これは「精密な計量カップの代わりに目分量で塩を入れる」ようなものです。代用品を使う分の余分な不確かさを、形に正直に反映したのが、これから学ぶ3つの分布です。
なお (標本分散)とその平方根 (標本標準偏差)は の関係にあります。以降ではどちらの記号も場面に応じて使います。
分布:母分散が不明なときの推測
新薬を10人に投与したら血圧が平均 5 mmHg 下がった。「これは本物の効果か、偶然か?」を調べたいが、全人類の血圧の真のばらつき(母分散 )は不明です。そこで10人のデータから計算した標本標準偏差 で代用した統計量 を使います:
各記号の意味:(エックスバー)は手元データの平均値、(ミュー)は検証したい基準値(例:「薬の効果がゼロ」なら )、 は手元データの標準偏差(ばらつきの大きさ)、 はサンプルサイズ(人数)です。
正規分布より裾が厚い形:分散を推定値で代用している分、外れる可能性を広めに見ている——統計学の慎重さの表れです
分散 ( のとき):正規分布の分散1より大きく、自由度が増えるほど1に近づきます
自由度():10人なら 、1000人なら 。大きいほど正確になる
自由度とは?: 個のデータから平均を計算すると「合計が固定される」という制約が生まれます。例えば3人のテスト点数の平均が70点なら、最初の2人が60点・80点と分かった時点で3人目は自動的に70点と決まります。つまり自由に動けるのは 個——これが自由度 の意味です。
自由度のスライダーを動かしてみましょう。小さいほど裾が厚く、増やすほど標準正規分布 に近づいていきます。
自由度が大きくなるほど裾が薄くなり正規分布へ収束します——サンプルが少ないほど不確実性が大きいことが、グラフの形に正直に表れています。
特殊なケース:自由度 の 分布はコーシー分布と呼ばれ、期待値(平均)すら定義できない「暴れ馬のような分布」になります。
t分布は「母平均の推測」に使いました。では次に、「分散(ばらつき)そのもの」を分析したい場面はどうするのでしょう?
(カイ二乗) 分布:ばらつきの正体
工場でボルトを大量生産しているとします。製造した1000本の直径のばらつきが「規格 mm 以内」に収まっているかを検査したい——これは「分散そのものを判定する」問題です。
まず用語を確認しておきます。標準正規変数とは、平均0・分散1の正規分布 に従う変数のことです。 個の独立な標準正規変数 の二乗和は 自由度 のカイ二乗分布 に従います:
標本分散 との関係は(「」は「この分布に従う」という意味):
0以上の値しかとらない(二乗の和なので当然)
期待値 (自由度)、分散 :自由度が大きいほど右に広がる
自由度が増えると分布が右にシフトし左右対称に近づきます。自由度 の期待値が であることが、ピーク位置から確認できます。
試験頻出:自由度 が十分大きければ は正規分布 で近似できます(CLTによる—— 個の独立な 変数の和だから)。
カイ二乗分布は「1つのグループのばらつき」を扱いました。では「2つのグループのばらつきを比較」するにはどうするのでしょう?
分布:2つのばらつきを比較する
クラスAとクラスBのテスト結果があります。「点数のばらつきに統計的な差があるか?」——「Aの分散」と「Bの分散」の比が従う分布が 分布です:
「本当は分散が等しい()」なら、この比は 1 に近くなるはずです。1から大きく外れるほど「差がある」証拠になります。
分子・分母それぞれの自由度を動かすと F分布の形がどう変化するか確認できます。両自由度が大きいほど分布が安定した形に収束していきます。
分布間のつながり(試験頻出)
3つの分布は「標準正規分布から生まれた親戚」です:
:t分布を二乗すればF分布になる
:分子と分母を入れ替えるだけ
非心分布:「帰無仮説が偽のとき」の分布
まず用語を確認します。帰無仮説()とは「差がない・効果がない」という前提の仮説です(詳しくは「推定・検定の理論的背景」で学びます)。棄却域は「この値より外れたら仮説を否定する」という領域、検出力()は「本物の差があるとき、正しく検出できる確率」です( は「本当に差があるのに見逃す確率」)。
・・ 分布は「帰無仮説が真のとき(真の値が仮定通り)」の検定統計量の分布です。では帰無仮説が偽のとき、統計量はどんな分布に従うのでしょうか?これが非心分布(Non-central Distribution)で、検出力の計算に使います。
非心 分布:帰無仮説 が偽で真の値が のとき、 は非心度(non-centrality parameter) を持つ非心 分布に従います。 が大きいほど(真の効果が大きく・サンプルが多いほど)分布の中心が右にシフトし、棄却域に入りやすくなります——これが検出力が上がることの数学的な意味です。
非心 分布: 個の独立正規変数の非ゼロ平均 の2乗和 は非心度 を持つ非心 分布に従います。
非心 分布:分子に非心 分布が入るF分布です。分散分析の検出力計算で使います。
試験頻出:非心分布は「帰無仮説が偽のときの分布」——サンプルサイズ設計(必要な の計算)と検出力の計算に直接使います。
確認クイズ(抜粋)
Q1. 分布において、自由度を無限大に大きくしたときに近づく分布は?
A. 標準正規分布
Q2. 標準正規分布に従う変数を二乗して足し合わせたものが従う分布は?
A. 自由度 n のカイ二乗分布
Q3. F分布 の逆数が従う分布は?
A.
全10問のクイズはサイトのインタラクティブ版でお試しください。
第3章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。