中心極限定理と二項分布の正規近似

中心極限定理・標準誤差・二項分布の正規近似を理解し、統計的推測（Chapter 4）の土台を作ります。

このモジュールで学ぶこと Chapter 4 では「標本から母集団を推測する」方法を学びます。でも、なぜそんなことが可能なのでしょうか？その根拠となる定理が中心極限定理（CLT）です。「母集団がどんな形の分布でも、サンプルサイズが大きければ標本平均の分布は正規分布で近似できる」という驚くべき事実です。正規分布で近似できるから確率計算ができる——だから推定や仮説検定が成り立ちます。まず直感から——「平均を取ると安定する」 1つのサイコロを1回振ると、出る目は1〜6のどれか。バラツキが大きいです。では、10人それぞれがサイコロを1回ずつ振って10人の平均を求めたらどうなるでしょう？ 1人だけが「6」を出しても、他の9人の目が平均的なら、10人の平均は大きく外れません。さらに100人の平均を取れば、もっと安定します。人数が増えるほど、極端な値が打ち消し合い、平均はブレにくくなる——これが中心極限定理の直感です。中心極限定理（CLT）の中身この「平均を取ると安定する」という直感を数学的に正確に述べたのが中心極限定理（CLT: Central Limit Theorem）です。驚くべきことは「母集団がどんな形の分布でも（一様分布でも、右裾が長い歪んだ分布でも）この定理が成り立つ」という点です。母集団の平均を、分散をとします。このとき個のデータをランダムに取って計算した標本平均は、が十分大きければ次の正規分布に従います：この式が言っていること：標本平均の中心は母平均と同じ（平均的に見れば正しい値を指している）標本平均のばらつき（分散）は（が大きいほど小さくなる）母集団の形が何であれ、正規分布で近似できる試験ポイント：「母集団がどんな分布でも」という点が重要です。母集団が歪んだ分布でも、が大きければ標本平均は正規分布になります。標準誤差（SE）——標本平均のブレを数値で表す標本平均の分散がなので、その標準偏差（＝ブレの大きさ）は：この値を特別に標準誤差（SE: Standard Error）と呼びます。サンプルサイズを変えると SE はどう変わるか：サンプルサイズ：標準誤差サンプルサイズ（4倍）：（元の半分になる）サンプルサイズ（9倍）：（元の3分の1になる）「精度を2倍にしたければ、サンプルサイズを4倍にする必要がある」——現実のアンケート設計でも重要な知識です。二項分布の正規近似（試験頻出）コインを100回投げるとき、表が出る回数はに従います。「ちょうど60回表が出る確率」を二項分布の式で厳密に計算しようとすると、 ——100! を含む計算です。手計算はおろか電卓でも大変です。「近似」のアイデア：を大きくすると、二項分布のヒストグラムはだんだん左右対称の滑らかな鐘型に近づいてきます。この形は正規分布にそっくりです。ならば「二項分布の代わりに正規分布で計算してしまおう」——これが正規近似の発想です。なぜ正規分布に近づくのか？ CLTがその理由を与えます。は「成功＝1・失敗＝0 という試行の回の合計」と見なせます。合計（平均 × ）は多くの独立試行の足し算——つまりCLTの条件を満たすので、が大きくなると正規分布に近づきます。近似の公式：二項分布の期待値（）と分散（）を使って正規分布を当てます。正規分布の期待値（第1引数）：正規分布の分散（第2引数）：正規分布の標準偏差：第2引数は分散です。標準偏差ではありません。ここは頻出のひっかけです。近似が使える目安：かつこの条件は「成功側にも失敗側にも、最低5回以上の期待値がある」ことを意味します。例えばなら期待成功数は回（5未満）——ほとんどが失敗で分布が左（0のほう）に極端に偏り、対称な正規分布の形になりません。一方なら成功も失敗も期待50回で、きれいな山型の正規分布に近くなります。ステップごとに解いてみよう：コインを100回投げたとき表が出る回数 Step 1：期待値と分散を計算する期待値：分散：標準偏差： Step 2：正規近似で書く Step 3：「表が60回以上出る確率」を求める正規分布表より（約2.3%）試験ポイント：計算手順は「①期待値・分散を求める → ② と書く → ③標準化して確率を読む」の3ステップです。 Chapter 4 への橋渡し：次の章では、という事実を使って、母平均の信頼区間と仮説検定を行います。CLT があるからこそ、母集団の形に関わらず正規分布の計算で推測できるのです。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。