← study-apps.com 学習サイト集トップへ

大数の法則と中心極限定理

大数の法則・中心極限定理・スルスキーの定理——「サンプルが増えると何が保証されるか」を学びます。

このモジュールで学ぶこと 「1クラス30人の身長を測るだけで、全国平均が推測できる」——なぜそんなことが可能なのでしょうか?前のモジュールで正規分布の形を学びました。次は「なぜ手元の標本から母集団全体について語れるのか」の数学的な根拠——大数の法則と中心極限定理——を学びます。 大数の法則(LLN):サンプルが増えると平均は真値へ一点収束する まず「どのくらいサンプルを増やせば安心か」という直感を養いましょう。 サイコロの例で確認: 1〜6の目が等確率で出るサイコロの、真の期待値は です。 6回振ると → 平均が 2.3 や 4.7 になることもある(ばらつき大) 100回振ると → 平均はだいたい 3〜4 の間に収まる 1万回振ると → 平均は必ず 3.5 にほぼ一致 これが 大数の法則(Law of Large Numbers, LLN) です。数式では: 「」は「確率収束する」という記号で、「 を大きくすると、 が から離れる確率が0に近づく」という意味です。値そのものが真値 の1点に近づいていくイメージです。 試験頻出: の表記と意味(「 が増えると が から離れる確率が0になる」)は必ず押さえましょう。 弱法則と強法則:大数の法則には2種類あります。弱法則(WLLN)は確率収束()、強法則(SLLN)はより強い「概収束」()です。概収束は「ほぼ確実にすべての標本列が に収束する」ことを意味し、弱法則より強い保証です。準1級では両者の違いを問われることがあります。 中心極限定理(CLT):平均の「分布の形」まで正規分布になる 大数の法則は「値が真値に近づく」ことを示しました。ではさらに「どのくらい近いか(バラツキの形)」まで言えるのが中心極限定理です。 コイン投げの例で確認: コインを100回投げて「表の枚数」を数える実験を、1000回繰り返したとします。コイン投げは本来「表か裏か」という単純な0-1の分布ですが——1000回の実験で得た「表の枚数の分布」をヒストグラムにすると、平均50・標準偏差5の正規分布の形になります。 これが 中心極限定理(Central Limit Theorem, CLT) です。元のデータの分布がどんな形でも、その平均値をたくさん集めると、正規分布に近づきます: 「」は「分布収束する」という記号です(大数の法則の「(値が一点に近づく)」とは別物です)。CLTは「値」ではなく、 の分布の形全体が正規分布の形へと近づくことを言っています。 数式を変形すると標準化した形にもなります:。 なぜ最強の定理なのか? CLTが成立するための条件は「平均と分散が有限に存在すること」だけです。元の分布(年収・クレーム件数など)が不明でも、データさえ多ければ正規分布の道具で強気に分析できます。 二項分布の正規近似: は が十分大きければ で近似できます(ド・モアブル=ラプラスの定理)。コイン100回の例では となります。 スライダーを動かしてみよう: :指数分布(右に強く歪んだ形)——元の分布がそのまま見える 前後:ここからようやく「鐘の形」らしくなってくる 以上:正規分布にほぼ一致。これが CLT の「 が十分大きければ」の目安 が増えるにつれ青い実線(実際の分布)が灰色の点線()に収束していきます——これが中心極限定理の「収束」の意味です。 (補足)スルスキーの定理 大数の法則とCLTをそれぞれ別々に証明しても、実際の問題ではこの2つを組み合わせて使うことが多いです。そのときに使う補題がスルスキーの定理です。 「①CLTで正規分布に近づく部分」と「②LLNで真値に近づく部分」を掛け合わせた統計量の収束先は、それぞれの収束先を掛けたものになります。 具体例:t検定統計量 母分散(真のばらつき )が不明なとき、検定では標本標準偏差 を使った統計量を使います: CLTより: は に近づく LLNより:(つまり ) スルスキーの定理は「これら2つを掛け算しても収束先は変わらない」と保証します。よって は に近づきます。 よい推定量の条件:「どの計算式で推測するのがベストか?」 大数の法則により「サンプルを増やせば真値に近づく」ことはわかりました。では、同じデータから推定するとき、どの計算式(推定量)を使うのがベストなのか? その品質基準を4つ学びます。 ダーツ(矢投げ)で例えましょう。的の中心が「真の値 」、矢1本1本が「推定値 (シータハット)」です。 不偏性(Unbiasedness):何度も投げたとき、矢の重心(平均の着地点)が的の中心に来ている——式で表すと 。標本平均はこれを満たします。 一致性(Consistency):投げる回数(データ数 )を増やすほど、矢が中心に集まっていく。大数の法則と直接対応します:()。 有効性(Efficiency):同じ「偏りのない(不偏な)」射手2人を比べたとき、より中心近くにまとまって刺さる方が有効。散らばり(分散)が最小の推定量を最小分散不偏推定量(MVUE)と呼びます。 十分性(Sufficiency):データを1つの統計量に圧縮しても、 に関する情報が一切失われない性質。例えば正規分布の母平均を推定するとき、標本平均 だけ知れば個々のデータを全部見るのと同じ情報量があります——これが十分統計量の意味です。 試験頻出:不偏性()と一致性()は定義を混同しないように。不偏性は「有限サンプルでの偏り」、一致性は「サンプルが増えたときの収束」についての性質です。

確認クイズ(抜粋)

Q1. 「元の分布が何であれ、サンプルサイズ を大きくすると標本平均の分布は正規分布に近づく」という定理は?

A. 中心極限定理

Q2. 大数の法則 の「」の意味として正しいものはどれか?

A. のとき (確率収束)

Q3. サンプルサイズ を大きくしたとき、推定値が真の値に確率的に収束していく性質を何と呼ぶ?

A. 一致性

全10問のクイズはサイトのインタラクティブ版でお試しください。

第3章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。