← study-apps.com 学習サイト集トップへ

十分統計量と順序統計量

ネイマンの分解定理による十分統計量の特定と、順序統計量の分布理論を学びます。

このモジュールで学ぶこと 「コインを10回投げて、表・裏・表・表・裏…と並んでいたとします。コインが公平かどうかを調べたいとき、この順番は重要でしょうか?」——実は「表の合計枚数」だけで十分です。このモジュールでは、データを「情報を失わずに圧縮する」十分統計量の理論と、データを「小さい順に並べる」順序統計量の理論を学びます。 データの「圧縮」と「順位づけ」——統計量の2つの視点 前のモジュールまでで、標本平均や標本分散が母数の推定に使えることを学びました。では「どの統計量が最もデータの情報を活かしているか」「順位から分布について何がわかるか」という問いに答えるのが、このモジュールのテーマです。 十分統計量:情報を損失なく圧縮する コインを10回投げて「表:7回、裏:3回」というデータがあります。コインが公平かどうかを知りたいとき、「投げた順番(表裏表表裏…)」は重要でしょうか?——実は「表の合計枚数(7枚)」だけでコインの歪み を完全に推定できます。このように「それ以外のデータを見ても追加の情報が得られない統計量」を十分統計量(Sufficient Statistic)と呼びます。 が十分統計量なら、 を計算した後は元データを捨てても の推定で何も失いません。 十分統計量の判定にはネイマンの分解定理(Neyman Factorization Theorem)を使います。尤度関数(Likelihood Function) とは「パラメータが のもとで今のデータ が得られる確率(密度)」を の関数として見たものです: が という形に因数分解できるとき( は と にのみ依存し、 は に依存しない)、 は についての十分統計量です。 例:ポアソン分布 の i.i.d. 標本 での の十分統計量を求める。 ()、 と因数分解されるため、(合計)が の十分統計量です。 試験頻出:十分統計量の特定は「尤度関数 が と の関数の積に因数分解できるか」をネイマンの分解定理で確認する手順が定番問題です。 順序統計量:データを「小さい順」に並べる 100人の血圧を測って「最も低い人」「中央値の人」「最も高い人」を特定したいとします。このとき、測定値を小さい順に並べ替えた「 番目の値」が順序統計量です。十分統計量で「情報の圧縮」を学びましたが、ここでは「データを順位で見る」という別のアプローチを扱います。中央値・四分位数・最大・最小はすべて順序統計量の特殊ケースであり、ノンパラメトリック統計の理論的基礎になります。 個の標本 を小さい順に並べた を順序統計量と呼びます。 番目の順序統計量 の確率密度関数(PDF)は: この式の直感: となるには「 個が より小さく、 個が より大きく、1個がちょうど 付近にある」という配置が必要で、その組み合わせ数が係数になっています。 主要な順序統計量の分布: 最小値 ():(全員が を超える確率) 最大値 ():(全員が 以下の確率) 中央値の漸近分布 が大きいとき、 番目の順序統計量 は正規分布に漸近します。特に中央値 の漸近分布は: は真の中央値()、 は真の中央値における PDF の値です。密度が高い所では中央値の推定精度が高くなるという直感を持ちましょう。 試験頻出:最小値 と最大値 は頻出です。「 個すべてが より大きい確率」「 個すべてが 以下の確率」として覚えましょう。信頼区間・ノンパラメトリック検定の理論的基礎として使われます。

確認クイズ(抜粋)

Q1. ネイマンの分解定理で「十分統計量 」を使う主な理由はどれか?

A. データを だけに圧縮してもパラメータの推定で情報損失がない

Q2. ポアソン分布 のi.i.d.標本 における の十分統計量はどれか?

A. (合計)

Q3. 順序統計量 のうち、最小値 の分布の特徴はどれか?

A. (全観測値が を超える確率)

全10問のクイズはサイトのインタラクティブ版でお試しください。

第3章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。