シミュレーション手法と欠測値
ブートストラップ・モンテカルロ・欠測値のメカニズムとEMアルゴリズムを学びます。
このモジュールで学ぶこと
「解析的に分布を求められないとき、どうすれば推測できるか?」「データが欠けているとき、単純に除外すると何が問題か?」——このモジュールでは計算に頼る手法(シミュレーション)と欠測データの扱いを学びます。
「数式が解けないなら大量計算で解く」という発想
確率論の多くの問題は解析的に解けませんが、コンピュータで乱数を大量に発生させて近似することができます。これがモンテカルロ法の基本的な考え方です。
モンテカルロ法
モンテカルロ法(Monte Carlo Method)は「乱数でシミュレーションして期待値・確率を推定する」手法の総称です。
例:円の面積を求めるモンテカルロ法——正方形の中にランダムに点を打ち、円の内側に落ちた割合から面積()を推定します。
一般的な枠組み:積分 を推定したい場合、 から を生成して で近似します(大数の法則による一致性)。
棄却法(Rejection Sampling): から直接サンプリングできない場合、包絡分布 から を生成し、確率 で採択します。
ブートストラップ法
「推定量の標準誤差や信頼区間を、分布の仮定なしで計算したい」——これを可能にするのがブートストラップ法(Bootstrap Method)です。
手順:
元の 個のデータから復元抽出で 個を抽出(ブートストラップ標本)
そのブートストラップ標本で推定量 を計算
これを 回(例:)繰り返して を得る
この分布を「標本分布の推定」として使い、標準偏差を標準誤差の推定値とします
ブートストラップの信頼区間: の 分位点と 分位点で構成します。
有効な場面:標準誤差の計算式が複雑な統計量(中央値・スピアマン ・回帰係数の非線形変換など)。正規性の仮定が危うい小標本。
ジャックナイフ法(「漸近理論と情報量規準」で扱います)はブートストラップの前身で、1個ずつ除いた推定量を使います。
乱数生成
シミュレーション法の基礎は一様乱数の生成です。線形合同法などの疑似乱数生成器(PRNG)が使われます。
逆関数法(Inverse CDF Method): として とすれば 。CDF の逆関数が求めやすい分布(指数分布など)に有効です。
複雑な分布には棄却法・重点サンプリング(Importance Sampling)・MCMC(「ベイズ推定とマルコフ連鎖」参照)などを組み合わせます。
乱数生成でデータをシミュレートできるようになりました。しかし現実のデータには「そもそも値が観測されていない(欠測)」という問題が伴います。欠測を無視した分析はバイアスを生む可能性があり、適切な扱い方を知ることが重要です。
欠測値のメカニズム
データの欠測は3種類に分類されます(Rubin, 1976):
MCAR(Missing Completely At Random):欠測が完全にランダム——他のデータ(観測・非観測)と無関係。例:機器の偶発的故障。完全ケース分析でもバイアスは生じません。
MAR(Missing At Random):欠測が観測済みデータに依存——未観測データには依存しない。例:「高齢者は収入を答えにくい」(年齢は観測済み)。適切な手法(多重代入法など)を使えば一致推定が得られます。
MNAR(Missing Not At Random / Non-Ignorable):欠測が未観測データ自体に依存。例:「高収入の人ほど収入を答えない」。欠測モデルを明示的に扱う必要があり最も難しいケースです。
試験頻出:MCAR・MAR・MNARの違いと、MNARがバイアスをもたらす理由を理解しましょう。
EMアルゴリズム
「男女が混在する身長データ100件があるが、それぞれがどちらの性別かがわからない(ラベルが欠落している)」——このとき「男性の平均身長」と「女性の平均身長」をどう推定すればよいでしょうか?ラベルがわかれば平均を計算できますが、ラベル推定には平均が必要という循環があります。この「欠測している情報と推定したいパラメータを交互に更新して収束させる」のがEMアルゴリズム(Expectation-Maximization Algorithm)です。欠測データや観測できない潜在変数を含むモデルの最尤推定に広く使われます。
Eステップ(Expectation Step):現在のパラメータ推定値 を使って、欠測データの条件付き期待値 を計算。
Mステップ(Maximization Step): を最大化する を求める。
E・Mを繰り返すと対数尤度は単調増加して収束します。局所最大解に収束するため初期値の選択が重要です。
応用:混合正規分布のパラメータ推定、因子分析(欠測あり)、隠れマルコフモデルなど。
多重代入法(Multiple Imputation)は欠測値を複数の代入値で置き換えて複数の完全データを作り、それぞれで分析して結果を結合します。MAR の仮定のもとで有効な推測が可能です。
確認クイズ(抜粋)
Q1. モンテカルロ法の基本原理はどれか?
A. 乱数シミュレーションを使って期待値・確率を近似する方法
Q2. ブートストラップ法の手順として正しいものはどれか?
A. 元データから復元抽出で 個を取り出し推定量を計算することを多数回繰り返す
Q3. 欠測メカニズム MCAR(Missing Completely At Random)の定義として正しいものはどれか?
A. 欠測が観測・未観測のどのデータとも独立で完全にランダム
全10問のクイズはサイトのインタラクティブ版でお試しください。
第6章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。