ベイズ推定とMCMC
「今の確信」を「新しいデータ」でアップデートし続ける、進化する統計学。
このモジュールで学ぶこと
「昨日まで雨が続いていたから、今日も雨だろう」——このように過去の経験を踏まえて確率を更新し続ける統計学の考え方がベイズ統計です。このモジュールでは、事前知識とデータを組み合わせて確信を更新するベイズ推論の仕組みと、計算上難しい問題を解くためのシミュレーション手法(MCMC)を学びます。
「医師の診断」のような段階的な確率更新
患者が「頭痛」を訴えています。医師は最初「風邪の可能性が80%、髄膜炎が5%、偏頭痛が15%」と経験から推測します(事前分布)。
次に「首を動かすと痛い」という新しい情報が加わります(尤度)。この情報は髄膜炎と高く関連するため、医師の判断が更新されます(事後分布)。
これがベイズ統計の核心——「今の確信」に「新しい証拠」を掛け合わせて「更新された確信」を得るプロセスです。
ベイズの定理:確信を更新する方程式
具体例:迷惑メールフィルターを考えましょう。
事前確率(事前分布):もともとメールの30%がスパムだと知っている
尤度(Likelihood):「無料」「当選」という単語が含まれていた。スパムにこの組み合わせが出る確率は80%、正常メールでは5%
事後確率(事後分布):ベイズの定理で計算すると「スパムの確率は約87%」
(「」は「比例する」という記号です。等号ではなく「形が同じ」という意味で使います。右辺の計算だけで事後分布の形(山の形状)が決まるため、難しい分母の計算を省略できます)
(事後分布)(尤度)(事前分布)
観測データ数のスライダーを増やしながら、事後分布がどう変化するか観察してみましょう。
データが増えるほど事後分布が「細く高く」なり、確信が深まっていく様子が分かります——これがベイズ推定の「学習」です。
計算上の問題とMCMC
事後分布を正確に求めようとすると分母の積分が複雑で計算できないことが多々あります。
分母が必要な理由:事後分布は確率なので全体の合計が1でなければなりません。分子(尤度×事前分布)だけでは合計が1を超えることがあるため、全 にわたって足し合わせた分母で割ることで「合計が1になるよう正規化」します。この分母の積分が、パラメータが1つの単純なケースでは解けますが、パラメータが10個・100個と増えると「10次元・100次元の空間で体積を計算する」ことになり、事実上計算不可能になります。そこで登場するのが MCMC(マルコフ連鎖モンテカルロ法)です。
仕組み:分布そのものを求める代わりに、その分布から「サンプル」を大量に抽出してヒストグラムで形を近似する
マルコフ連鎖(Markov Chain):「一つ前の状態のみに依存して次の状態が決まる」過程。これによって効率的なサンプリングが可能になる
ギブスサンプリング:たくさんのパラメータがあるとき、1つずつ順番に更新していく効率的なサンプリング手法
MCMCがどのようにサンプルを生成していくか、その軌跡を観察してみましょう。
このサンプルの集積が確率の高い領域を密に覆い、複雑な事後分布を近似します——「計算不可能な積分をサンプリングで回避する」のがMCMCの本質です。
共役事前分布とMAP推定
事後分布からの点推定
事後分布が得られたら、そこから代表値を1つ選ぶ必要があります:
事後平均(EAP: Expected A Posteriori):事後分布の平均値を採用する、最もよく使われる方法
MAP推定(Maximum A Posteriori):事後分布の最頻値(確率が最も高い点)を採用する方法。最尤推定(MLE)に事前分布の情報を加えた形と解釈できる
重要ポイント:共役事前分布
特定の事前分布と尤度の組み合わせを使うと、MCMCなしで足し算のような簡単な計算だけで事後分布が求められます。代表的な共役関係:
二項分布の確率 :事前分布にベータ → 事後分布も (成功 回、試行 回を足すだけ)
ポアソン分布の :事前分布にガンマ → 事後分布も
正規分布の平均 (分散既知):事前分布に正規分布 → 事後分布も正規分布
例えば「コインを10回投げて7回表」のデータに対して、ベータ事前分布を使うと事後分布がパラメータを足すだけで求まります。この「形が変わらない」組み合わせが共役関係です。
無情報事前分布とジェフリーズ事前分布
事前知識が全くないとき、「どの値も同じくらいもっともらしい」として一様分布を事前分布に使う考え方を無情報事前分布(Uninformative Prior)と呼びます。これを使うと事後分布は尤度だけで決まり、最尤法に近い推定になります。
ただし単純な一様分布は変数変換に対して不変でないという問題があります——例えば に一様分布を置いても、 には一様分布にならない。この問題を解決するのがジェフリーズ事前分布(Jeffreys Prior)で、フィッシャー情報量 を使って と定義します。ジェフリーズ事前分布は変数変換に対して不変(変換しても同じ無情報性を保つ)という理論的に自然な性質を持ちます。
確認クイズ(抜粋)
Q1. ベイズ推定において、データを得る前に設定する母数の確率分布を何と呼ぶ?
A. 事前分布
Q2. 「事後分布は、事前分布と尤度の積に比例する」という関係を示す定理は?
A. ベイズの定理
Q3. 事前分布と事後分布が同じ種類の分布(関数形)になるような、計算上便利な事前分布は?
A. 共役事前分布
全10問のクイズはサイトのインタラクティブ版でお試しください。
第6章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。