KL情報量・AIC・クロスバリデーション

Q: KL情報量 の性質として正しいものはどれか？

常に0以上で、等号は のとき

Q: AIC と BIC を比較したとき、BIC の特徴として正しいものはどれか？

BIC のペナルティ項は でサンプルが多いほど大きくなる

モデル間の「ズレ」を定量化するKL情報量から、AIC・CVによるモデル選択まで学びます。

このモジュールで学ぶこと「直線で当てはめるか、曲線で当てはめるか？」データへの当てはまりだけなら曲線の勝ちですが、未来のデータへの予測は直線の方が正確なこともあります——これが「どのモデルを選ぶか」という問いの核心です。このモジュールではカルバック・ライブラー情報量・AIC・クロスバリデーションという3つのアプローチを、理論的な関係も含めて学びます。対数尤度の定義はモジュール 1.14 で扱いました。過学習の数値例：「9次多項式で10点を当てはめる」データ10点に対して9次多項式を当てはめると、訓練誤差はゼロ（完璧にフィット）になります。しかし新しいテストデータでの予測誤差は非常に大きくなります——曲線が「データの偶然のばらつき」までトレースしてしまうからです。これが過学習（overfitting）の典型例です。モデル選択の問題は本質的に「手元のデータへの当てはまり」と「将来のデータへの予測能力」をどうバランスするかです。カルバック・ライブラー情報量 2つの確率分布（真の分布）と（推定モデル）の「ズレ」を測る指標がカルバック・ライブラー情報量（KL情報量、KL-Divergence）です： KL情報量の直感的意味は「真の分布で観測したとき、を使った場合に生じる平均的な情報損失」と解釈できます。なら情報損失はゼロ、ずれるほど大きくなります。、等号はのとき。ただし対称ではない（）——「距離」ではなく「乖離量」（divergence）と呼ぶのはこのためです。 AIC が KL情報量の近似である導出「フィットが良くてもパラメータが多すぎると将来データへの予測が悪くなる」——このバランスを取るのが情報量規準です。真の分布と推定モデル（最尤推定パラメータ）の KL情報量を最小化したいですが、は未知です。赤池（1974）は次の近似を示しました——「平均的な KL情報量のずれ」は次の量で近似できます：ここではパラメータ数。この量をAIC（赤池情報量規準、Akaike Information Criterion）と呼びます：は最大対数尤度（フィットの良さ）、は複雑さへのペナルティ。AIC が小さいモデルが優れています。の項は「パラメータを推定したことによる尤度の楽観的バイアス」を補正するために加わります。試験頻出：AIC の比較は同一データに対して複数モデルを評価するときに使います。AIC の絶対値の意味はなく、相対比較が重要です。よくある誤解：「AIC が小さいモデル = 絶対的に良いモデル」と思いがちですが、誤りです。AIC は同一データ・同一目的変数で計算された複数モデル間の相対指標で、絶対値そのものに意味はありません（対数尤度の定数項や標本サイズの取り方で値が変わる）。「AIC = 200 のモデルは AIC = 5000 のモデルより25倍良い」のような解釈はできません。意味があるのは「差」で、慣例としてならほぼ同等、なら明確に劣ると判断します。 AIC と BIC の違い BIC（ベイズ情報量規準）は次の量を最小化します：ペナルティがでサンプルサイズに依存する点が AIC と異なります。例：ならなので、BIC はパラメータ追加に対し AIC より厳しい。が大きいほど差が広がります。クロスバリデーション（交差検証）クロスバリデーション（Cross-Validation, CV）は「データを訓練用と検証用に分けて、モデルの汎化性能を直接推定する」方法です。AIC が理論的な近似なのに対し、CV は実測値です。 k分割交差検証（k-fold CV）：データを個のグループ（フォールド）に等分し、1つを検証用・残りを訓練用として回繰り返します。各回の検証誤差の平均が汎化誤差の推定値です。 Leave-One-Out CV（LOOCV）：（データ数と同じ）の場合。1つずつ除いて学習し、除いた1点で検証を繰り返します。ジャックナイフ法と構造が同じです。 CV と AIC の理論的関係 LOOCV は AIC と漸近的に同値であることが知られています（Stone, 1977）。両者とも「予測誤差の不偏推定」を目指す立場で、大標本では同じモデルを選ぶ傾向があります。違いは： AIC：解析的な近似——計算が速い、対数尤度ベースで理論的 CV：実測ベース——分布の仮定が緩い、計算コストが高い（回学習）試験頻出：「AIC、cross validation」はシラバスに明示されたモデル選択の手法です。「過学習の防止」「汎化性能の推定」という文脈で使い分けを問われます。BIC との違い（予測重視 vs 真モデル仮定）も頻出です。数値例：AIC によるモデル比較カフェの売上を予測するために3つのモデルを比較します（）： AIC では M3（最小値258）が選ばれますが、BIC では M2（最小値269.2）と M3（268.4）がほぼ同等です。という重いペナルティが BIC を「より単純なモデル寄り」にしている様子が分かります。関連モジュールへの導線 1.14 推定法：本モジュールの（最大対数尤度）の定義と計算手順を扱います。 1.15 推定量の性質：MLE の一致性・有効性は AIC の理論的根拠を支えます。 1.22 漸近理論：フィッシャー情報量・MLE の漸近正規性が AIC 導出の背景にあります。モデル選択の実務的な原則「AIC が最小だから最良」と機械的に決めるのは危険です。実務では：複数の規準を併用：AIC・BIC・CV を比較し、結論が一致するモデルを優先解釈可能性：複雑なモデルが少しだけ AIC が低くても、シンプルなモデルを選ぶ判断もある検証データの確保：CV や別データセットで予測精度を確認することが理想過学習は「データに対する誠実さの欠如」とも言えます。シンプルさを尊重する姿勢が、信頼できる統計分析の基本です。

確認クイズ（抜粋）

Q1. KL情報量の性質として正しいものはどれか？

A. 常に0以上で、等号はのとき

Q2. AIC = において、の項が存在する理由はどれか？

A. パラメータ数が多いモデルへのペナルティ（過学習の防止）

Q3. AIC と BIC を比較したとき、BIC の特徴として正しいものはどれか？

A. BIC のペナルティ項はでサンプルが多いほど大きくなる

全10問のクイズはサイトのインタラクティブ版でお試しください。

第4章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。