← study-apps.com 学習サイト集トップへ

KL情報量・AIC・クロスバリデーション

モデル間の「ズレ」を定量化するKL情報量から、AIC・CVによるモデル選択まで学びます。

このモジュールで学ぶこと 「直線で当てはめるか、曲線で当てはめるか?」データへの当てはまりだけなら曲線の勝ちですが、未来のデータへの予測は直線の方が正確なこともあります——これが「どのモデルを選ぶか」という問いの核心です。このモジュールではカルバック・ライブラー情報量・AIC・クロスバリデーションという3つのアプローチを、理論的な関係も含めて学びます。対数尤度 の定義はモジュール 1.14 で扱いました。 過学習の数値例:「9次多項式で10点を当てはめる」 データ10点に対して9次多項式を当てはめると、訓練誤差はゼロ(完璧にフィット)になります。しかし新しいテストデータでの予測誤差は非常に大きくなります——曲線が「データの偶然のばらつき」までトレースしてしまうからです。これが過学習(overfitting)の典型例です。 モデル選択の問題は本質的に「手元のデータへの当てはまり」と「将来のデータへの予測能力」をどうバランスするかです。 カルバック・ライブラー情報量 2つの確率分布 (真の分布)と (推定モデル)の「ズレ」を測る指標がカルバック・ライブラー情報量(KL情報量、KL-Divergence)です: KL情報量の直感的意味 は「真の分布 で観測したとき、 を使った場合に生じる平均的な情報損失」と解釈できます。 なら情報損失はゼロ、ずれるほど大きくなります。 、等号は のとき。ただし対称ではない()——「距離」ではなく「乖離量」(divergence)と呼ぶのはこのためです。 AIC が KL情報量の近似である導出 「フィットが良くてもパラメータが多すぎると将来データへの予測が悪くなる」——このバランスを取るのが情報量規準です。 真の分布 と推定モデル (最尤推定パラメータ)の KL情報量を最小化したいですが、 は未知です。赤池(1974)は次の近似を示しました——「平均的な KL情報量のずれ」は次の量で近似できます: ここで はパラメータ数。この量をAIC(赤池情報量規準、Akaike Information Criterion)と呼びます: は最大対数尤度(フィットの良さ)、 は複雑さへのペナルティ。AIC が小さいモデルが優れています。 の項は「パラメータを推定したことによる尤度の楽観的バイアス」を補正するために加わります。 試験頻出:AIC の比較は同一データに対して複数モデルを評価するときに使います。AIC の絶対値の意味はなく、相対比較が重要です。 よくある誤解:「AIC が小さいモデル = 絶対的に良いモデル」と思いがちですが、誤りです。AIC は同一データ・同一目的変数で計算された複数モデル間の相対指標で、絶対値そのものに意味はありません(対数尤度の定数項や標本サイズの取り方で値が変わる)。「AIC = 200 のモデルは AIC = 5000 のモデルより25倍良い」のような解釈はできません。意味があるのは「差 」で、慣例として ならほぼ同等、 なら明確に劣ると判断します。 AIC と BIC の違い BIC(ベイズ情報量規準)は次の量を最小化します: ペナルティが でサンプルサイズに依存する点が AIC と異なります。 例: なら なので、BIC はパラメータ追加に対し AIC より厳しい。 が大きいほど差が広がります。 クロスバリデーション(交差検証) クロスバリデーション(Cross-Validation, CV)は「データを訓練用と検証用に分けて、モデルの汎化性能を直接推定する」方法です。AIC が理論的な近似なのに対し、CV は実測値です。 k分割交差検証(k-fold CV):データを 個のグループ(フォールド)に等分し、1つを検証用・残り を訓練用として 回繰り返します。各回の検証誤差の平均が汎化誤差の推定値です。 Leave-One-Out CV(LOOCV):(データ数と同じ)の場合。1つずつ除いて学習し、除いた1点で検証を繰り返します。ジャックナイフ法と構造が同じです。 CV と AIC の理論的関係 LOOCV は AIC と漸近的に同値であることが知られています(Stone, 1977)。両者とも「予測誤差の不偏推定」を目指す立場で、大標本では同じモデルを選ぶ傾向があります。違いは: AIC:解析的な近似——計算が速い、対数尤度ベースで理論的 CV:実測ベース——分布の仮定が緩い、計算コストが高い( 回学習) 試験頻出:「AIC、cross validation」はシラバスに明示されたモデル選択の手法です。「過学習の防止」「汎化性能の推定」という文脈で使い分けを問われます。BIC との違い(予測重視 vs 真モデル仮定)も頻出です。 数値例:AIC によるモデル比較 カフェの売上を予測するために3つのモデルを比較します(): AIC では M3(最小値258)が選ばれますが、BIC では M2(最小値269.2)と M3(268.4)がほぼ同等です。 という重いペナルティが BIC を「より単純なモデル寄り」にしている様子が分かります。 関連モジュールへの導線 1.14 推定法:本モジュールの (最大対数尤度)の定義と計算手順を扱います。 1.15 推定量の性質:MLE の一致性・有効性は AIC の理論的根拠を支えます。 1.22 漸近理論:フィッシャー情報量・MLE の漸近正規性が AIC 導出の背景にあります。 モデル選択の実務的な原則 「AIC が最小だから最良」と機械的に決めるのは危険です。実務では: 複数の規準を併用:AIC・BIC・CV を比較し、結論が一致するモデルを優先 解釈可能性:複雑なモデルが少しだけ AIC が低くても、シンプルなモデルを選ぶ判断もある 検証データの確保:CV や別データセットで予測精度を確認することが理想 過学習は「データに対する誠実さの欠如」とも言えます。シンプルさを尊重する姿勢が、信頼できる統計分析の基本です。

確認クイズ(抜粋)

Q1. KL情報量 の性質として正しいものはどれか?

A. 常に0以上で、等号は のとき

Q2. AIC = において、 の項が存在する理由はどれか?

A. パラメータ数が多いモデルへのペナルティ(過学習の防止)

Q3. AIC と BIC を比較したとき、BIC の特徴として正しいものはどれか?

A. BIC のペナルティ項は でサンプルが多いほど大きくなる

全10問のクイズはサイトのインタラクティブ版でお試しください。

第4章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。