重回帰分析とモデル評価

「原因」から「結果」を予測するための、強力な方程式を組み立てます。

このモジュールで学ぶこと「売上を増やしたい——どの要因が最も効いているか？」これを数式で答えるのが重回帰分析です。このモジュールでは、複数の要因を1本の方程式にまとめる方法・モデルの信頼性の評価方法・そして「うまくいかないとき」の診断方法を学びます。「天気予報式」の予測方程式天気予報では「気温・湿度・気圧・風向き」といった複数の要因を組み合わせて「明日の降水確率」を算出します。これと同じ発想が重回帰分析です。単回帰：「気温だけ」で売上を予測する（1つの要因）重回帰：「気温＋曜日＋イベントの有無」で売上を予測する（複数の要因）現実の現象は複数の要因が絡み合っています。それらを一本の方程式にまとめ、「どの要因がどれくらい貢献しているか」を定量化するのが、この章の目的です。重回帰モデル：予測の方程式カフェの1日の売上（万円）を例に考えましょう。実際のデータを分析したところ：「気温が1度上がるごとに売上が0.3万円増加、週末は平日より3.5万円多い、近くでイベントがあると2.1万円上乗せ」——このように各要因の「効果の大きさ」が係数として読み取れます。一般式は：最小二乗法（OLS）を使って「実際のデータ」と「方程式の予測」のズレ（残差）の二乗和を最小化するを求めます。ガウス＝マルコフの仮定：推定量が「最良」であるために一般式の（イプシロン）は誤差項と呼ばれます——方程式で説明しきれなかった「偶然のズレ」の受け皿です。例えば「気温・曜日・イベント」で売上の90%は説明できても、残り10%は「たまたまその日に近くで工事していた」など偶発的な要因によるもので、これをで表します。最小二乗法の結果が「世界で一番正確な（分散が最小の）答え」であるためには、誤差項が偏りなくランダムであることが必要です。この仮定が満たされるとき、OLS推定量は最良線形不偏推定量（BLUE: Best Linear Unbiased Estimator）になることをガウス＝マルコフの定理が保証します。モデルの評価：その方程式、信じて大丈夫？変数を増やせば増やすほど、手元のデータへの「無理なこじつけ（過学習）」が起きてしまいます。モデル複雑さを「直線→曲線→複雑」と変えてみましょう。複雑になるほどデータへの当てはまりが良くなりますが、AICの変化に注目してください。複雑なモデルほど既知データには完璧に当てはまりますが、AICが悪化します——これが「過学習」の現象です。では、モデルを選んだ後に「本当に信頼できるか」をどう確かめるのでしょう？交差妥当化（Cross Validation）は「訓練データだけで評価すると過学習を見逃す」問題を解決する手法です。-分割交差妥当化（-fold CV）ではデータを個に分け、「個で学習・残り1個でテスト」を回繰り返して平均テスト誤差を汎化性能の推定値とします。「既に見たデータ」で評価すれば誰でも良いスコアを出せますが、「見ていないデータ」で評価することが本当の性能を測る鍵です。決定係数（coefficient of determination）：「目的変数のばらつきのうち、モデルで説明できた割合」です。に近いほど当てはまりが良く、0 に近いほど説明力が低いです。ただし変数を増やすとは必ず増大するという落とし穴があります。自由度調整済み決定係数：変数の数とサンプルサイズで補正し、「増やした変数が本当に貢献しているか」を反映します。。無駄な変数を加えると下がることがあります AIC（赤池情報量規準）（：最大尤度、：パラメータ数）：当てはまりの良さ（）とパラメータ数の少なさ（のペナルティ）のバランスを測る。変数を増やすとは下がるがが増えるため、本当に必要な変数だけが選ばれる。低いほど良い試験頻出：は変数を増やすと必ず増大するため、準1級では自由度調整済み決定係数やAICでモデルを比較します。回帰診断：見えない落とし穴を検出するモデルに問題がないかを確認する「診断作業」も重要です。多重共線性：説明変数同士が「似た者同士（強い相関）」だと係数が不安定になります。VIF（Variance Inflation Factor: 分散拡大係数）が 10 を超えたら要注意 leverage（てこ比）：各データ点が「説明変数空間でどれだけ外れた位置にあるか」を表す指標。leverage が高い点は回帰直線を引っ張る力が強い（ハット行列の対角成分で定義）クックの距離：「leverage が高く（説明変数の外れ値）かつ残差が大きい（目的変数の外れ値）」点を影響力の高い点として検出する指標。クックの距離（または）の点は特に要調査ダービン・ワトソン比（DW比）：「残差（予測とのズレ）に時間的なつながりがないか」を調べる指標。値が 2 に近いほど問題なし、0や4に近いほど「連続するデータが互いに影響し合っている（自己相関あり）」のサインブートストラップ法：手元のデータを繰り返し再抽出して標準誤差を計算機的に求める手法。分布の仮定が困難なときに有効正則化回帰：変数が多すぎるとき Lasso回帰（L1正則化）：不要な変数の係数を「完全に0」にして自動選択。L1の制約領域がひし形（角が尖っている）のため、最適解が角（係数＝0の点）に来やすい Ridge回帰（L2正則化）：係数が極端な値をとるのを抑えてモデルを安定化。L2の制約領域は球形で角がないため係数はゼロに近づくが完全には0にならない

確認クイズ（抜粋）

Q1. モデルの適合度と、パラメータ数の少なさを同時に評価する代表的な指標は？

A. AIC

Q2. VIF（分散拡大係数）がいくらを超えると、多重共線性が疑われるか？

A. 10

Q3. 不要な変数の回帰係数を完全に 0 にし、自動的に変数選択を行ってくれる手法は？

A. Lasso回帰

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。