← study-apps.com 学習サイト集トップへ

重回帰分析とモデル評価

「原因」から「結果」を予測するための、強力な方程式を組み立てます。

このモジュールで学ぶこと 「売上を増やしたい——どの要因が最も効いているか?」これを数式で答えるのが重回帰分析です。このモジュールでは、複数の要因を1本の方程式にまとめる方法・モデルの信頼性の評価方法・そして「うまくいかないとき」の診断方法を学びます。 「天気予報式」の予測方程式 天気予報では「気温・湿度・気圧・風向き」といった複数の要因を組み合わせて「明日の降水確率」を算出します。これと同じ発想が重回帰分析です。 単回帰:「気温だけ」で売上を予測する(1つの要因) 重回帰:「気温+曜日+イベントの有無」で売上を予測する(複数の要因) 現実の現象は複数の要因が絡み合っています。それらを一本の方程式にまとめ、「どの要因がどれくらい貢献しているか」を定量化するのが、この章の目的です。 重回帰モデル:予測の方程式 カフェの1日の売上(万円)を例に考えましょう。実際のデータを分析したところ: 「気温が1度上がるごとに売上が0.3万円増加、週末は平日より3.5万円多い、近くでイベントがあると2.1万円上乗せ」——このように各要因の「効果の大きさ」が 係数として読み取れます。 一般式は: 最小二乗法(OLS) を使って「実際のデータ」と「方程式の予測」のズレ(残差)の二乗和を最小化する を求めます。 ガウス=マルコフの仮定:推定量が「最良」であるために 一般式の (イプシロン)は誤差項と呼ばれます——方程式で説明しきれなかった「偶然のズレ」の受け皿です。例えば「気温・曜日・イベント」で売上の90%は説明できても、残り10%は「たまたまその日に近くで工事していた」など偶発的な要因によるもので、これを で表します。 最小二乗法の結果が「世界で一番正確な(分散が最小の)答え」であるためには、誤差項 が偏りなくランダムであることが必要です。この仮定が満たされるとき、OLS推定量は最良線形不偏推定量(BLUE: Best Linear Unbiased Estimator)になることをガウス=マルコフの定理が保証します。 モデルの評価:その方程式、信じて大丈夫? 変数を増やせば増やすほど、手元のデータへの「無理なこじつけ(過学習)」が起きてしまいます。 モデル複雑さを「直線→曲線→複雑」と変えてみましょう。複雑になるほどデータへの当てはまりが良くなりますが、AICの変化に注目してください。 複雑なモデルほど既知データには完璧に当てはまりますが、AICが悪化します——これが「過学習」の現象です。では、モデルを選んだ後に「本当に信頼できるか」をどう確かめるのでしょう? 交差妥当化(Cross Validation)は「訓練データだけで評価すると過学習を見逃す」問題を解決する手法です。-分割交差妥当化(-fold CV)ではデータを 個に分け、「 個で学習・残り1個でテスト」を 回繰り返して平均テスト誤差を汎化性能の推定値とします。「既に見たデータ」で評価すれば誰でも良いスコアを出せますが、「見ていないデータ」で評価することが本当の性能を測る鍵です。 決定係数 (coefficient of determination):「目的変数のばらつきのうち、モデルで説明できた割合」です。 に近いほど当てはまりが良く、0 に近いほど説明力が低いです。ただし変数を増やすと は必ず増大するという落とし穴があります。 自由度調整済み決定係数 :変数の数 とサンプルサイズ で補正し、「増やした変数が本当に貢献しているか」を反映します。。無駄な変数を加えると下がることがあります AIC(赤池情報量規準) (:最大尤度、:パラメータ数):当てはまりの良さ()とパラメータ数の少なさ( のペナルティ)のバランスを測る。変数を増やすと は下がるが が増えるため、本当に必要な変数だけが選ばれる。低いほど良い 試験頻出: は変数を増やすと必ず増大するため、準1級では自由度調整済み決定係数 やAICでモデルを比較します。 回帰診断:見えない落とし穴を検出する モデルに問題がないかを確認する「診断作業」も重要です。 多重共線性:説明変数同士が「似た者同士(強い相関)」だと係数が不安定になります。VIF(Variance Inflation Factor: 分散拡大係数) が 10 を超えたら要注意 leverage(てこ比):各データ点が「説明変数空間でどれだけ外れた位置にあるか」を表す指標。leverage が高い点は回帰直線を引っ張る力が強い(ハット行列 の対角成分 で定義) クックの距離:「leverage が高く(説明変数の外れ値)かつ残差が大きい(目的変数の外れ値)」点を影響力の高い点として検出する指標。クックの距離 (または )の点は特に要調査 ダービン・ワトソン比(DW比):「残差(予測とのズレ)に時間的なつながりがないか」を調べる指標。値が 2 に近いほど問題なし、0や4に近いほど「連続するデータが互いに影響し合っている(自己相関あり)」のサイン ブートストラップ法:手元のデータを繰り返し再抽出して標準誤差を計算機的に求める手法。分布の仮定が困難なときに有効 正則化回帰:変数が多すぎるとき Lasso回帰(L1正則化):不要な変数の係数を「完全に0」にして自動選択。L1の制約領域がひし形(角が尖っている)のため、最適解が角(係数=0の点)に来やすい Ridge回帰(L2正則化):係数が極端な値をとるのを抑えてモデルを安定化。L2の制約領域は球形で角がないため係数はゼロに近づくが完全には0にならない

確認クイズ(抜粋)

Q1. モデルの適合度と、パラメータ数の少なさを同時に評価する代表的な指標は?

A. AIC

Q2. VIF(分散拡大係数)がいくらを超えると、多重共線性が疑われるか?

A. 10

Q3. 不要な変数の回帰係数を完全に 0 にし、自動的に変数選択を行ってくれる手法は?

A. Lasso回帰

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。