回帰分析
単回帰・最小二乗法・決定係数の基礎を学びます。
このモジュールで学ぶこと
「広告費を1万円増やすと売上は何円増えるか?」——このような「Xが1単位増えたときYがどれだけ変化するか」という予測の問いに答えるのが回帰分析です。散布図上の点にできるだけ近い直線を引き、その直線の式を使って予測するイメージです。単回帰モデルの構造・最小二乗法による係数の推定・決定係数による当てはまりの評価という3つのステップを順に学びましょう。
単回帰モデル:直線で関係を定式化する
ある会社の月次データとして「広告費 (万円)」と「売上 (万円)」の12か月分のデータがあるとします。散布図を描くと右上がりの傾向が見えますが、点は直線上にぴったり乗るわけではありません。各月ごとに天候・競合他社の動向など広告費以外の要因があるからです。
単回帰モデルは「広告費で説明できる部分(回帰直線)」と「説明できない個体ごとのばらつき(誤差項)」に分けて考えます。
(切片): のときの の期待値。グラフで直線が縦軸を切る点。
(回帰係数・傾き): が1万円増えたときの の期待増加量。「広告費1万円あたりの売上効果」。
(誤差項):直線では説明できない 番目のデータのばらつき。平均0・分散 の正規分布に従うと仮定。
最小二乗法:「縦の距離」を最小化する
単回帰モデルを使うには、 と の値を実際のデータから推定しなければなりません。
回帰直線が決まれば、各データ点 について予測値 (直線上の点)と実測値 (実際のデータ点)の縦方向の距離を計算できます。この差 を残差(residual)といいます。残差が小さいほど直線がデータに近く、当てはまりが良いことを意味します。
最小二乗法(OLS: Ordinary Least Squares)は「残差二乗和 を最小化する」ことで と を決める方法です。二乗するのは「プラスとマイナスの残差が打ち消し合うのを防ぐ」こと、そして「大きな残差(外れた点)をより強く罰する」ためです。
残差二乗和を最小化する と は、微積分(微分して0とおく)を使って導かれます。微積分は試験範囲外のため導出は省略しますが、結果として次の式が得られます:
なぜ分子が で分母が なのでしょうか。残差二乗和 を について微分して0とおくと、 という等式が得られます。これを整理すると上の式になります——「 と がどれだけ一緒に動くか(共変動)」を「 だけの散らばり」で割った値が最適な傾きです。
は と の「共変動」を の「散らばり」で割った値、つまり「 の単位変化あたりの の変化量」です。回帰直線は必ず (平均点)を通ります。
決定係数:モデルの当てはまりの良さを数値化する
回帰直線を引いた後、「この直線はデータをどれくらいうまく説明できているか」を評価する指標が決定係数 です。
分子の は「回帰モデルで説明できなかった変動(残差二乗和)」、分母の は「 の全変動」です。 なら「広告費だけで売上のばらつきの80%を説明できる。残り20%は広告費以外の要因」という意味です。
の範囲をとり、1に近いほど当てはまりが良く、0は「回帰モデルが の変動を全く説明できない」を意味します。例えば なら「広告費を知っても売上の10%しか説明できない」、 なら「広告費だけで売上の変動の90%が説明できる」良いモデルです。単回帰では (ピアソン相関係数の二乗)が成り立ちます。
試験ポイント: の解釈「 が1単位増えたときの の期待増加量」、最小二乗法は「残差二乗和の最小化」、 は「 の変動のうちモデルで説明できる割合」、単回帰では (相関係数の二乗)——この4点を正確に言葉で説明できるようにしましょう。
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。