回帰分析

単回帰・最小二乗法・決定係数の基礎を学びます。

このモジュールで学ぶこと「広告費を1万円増やすと売上は何円増えるか？」——このような「Xが1単位増えたときYがどれだけ変化するか」という予測の問いに答えるのが回帰分析です。散布図上の点にできるだけ近い直線を引き、その直線の式を使って予測するイメージです。単回帰モデルの構造・最小二乗法による係数の推定・決定係数による当てはまりの評価という3つのステップを順に学びましょう。単回帰モデル：直線で関係を定式化するある会社の月次データとして「広告費（万円）」と「売上（万円）」の12か月分のデータがあるとします。散布図を描くと右上がりの傾向が見えますが、点は直線上にぴったり乗るわけではありません。各月ごとに天候・競合他社の動向など広告費以外の要因があるからです。単回帰モデルは「広告費で説明できる部分（回帰直線）」と「説明できない個体ごとのばらつき（誤差項）」に分けて考えます。（切片）：のときのの期待値。グラフで直線が縦軸を切る点。（回帰係数・傾き）：が1万円増えたときのの期待増加量。「広告費1万円あたりの売上効果」。（誤差項）：直線では説明できない番目のデータのばらつき。平均0・分散の正規分布に従うと仮定。最小二乗法：「縦の距離」を最小化する単回帰モデルを使うには、との値を実際のデータから推定しなければなりません。回帰直線が決まれば、各データ点について予測値（直線上の点）と実測値（実際のデータ点）の縦方向の距離を計算できます。この差を残差（residual）といいます。残差が小さいほど直線がデータに近く、当てはまりが良いことを意味します。最小二乗法（OLS: Ordinary Least Squares）は「残差二乗和を最小化する」ことでとを決める方法です。二乗するのは「プラスとマイナスの残差が打ち消し合うのを防ぐ」こと、そして「大きな残差（外れた点）をより強く罰する」ためです。残差二乗和を最小化するとは、微積分（微分して0とおく）を使って導かれます。微積分は試験範囲外のため導出は省略しますが、結果として次の式が得られます：なぜ分子がで分母がなのでしょうか。残差二乗和をについて微分して0とおくと、という等式が得られます。これを整理すると上の式になります——「とがどれだけ一緒に動くか（共変動）」を「だけの散らばり」で割った値が最適な傾きです。はとの「共変動」をの「散らばり」で割った値、つまり「の単位変化あたりのの変化量」です。回帰直線は必ず（平均点）を通ります。決定係数：モデルの当てはまりの良さを数値化する回帰直線を引いた後、「この直線はデータをどれくらいうまく説明できているか」を評価する指標が決定係数です。分子のは「回帰モデルで説明できなかった変動（残差二乗和）」、分母のは「の全変動」です。なら「広告費だけで売上のばらつきの80%を説明できる。残り20%は広告費以外の要因」という意味です。の範囲をとり、1に近いほど当てはまりが良く、0は「回帰モデルがの変動を全く説明できない」を意味します。例えばなら「広告費を知っても売上の10%しか説明できない」、なら「広告費だけで売上の変動の90%が説明できる」良いモデルです。単回帰では（ピアソン相関係数の二乗）が成り立ちます。試験ポイント：の解釈「が1単位増えたときのの期待増加量」、最小二乗法は「残差二乗和の最小化」、は「の変動のうちモデルで説明できる割合」、単回帰では（相関係数の二乗）——この4点を正確に言葉で説明できるようにしましょう。よくある誤解・つまずき回帰は因果関係を保証しません。「でを予測できる」ことと「を変えればが変わる」ことは別です（相関≠因果と同じ）。データ範囲外での予測（外挿）は危険です。観測したの範囲を大きく外れた予測は信頼できません。が高い＝正しいモデル・因果がある、ではありません。当てはまりの良さと因果・妥当性は別問題。最小二乗法が最小化するのは「残差（縦の距離）の二乗和」です。回帰直線は必ず平均点を通ります。ここまでのまとめ単回帰モデル。は「が1増えたときのの期待変化量」。最小二乗法：残差二乗和を最小化。、直線はを通る。決定係数：の変動のうちモデルが説明する割合（0〜1）。単回帰では。回帰 ≠ 因果、外挿に注意。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。