回帰分析

単回帰・最小二乗法・決定係数の基礎を学びます。

このモジュールで学ぶこと「勉強時間が1時間増えると、テストの点数は平均何点上がるか？」この問いに答えるのが回帰分析です。散布図の点群に「最もよくフィットする直線」を引き、1変数から別の変数を予測する手法を学びます。単回帰モデル：直線で関係を表す勉強時間とテスト点数の散布図を描いたとき、点が概ね右上がりに並んでいれば「直線的な関係がありそうだ」と判断できます。この関係を数式で表したのが単回帰モデルです：（切片）は「のときのの予測値」、（回帰係数）は「が1単位増えたときのの平均的変化量」です。（イプシロン）は誤差項——測定のばらつきや、直線で表しきれない部分を表します。（ベータハット）のように推定値にはハット記号をつけます。回帰係数 = 「が1単位増えるとが平均的にどれだけ変わるか」。最小二乗法：「最もよくフィットする直線」の求め方実際の点数と直線による予測値のズレを残差（）といいます。残差が小さいほど直線のあてはまりが良いのですが、プラスとマイナスが打ち消し合うので「残差の2乗の合計」を最小化します——これが最小二乗法（OLS: Ordinary Least Squares）です。数学的に最小化を解くと： OLS直線は必ずデータの重心を通るという性質があります。散布図上の点を動かして最小二乗直線がどう変わるかを確認しましょう。決定係数：「どれだけ説明できているか」直線のあてはまりの良さを数値化したのが決定係数です。「の総変動のうち、回帰直線で説明できる割合」を表します：なら「の変動の81%はとの線形関係で説明できる」という意味です。は 0〜1 の値をとり、1に近いほどあてはまりが良いです。ただしは説明変数を増やすだけで必ず増加するという欠点があります。無意味な変数を追加してもモデルの「見かけ」が改善してしまいます。そのため変数が複数あるモデルの比較には自由度調整済み（：説明変数の数）を使います：モデル比較には。説明変数を増やすとは上がるが、は無意味な変数を加えると下がることがある。重回帰と多重共線性現実のデータでは「体重は身長だけでなく年齢・運動量・食事量にも依存する」のように複数の要因が絡みます。複数の説明変数を使うのが重回帰です：各を偏回帰係数といいます。「他のすべての変数を一定に保ったままだけが1単位増えたときのの平均的変化量」という意味です——単回帰の係数とは異なる値になることに注意が必要です。説明変数間に強い相関がある場合、推定が不安定になる多重共線性の問題が生じます。係数の標準誤差が膨らみ「どの変数がどれだけ効いているか」が判断しにくくなります。残差プロットでU字型やファンネル型のパターンが見られる場合は線形性・等分散の仮定が疑われます。回帰モデルの予測には重要な制約があります。観測データの範囲内での予測（内挿）は比較的信頼できますが、観測範囲の外側へ予測を伸ばす外挿（extrapolation）は信頼性が低いです。「身長150〜180cmのデータで作ったモデルで身長120cmの人の体重を予測する」場合、その範囲では線形関係が成立しない可能性があり、予測は非常に不確かになります。外挿（観測範囲外への予測）は信頼性が低い。内挿（範囲内）は比較的安全。外挿は実務では避けるか、慎重に扱う必要があります。よくある誤解・つまずき回帰は因果関係を保証しません。「でを予測できる」と「を変えればが変わる」は別。観測範囲外の予測（外挿）は危険。範囲内（内挿）が比較的安全。が高い＝正しいモデル・因果がある、ではありません。ここまでのまとめ単回帰。は「が1増えたときのの期待変化量」。最小二乗法：残差二乗和を最小化。回帰直線は平均点を通る。決定係数：の変動のうちモデルが説明する割合。単回帰では。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。