← study-apps.com 学習サイト集トップへ

回帰分析

単回帰・最小二乗法・決定係数の基礎を学びます。

このモジュールで学ぶこと 「勉強時間が1時間増えると、テストの点数は平均何点上がるか?」この問いに答えるのが回帰分析です。散布図の点群に「最もよくフィットする直線」を引き、1変数から別の変数を予測する手法を学びます。 単回帰モデル:直線で関係を表す 勉強時間 とテスト点数 の散布図を描いたとき、点が概ね右上がりに並んでいれば「直線的な関係がありそうだ」と判断できます。この関係を数式で表したのが単回帰モデルです: (切片)は「 のときの の予測値」、(回帰係数)は「 が1単位増えたときの の平均的変化量」です。(イプシロン)は誤差項——測定のばらつきや、直線で表しきれない部分を表します。(ベータハット)のように推定値にはハット記号をつけます。 回帰係数 = 「 が1単位増えると が平均的にどれだけ変わるか」。 最小二乗法:「最もよくフィットする直線」の求め方 実際の点数 と直線による予測値 のズレを残差()といいます。残差が小さいほど直線のあてはまりが良いのですが、プラスとマイナスが打ち消し合うので「残差の2乗の合計」を最小化します——これが最小二乗法(OLS: Ordinary Least Squares)です。 数学的に最小化を解くと: OLS直線は必ずデータの重心 を通るという性質があります。散布図上の点を動かして最小二乗直線がどう変わるかを確認しましょう。 決定係数 :「どれだけ説明できているか」 直線のあてはまりの良さを数値化したのが決定係数 です。「 の総変動のうち、回帰直線で説明できる割合」を表します: なら「 の変動の81%は との線形関係で説明できる」という意味です。 は 0〜1 の値をとり、1に近いほどあてはまりが良いです。 ただし は説明変数を増やすだけで必ず増加するという欠点があります。無意味な変数を追加してもモデルの「見かけ」が改善してしまいます。そのため変数が複数あるモデルの比較には自由度調整済み (:説明変数の数)を使います: モデル比較には 。説明変数を増やすと は上がるが、 は無意味な変数を加えると下がることがある。 重回帰と多重共線性 現実のデータでは「体重は身長だけでなく年齢・運動量・食事量にも依存する」のように複数の要因が絡みます。複数の説明変数 を使うのが重回帰です: 各 を偏回帰係数といいます。「他のすべての変数を一定に保ったまま だけが1単位増えたときの の平均的変化量」という意味です——単回帰の係数とは異なる値になることに注意が必要です。 説明変数間に強い相関がある場合、推定が不安定になる多重共線性の問題が生じます。係数の標準誤差が膨らみ「どの変数がどれだけ効いているか」が判断しにくくなります。残差プロットでU字型やファンネル型のパターンが見られる場合は線形性・等分散の仮定が疑われます。 回帰モデルの予測には重要な制約があります。観測データの範囲内での予測(内挿)は比較的信頼できますが、観測範囲の外側へ予測を伸ばす外挿(extrapolation)は信頼性が低いです。「身長150〜180cmのデータで作ったモデルで身長120cmの人の体重を予測する」場合、その範囲では線形関係が成立しない可能性があり、予測は非常に不確かになります。 外挿(観測範囲外への予測)は信頼性が低い。内挿(範囲内)は比較的安全。外挿は実務では避けるか、慎重に扱う必要があります。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。