← study-apps.com 学習サイト集トップへ

ロジスティック回帰と一般化線形モデル

「Yes/No」のデータを分析するロジスティック回帰とGLMの枠組みを学びます。

このモジュールで学ぶこと 「新薬を投与すると完治するか(Yes/No)を予測したい」——目的変数が連続値でなく「0か1か」の二値のとき、通常の回帰では確率が0〜1の範囲を超えてしまいます。このモジュールでは二値・カウント・その他の非正規データへの回帰を可能にするロジスティック回帰と一般化線形モデル(GLM)を学びます。 「正規分布でない目的変数」への対応 通常の線形回帰は誤差が正規分布に従うと仮定します。しかし: 二値データ(合否・生死):ベルヌーイ/二項分布 カウントデータ(事故件数・来店人数):ポアソン分布 比率データ(0〜1):ベータ分布 これらを統一的に扱う枠組みが一般化線形モデル(GLM: Generalized Linear Model)です。 ロジスティック回帰 「年齢・収入・健康状態から、糖尿病発症(有/無)を予測する」——これがロジスティック回帰の典型例です。 直接 を予測しますが、確率は0〜1に収まる必要があります。そこでロジット変換を使います: はオッズ(odds)——「成功/失敗の比率」です。これの対数(対数オッズまたはロジット)を線形式でモデル化します。 解を整理すると:(シグモイド関数)。 係数の解釈: が1増えると、オッズが 倍になります(オッズ比)。 パラメータは最尤法で推定します(線形回帰のような解析解はなく、反復計算が必要)。 試験頻出:ロジスティック回帰の係数 の解釈は「 が1増えるとオッズが 倍」。オッズ比 なら正の効果、 なら負の効果です。 プロビット分析 「薬の投与量が増えるにつれて副作用が出る確率はどう変化するか」——毒性試験ではこのような「投与量 → 反応確率」の関係をモデル化します。ロジスティック回帰と同じ二値目的変数を扱いますが、確率の増え方を表す関数(リンク関数)が異なるのがプロビット分析です: は標準正規分布の累積分布関数の逆関数(プロビット関数)です。結果はロジスティック回帰と似ており、主に毒性研究や心理測定で使われます。 ロジスティックとプロビットの違いは裾の形状にあります——ロジスティック分布は正規分布より裾がやや重いです。 一般化線形モデル(GLM) 「交通事故の日別発生件数(0件・1件・2件…)と気象条件の関係を調べたい」——件数は非負整数でポアソン分布に従いやすく、通常の線形回帰では予測値が負になる問題があります。ロジスティック回帰もプロビット分析も、じつはより大きな枠組み「一般化線形モデル(GLM: Generalized Linear Model)」の特殊ケースです。GLM は次の3つの要素で構成されます: 確率分布(Random Component): の分布族(指数型分布族:正規・二項・ポアソン・ガンマなど) 線形予測子: リンク関数(Link Function):——「期待値」を「線形予測子」につなぐ 主なGLMの組み合わせ(各リンク関数は「確率・カウントの値域を実数軸に変換する」自然な選択です): 正規分布 + 恒等リンク :通常の線形回帰( はすでに実数) 二項分布 + ロジットリンク :ロジスティック回帰( を実数全体に変換) ポアソン分布 + 対数リンク :ポアソン回帰(カウントデータ; を実数全体に変換し負の予測値を防ぐ) パラメータ推定はスコア方程式(最尤法)を反復法(IRLS: Iteratively Reweighted Least Squares)で解きます。 回帰診断法 モデルを構築しても「残差に特定の時間パターンがある」「特定の1人の観測値が回帰直線を大きく引きずっている」などの問題があれば、モデルの仮定が破られて推定が信頼できません。モデルの健全性を確認する一連の手順が回帰診断法です。 残差分析:標準化残差のプロット——ランダムな散布が望ましく、パターンがあれば仮定違反を示します。 系列相関(Serial Correlation):時系列データで残差が連続して正または負になる現象。DW比(Durbin-Watson統計量) で検出します( なら無相関、 なら正の系列相関)。 はずれ値と影響度:leverage(てこ比) は「 番目のデータが予測値に与える影響の大きさ」を表します。 は高影響点の目安です(:パラメータ数)。Q-Qプロットは残差の正規性を視覚的に確認します。 試験頻出:DW比の解釈—— は正の系列相関(残差が同じ符号で連続)、 は負の系列相関を示します。 ニューラルネットワークモデル GLMが「線形予測子 + リンク関数」でさまざまな分布を扱う枠組みであるなら、その非線形拡張がニューラルネットワーク(Neural Network)です。 入力層・隠れ層・出力層からなる多層構造で、各層で非線形変換(活性化関数:ReLU・sigmoid など)を適用します。十分な隠れユニット数があれば任意の関数を近似できる(普遍近似定理)ため、回帰・分類・パターン認識など幅広く使われます。 準1級では「一般化線形モデルのさらなる拡張として、非線形な関係を柔軟にモデル化できる手法」として位置づけられます。パラメータの多さから過学習が起きやすいため、正則化(ドロップアウト・L2正則化)やクロスバリデーションによるモデル選択が重要です。

確認クイズ(抜粋)

Q1. ロジスティック回帰でモデル化する「ロジット」とは何か?

A. (対数オッズ)

Q2. ロジスティック回帰の係数 の解釈として正しいものはどれか?

A. が1増えるとオッズが 倍になる

Q3. GLMの「リンク関数」の役割はどれか?

A. 期待値と線形予測子をつなぐ変換

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。