判別分析とマハラノビス距離

Q: 判別分析の目的は何か？

データをグループに分類すること

Q: マハラノビス距離がユークリッド距離と異なる点は？

データの相関・分散構造を考慮する

「どのグループに属するか」を数式で判定し、外れ値を正確に見抜く技術。

このモジュールで学ぶこと「このメールはスパムか？」「この患者はどの病気か？」——データの特徴を使って「どのグループに属するか」を判定したい。このモジュールでは、グループ間の差を最大化する判別分析の仕組みと、データの形状を考慮した距離の測り方（マハラノビス距離）を学びます。「病院の診断」のような多次元の振り分け血液検査の結果（白血球数・赤血球数・血小板数…）だけで「健康・貧血・感染症・白血病」のどのグループに属するかを判定する——これが判別分析の本質です。 1つの数値だけでは判断しにくくても、複数の検査値を組み合わせた「判別スコア」を計算することで、かなり正確な振り分けができるようになります。線形判別分析（LDA）の仕組み具体例：スパムメール判定を考えます。メールの特徴を「単語"無料"の出現回数」と「リンク数」の2変数で表したとき、スパムと正常メールをどう分けるか？ LDAは「グループ間の差を最大化し、グループ内のばらつきを最小化する」境界線を引きます——フィッシャーの線形判別規準とも呼ばれます。（右上のは「逆行列」——行列の世界での「割り算」に相当する操作です）（とも書く）：グループ内の分散共分散行列（各グループのデータがどの方向にどれだけ広がっているかを表す数字の表）：各グループの平均ベクトル：最適な判別方向（境界線に垂直な方向）新しいデータはこの方向に射影した値を閾値と比較してグループを決定します。グラフで2つのグループの形と、判別境界がどう引かれるかを観察してください。このグラフから、判別関数がグループの分布の形（分散共分散構造）を考慮した境界線を引いていることが分かります。判別境界を引くには「新しいデータが各グループからどれだけ離れているか」を測る必要があります。では、データが楕円形に広がっているとき、この「離れ具合」をどう測るのが適切でしょうか？マハラノビス距離：「形を考慮した距離」普通のユークリッド距離は「円形」で測りますが、データは楕円形に分布することが多いです。例えば「身長と体重の関係」——どちらも「平均」の範囲に収まることが多く、外れ値の判断には「楕円形の等高線」を使うべきです。マハラノビス距離はデータの形（分散共分散行列（シグマ。注：正規分布の標準偏差とは別の記号で、ここでは「分散の表（行列）」を意味します））を考慮して測ります：（式中のは「転置」——行列の行と列を入れ替える操作。は分散行列の逆行列です。式全体は「データ点が平均からどれだけ離れているか」を分布の形を考慮して測っています）データが広がっている方向は「大した距離ではない」と判断データが少ない方向に外れると「異常」と判断が単位行列のときはユークリッド距離の二乗に退化します試験頻出：判別分析 vs ロジスティック回帰判別分析：各グループが多変量正規分布に従うと仮定。分散が等しいなら線形境界ロジスティック回帰：分布の仮定が緩やか。実務ではより広く使われる判別モデルの評価判別のパフォーマンスは混同行列（Confusion Matrix）で評価します。混同行列は「実際のクラス」と「予測したクラス」の組み合わせを2×2の表で整理したものです。 TP（True Positive）：本物のスパムを正しくスパムと判定（正解の陽性） FP（False Positive）：正常メールを誤ってスパムと判定（偽陽性。第1種の過誤） FN（False Negative）：本物のスパムを見逃して正常と判定（偽陰性。第2種の過誤） TN（True Negative）：正常メールを正しく正常と判定（正解の陰性）この4つの組み合わせから、目的に応じた評価指標が導かれます。再現率（Recall）：本物のスパムを正しく検出できた割合。見逃し（）を減らしたいときに重視します。例：がん検診——見逃しは命取りなので再現率を最優先適合率（Precision）：スパムと判定したうち本物の割合。誤検知（）を減らしたいときに重視します。例：スパムフィルター——重要メールを誤ってスパム扱いしたくないので適合率を優先この「再現率vs適合率」のトレードオフは実務での判断ポイントです。どちらを優先するかはビジネス上のコスト（見逃しのコスト vs. 誤検知のコスト）によって決まります。 ROC曲線とAUC 「閾値（スパムと判定するための判別スコアの基準値）を変えるとどうなるか？」——高くすれば見逃しが増えて誤検知が減り、低くすれば逆になります。このトレードオフを一枚のグラフで表したものが ROC曲線（Receiver Operating Characteristic Curve）です。横軸（偽陽性率）：本物の陰性（正常メール）をスパムと誤判定した割合縦軸（真陽性率／感度）：本物のスパムを正しく検出した割合閾値を変えるにつれてこの2点が動き、曲線を描きます。AUC（Area Under the Curve）はこの曲線の下面積です： AUC = 1.0：すべての正例を負例より高スコアに排除できる完璧な分類器 AUC = 0.5：ランダム分類（対角線）と同じ——判別能力ゼロ AUC = 0.7〜0.8：実用的なモデルの目安試験頻出：AUC は「ランダムに選んだ正例のスコアが負例のスコアより高い確率」と等価です（Wilcoxon-Mann-Whitney 統計量と一致）。 2次判別分析（QDA）とSVM 線形判別分析（LDA）はグループ間で共通の分散共分散行列を仮定するため、境界線が直線（線形）になります。しかし各グループが異なる形（楕円の向き・大きさが違う）に分布するとき、線形境界は適合が悪くなります。 2次判別分析（QDA: Quadratic Discriminant Analysis）は各グループが異なるを持つと仮定します。尤度の対数の差をとるとの2次式になるため、判別境界が曲線（楕円・放物線など）になります。利点：より柔軟な境界でグループの形状を正確に反映できる欠点：各グループでを推定するためパラメータが多く、サンプル数が少ないと不安定サポートベクターマシン（SVM）：各グループの境界から最も近いデータ点（サポートベクター）との距離（マージン）を最大化する判別境界を求める手法です。カーネル関数（多項式・RBFカーネルなど）を使って非線形境界も扱えます。準1級では「判別分析の代替法のひとつ」として押さえておきます。

確認クイズ（抜粋）

Q1. 判別分析の目的は何か？

A. データをグループに分類すること

Q2. 線形判別分析 (LDA) の基本戦略は？

A. グループ間分散を最大化し、グループ内分散を最小化する

Q3. マハラノビス距離がユークリッド距離と異なる点は？

A. データの相関・分散構造を考慮する

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。