判別分析とマハラノビス距離
「どのグループに属するか」を数式で判定し、外れ値を正確に見抜く技術。
このモジュールで学ぶこと
「このメールはスパムか?」「この患者はどの病気か?」——データの特徴を使って「どのグループに属するか」を判定したい。このモジュールでは、グループ間の差を最大化する判別分析の仕組みと、データの形状を考慮した距離の測り方(マハラノビス距離)を学びます。
「病院の診断」のような多次元の振り分け
血液検査の結果(白血球数・赤血球数・血小板数…)だけで「健康・貧血・感染症・白血病」のどのグループに属するかを判定する——これが判別分析の本質です。
1つの数値だけでは判断しにくくても、複数の検査値を組み合わせた「判別スコア」を計算することで、かなり正確な振り分けができるようになります。
線形判別分析(LDA)の仕組み
具体例:スパムメール判定を考えます。メールの特徴を「単語"無料"の出現回数」と「リンク数」の2変数で表したとき、スパムと正常メールをどう分けるか?
LDAは「グループ間の差を最大化し、グループ内のばらつきを最小化する」境界線を引きます——フィッシャーの線形判別規準とも呼ばれます。
(右上の は「逆行列」——行列の世界での「割り算」に相当する操作です)
( とも書く):グループ内の分散共分散行列(各グループのデータがどの方向にどれだけ広がっているかを表す数字の表)
:各グループの平均ベクトル
:最適な判別方向(境界線に垂直な方向)
新しいデータ はこの方向 に射影した値を閾値と比較してグループを決定します。
グラフで2つのグループの形と、判別境界がどう引かれるかを観察してください。
このグラフから、判別関数がグループの分布の形(分散共分散構造)を考慮した境界線を引いていることが分かります。
判別境界を引くには「新しいデータが各グループからどれだけ離れているか」を測る必要があります。では、データが楕円形に広がっているとき、この「離れ具合」をどう測るのが適切でしょうか?
マハラノビス距離:「形を考慮した距離」
普通のユークリッド距離は「円形」で測りますが、データは楕円形に分布することが多いです。例えば「身長と体重の関係」——どちらも「平均 」の範囲に収まることが多く、外れ値の判断には「楕円形の等高線」を使うべきです。
マハラノビス距離はデータの形(分散共分散行列 (シグマ。注:正規分布の標準偏差 とは別の記号で、ここでは「分散の表(行列)」を意味します))を考慮して測ります:
(式中の は「転置」——行列の行と列を入れ替える操作。 は分散行列の逆行列です。式全体は「データ点 が平均 からどれだけ離れているか」を分布の形を考慮して測っています)
データが広がっている方向は「大した距離ではない」と判断
データが少ない方向に外れると「異常」と判断
が単位行列のときはユークリッド距離の二乗に退化します
試験頻出:判別分析 vs ロジスティック回帰
判別分析:各グループが多変量正規分布に従うと仮定。分散が等しいなら線形境界
ロジスティック回帰:分布の仮定が緩やか。実務ではより広く使われる
判別モデルの評価
判別のパフォーマンスは混同行列(Confusion Matrix)で評価します。混同行列は「実際のクラス」と「予測したクラス」の組み合わせを2×2の表で整理したものです。
TP(True Positive):本物のスパムを正しくスパムと判定(正解の陽性)
FP(False Positive):正常メールを誤ってスパムと判定(偽陽性。第1種の過誤)
FN(False Negative):本物のスパムを見逃して正常と判定(偽陰性。第2種の過誤)
TN(True Negative):正常メールを正しく正常と判定(正解の陰性)
この4つの組み合わせから、目的に応じた評価指標が導かれます。
再現率(Recall):本物のスパムを正しく検出できた割合 。見逃し()を減らしたいときに重視します。例:がん検診——見逃しは命取りなので再現率を最優先
適合率(Precision):スパムと判定したうち本物の割合 。誤検知()を減らしたいときに重視します。例:スパムフィルター——重要メールを誤ってスパム扱いしたくないので適合率を優先
この「再現率vs適合率」のトレードオフは実務での判断ポイントです。どちらを優先するかはビジネス上のコスト(見逃しのコスト vs. 誤検知のコスト)によって決まります。
ROC曲線とAUC
「閾値(スパムと判定するための判別スコアの基準値)を変えるとどうなるか?」——高くすれば見逃しが増えて誤検知が減り、低くすれば逆になります。このトレードオフを一枚のグラフで表したものが ROC曲線(Receiver Operating Characteristic Curve)です。
横軸(偽陽性率):本物の陰性(正常メール)をスパムと誤判定した割合
縦軸(真陽性率/感度):本物のスパムを正しく検出した割合
閾値を変えるにつれてこの2点が動き、曲線を描きます。AUC(Area Under the Curve)はこの曲線の下面積です:
AUC = 1.0:すべての正例を負例より高スコアに排除できる完璧な分類器
AUC = 0.5:ランダム分類(対角線)と同じ——判別能力ゼロ
AUC = 0.7〜0.8:実用的なモデルの目安
試験頻出:AUC は「ランダムに選んだ正例のスコアが負例のスコアより高い確率」と等価です(Wilcoxon-Mann-Whitney 統計量と一致)。
2次判別分析(QDA)とSVM
線形判別分析(LDA)はグループ間で共通の分散共分散行列 を仮定するため、境界線が直線(線形)になります。しかし各グループが異なる形(楕円の向き・大きさが違う)に分布するとき、線形境界は適合が悪くなります。
2次判別分析(QDA: Quadratic Discriminant Analysis)は各グループが異なる を持つと仮定します。尤度の対数の差をとると の2次式になるため、判別境界が曲線(楕円・放物線など)になります。
利点:より柔軟な境界でグループの形状を正確に反映できる
欠点:各グループで を推定するためパラメータが多く、サンプル数が少ないと不安定
サポートベクターマシン(SVM):各グループの境界から最も近いデータ点(サポートベクター)との距離(マージン)を最大化する判別境界を求める手法です。カーネル関数(多項式・RBFカーネルなど)を使って非線形境界も扱えます。準1級では「判別分析の代替法のひとつ」として押さえておきます。
確認クイズ(抜粋)
Q1. 判別分析の目的は何か?
A. データをグループに分類すること
Q2. 線形判別分析 (LDA) の基本戦略は?
A. グループ間分散を最大化し、グループ内分散を最小化する
Q3. マハラノビス距離がユークリッド距離と異なる点は?
A. データの相関・分散構造を考慮する
全10問のクイズはサイトのインタラクティブ版でお試しください。
第5章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。