← study-apps.com 学習サイト集トップへ

判別分析とマハラノビス距離

「どのグループに属するか」を数式で判定し、外れ値を正確に見抜く技術。

このモジュールで学ぶこと 「このメールはスパムか?」「この患者はどの病気か?」——データの特徴を使って「どのグループに属するか」を判定したい。このモジュールでは、グループ間の差を最大化する判別分析の仕組みと、データの形状を考慮した距離の測り方(マハラノビス距離)を学びます。 「病院の診断」のような多次元の振り分け 血液検査の結果(白血球数・赤血球数・血小板数…)だけで「健康・貧血・感染症・白血病」のどのグループに属するかを判定する——これが判別分析の本質です。 1つの数値だけでは判断しにくくても、複数の検査値を組み合わせた「判別スコア」を計算することで、かなり正確な振り分けができるようになります。 線形判別分析(LDA)の仕組み 具体例:スパムメール判定を考えます。メールの特徴を「単語"無料"の出現回数」と「リンク数」の2変数で表したとき、スパムと正常メールをどう分けるか? LDAは「グループ間の差を最大化し、グループ内のばらつきを最小化する」境界線を引きます——フィッシャーの線形判別規準とも呼ばれます。 (右上の は「逆行列」——行列の世界での「割り算」に相当する操作です) ( とも書く):グループ内の分散共分散行列(各グループのデータがどの方向にどれだけ広がっているかを表す数字の表) :各グループの平均ベクトル :最適な判別方向(境界線に垂直な方向) 新しいデータ はこの方向 に射影した値を閾値と比較してグループを決定します。 グラフで2つのグループの形と、判別境界がどう引かれるかを観察してください。 このグラフから、判別関数がグループの分布の形(分散共分散構造)を考慮した境界線を引いていることが分かります。 判別境界を引くには「新しいデータが各グループからどれだけ離れているか」を測る必要があります。では、データが楕円形に広がっているとき、この「離れ具合」をどう測るのが適切でしょうか? マハラノビス距離:「形を考慮した距離」 普通のユークリッド距離は「円形」で測りますが、データは楕円形に分布することが多いです。例えば「身長と体重の関係」——どちらも「平均 」の範囲に収まることが多く、外れ値の判断には「楕円形の等高線」を使うべきです。 マハラノビス距離はデータの形(分散共分散行列 (シグマ。注:正規分布の標準偏差 とは別の記号で、ここでは「分散の表(行列)」を意味します))を考慮して測ります: (式中の は「転置」——行列の行と列を入れ替える操作。 は分散行列の逆行列です。式全体は「データ点 が平均 からどれだけ離れているか」を分布の形を考慮して測っています) データが広がっている方向は「大した距離ではない」と判断 データが少ない方向に外れると「異常」と判断 が単位行列のときはユークリッド距離の二乗に退化します 試験頻出:判別分析 vs ロジスティック回帰 判別分析:各グループが多変量正規分布に従うと仮定。分散が等しいなら線形境界 ロジスティック回帰:分布の仮定が緩やか。実務ではより広く使われる 判別モデルの評価 判別のパフォーマンスは混同行列(Confusion Matrix)で評価します。混同行列は「実際のクラス」と「予測したクラス」の組み合わせを2×2の表で整理したものです。 TP(True Positive):本物のスパムを正しくスパムと判定(正解の陽性) FP(False Positive):正常メールを誤ってスパムと判定(偽陽性。第1種の過誤) FN(False Negative):本物のスパムを見逃して正常と判定(偽陰性。第2種の過誤) TN(True Negative):正常メールを正しく正常と判定(正解の陰性) この4つの組み合わせから、目的に応じた評価指標が導かれます。 再現率(Recall):本物のスパムを正しく検出できた割合 。見逃し()を減らしたいときに重視します。例:がん検診——見逃しは命取りなので再現率を最優先 適合率(Precision):スパムと判定したうち本物の割合 。誤検知()を減らしたいときに重視します。例:スパムフィルター——重要メールを誤ってスパム扱いしたくないので適合率を優先 この「再現率vs適合率」のトレードオフは実務での判断ポイントです。どちらを優先するかはビジネス上のコスト(見逃しのコスト vs. 誤検知のコスト)によって決まります。 ROC曲線とAUC 「閾値(スパムと判定するための判別スコアの基準値)を変えるとどうなるか?」——高くすれば見逃しが増えて誤検知が減り、低くすれば逆になります。このトレードオフを一枚のグラフで表したものが ROC曲線(Receiver Operating Characteristic Curve)です。 横軸(偽陽性率):本物の陰性(正常メール)をスパムと誤判定した割合 縦軸(真陽性率/感度):本物のスパムを正しく検出した割合 閾値を変えるにつれてこの2点が動き、曲線を描きます。AUC(Area Under the Curve)はこの曲線の下面積です: AUC = 1.0:すべての正例を負例より高スコアに排除できる完璧な分類器 AUC = 0.5:ランダム分類(対角線)と同じ——判別能力ゼロ AUC = 0.7〜0.8:実用的なモデルの目安 試験頻出:AUC は「ランダムに選んだ正例のスコアが負例のスコアより高い確率」と等価です(Wilcoxon-Mann-Whitney 統計量と一致)。 2次判別分析(QDA)とSVM 線形判別分析(LDA)はグループ間で共通の分散共分散行列 を仮定するため、境界線が直線(線形)になります。しかし各グループが異なる形(楕円の向き・大きさが違う)に分布するとき、線形境界は適合が悪くなります。 2次判別分析(QDA: Quadratic Discriminant Analysis)は各グループが異なる を持つと仮定します。尤度の対数の差をとると の2次式になるため、判別境界が曲線(楕円・放物線など)になります。 利点:より柔軟な境界でグループの形状を正確に反映できる 欠点:各グループで を推定するためパラメータが多く、サンプル数が少ないと不安定 サポートベクターマシン(SVM):各グループの境界から最も近いデータ点(サポートベクター)との距離(マージン)を最大化する判別境界を求める手法です。カーネル関数(多項式・RBFカーネルなど)を使って非線形境界も扱えます。準1級では「判別分析の代替法のひとつ」として押さえておきます。

確認クイズ(抜粋)

Q1. 判別分析の目的は何か?

A. データをグループに分類すること

Q2. 線形判別分析 (LDA) の基本戦略は?

A. グループ間分散を最大化し、グループ内分散を最小化する

Q3. マハラノビス距離がユークリッド距離と異なる点は?

A. データの相関・分散構造を考慮する

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。