主成分分析 (PCA)
100個の項目を、3つの「本質」に凝縮する魔法のテクニック。
このモジュールで学ぶこと
「10科目のテスト結果があるが、どう整理すれば全体像が見えるか?」——情報が多すぎると人間には把握しきれません。このモジュールでは、多数の変数を情報の損失を最小化しながら少数の「本質的な指標」に凝縮する主成分分析(PCA)の仕組みを学びます。
「演奏家の実力を2つの数字で表す」ような情報圧縮
クラシックのピアニストを評価する際、「音の正確さ・スピード・音量の安定性・感情表現・リズム感・姿勢・表情・舞台映え…」と10項目を列挙しても比較しにくいですよね。実際には「技術力」と「表現力」という2軸で大半が説明できるかもしれません。
主成分分析とは、このように「10個の数字を2〜3個の本質的な指標(主成分)で代替する」手法です。情報を捨てているようで、実は最も情報量を保つ方向を選んでいます。
数学的本質:「ばらつきが最大の方向」を新しい軸にする
10科目の成績から「理数系能力」と「言語系能力」という2つの主成分を取り出す場面を想像してください。コンピュータは「10個の点がどの方向に最も広がっているか」を探します。その「最も広がっている方向」を数学的に求める手続きを固有値問題といいます(高校数学には登場しませんが、試験では「計算のやり方」より「結果の読み取り方」が問われます)。
分散共分散行列とは:「各科目のばらつき(分散)」と「科目間の関係(共分散)」を数字の表にまとめたものです。例えば「数学が得意な人は物理も得意」という傾向があれば、その数字が行列の特定の場所に記録されています。この行列の固有値問題を解くと:
固有ベクトル:データのばらつきが最も大きくなる「新しい軸」の向き。この固有ベクトルの各成分が「元の変数をどの重みで組み合わせるか」を表します
固有値:その軸が保持している情報の量(分散)
主成分スコア は、元の変数に固有ベクトルの重み をかけて足し合わせた値です。このように「複数の値を重みをかけて足し合わせる」操作を線形結合(Linear Combination)と呼びます。行列記法では と書き、(転置)は行ベクトルと列ベクトルの内積を計算する記号です。
グラフで、データの散らばりがどの方向に最も集中しているかを観察してみましょう。
主成分分析が「データのばらつきが最大になる方向を新しい軸として選ぶ」操作であることが、このグラフから直感的に理解できます。
寄与率:どれくらいの情報を保持しているか
10科目の成績があるとして、主成分を2つだけ採用した場合に「全情報の何%が保持できているか」を示すのが寄与率と累積寄与率です。
寄与率:その主成分1つが全体情報の何%を説明するか(例:第1主成分が45%、第2主成分が28%)
累積寄与率:採用した主成分の合計(例:2つで73%)。実務では 70〜80% を目安にします
主成分負荷量:元の変数と主成分の相関係数。第 主成分と変数 の負荷量は (:固有値、:固有ベクトルの成分)。「どの変数が第1主成分に強く影響しているか」を示す。例えば身長の負荷量が ・体重の負荷量が なら「第1主成分は体の大きさを表す軸」と解釈できます
トレース(trace):行列の対角要素の和のことです。分散共分散行列のトレースは全変数の分散の合計(全情報量)を表し、すべての固有値の和と等しいことが保証されています。
カイザー基準:主成分数を決める基準の一つで「固有値が 1 以上の主成分のみを採用する」というものです。標準化後の変数の分散が 1 なので「元の変数 1 個分以上の情報量がある主成分だけ残す」という意味になります。
実務上のポイント:単位の壁を越える
「身長(cm)」と「年収(円)」をそのまま PCA にかけると、数字の大きい年収に軸が引っ張られてしまいます。これを防ぐため、事前にデータを標準化(平均0、分散1)し、相関行列に対して分析を行うのが鉄則です。
試験頻出
各主成分は互いに直交(無相関):主成分間の相関は 0
主成分スコア:各サンプルの新しい座標値(主成分軸上での位置)
PCAは「教師なし学習」:正解ラベル(目的変数)を必要とせず、データ自体の構造を探索する
確認クイズ(抜粋)
Q1. 第1主成分の分散の大きさに対応する数学的指標は?
A. 固有値
Q2. 各変数の単位が異なる場合、主成分分析を行う前に使用すべき行列は?
A. 相関行列
Q3. 累積寄与率がどれくらいを超えると、情報の要約として十分とみなされることが多いか?
A. 70-80%
全10問のクイズはサイトのインタラクティブ版でお試しください。
第5章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。