因子分析
目に見えない「性格」や「価値観」を、アンケートデータからあぶり出す。
このモジュールで学ぶこと
「アンケートの10問の回答には、目に見えない『性格』が影響しているはず」——この仮説を検証するのが因子分析です。このモジュールでは、観測変数の背後に潜む共通因子を発見する仕組みと、主成分分析との本質的な違いを学びます。
「3つの症状の背後に1つの病気」のような潜在構造
「発熱・倦怠感・頭痛」という3つの症状は、「インフルエンザ(共通因子)」という目に見えない原因から生まれているかもしれません。因子分析はこれと同じ発想で、複数の観測変数の共通原因(共通因子)を統計的に探し出します。
10問の性格診断アンケートを例にすると:
「人前で話すのが得意か」「友人が多いか」「パーティーが好きか」→ すべて「外向性」から生まれている
「細部にこだわるか」「計画的か」「きれい好きか」→ すべて「誠実性」から生まれている
因子分析のモデル
「外向性が高い人は、①人前で話すのが得意で、②友人が多く、③パーティーが好き」——この3つの観測変数が1つの潜在変数(外向性)によって引き起こされているとしたら、どう数式で表せるでしょうか。因子分析の基本モデルは、各観測変数を「共通因子の線形結合+その変数固有のノイズ」で表します。
:観測変数(アンケートの各回答)
:共通因子(目に見えない「性格」など)
(ラムダ):因子負荷量——変数 が因子 にどれだけ依存するかを示す係数。〜 の値をとり、絶対値が大きいほど「その因子を強く反映している」
:独自因子——その変数だけに固有のばらつき
このモデル、どこかで見たことがないでしょうか?主成分分析とよく似た構造です。では何が本質的に違うのでしょう?
PCAとの違い
主成分分析(PCA)と因子分析(FA)は似ていますが、出発点が正反対です。PCAは「全分散(共通分散+独自分散)を最大限保持する軸を探す」——データを圧縮することが目的です。一方、因子分析は「共通分散(変数間に共通する部分)だけを説明する潜在因子を探す」——隠れた原因を発見することが目的です。PCAの出力は「主成分(軸)」であるのに対し、FAの出力は「因子(解釈可能な概念)」です。
よくある誤解:「PCA と因子分析は本質的に同じで、計算手順が少し違うだけ」と思いがちですが、誤りです。両者はモデルの向きが正反対です。PCA は「観測変数 → 合成された主成分」と観測値から軸を作るのに対し、因子分析は「潜在因子 → 観測変数」と潜在変数モデルとして観測値を生成します。因子分析にはモデル誤差項 (独自因子)が明示的に存在し、PCA にはありません。「結果が似ているから」と混同すると、独自因子の解釈や因子回転の意味を見失います。
因子回転:解釈しやすい因子へ
例えば、「計画的か」という変数が「誠実性」にも「知性」にも同程度の負荷量を持つ場合、「この変数は何を反映しているのか」解釈に迷います。そこで軸を回転させて、各変数が「一つの因子にだけ強く反応する」構造を目指します——これが因子回転です。
因子分析の解は一意ではなく、回転しても同じデータを説明できます。どの向きに回転させるかで2種類の方針があります:
バリマックス回転(直交回転):各変数が「一つの因子だけに強く負荷する」ようにする。因子間の独立性を維持
プロマックス回転(斜交回転):因子間の相関を許す。実際の「性格」は互いに相関することが多いため、より現実に近い場合がある
因子数の決め方と共通性
因子数の決め方
何個の因子を抽出するかを決める基準として以下があります:
カイザー基準:固有値が 1 以上の因子のみを採用する(標準化変数の分散 1 を超える情報量を持つ因子)
スクリープロット法(エルボー法):固有値のグラフが急激に平坦になる「肘の部分」より上の因子を採用する
試験頻出:共通性
変数 の分散の中で、共通因子によって説明できる割合が共通性です。各行の因子負荷量の二乗和 として計算されます。共通性が低い変数は、因子には捕捉されていない独自のばらつきが大きいことを意味します。
回転の使い分け(直交 vs 斜交)
因子回転には大きく分けて2つの流派があります。どちらを選ぶかで「解釈のしやすさ」と「現実の心理学的妥当性」のどちらを優先するかが変わります。
直交回転(Varimax・Quartimax 等):因子間の相関を 0 に固定する回転。各因子が独立した次元を表すため、解釈が単純で報告も明快です。
斜交回転(Promax・Oblimin 等):因子間に相関を許す回転。心理学・社会科学では「言語能力」と「数理能力」のように、潜在因子が互いに相関する場面が多く、現実をより忠実に反映できます。
試験頻出:直交 vs 斜交の比較表
因子負荷量行列(loading matrix)の読み方
回転後の因子負荷量行列は、行が観測変数・列が因子で構成されます。実務では次の目安で読みます。
:その変数は因子 と関連が強い(採用)
:境界的・補助的に解釈
:無視してよい
例えば「責任感がある」「計画的だ」「約束を守る」の 3 項目がすべて第1因子に 0.7 以上の負荷を持ち、他因子では 0.2 未満であれば、第1因子は「誠実性」と命名できます。逆に、複数因子に 0.4 以上の負荷を持つ項目(クロスローディング)は単純構造を乱すため、項目削除や因子数の再検討の対象になります。
PCA vs 因子分析の使い分け
PCAと因子分析はモデル構造が異なるため、目的によって明確に使い分ける必要があります。
PCA:分散を最大化する直交軸を順に抽出する手法。観測変数の線形結合として主成分を作る(合成)。データ圧縮・可視化が主目的。
因子分析:観測変数の背後に潜む潜在因子を推定する統計モデル。観測変数が「共通因子 + 独自因子」の和で表せると仮定する(モデルベース)。潜在構造の発見が主目的。
試験頻出:PCA vs 因子分析の使い分け表
判断の目安:「変数を減らしたい・指標を合成したい」なら PCA、「変数の裏にある概念を見つけたい」なら因子分析、と覚えると迷いません。
確認クイズ(抜粋)
Q1. 因子分析において「目に見えない共通の要因」を何と呼ぶか?
A. 共通因子
Q2. 因子負荷量 は何を表すか?
A. 変数 と因子 の相関の強さ
Q3. 変数の分散のうち共通因子で説明できる割合を何と呼ぶか?
A. 共通性
全10問のクイズはサイトのインタラクティブ版でお試しください。
第5章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。