← study-apps.com 学習サイト集トップへ

正準相関・対応分析・共分散構造分析

多次元尺度法・正準相関・対応分析・共分散構造分析など試験頻出の手法を網羅します。

このモジュールで学ぶこと 「理系科目の成績と文系科目の成績は、全体としてどれくらい関連しているか?」「職業と政党支持を同じ図の上に配置して関連を見たい」「学力という見えない概念を複数のテスト得点で測るモデルを作りたい」——これらはPCA・判別分析・クラスター分析だけでは答えられません。このモジュールでは、そのような問いに答える多変量解析の手法群を学びます。特に準1級で頻出の正準相関・対応分析・共分散構造分析を中心に扱います。 多次元尺度法 「東京・大阪・名古屋・福岡の都市間距離から、地図上の位置関係を再現できるか?」——このような問いに答えるのが多次元尺度法(MDS: Multidimensional Scaling)です。 個の対象間の非類似度(距離)行列を与えると、それを近似的に再現する低次元(通常2次元)空間上の座標を求めます。「距離が近いもの同士を地図上で近くに配置する」操作です。 主成分分析が「変数の次元削減」なら、MDSは「対象間の距離を保ちながら次元削減」です。 メトリックMDS:距離を数値として使います。ノンメトリックMDS:順位情報だけを使います(「 と は と より近い」という順序のみ)。 MDSは「対象間の距離」を使いましたが、次は「2つの変数グループ間の関係」を分析する手法を見ます。 正準相関分析 「数学・理科の成績(変数セット)と国語・英語の成績(変数セット)は全体としてどれだけ関連しているか?」——これを答えるのが正準相関分析(Canonical Correlation Analysis)です。 2組の変数セット ( 変数)と ( 変数)に対して、正準変数の組 を: と の相関(正準相関係数 )が最大になるように を選びます。 組の正準対が存在し、各組は前の組と無相関になります。これはPCAの2変数版への拡張と見ることができます。 よくある誤解:「正準相関分析は重回帰分析の多変量版で、 から を予測する手法」と思いがちですが、誤りです。正準相関分析は と について対称な手法で、「 から を予測する」のではなく「 と の間でもっとも相関が高い線形結合のペア を探す」分析です。 と を入れ替えても同じ正準相関係数 が得られます。一方、重回帰では「説明変数 → 目的変数」の方向が固定されているため、変数の役割を入れ替えると結果が変わります。 正準相関は「数値変数のグループ間の関係」を見ましたが、次は変数がカテゴリ(名義尺度)のときの視覚化手法を見ます。 対応分析 「職業と政党支持の2元分割表から、どの職業がどの政党を支持しやすいかを可視化したい」——これが対応分析(Correspondence Analysis)の典型的な使い方です。 行カテゴリと列カテゴリを同一の低次元空間に布置し、「近い点は関連が強い」という解釈をします。分割表データを可視化する強力な探索的手法です。 基本的には分割表の行・列プロフィールに対して特異値分解(SVD: 行列を「成分に分解する」操作で、PCAの計算にも使われる行列の基本操作)を適用します。主成分分析のカテゴリデータ版と考えられます。 数量化法(Hayashi's Quantification Methods)は対応分析と関連する日本発の手法群で、カテゴリデータを扱う多変量解析に対応します。具体的には: 数量化I類:カテゴリ変数(説明変数)をもつ重回帰分析に対応(目的変数は連続量) 数量化II類:カテゴリ変数をもつ判別分析に対応 数量化III類:対応分析(カテゴリデータの主成分分析)に対応 数量化IV類:クラスター分析に対応 試験頻出:「どの類がどの分析に対応するか」はよく出題されます(I=回帰・II=判別・III=対応分析・IV=クラスター)。 対応分析が「観測変数間の関係」を可視化するのに対し、次は「直接測れない概念(潜在変数)」を含む因果構造をモデル化する手法を見ます。 共分散構造分析(SEM) 「学力(潜在変数)は語彙力・読解力・計算力(観測変数)で測られる」——このような「観測できない概念(潜在変数)」を含む因果関係をモデル化するのが共分散構造分析(SEM: Structural Equation Modeling)です。 SEMは2つのサブモデルからなります: 測定モデル(因子分析部分):潜在変数と観測変数の関係 構造モデル(パス解析部分):潜在変数間の因果関係 パス図(Path Diagram):変数を四角(観測変数)や楕円(潜在変数)、矢印(因果・共分散)で表した図。 パス係数:矢印の重みで「原因変数が1標準偏差変化したとき、結果変数が何標準偏差変化するか」を表します。 モデルの適合度は 検定・CFI(比較適合指標)・RMSEA(二乗平均平方根近似誤差)などで評価します。 試験頻出:SEMでは「因果」は理論から来ます——矢印の向きはデータから決まるのではなく、研究者の理論的仮説を反映します。 SEMまでは「データが十分に集まった後の分析」を見てきました。では、そもそも「どうやってデータを収集するか」——標本調査の理論を最後に押さえます。 標本調査法 「日本全国の有権者10,000万人の意識調査を全員に行うのは不可能です。1,000人を選んで調査し、全体を推測したい」——このような有限母集団(Finite Population)からの標本抽出では、無限母集団とは異なる修正が必要です。 有限修正係数(Finite Population Correction): が母集団サイズ、 が標本サイズ。 が小さい()ときは有限修正を無視できます。 各種標本抽出法: 単純無作為抽出:すべての個体が等確率で選ばれる 層化抽出:母集団を層に分け各層から無作為抽出——各層を確実に代表できる 系統抽出:一定間隔で抽出(例:名簿から10番おきに) クラスター抽出:クラスター(集落)を単位として抽出——費用が安い 3手法の使い分け(正準相関・対応分析・SEM) このモジュールで扱った 3 つの手法は「2 つ以上の変数群の関係を捉える」という共通点がありますが、扱うデータ型と目的が異なります。 正準相関分析(CCA):2 セットの量的変数群の関連を、相関が最大になる線形結合のペアとして抽出します。例:学力テスト群(数学・国語・英語)と性格特性群(外向性・誠実性)の関係を全体として把握したい場面。 対応分析:質的変数(カテゴリ)の関連を低次元プロットで可視化します。例:年代×購買カテゴリのクロス表から「20 代は化粧品、50 代は健康食品」といった対応関係を散布図で示したい場面。 共分散構造分析(SEM):潜在変数を含む構造モデル全体の適合度を検証します。例:「ストレス → 不眠 → 疲労」という因果モデルがデータに整合するかを確かめたい場面。 試験頻出:3手法の比較表 判断の目安:データが量的か質的かでまず CCA・SEM と対応分析を分け、量的の場合「単に関連の強さを見たい」なら CCA、「因果構造を検証したい」なら SEM と進むと迷いません。 多変量解析の選択フロー 多変量解析の手法は数が多く、目的に応じた選択が重要です。「何を知りたいか」から逆算するフローで覚えると整理しやすくなります。 ステップ 1:目的を分類する 関連の構造を見たい - 探索的に潜在因子を探す → 因子分析・主成分分析(PCA) - 確認的に仮説モデルを検証 → 正準相関分析(CCA)・共分散構造分析(SEM) グループ化したい - グループラベルがない(教師なし)→ クラスター分析 - グループラベルがある(教師あり)→ 判別分析・ロジスティック回帰 カテゴリ変数の関連を見たい - 低次元で可視化 → 対応分析(数量化 III 類) - 独立性の検定 → 分割表分析(カイ二乗検定) ステップ 2:データ型を確認する 判断の目安:「目的(要約・分類・予測・検証)」と「データ型(量的・質的)」の 2 軸を最初に決めれば、手法は自動的に絞り込めます。試験では「○○を分析したい場合に最適な手法は?」という設問が頻出のため、このフローを暗記しておくと得点源になります。

確認クイズ(抜粋)

Q1. 多次元尺度法(MDS)の入力と出力を正しく説明したものはどれか?

A. 対象間の非類似度(距離)行列を入力し、低次元の座標を出力する

Q2. 正準相関分析が答える問いはどれか?

A. 2組の変数セット間の最大相関を見つける

Q3. 対応分析(Correspondence Analysis)が主に使われるデータの種類はどれか?

A. カテゴリ変数の分割表

全10問のクイズはサイトのインタラクティブ版でお試しください。

第5章の他のモジュール

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。