相関・偏相関・条件付き期待値
相関係数・偏相関係数・全期待値の法則——多変数の関係を分析する道具を習得します。
このモジュールで学ぶこと
前のモジュールで1変数の分布の特性値(歪度・尖度・変動係数)を学びました。ここでは視野を2変数以上に広げます。「2変数の間にどんな線形関係があるか」を測る相関係数、「第3の変数の影響を除いた純粋な関係」を測る偏相関係数、そして「ある情報を得たとき期待値がどう変わるか」を扱う条件付き期待値を学びます。これらは後の章で学ぶ回帰分析・多変量解析すべての基礎となる考え方です。
「制御する」という発想
相関係数は2変数の関係を測りますが、第3の変数が両者に影響していると「実際には直接の関係がないのに相関があるように見える」現象——擬似相関(spurious correlation)——が生じます。偏相関係数と条件付き期待値はいずれも「ある変数を固定・制御したときの残りの変数の振る舞い」を見る、という共通の発想に基づいています。
相関係数:2変数の線形関係の強さ
期待値・分散の章で学んだ共分散 は2変数の「関係の方向と大きさ」を表しますが、単位に依存するという弱点があります。これを標準化(単位を消す)したものがピアソン相関係数(Pearson Correlation Coefficient)です:
値域は ——標準化( で割る)によって、どんな強さの線形関係も必ず の範囲に収まるよう設計されています(コーシー・シュワルツ不等式により が保証されます)。
:完全な正の線形関係、:完全な負の線形関係、:線形関係なし
重要な注意:(無相関)は「独立」を意味しない。たとえば ( が平均0の対称分布)では でも と の間には強い非線形の関係があります。
試験頻出:独立 無相関()は常に成立しますが、逆(無相関 独立)は一般に成立しません。ただし多変量正規分布に限り「無相関 独立」が成立します(後の多変量分布の章で詳述)。
偏相関係数:擬似相関を見破る
「アイスクリームの売上()と溺死者数()には強い正の相関がある」——しかしこれはアイスも溺死も「気温が高い夏に増える」だけで、直接の因果関係はありません。気温()という共通の原因によって生じた擬似相関です。
気温()の影響を取り除いたときの と の純粋な関係を測るのが偏相関係数です。操作のイメージは「 を取り除いた残り同士の相関」です:
から との線形関係を引き算した残差 ( の影響を除いた )を作る
から との線形関係を引き算した残差 ( の影響を除いた )を作る
と の相関係数が偏相関係数
この手順を3変数の相関係数 だけで表すと:
アイス売上と溺死者数の例では、気温 を除外して計算すると偏相関係数が 0 に近くなり、「直接の関係はなかった」と確認できます。
条件付き期待値と条件付き分散
「男女()で分けたとき、それぞれの身長()の平均はどう変わるか?」——条件付き確率の章で学んだ発想を期待値・分散に適用したものです。
という条件のもとでの の期待値を条件付き期待値 と呼びます。「 とわかったとき はどの確率分布に従うか」を表す関数が条件付き密度 (= を固定したときの の PDF)で、これを使って期待値を計算します:
条件付き期待値は の値によって変わる関数です( 男性なら男性の平均身長、 女性なら女性の平均身長)。
全期待値の法則(Law of Total Expectation):
「グループ()ごとの平均を、グループの大きさ(出現確率)で加重平均したものが全体の平均に等しい」という法則です。例:男性の平均身長 170cm(比率 60%)、女性 157cm(比率 40%)なら全体 cm。
全分散の法則(Law of Total Variance):
全体の分散はどこから来るのでしょうか。先ほどの身長の例で考えます。全員の身長がばらつく理由は2つあります。
グループ内のばらつき:男性同士でも身長は違う(個人差)
グループ間のばらつき:男性の平均(170cm)と女性の平均(157cm)がそもそも違う
この2つを足し合わせると全体のばらつきになります:
具体的に計算してみます(男性 、女性 、比率60%/40%と仮定。全体平均は164.8cm):
群内変動:
群間変動:各グループ平均と全体平均の差の二乗×比率を合計する
- 男性:、
- 女性:、
- 合計:
全体の分散:
後の章で学ぶ分散分析(ANOVA)は、この分解を利用して「グループ間の差が偶然では説明できないほど大きいか」を検定します()。
確認クイズ(抜粋)
Q1. 偏相関係数 が何を表すかとして正しいものはどれか?
A. の影響を除いた と の純粋な相関
Q2. 全分散の法則 の2つの成分はそれぞれ何を表すか?
A. グループ内のばらつきの平均とグループ平均のばらつき(分散分析の群内・群間変動に対応)
Q3. 全期待値の法則 の実用的な意味として最も適切なものはどれか?
A. グループ()ごとの平均を、グループの大きさで加重平均したものが全体の平均に等しい
全10問のクイズはサイトのインタラクティブ版でお試しください。
第2章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。