データの可視化
グラフでデータの分布・関係を視覚的に把握します。
このモジュールで学ぶこと
「売上データを上司に報告してください」——数百行のスプレッドシートを渡しても誰も理解できません。データを一瞬で伝えるのがグラフの力です。このモジュールでは、データの種類や目的に応じて最適なグラフを選ぶ方法と、2変数の「つながり」を数値で表す相関・共分散を学びます。
変数の種類とグラフの選択
グラフを選ぶ前に、データが「何の種類か」を確認する必要があります。質的変数(カテゴリカルデータ)は血液型や都道府県など「数値として意味のない」分類であり、量的変数は身長・体重・点数など「大小を比較できる」数値です。
棒グラフはカテゴリ間の量・頻度を比較するのに適しています。例えば「血液型ごとの人数」を棒グラフにすれば、どの血液型が最も多いか一目でわかります。棒と棒の間に隙間を設けるのが特徴です。
円グラフは全体に占める各カテゴリの割合(構成比)を表すのに適しています。「売上全体のうち商品A・B・Cが何%を占めるか」のような「部分と全体の関係」を見せるときに有効です。
棒グラフ=カテゴリ間の比較、円グラフ=構成比。目的に応じて使い分けることが重要です。
量的変数の分布:ヒストグラムと度数分布表
質的変数と違い、量的変数には「どんな値の範囲に何人いるか」という分布の形状が重要です。これを表すのがヒストグラムです。
100人分の試験点数を「0〜10点」「11〜20点」……と等幅の階級に分け、各階級の人数(度数)を棒で表します。棒グラフと違い棒と棒の間に隙間がない点に注意してください(連続データであることを表現しています)。
ヒストグラムから読み取れる分布の形状には以下のパターンがあります:
右に裾が長い(正の歪度):多くの値が左に集まり、右側に少数の大きな値が散らばる(所得分布が典型例)
左に裾が長い(負の歪度):多くの値が右に集まり、左側に少数の小さな値が散らばる(難問テストで大多数が高得点の場合など)
左右対称(ベル型):正規分布など、中央が最も多く両側に均等に減る
単峰・多峰:ピークが1つか複数か(多峰はデータに複数のグループが混在している可能性を示唆)
茎葉図は各データの具体的な値を保持しながら分布形状も確認できます。累積度数グラフは「その値以下が何%いるか」を折れ線で示し、中央値(累積50%)や四分位数を読み取るのに使えます。
2変数の関係:散布図と相関係数
「気温と飲料の売上に関係がある気がする」——2変数の関係を探るには、まず散布図で目で確かめましょう。縦軸と横軸に各変数をとり、各データ点を打った図が散布図です。右上がりに点が並べば正の相関、右下がりなら負の相関があると判断できます。
目で見た印象を数値化するのが共分散とピアソン相関係数です。共分散は「 が平均より上のとき も平均より上になる傾向」を表します:
と が同符号(両方プラスまたは両方マイナス)なら積は正になり、逆方向なら負になります。共分散が正なら正の相関、負なら負の相関です。ただし共分散は単位(cm×kg など)を持つため「強い弱い」の比較には向きません。
そこで共分散を各変数の標準偏差で割って無次元化したものがピアソン相関係数 です:
は必ず の範囲に収まり、 が1に近いほど強い線形相関があることを意味します。 は「線形関係がない」であり、U字型などの非線形な関係が存在しても になる点に注意が必要です。
の範囲は 。 でも非線形関係はありうる。
相関の落とし穴:擬相関と偏相関
散布図で「右上がり」に見えても、それが本当の因果関係とは限りません。擬相関(みかけの相関)は、2変数に直接の関係がないのに、第3の変数(交絡変数)の影響で相関があるように見える現象です。
身近な例で考えましょう。夏になるとアイスクリームの売上と水難事故の件数がともに増えます。「アイスを食べると溺れやすくなる?」——もちろん違います。どちらも「気温」という第3変数(交絡変数)によって同時に増えているだけです。
この「気温の影響を除いた上での、アイス売上と水難事故の真の相関」を求めるのが偏相関係数です。交絡変数の影響を統計的にコントロールして算出するため、擬相関かどうかを判断する有力な手段になります。
「相関があっても因果関係があるとは限らない」は統計学の基本中の基本です。因果関係を示すには実験デザインや追加の理論的根拠が必要です。
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。