データの種類と公的統計
尺度の4種類・変数の分類・身近な公的統計データを理解します。
このモジュールで学ぶこと
「血液型のデータを分析して平均血液型を求めましょう」——と言われたら変に感じますよね。「A型が一番多い」とは言えても「平均血液型 = 1.8型」には意味がありません。データの種類をきちんと把握することは、適切な統計手法を選ぶための第一歩です。このモジュールでは、データの分類方法と尺度の4水準、そして身近な公的統計データの使い方を学びます。
変数の2大分類:数えるか測るか
データを見たとき最初に確認するのは「これは数値か、それとも分類か」です。質的変数(カテゴリカル変数)は血液型・都道府県・性別のように「どのグループに属するか」を表す変数で、数値に大小の意味はありません。一方量的変数は数値そのものに意味があり、「数えられる整数値のみ」をとる離散型(来客数・世帯員数)と、「任意の実数値をとれる」連続型(身長・気温・体重)に分かれます。グラフの選び方にも影響します——質的変数は棒グラフ・円グラフ、量的変数はヒストグラム・箱ひげ図が向いています。
尺度の4水準:どこまで「計算」できるか
量的/質的という大分類のさらに細かい分類として、スティーブンス(S.S.Stevens)が提唱した尺度の4水準があります。水準が上がるほど使える統計操作が増えていきます。
最も基本的なのが名義尺度で、分類・識別のためのラベルに過ぎません(血液型A/B/O/AB、都道府県コード)。大小比較も差の計算も意味を持ちません。順序尺度は順序関係に意味があります(満足度1〜5、順位)が、「3と5の差 = 5と7の差」とは言えません。間隔尺度は差が等間隔で意味を持ちます(西暦年、摂氏温度)。ただし「30℃は15℃の2倍の暑さ」とは言えない——0℃が「温度がゼロ」を意味しないからです。比例尺度(比率尺度)は絶対ゼロを持ち、差だけでなく比にも意味があります(身長・体重・絶対温度K)。「180cmは90cmの2倍の身長」は言えます。
4水準の順:名義 < 順序 < 間隔 < 比例。上位の水準は下位の水準の操作をすべて含む(比例尺度では大小比較も差の計算も比の計算もできる)。
公的統計:実データを活用する
統計を学ぶうえで、実際のデータに触れることは非常に重要です。日本の政府は大規模な公的統計調査を定期的に実施しており、分析演習・卒業研究・試験の設問素材として活用されています。
国勢調査は5年ごとに日本に住むすべての人を対象とした全数調査(センサス)で、人口・世帯・就業状況などを調べます(総務省)。全数調査なので標本誤差はゼロですが、膨大なコストと時間がかかります。家計調査は全国約9000世帯を対象に毎月の収入・支出を調べる標本調査です(総務省)。労働力調査は就業・失業状況を毎月把握する調査で、失業率の計算に使われます。これらのデータはe-Stat(政府統計の総合窓口)から無料でダウンロードできます。
全数調査 vs 標本調査のトレードオフ:全数調査は標本誤差ゼロだが費用・時間が膨大。標本調査は効率的だが標本誤差が生じる。国勢調査でさえ「全員」の把握は困難(無回答・住所不明者)なため、補完推計も行われます。
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。