データの種類と公的統計

尺度の4種類・変数の分類・身近な公的統計データを理解します。

このモジュールで学ぶこと「血液型のデータを分析して平均血液型を求めましょう」——と言われたら変に感じますよね。「A型が一番多い」とは言えても「平均血液型 = 1.8型」には意味がありません。データの種類をきちんと把握することは、適切な統計手法を選ぶための第一歩です。このモジュールでは、データの分類方法と尺度の4水準、そして身近な公的統計データの使い方を学びます。変数の2大分類：数えるか測るかデータを見たとき最初に確認するのは「これは数値か、それとも分類か」です。質的変数（カテゴリカル変数）：血液型・都道府県・性別のように「どのグループに属するか」を表す変数。数値に大小の意味はありません（棒グラフ・円グラフが向いています）。量的変数：数値そのものに意味がある変数。「数えられる整数値のみ」をとる離散型（来客数・世帯員数）と、「任意の実数値をとれる」連続型（身長・気温・体重）に分かれます（ヒストグラム・箱ひげ図が向いています）。尺度の4水準：どこまで「計算」できるか量的/質的という大分類のさらに細かい分類として、スティーブンス（S.S.Stevens）が提唱した尺度の4水準があります。水準が上がるほど使える統計操作が増えていきます。水準が低い順に4つを見ていきます。名義尺度：分類・識別のためのラベルに過ぎません（血液型A/B/O/AB、都道府県コード）。大小比較も差の計算も意味を持ちません。順序尺度：順序関係に意味があります（満足度1〜5、順位）。ただし「3と5の差 = 5と7の差」とは言えません。間隔尺度：差が等間隔で意味を持ちます（西暦年、摂氏温度）。ただし「30℃は15℃の2倍の暑さ」とは言えません。0℃が「温度がゼロ」を意味しないからです。比例尺度（比率尺度）：絶対ゼロを持ち、差だけでなく比にも意味があります（身長・体重・絶対温度K）。「180cmは90cmの2倍の身長」と言えます。 4水準の順：名義 < 順序 < 間隔 < 比例。上位の水準は下位の水準の操作をすべて含む（比例尺度では大小比較も差の計算も比の計算もできる）。公的統計：実データを活用する統計を学ぶうえで、実際のデータに触れることは非常に重要です。日本の政府は大規模な公的統計調査を定期的に実施しており、分析演習・卒業研究・試験の設問素材として活用されています。日本の代表的な公的統計には次のものがあります。国勢調査：5年ごとに日本に住むすべての人を対象とした全数調査（センサス）（総務省）。人口・世帯・就業状況などを調べます。標本誤差はゼロですが、膨大なコストと時間がかかります。家計調査：全国約9000世帯を対象に、毎月の収入・支出を調べる標本調査です（総務省）。労働力調査：就業・失業状況を毎月把握する調査で、失業率の計算に使われます。これらのデータはe-Stat（政府統計の総合窓口）から無料でダウンロードできます。全数調査 vs 標本調査のトレードオフ：全数調査は標本誤差ゼロだが費用・時間が膨大。標本調査は効率的だが標本誤差が生じる。国勢調査でさえ「全員」の把握は困難（無回答・住所不明者）なため、補完推計も行われます。よくある誤解・つまずき全数調査でも誤差はゼロではありません。無回答や把握漏れがあり、補完推計が行われます。一次データ（自分で集める）と二次データ（既存の統計）を区別する。出所と作成目的を確認。公的統計にも調査設計や定義があり、定義の違いに注意。ここまでのまとめデータの種類：量的／質的、一次／二次。全数調査と標本調査のトレードオフ（精度 vs コスト・時間）。公的統計（国勢調査など）はデータソースとして活用できるが、定義・誤差に留意。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。