データの収集と調査設計
全数調査と標本調査の違い、無作為抽出、実験と観察の基本を学びます。
このモジュールで学ぶこと
これまでのChapter 1では、データの整理・可視化から2変数の相関分析まで、「手元に揃ったデータを読み解く」方法を学んできました。しかし、そのデータはどうやって集められたのでしょうか?集め方が偏っていると、どれだけ上手に分析・可視化しても、間違った結論につながります。「日本人の平均睡眠時間を調べたい」——1億人全員に聞くのは不可能です。だから私たちは「一部を調べて全体を推測する」という戦略をとります。しかし、その「一部」の選び方が偏っていたら、推測は外れてしまいます。このモジュールでは、信頼できるデータを得るための「調査設計」の基本を学びます。試験では「この調査には何というバイアスがあるか」「無作為抽出はなぜ重要か」という理解が問われます。
全数調査と標本調査:調べる範囲の選択
全数調査(悉皆調査)とは、母集団のすべてのメンバーを調査する方法です。日本の国勢調査はその代表例で、5年ごとに全世帯を対象に実施されます。全数調査は完全な情報が得られる一方、コスト・時間・労力が膨大になります。また、食品の品質検査のように「全部調べたらサンプルがなくなる」場合には物理的に不可能です。
標本調査とは、母集団から一部(標本)を取り出して調査し、その結果から母集団全体を推測する方法です。視聴率調査・選挙の出口調査・工場の品質管理など、日常のほとんどの統計調査は標本調査です。
全数調査:対象は全体のすべて。コストは高く、精度は完全(誤差なし)。例:国勢調査、全数検査
標本調査:対象は一部のみ。コストは低く、標本誤差が必ず生じる。例:視聴率調査、品質管理
標本調査では必ず「標本誤差」(偶然による推測のブレ)が生じます。しかしこれは統計的手法で定量化できます(信頼区間、Chapter 4で学習)。また、取り出す標本の個数を標本の大きさ(サンプルサイズ)といい、標本の大きさが大きいほど標本誤差は小さくなります。
無作為抽出:代表性の確保
標本調査で最も重要な原則は「無作為抽出(ランダムサンプリング)」です。これは「母集団の全メンバーが等しい確率で選ばれる」ような抽出方法のことです。
なぜ無作為抽出が必要か?「インターネットで『スマートフォンの所持率』を調査した」——この調査は既にネットを使える人(=スマホ保有率が高い層)にしか届きません。結果は実際より高い所持率を示してしまいます。このように偏った選び方をすると、標本が母集団を正しく代表せず、推測が外れてしまいます。これをサンプリングバイアスといいます。
代表的な無作為抽出の方法:
単純無作為抽出:乱数表やコンピュータを使い、母集団から完全にランダムに選ぶ。最もシンプルな方法。
系統抽出(等間隔抽出):リスト順に並べたデータから、一定間隔おきに選ぶ(例:1000人リストから10番おきに100人選ぶ)。実用的だが、リストに周期性があるとバイアスが生じる。
層化抽出:母集団をいくつかのグループ(層)に分け、各層から比例配分で無作為抽出する。年齢層別に分けて抽出するなど、母集団の構成を反映しやすい。
クラスター抽出(集落抽出):母集団をいくつかのクラスター(集落)に分け、クラスター単位で無作為に選ぶ。学校単位で選んでその学校の全生徒を調査するなど、地理的に分散した調査に向く。
乱数表の使い方:乱数表とは、0〜9の数字が規則性なく並んだ表です。調査対象に番号を割り当て、乱数表をどこかから読み始めて対応する番号の人を選ぶことで、恣意性なく標本を選べます。
試験ポイント: 「恣意的な選び方(調査員が選ぶ・自己申告)」はバイアスを生む。「無作為抽出でない」とは、ある人や物が他より選ばれやすい状況を指します。
実験研究と観察研究:因果関係の探り方
データ収集には大きく「実験研究」と「観察研究」の2種類があります。
実験研究とは、研究者が条件を意図的に操作して、原因と結果の関係を調べる方法です。「薬 A を飲む群(処理群)」と「偽薬を飲む群(対照群)」にランダムに割り当て、結果を比較するランダム化比較試験(RCT)が代表例です。
処理群(実験群):介入(処置)を施すグループ
対照群(コントロール群):介入を施さないグループ(比較の基準)
ランダム化:参加者を処理群・対照群に無作為に割り当てること。これにより、「もともと健康だった人が偶然処理群に集まった」という交絡を防げる
観察研究とは、研究者が条件を操作せず、自然に起きていることを観察・記録する方法です。疫学研究(「喫煙者と非喫煙者を10年追跡して肺がん発症を比較する」)はその典型です。
観察研究の限界:交絡因子(confounding factor)の存在です。「コーヒーを飲む人はがんになりやすい」
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。