データ収集法と実験計画
観察研究・実験研究・標本調査法・フィッシャーの3原則を学びます。
このモジュールで学ぶこと
「コーヒーを毎日飲む人は肺がんになりやすい」というデータがあったとしても、実はその人たちに喫煙者が多かっただけかもしれません——これが「交絡」の問題です。どんなに高度な分析も、データの集め方が悪ければ意味がありません。正しい結論を出すためのデータ収集の考え方を学びます。
観察研究と実験研究:因果を言えるかどうかの分岐点
データ収集の方法は大きく2つに分かれます。観察研究は研究者が何も介入せず、自然に発生したデータを収集・観察します。例えば「喫煙者と非喫煙者の肺がん発生率を追跡する」などです。手軽に大量のデータが得られますが、「喫煙が肺がんの原因だ」という因果関係を直接証明するのは難しいです——「お酒を飲む人は喫煙者も多い」という交絡因子が潜んでいるかもしれないからです。
実験研究では研究者が条件を意図的に操作し、対象を処置群と対照群に無作為に割り付けます。代表例が新薬の効果を評価する無作為化比較試験(RCT)です。無作為化(ランダム化)によって、既知・未知を含む全ての交絡因子が2グループ間で統計的に均等になります。これが実験研究が「因果推論」を可能にする最大の理由です。
観察研究→相関はわかるが因果は言いにくい。実験研究(RCT)→無作為化で因果推論が可能。
標本調査法:母集団からどう抽出するか
全数調査(母集団全体を調べる)は多くの場合コスト・時間的に不可能です。母集団の一部を抽出して全体を推測する標本調査では、抽出の方法が推定精度に大きく影響します。
代表的な抽出法を、国勢調査を例に考えましょう:
単純無作為抽出:全国民から等確率で抽出。最も公平だが、名簿が必要で実施が大変
系統抽出:名簿の最初からランダムに開始点を選び、以降 番目ごとに抽出。操作が簡単で効率的
層化抽出:年齢・地域などでグループ(層)に分け、各層から抽出。層内変動が小さければ精度が上がる
クラスター抽出:まず地区(クラスター)をランダムに選び、選ばれた地区内の全員を調査。コスト削減に有効
多段抽出:都道府県 → 市区町村 → 世帯と複数段階で絞り込む。全国規模の調査で広く使用
層化抽出は「同質なグループに分けて精度向上」、クラスター抽出は「集団ごと調べてコスト削減」。
フィッシャーの3原則:良い実験設計の条件
統計学者 R.A. フィッシャーが提唱した実験設計の3原則は、データから正確な結論を導くための基本です。農業実験(肥料の効果検証)を例に考えます。
①反復(Replication):同じ処置を複数の実験単位(複数の畑)に適用します。1回の測定だけでは偶然のばらつきと真の効果を区別できません。繰り返しによって誤差変動を推定し、処置効果との「差」を統計的に評価できます。
②無作為化(Randomization):「肥料Aは日当たりの良い畑に、肥料Bは悪い畑に」という割り付けでは日当たりが交絡します。どの畑にどの肥料を使うかをランダムに決めることで、交絡因子の影響を均等化します。
③局所管理(Local Control):実験単位をあらかじめ均質なブロックに分け、ブロック内で各処置をランダムに割り付けます(ブロック化)。ブロック間の変動を誤差から除去することで、処置効果をより正確に検出できます。
フィッシャーの3原則:反復・無作為化・局所管理。この3つが揃ってはじめて信頼できる実験結果が得られます。
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。