データ収集法と実験計画

観察研究・実験研究・標本調査法・フィッシャーの3原則を学びます。

このモジュールで学ぶこと「コーヒーを毎日飲む人は肺がんになりやすい」というデータがあったとしても、実はその人たちに喫煙者が多かっただけかもしれません——これが「交絡」の問題です。どんなに高度な分析も、データの集め方が悪ければ意味がありません。正しい結論を出すためのデータ収集の考え方を学びます。観察研究と実験研究：因果を言えるかどうかの分岐点データ収集の方法は大きく2つに分かれます。観察研究は研究者が何も介入せず、自然に発生したデータを収集・観察します。例えば「喫煙者と非喫煙者の肺がん発生率を追跡する」などです。手軽に大量のデータが得られますが、「喫煙が肺がんの原因だ」という因果関係を直接証明するのは難しいです——「お酒を飲む人は喫煙者も多い」という交絡因子が潜んでいるかもしれないからです。実験研究では研究者が条件を意図的に操作し、対象を処置群と対照群に無作為に割り付けます。代表例が新薬の効果を評価する無作為化比較試験（RCT）です。無作為化（ランダム化）によって、既知・未知を含む全ての交絡因子が2グループ間で統計的に均等になります。これが実験研究が「因果推論」を可能にする最大の理由です。観察研究→相関はわかるが因果は言いにくい。実験研究（RCT）→無作為化で因果推論が可能。標本調査法：母集団からどう抽出するか全数調査（母集団全体を調べる）は多くの場合コスト・時間的に不可能です。母集団の一部を抽出して全体を推測する標本調査では、抽出の方法が推定精度に大きく影響します。代表的な抽出法を、国勢調査を例に考えましょう：単純無作為抽出：全国民から等確率で抽出。最も公平だが、名簿が必要で実施が大変系統抽出：名簿の最初からランダムに開始点を選び、以降番目ごとに抽出。操作が簡単で効率的層化抽出：年齢・地域などでグループ（層）に分け、各層から抽出。層内変動が小さければ精度が上がるクラスター抽出：まず地区（クラスター）をランダムに選び、選ばれた地区内の全員を調査。コスト削減に有効多段抽出：都道府県 → 市区町村 → 世帯と複数段階で絞り込む。全国規模の調査で広く使用層化抽出は「同質なグループに分けて精度向上」、クラスター抽出は「集団ごと調べてコスト削減」。フィッシャーの3原則：良い実験設計の条件統計学者 R.A. フィッシャーが提唱した実験設計の3原則は、データから正確な結論を導くための基本です。農業実験（肥料の効果検証）を例に考えます。 ①反復（Replication）：同じ処置を複数の実験単位（複数の畑）に適用します。1回の測定だけでは偶然のばらつきと真の効果を区別できません。繰り返しによって誤差変動を推定し、処置効果との「差」を統計的に評価できます。 ②無作為化（Randomization）：「肥料Aは日当たりの良い畑に、肥料Bは悪い畑に」という割り付けでは日当たりが交絡します。どの畑にどの肥料を使うかをランダムに決めることで、交絡因子の影響を均等化します。 ③局所管理（Local Control）：実験単位をあらかじめ均質なブロックに分け、ブロック内で各処置をランダムに割り付けます（ブロック化）。ブロック間の変動を誤差から除去することで、処置効果をより正確に検出できます。フィッシャーの3原則：反復・無作為化・局所管理。この3つが揃ってはじめて信頼できる実験結果が得られます。よくある誤解・つまずき標本は「大きさ」より「無作為性」が重要。偏った選び方ではサンプルを増やしても偏ったまま（サンプリングバイアス）。観察研究では因果関係を示せません。交絡因子があるため。因果はランダム化比較試験（実験研究）。無作為化なしの実験は交絡を排除できません。フィッシャーの3原則が揃って初めて信頼できます。ここまでのまとめ無作為抽出で代表性を確保（単純・系統・層化・クラスター）。実験研究（RCT）は因果を示せる／観察研究は相関まで。フィッシャーの3原則：反復・無作為化・局所管理。

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。