用語集

統計検定3級の頻出用語を一覧で解説します。平均・分散・標準偏差・確率分布・仮説検定など試験に出る統計用語を網羅しています。

母集団 (Population) 基礎

あなたが「本当に知りたい」対象の全容。例えば、スープの味見における「鍋全体のスープ」にあたります。全数調査が困難なため、一部（標本）からその性質（母数）を推測します。

標本 (Sample) 基礎

母集団から取り出された「手元にあるデータ」。スープの味見における「スプーン一杯」のこと。標本の平均などは、偶然の偏り（サンプリング誤差）を含むため、慎重に扱う必要があります。

最尤推定法 (MLE) 上級

「今のデータが観察されたのは、どんな真実（母数）があったからだと考えるのが一番納得がいくか？」を探る手法。「最も（最）尤もらしい」値を答えとして採用します。

フィッシャー情報量 上級

データが母数に関してどれだけ「鋭い情報」を持っているかの指標。情報量が多いほど、推定のブレ（分散）を小さくできることが数理的に保証されます。

P値 (P-value) 中級

「差がない」という仮定の下で、今のデータ（またはそれ以上の差）が観測される確率。これが極めて小さい（通常 5% 未満）とき、「たまたまとは考えにくい＝意味のある差だ」と判断します。

有意水準 / 第1種の過誤 ($\alpha$) 中級

「本当は差がないのに、誤って差があると言ってしまう」間違いの許容ライン。裁判で例えると「無実の人を有罪にしてしまう」冤罪のリスク設定です。

第2種の過誤 ($\beta$) 中級

「本当は差があるのに、それを見逃してしまう」間違い。病気を見逃すリスクに相当します。これを小さく抑えることが、分析の「見逃し防止能力」を高めます。

検出力 (Statistical Power) 中級

「実際に差があるときに、正しく差があると言える能力（）」。この数値が高いほど、意味のある変化を鋭敏に捉えられる優れた調査と言えます。

中心極限定理 (CLT) 中級

「どんな分布でも、が十分大きければ、平均値の分布は正規分布に近づく」という最強の定理。これがあるおかげで、元のデータがどんなに歪んでいても、標本平均については正規分布の公式で分析が可能になります。

赤池情報量規準 (AIC) 上級

「予測の正確さ」と「モデルのシンプルさ」のバランスを測る指標。低ければ低いほど「実用的な良いモデル」と判断され、AIのモデル選びなどで広く使われます。

過学習 (Overfitting) 中級

手元のデータの「ノイズ」まで完璧に学習してしまい、新しいデータに対して予測が全く当たらなくなる現象。「過去問の答えを丸暗記して、本番の試験で応用が効かない生徒」のような状態です。

ロジスティック回帰 上級

「合格・不合格」「クリックする・しない」といった、2択の確率を予測する手法。出力が必ず 0 から 1 の間に収まる数理的な工夫（シグモイド関数）が施されています。

オッズ比 (Odds Ratio) 中級

「ある事象が起こる確率」と「起こらない確率」の比。ギャンブルの配当設定の考え方に近く、ある要因がリスクを何倍高めるかを示す際によく用いられます。

尤度 (Likelihood) 中級

「ある仮説（母数）の下で、今あるデータが観察される確率（連続分布の場合は確率密度）」。これを最大にする仮説を選ぶのが最尤推定法です。

交互作用 (Interaction) 中級

「薬 A の効果が、薬 B を同時に飲むかどうかで変わる」といった、一方の因子の効果が他方の因子の水準に依存する現象。効果が増幅される場合も減衰される場合もある。

マハラノビス距離 上級

「データのばらつき」を考慮した距離。単なる距離ではなく、集団の形状（楕円形など）に合わせて測るため、不自然なデータ（外れ値）を正確に見つけられます。

多重共線性 (Multicollinearity) 中級

説明変数の中に「ほとんど同じ意味の変数」が混ざっている状態。計算が不安定になり、分析結果が壊れる原因となるため、不必要な変数を削る必要があります。

交差妥当化 (Cross-Validation) 中級

データを「学習用」と「テスト用」に小分けにして入れ替えながら、何度もテストを繰り返す手法。モデルの「本番（未知のデータ）への強さ」を客観的に評価できます。

ブートストラップ法 上級

「今あるデータから復元抽出（同じデータを何度でも選べる再抽出）を繰り返す」シミュレーション手法。高度な数学公式が使えない複雑な状況でも、数値的に信頼区間などを求められます。

ヤコビアン (Jacobian) 上級

グラフを変形したときに「面積や体積がどれくらい伸び縮みしたか」を示す拡大率。複雑な変数変換を行う際、確率密度のつじつまを合わせるために必要です。

定常性 (Stationarity) 上級

時間の経過によらず、データの「性質（平均やばらつき）」が変わらないこと。時系列予測を行うための「安定した土台」のような前提条件です。

ARIMAモデル 上級

「過去の自分」と「最新のトレンド（誤差）」から未来を予測する時系列モデルの王道。株価や気温など、刻々と変化するデータの予測に使われます。

打ち切り (Censoring) 中級

寿命調査などで、「まだ生きていて、いつ終わるかわからない」という不完全なデータ。この「終わっていない」という情報自体も捨てずに分析に活かします。

固有値・固有ベクトル 上級

データ行列の「背骨（最もばらついている方向）」とその「強度」を抽出するもの。主成分分析においては、これを使って情報の要約を行います。

正則化 (Regularization) 上級

モデルが複雑になりすぎないよう、「お仕置き（ペナルティ）」を与える手法。いらない変数を切り捨てたり、係数が極端になるのを防ぎます。

分散分析 (ANOVA) 中級

「3つ以上のグループ」の間で平均に差があるかを一気に判定する手法。「グループ内のばらつき」と「グループ間のばらつき」を戦わせて判定します。

交絡 (Confounding) 中級

「コーヒーを飲む人はガンになりやすい？」という調査で、「コーヒー好きはタバコも吸う人が多い」という隠れた要因（タバコ）が結果を歪めてしまうような現象。

因子分析 上級

目に見えない「性格」や「価値観」などの共通因子を、アンケート回答などの目に見えるデータからあぶり出す手法。

クラスター分析 中級

異なる特徴を持つ集団を、似た者同士で「自動的にグループ分け」する手法。事前の正解がない「教師なし学習」の代表例です。

ノンパラメトリック手法 中級

データの「正確な値」ではなく「順位」を利用する手法。外れ値に非常に強く、データの分布が正規分布でなくても安心して使えます。