公式集

統計検定準1級の重要公式を分野別にまとめています。試験で頻出の公式・定理を網羅しています。

確率の基礎

コルモゴロフの公理：確率は「非負性 P(A)≥0」「正規化 P(Ω)=1」「加法性（互いに排反な事象の和の確率は各確率の和）」の3条件を満たします。

包除原理：P(A∪B) = P(A) + P(B) − P(A∩B)。3事象では P(A∪B∪C) = P(A)+P(B)+P(C) − P(A∩B) − P(B∩C) − P(A∩C) + P(A∩B∩C)。

条件付き確率：P(B|A) = P(A∩B) / P(A)（P(A)>0 のとき）。Aが起きたという情報のもとでBが起きる確率です。

乗法定理：P(A∩B) = P(B|A)P(A) = P(A|B)P(B)。

全確率の定理：完全系 {A₁,…,Aₖ} に対して P(B) = ΣP(B|Aᵢ)P(Aᵢ)。

ベイズの定理：P(Aᵢ|B) = P(B|Aᵢ)P(Aᵢ) / ΣP(B|Aⱼ)P(Aⱼ)。事前確率P(Aᵢ)に尤度P(B|Aᵢ)を掛けて正規化することで事後確率を得ます。

統計的独立：P(A∩B) = P(A)P(B) ⟺ P(B|A) = P(B)。一方の情報がもう一方の確率を変えません。

主要な確率分布

正規分布 N(μ,σ²)：期待値μ、分散σ²の釣り鐘型分布。μ±σに68.3%、μ±2σに95.4%、μ±3σに99.7%が入ります。標準正規分布N(0,1)に標準化：Z=(X−μ)/σ。

二項分布 B(n,p)：n回のベルヌーイ試行で成功がk回起きる確率 P(X=k)=C(n,k)p^k(1−p)^(n−k)。期待値E[X]=np、分散Var(X)=np(1−p)。

ポアソン分布 Po(λ)：P(X=k)=e^(−λ)λ^k/k!。期待値=分散=λ。稀な事象の件数モデル。二項分布でn→∞, p→0, np=λ の極限。

超幾何分布：N個中K個の当たりがある母集団からn個を非復元抽出したときの当たり数。期待値E[X]=nK/N、分散は有限修正係数(N−n)/(N−1)が付きます。

幾何分布：初めて成功するまでの試行回数。P(X=k)=(1−p)^(k−1)p、期待値1/p。無記憶性：P(X>s+t|X>s)=P(X>t)。

負の二項分布：r回成功するまでの試行回数。期待値r/p、分散r(1−p)/p²。

指数分布 Exp(λ)：f(x)=λe^(−λx)（x≥0）。期待値1/λ、分散1/λ²。無記憶性を持つ連続型分布。ポアソン過程の待ち時間。

ガンマ分布 Ga(α,β)：形状パラメータα、レートパラメータβ。期待値α/β、分散α/β²。指数分布はα=1の特殊ケース。カイ二乗分布はGa(k/2,1/2)。

ベータ分布 Be(α,β)：[0,1]上の分布。期待値α/(α+β)。ベルヌーイ・二項分布の共役事前分布。

多変量正規分布 N(μ,Σ)：平均ベクトルμ、分散共分散行列Σ。正規分布の多変量版。相関係数ρ=0 ⟺ 独立（正規分布の特別な性質）。

t分布 t(ν)：自由度ν。N(0,1)÷√(χ²(ν)/ν)として定義。ν→∞で正規分布に収束。母分散未知のときの小標本推定・検定で使用。

カイ二乗分布 χ²(k)：k個の独立な標準正規変数の二乗和。期待値k、分散2k。分散の推定・適合度検定で使用。

F分布 F(m,n)：χ²(m)/m ÷ χ²(n)/n として定義。分散分析・回帰分析のF検定で使用。

分布の特性値

期待値：E[X] = ΣxP(X=x)（離散型）、∫xf(x)dx（連続型）。線形性：E[aX+b]=aE[X]+b。

分散：Var(X) = E[(X−μ)²] = E[X²]−(E[X])²。Var(aX+b)=a²Var(X)。独立なとき Var(X+Y)=Var(X)+Var(Y)。

歪度（わいど）：E[(X−μ)³]/σ³。正→右裾が重い。ゼロ→対称。

尖度（せんど）：E[(X−μ)⁴]/σ⁴ − 3（過剰尖度）。正規分布は0。正→裾が重い（ファットテール）。

モーメント母関数（MGF）：M_X(t)=E[e^(tX)]。存在すればすべてのモーメントを生成。k次モーメント：M_X^(k)(0)=E[X^k]。独立な和のMGFは積になります。

相関係数：ρ(X,Y)=Cov(X,Y)/(σ_X σ_Y)∈[−1,1]。−1≤ρ≤1、ρ=0は線形無相関（独立は別）。

偏相関係数：r_{XY·Z} = (r_XY − r_XZ·r_YZ) / √((1−r_XZ²)(1−r_YZ²))。第3変数Zを制御した後のXとYの相関。

全期待値の法則：E[X] = E[E[X|Y]]。全分散の法則：Var(X) = E[Var(X|Y)] + Var(E[X|Y])。

大標本理論・漸近理論

大数の弱法則：iid サンプルの標本平均は真の期待値μに確率収束します（n→∞でP(|X̄−μ|>ε)→0）。

中心極限定理（CLT）：iid でE[X]=μ、Var(X)=σ²のとき、√n(X̄−μ)/σ → N(0,1)（分布収束）。元の分布が何でも成立します。

デルタ法：√n(θ̂−θ)→N(0,σ²)のとき、√n(g(θ̂)−g(θ))→N(0,[g'(θ)]²σ²)。推定量の変換の漸近分散を求める公式。

フィッシャー情報量：I(θ)=−E[∂²logf(X;θ)/∂θ²]=E[(∂logf/∂θ)²]。対数尤度の曲率の大きさ。大きいほどθを精密に推定できます。

MLE漸近正規性：正則条件下で√n(θ̂_MLE−θ)→N(0,1/I(θ))。MLEはクラーメル・ラオ下界を漸近的に達成する最良推定量。

点推定

不偏性：E[θ̂]=θ。バイアス：Bias(θ̂)=E[θ̂]−θ=0。標本分散S²=(1/(n−1))Σ(Xᵢ−X̄)²は母分散σ²の不偏推定量。

一致性：n→∞でθ̂→θ（確率収束）。大標本での保証。

クラーメル・ラオの下界（CR不等式）：不偏推定量の分散は Var(θ̂) ≥ 1/(n·I(θ))。この下界を達成する推定量を有効推定量と呼びます。

最尤推定法（MLE）：L(θ)=Πf(xᵢ;θ) を最大化するθ̂_MLE を求める方法。対数尤度 logL を微分してゼロとおいた尤度方程式を解きます。

モーメント法：k次母モーメントE[X^k]をk次標本モーメント(1/n)ΣXᵢ^kで置き換えて連立方程式を解きます。パラメータが2つなら2つの方程式が必要。

十分統計量：ネイマンの分解定理：T(X)が十分統計量 ⟺ f(x;θ)=g(T(x),θ)h(x)と分解できます。Tに含まれない情報はθに無関係。

ガウス・マルコフの定理：線形モデルの仮定（誤差の期待値0・等分散・無相関）のもとで、OLS推定量はBLUE（最良線形不偏推定量）。

区間推定（信頼区間）

母平均（σ²既知）：X̄ ± z_{α/2}·σ/√n。95%信頼区間はz_{0.025}=1.96。

母平均（σ²未知・正規母集団）：X̄ ± t_{α/2}(n−1)·S/√n。t分布の自由度はn−1。

母比率：p̂ ± z_{α/2}·√(p̂(1−p̂)/n)。大標本近似（np̂≥5, n(1−p̂)≥5が目安）。

母分散：((n−1)S²/χ²_{α/2,n−1}, (n−1)S²/χ²_{1−α/2,n−1})。χ²分布は非対称なので両端の分位点が異なります。

2標本の母平均差（等分散）：プール分散Sp²=((n₁−1)S₁²+(n₂−1)S₂²)/(n₁+n₂−2) を使い、自由度n₁+n₂−2のt分布。

被覆確率：同じ手順で構成した信頼区間が真の値を含む長期的な割合。95%CI→被覆確率95%。

仮説検定

検定統計量と棄却域：帰無仮説H₀のもとで検定統計量の分布を導出し、観測値が棄却域に入ればH₀を棄却。

P値：帰無仮説が正しいとしたとき、観測値以上に極端な結果が起きる確率。P値<α（有意水準）なら棄却。「P値が小さい」≠「効果が大きい」。

第1種の過誤（α）：H₀が真なのに棄却してしまう確率。有意水準αで制御。

第2種の過誤（β）・検出力（1−β）：H₁が真なのに棄却しない確率がβ。検出力=1−β=H₁のもとで棄却できる確率。サンプルサイズを増やすと検出力が上がります。

z検定（母平均・σ²既知）：Z=(X̄−μ₀)/(σ/√n)、H₀のもとでN(0,1)に従います。

t検定（母平均・σ²未知）：T=(X̄−μ₀)/(S/√n)、H₀のもとでt(n−1)に従います。

カイ二乗検定（母分散）：χ²=(n−1)S²/σ₀²、H₀のもとでχ²(n−1)に従います。

適合度検定：χ²=Σ(Oᵢ−Eᵢ)²/Eᵢ。期待度数Eᵢ≥5が条件。自由度はカテゴリ数−1（パラメータを推定した数だけ追加で引く）。

ネイマン・ピアソン定理：単純仮説の検定では尤度比 L(θ₁)/L(θ₀)>cの棄却域が一様最強力検定（UMP）を与えます。

尤度比検定統計量：−2log(L₀/L₁)→χ²(自由度=制約数)（大標本）。複合仮説の検定に使います。

ウィルコクソン順位和検定：2標本の中央値比較のノンパラ版。データを順位に変換して検定統計量を計算します。

分散分析（ANOVA）

一元配置：全変動=群間変動+群内変動（SS_T=SS_B+SS_W）。F=MS_B/MS_W（MS=SS/自由度）。H₀:全群の平均が等しい。

二元配置：2つの因子A・BとAB交互作用を同時に検定。交互作用が有意なら主効果の解釈に注意が必要。

多重比較：ANOVAで有意後の事後検定。ボンフェロー二補正：各検定の有意水準をα/m（m=比較数）に設定。

回帰分析

重回帰モデル：y = β₀ + β₁x₁ + … + βₚxₚ + ε、ε～N(0,σ²)。OLS推定：β̂=(XᵀX)⁻¹Xᵀy。

決定係数R²：R²=1−SS_Res/SS_Tot∈[0,1]。変数を増やすと必ず増加するため、自由度調整済みR²を使います。

AIC（赤池情報量規準）：AIC=−2logL+2k（kはパラメータ数）。値が小さいほど良いモデル。BIC=−2logL+k·logn（大標本でペナルティが強い）。

多重共線性：説明変数間の強い相関。VIF（分散拡大因子）≥10が目安で不安定な推定になります。

Lasso（L1正則化）：ペナルティ項λΣ|βⱼ|を加えた最小化。係数を完全にゼロにして変数選択を行います。Ridge（L2正則化）は係数を縮小しますが変数選択はしません。

クックの距離：各データ点が全推定係数に与える影響度。値が1以上（または4/nが目安）の点は影響力のある外れ値と判断します。

ロジスティック回帰：log(p/(1−p))=β₀+β₁x₁+…。係数の解釈：xⱼが1増えるとオッズがe^βⱼ倍になります。

多変量解析

主成分分析（PCA）：分散共分散行列（または相関行列）の固有ベクトルが主成分軸。第1主成分は分散最大方向。固有値=主成分の分散。寄与率=固有値の和の何%かを示します。

判別分析（LDA）：グループ間分散/グループ内分散を最大化する判別関数を求めます。等分散仮定で判別境界は線形（LDA）、各グループ別分散では二次（QDA）。

マハラノビス距離：D²=(x−μ)ᵀΣ⁻¹(x−μ)。共分散構造を考慮した距離。Σが単位行列のときユークリッド距離²に退化。

因子分析：観測変数X=Λf+ε（Λ:因子負荷行列、f:共通因子、ε:独自因子）。共通性=各行の因子負荷量の二乗和。バリマックス回転（直交）・プロマックス回転（斜交）で解釈を容易にします。

モデル選択基準：AIC（赤池）＝過学習防止・小標本向き。BIC（ベイズ）＝大標本で一致的なモデル選択。クロスバリデーション＝予測誤差の直接推定。

ベイズ統計

ベイズの定理（統計版）：p(θ|x) ∝ p(x|θ)p(θ)。事後分布∝尤度×事前分布。共役事前分布を使うと事後分布が閉じた形になります。

代表的な共役対：二項-ベータ、ポアソン-ガンマ、正規-正規（精度パラメータ既知）。

MCMC（マルコフ連鎖モンテカルロ）：目標分布を定常分布とするマルコフ連鎖を設計しサンプルを得る。ギブスサンプリング（条件付き分布から1つずつ更新）とメトロポリス・ヘイスティングス法が代表的。

時系列解析

弱定常性：平均・分散・自己共分散が時点tによらず一定。ARIMAモデルの前提条件。

自己回帰モデル AR(p)：Xₜ=φ₁Xₜ₋₁+…+φₚXₜ₋ₚ+εₜ。ACF（自己相関関数）は指数的に減衰し、PACF（偏自己相関関数）はラグp以降でゼロに切断。

移動平均モデル MA(q)：Xₜ=εₜ+θ₁εₜ₋₁+…+θqεₜ₋q。ACFはラグq以降でゼロ、PACFは指数減衰。

ARIMAモデル ARIMA(p,d,q)：d回差分を取って定常化したうえでAR(p)+MA(q)を当てはめるモデル。

マルコフ連鎖：P(Xₜ₊₁|Xₜ,Xₜ₋₁,…)=P(Xₜ₊₁|Xₜ)（マルコフ性）。定常分布πは πP=π を満たします。既約・非周期ならば定常分布は一意に存在します。

← ホームへ戻る

※本サイトは個人による学習支援サイトです。最新の試験情報は公式サイトをご確認ください。