公式集
統計検定準1級の重要公式を分野別にまとめています。試験で頻出の公式・定理を網羅しています。
確率の基礎
コルモゴロフの公理:確率は「非負性 P(A)≥0」「正規化 P(Ω)=1」「加法性(互いに排反な事象の和の確率は各確率の和)」の3条件を満たします。
包除原理:P(A∪B) = P(A) + P(B) − P(A∩B)。3事象では P(A∪B∪C) = P(A)+P(B)+P(C) − P(A∩B) − P(B∩C) − P(A∩C) + P(A∩B∩C)。
条件付き確率:P(B|A) = P(A∩B) / P(A)(P(A)>0 のとき)。Aが起きたという情報のもとでBが起きる確率です。
乗法定理:P(A∩B) = P(B|A)P(A) = P(A|B)P(B)。
全確率の定理:完全系 {A₁,…,Aₖ} に対して P(B) = ΣP(B|Aᵢ)P(Aᵢ)。
ベイズの定理:P(Aᵢ|B) = P(B|Aᵢ)P(Aᵢ) / ΣP(B|Aⱼ)P(Aⱼ)。事前確率P(Aᵢ)に尤度P(B|Aᵢ)を掛けて正規化することで事後確率を得ます。
統計的独立:P(A∩B) = P(A)P(B) ⟺ P(B|A) = P(B)。一方の情報がもう一方の確率を変えません。
主要な確率分布
正規分布 N(μ,σ²):期待値μ、分散σ²の釣り鐘型分布。μ±σに68.3%、μ±2σに95.4%、μ±3σに99.7%が入ります。標準正規分布N(0,1)に標準化:Z=(X−μ)/σ。
二項分布 B(n,p):n回のベルヌーイ試行で成功がk回起きる確率 P(X=k)=C(n,k)p^k(1−p)^(n−k)。期待値E[X]=np、分散Var(X)=np(1−p)。
ポアソン分布 Po(λ):P(X=k)=e^(−λ)λ^k/k!。期待値=分散=λ。稀な事象の件数モデル。二項分布でn→∞, p→0, np=λ の極限。
超幾何分布:N個中K個の当たりがある母集団からn個を非復元抽出したときの当たり数。期待値E[X]=nK/N、分散は有限修正係数(N−n)/(N−1)が付きます。
幾何分布:初めて成功するまでの試行回数。P(X=k)=(1−p)^(k−1)p、期待値1/p。無記憶性:P(X>s+t|X>s)=P(X>t)。
負の二項分布:r回成功するまでの試行回数。期待値r/p、分散r(1−p)/p²。
指数分布 Exp(λ):f(x)=λe^(−λx)(x≥0)。期待値1/λ、分散1/λ²。無記憶性を持つ連続型分布。ポアソン過程の待ち時間。
ガンマ分布 Ga(α,β):形状パラメータα、レートパラメータβ。期待値α/β、分散α/β²。指数分布はα=1の特殊ケース。カイ二乗分布はGa(k/2,1/2)。
ベータ分布 Be(α,β):[0,1]上の分布。期待値α/(α+β)。ベルヌーイ・二項分布の共役事前分布。
多変量正規分布 N(μ,Σ):平均ベクトルμ、分散共分散行列Σ。正規分布の多変量版。相関係数ρ=0 ⟺ 独立(正規分布の特別な性質)。
t分布 t(ν):自由度ν。N(0,1)÷√(χ²(ν)/ν)として定義。ν→∞で正規分布に収束。母分散未知のときの小標本推定・検定で使用。
カイ二乗分布 χ²(k):k個の独立な標準正規変数の二乗和。期待値k、分散2k。分散の推定・適合度検定で使用。
F分布 F(m,n):χ²(m)/m ÷ χ²(n)/n として定義。分散分析・回帰分析のF検定で使用。
分布の特性値
期待値:E[X] = ΣxP(X=x)(離散型)、∫xf(x)dx(連続型)。線形性:E[aX+b]=aE[X]+b。
分散:Var(X) = E[(X−μ)²] = E[X²]−(E[X])²。Var(aX+b)=a²Var(X)。独立なとき Var(X+Y)=Var(X)+Var(Y)。
歪度(わいど):E[(X−μ)³]/σ³。正→右裾が重い。ゼロ→対称。
尖度(せんど):E[(X−μ)⁴]/σ⁴ − 3(過剰尖度)。正規分布は0。正→裾が重い(ファットテール)。
モーメント母関数(MGF):M_X(t)=E[e^(tX)]。存在すればすべてのモーメントを生成。k次モーメント:M_X^(k)(0)=E[X^k]。独立な和のMGFは積になります。
相関係数:ρ(X,Y)=Cov(X,Y)/(σ_X σ_Y)∈[−1,1]。−1≤ρ≤1、ρ=0は線形無相関(独立は別)。
偏相関係数:r_{XY·Z} = (r_XY − r_XZ·r_YZ) / √((1−r_XZ²)(1−r_YZ²))。第3変数Zを制御した後のXとYの相関。
全期待値の法則:E[X] = E[E[X|Y]]。全分散の法則:Var(X) = E[Var(X|Y)] + Var(E[X|Y])。
大標本理論・漸近理論
大数の弱法則:iid サンプルの標本平均は真の期待値μに確率収束します(n→∞でP(|X̄−μ|>ε)→0)。
中心極限定理(CLT):iid でE[X]=μ、Var(X)=σ²のとき、√n(X̄−μ)/σ → N(0,1)(分布収束)。元の分布が何でも成立します。
デルタ法:√n(θ̂−θ)→N(0,σ²)のとき、√n(g(θ̂)−g(θ))→N(0,[g'(θ)]²σ²)。推定量の変換の漸近分散を求める公式。
フィッシャー情報量:I(θ)=−E[∂²logf(X;θ)/∂θ²]=E[(∂logf/∂θ)²]。対数尤度の曲率の大きさ。大きいほどθを精密に推定できます。
MLE漸近正規性:正則条件下で√n(θ̂_MLE−θ)→N(0,1/I(θ))。MLEはクラーメル・ラオ下界を漸近的に達成する最良推定量。
点推定
不偏性:E[θ̂]=θ。バイアス:Bias(θ̂)=E[θ̂]−θ=0。標本分散S²=(1/(n−1))Σ(Xᵢ−X̄)²は母分散σ²の不偏推定量。
一致性:n→∞でθ̂→θ(確率収束)。大標本での保証。
クラーメル・ラオの下界(CR不等式):不偏推定量の分散は Var(θ̂) ≥ 1/(n·I(θ))。この下界を達成する推定量を有効推定量と呼びます。
最尤推定法(MLE):L(θ)=Πf(xᵢ;θ) を最大化するθ̂_MLE を求める方法。対数尤度 logL を微分してゼロとおいた尤度方程式を解きます。
モーメント法:k次母モーメントE[X^k]をk次標本モーメント(1/n)ΣXᵢ^kで置き換えて連立方程式を解きます。パラメータが2つなら2つの方程式が必要。
十分統計量:ネイマンの分解定理:T(X)が十分統計量 ⟺ f(x;θ)=g(T(x),θ)h(x)と分解できます。Tに含まれない情報はθに無関係。
ガウス・マルコフの定理:線形モデルの仮定(誤差の期待値0・等分散・無相関)のもとで、OLS推定量はBLUE(最良線形不偏推定量)。
区間推定(信頼区間)
母平均(σ²既知):X̄ ± z_{α/2}·σ/√n。95%信頼区間はz_{0.025}=1.96。
母平均(σ²未知・正規母集団):X̄ ± t_{α/2}(n−1)·S/√n。t分布の自由度はn−1。
母比率:p̂ ± z_{α/2}·√(p̂(1−p̂)/n)。大標本近似(np̂≥5, n(1−p̂)≥5が目安)。
母分散:((n−1)S²/χ²_{α/2,n−1}, (n−1)S²/χ²_{1−α/2,n−1})。χ²分布は非対称なので両端の分位点が異なります。
2標本の母平均差(等分散):プール分散Sp²=((n₁−1)S₁²+(n₂−1)S₂²)/(n₁+n₂−2) を使い、自由度n₁+n₂−2のt分布。
被覆確率:同じ手順で構成した信頼区間が真の値を含む長期的な割合。95%CI→被覆確率95%。
仮説検定
検定統計量と棄却域:帰無仮説H₀のもとで検定統計量の分布を導出し、観測値が棄却域に入ればH₀を棄却。
P値:帰無仮説が正しいとしたとき、観測値以上に極端な結果が起きる確率。P値<α(有意水準)なら棄却。「P値が小さい」≠「効果が大きい」。
第1種の過誤(α):H₀が真なのに棄却してしまう確率。有意水準αで制御。
第2種の過誤(β)・検出力(1−β):H₁が真なのに棄却しない確率がβ。検出力=1−β=H₁のもとで棄却できる確率。サンプルサイズを増やすと検出力が上がります。
z検定(母平均・σ²既知):Z=(X̄−μ₀)/(σ/√n)、H₀のもとでN(0,1)に従います。
t検定(母平均・σ²未知):T=(X̄−μ₀)/(S/√n)、H₀のもとでt(n−1)に従います。
カイ二乗検定(母分散):χ²=(n−1)S²/σ₀²、H₀のもとでχ²(n−1)に従います。
適合度検定:χ²=Σ(Oᵢ−Eᵢ)²/Eᵢ。期待度数Eᵢ≥5が条件。自由度はカテゴリ数−1(パラメータを推定した数だけ追加で引く)。
ネイマン・ピアソン定理:単純仮説の検定では尤度比 L(θ₁)/L(θ₀)>cの棄却域が一様最強力検定(UMP)を与えます。
尤度比検定統計量:−2log(L₀/L₁)→χ²(自由度=制約数)(大標本)。複合仮説の検定に使います。
ウィルコクソン順位和検定:2標本の中央値比較のノンパラ版。データを順位に変換して検定統計量を計算します。
分散分析(ANOVA)
一元配置:全変動=群間変動+群内変動(SS_T=SS_B+SS_W)。F=MS_B/MS_W(MS=SS/自由度)。H₀:全群の平均が等しい。
二元配置:2つの因子A・BとAB交互作用を同時に検定。交互作用が有意なら主効果の解釈に注意が必要。
多重比較:ANOVAで有意後の事後検定。ボンフェロー二補正:各検定の有意水準をα/m(m=比較数)に設定。
回帰分析
重回帰モデル:y = β₀ + β₁x₁ + … + βₚxₚ + ε、ε~N(0,σ²)。OLS推定:β̂=(XᵀX)⁻¹Xᵀy。
決定係数R²:R²=1−SS_Res/SS_Tot∈[0,1]。変数を増やすと必ず増加するため、自由度調整済みR²を使います。
AIC(赤池情報量規準):AIC=−2logL+2k(kはパラメータ数)。値が小さいほど良いモデル。BIC=−2logL+k·logn(大標本でペナルティが強い)。
多重共線性:説明変数間の強い相関。VIF(分散拡大因子)≥10が目安で不安定な推定になります。
Lasso(L1正則化):ペナルティ項λΣ|βⱼ|を加えた最小化。係数を完全にゼロにして変数選択を行います。Ridge(L2正則化)は係数を縮小しますが変数選択はしません。
クックの距離:各データ点が全推定係数に与える影響度。値が1以上(または4/nが目安)の点は影響力のある外れ値と判断します。
ロジスティック回帰:log(p/(1−p))=β₀+β₁x₁+…。係数の解釈:xⱼが1増えるとオッズがe^βⱼ倍になります。
多変量解析
主成分分析(PCA):分散共分散行列(または相関行列)の固有ベクトルが主成分軸。第1主成分は分散最大方向。固有値=主成分の分散。寄与率=固有値の和の何%かを示します。
判別分析(LDA):グループ間分散/グループ内分散を最大化する判別関数を求めます。等分散仮定で判別境界は線形(LDA)、各グループ別分散では二次(QDA)。
マハラノビス距離:D²=(x−μ)ᵀΣ⁻¹(x−μ)。共分散構造を考慮した距離。Σが単位行列のときユークリッド距離²に退化。
因子分析:観測変数X=Λf+ε(Λ:因子負荷行列、f:共通因子、ε:独自因子)。共通性=各行の因子負荷量の二乗和。バリマックス回転(直交)・プロマックス回転(斜交)で解釈を容易にします。
モデル選択基準:AIC(赤池)=過学習防止・小標本向き。BIC(ベイズ)=大標本で一致的なモデル選択。クロスバリデーション=予測誤差の直接推定。
ベイズ統計
ベイズの定理(統計版):p(θ|x) ∝ p(x|θ)p(θ)。事後分布∝尤度×事前分布。共役事前分布を使うと事後分布が閉じた形になります。
代表的な共役対:二項-ベータ、ポアソン-ガンマ、正規-正規(精度パラメータ既知)。
MCMC(マルコフ連鎖モンテカルロ):目標分布を定常分布とするマルコフ連鎖を設計しサンプルを得る。ギブスサンプリング(条件付き分布から1つずつ更新)とメトロポリス・ヘイスティングス法が代表的。
時系列解析
弱定常性:平均・分散・自己共分散が時点tによらず一定。ARIMAモデルの前提条件。
自己回帰モデル AR(p):Xₜ=φ₁Xₜ₋₁+…+φₚXₜ₋ₚ+εₜ。ACF(自己相関関数)は指数的に減衰し、PACF(偏自己相関関数)はラグp以降でゼロに切断。
移動平均モデル MA(q):Xₜ=εₜ+θ₁εₜ₋₁+…+θqεₜ₋q。ACFはラグq以降でゼロ、PACFは指数減衰。
ARIMAモデル ARIMA(p,d,q):d回差分を取って定常化したうえでAR(p)+MA(q)を当てはめるモデル。
マルコフ連鎖:P(Xₜ₊₁|Xₜ,Xₜ₋₁,…)=P(Xₜ₊₁|Xₜ)(マルコフ性)。定常分布πは πP=π を満たします。既約・非周期ならば定常分布は一意に存在します。
※本サイトは個人による学習支援サイトです。最新の試験情報は公式サイトをご確認ください。