← study-apps.com 学習サイト集トップへ

データの整理と要約

データを数値でとらえる基本手法を学びます。

このモジュールで学ぶこと 「クラス30人のテスト結果を一言で説明してほしい」と頼まれたとき、何を伝えますか?「平均50点」と言うだけでは、「全員が50点」なのか「0点と100点が半々」なのか区別できません。このモジュールでは、データの「中心」と「散らばり」を数値で正確に伝える方法——代表値・分散・四分位数——を学びます。 代表値:平均・中央値・最頻値 30人の身長データを「一つの数」で表すとしたら、どの値を選べばよいでしょうか?「合計を人数で割る」のが平均ですが、もし一人だけ身長2mの人がいたら平均は大きく引き上げられてしまいます。このような外れ値への耐性が、代表値の選択基準になります。 平均(mean)はすべての値を合計して個数で割ります。(エックスバー)と書き、 個のデータ に対して: (シグマ)は「 から まで全部足す」という命令記号です。 の省略形です。外れ値が一つあるだけで値が大きく動く点に注意が必要です。 中央値(median)はデータを昇順に並べたときの「真ん中の値」です。個数が偶数のときは中央2値の平均をとります。外れ値があっても「順位」は変わらないため、外れ値の影響を受けません。 最頻値(mode)は最も多く登場する値で、カテゴリカルデータや離散データで特に有用です。 外れ値が疑われるときは中央値が安全。所得・価格など「一部の高額データ」を含む場合は中央値の方が実態を反映します。 散らばりの指標:分散と標準偏差 代表値でデータの「中心」はわかりました。しかし「全員が50点」と「0点と100点が半々」は同じ平均50点でも全く違います。データの「散らばり具合」を測るのが次の課題です。 最も単純な散らばりの指標は範囲(レンジ)——最大値から最小値を引いた値——ですが、外れ値一つに大きく左右されます。より安定した指標が分散と標準偏差です。 各データが平均からどれだけ離れているかを偏差 と呼びます。偏差の合計は必ず0になる(正負が打ち消し合う)ため、2乗して合計するのが分散の発想です: で割るのは不偏分散にするためです。 個のデータから標本平均 を1つ推定した後、残差 が独立に変動できる個数は 個だけです(最後の1個は、他の 個の残差と「総和が0」という制約から自動的に決まります)。この を自由度といいます。 で割ることで母分散の過小評価が補正され、(不偏性)が成立します。 標準偏差 は分散の平方根なので元のデータと同じ単位(cm、点など)を持ち、直感的に解釈しやすいです。 不偏分散は 割り、標本分散は 割り。統計検定では特に断りがない限り不偏分散( 割り)が基本です。 外れ値に強い指標:四分位数とIQR 分散・標準偏差も外れ値の影響を受けます(2乗するのでむしろ増幅されます)。外れ値があるデータではより頑健な指標が必要です。データを小さい順に並べて4等分したときの区切り値を四分位数といいます。 100人のデータを昇順に並べた場合を想像してください: Q1(第1四分位数):25番目付近の値——下から25%の境界 Q2(第2四分位数):50番目付近の値——中央値に等しい Q3(第3四分位数):75番目付近の値——下から75%の境界 四分位範囲(IQR) は で求めます。中央50%のデータの散らばりを表すため、上下各25%の外れ値の影響を受けません。箱ひげ図はQ1・Q2・Q3・最小値・最大値を一図に表し、分布の形状を視覚的に把握できます。 より小さい値、または より大きい値が「外れ値候補」として識別されます。 IQR = Q3 − Q1。外れ値に頑健な散らばりの指標として試験頻出です。 分布の形を表す:歪度と尖度 四分位数と箱ひげ図で「全体の形の見当」はつきます。では分布の「歪み」や「とがり具合」を数値一つで表せないでしょうか?それが歪度と尖度です。 歪度(skewness、わいど)は分布の非対称性を表す指標です。所得分布のように少数の高額所得者が右側に伸びる分布は、平均が中央値より右に引っ張られます: 正の歪度(右に裾が長い)→ 平均 > 中央値 > 最頻値 負の歪度(左に裾が長い)→ 平均 < 中央値 < 最頻値 歪度 = 0 → 左右対称(正規分布など) 尖度(kurtosis)は分布の「裾の重さ(太さ)」を表します。正規分布を基準(尖度 = 0 または 3、定義によって異なる)として、裾が重い——つまり平均から大きく外れた値が出やすい——分布ほど高い尖度をとります。 歪度・尖度は試験で「方向感覚」を問われることが多い。具体的な数値計算よりも「正の歪度なら平均 > 中央値 > 最頻値」という方向性の理解が重要です。 格差の指標:ロ

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。