← study-apps.com 学習サイト集トップへ

データの整理と要約

データを数値でとらえる基本手法を学びます。

このモジュールで学ぶこと 「クラス30人の試験結果を集めました。何から読み取ればいいでしょうか?」——データが手元に揃ったとき、最初にするべきことは「整理して要約する」ことです。平均・中央値・分散などの基本統計量は、大量のデータを数個の数値に圧縮し、全体の特徴を素早く把握するための道具です。データ分析のあらゆる場面でこれらの統計量は登場するため、意味と計算方法をしっかり身につけましょう。 代表値:平均・中央値・最頻値 会社の年収データを例に考えてみましょう。10人の社員の年収が「300, 320, 340, 350, 360, 380, 390, 400, 420, 2000(万円)」だとします。最後の1人だけ突出して高い、いわゆる外れ値(他の値から極端に離れたデータ点)です。 このデータの代表値を3種類で計算すると: 平均(mean):全員の年収を足して人数で割る。外れ値2000万円に引っ張られ、平均は約426万円——実態より大幅に高くなります。 中央値(median):大小順に並べたときの真ん中の値。10人なら5番目と6番目の平均 = (360+380)/2 = 370万円。外れ値の影響をほとんど受けません。 最頻値(mode):最も多く現れる値。このデータでは全員異なるため意味をなしませんが、「血液型の分布」など、同じ値が繰り返し現れるデータで特に有効です。 この年収の例のように「ほとんどの値は低く、ごく一部の高い値が存在する」分布は右裾が長い(右歪みの)分布と呼ばれます。右歪みでは大きな外れ値が平均を右に引っ張るため、「最頻値 中央値 平均」の大小関係が成り立ちます。左右対称の分布(正規分布など)では三者が一致します。 個のデータ の平均は次の式で定義されます。 試験ポイント: 外れ値がある場合は中央値、カテゴリデータには最頻値が適切です。「右裾が長い分布」では最頻値 中央値 平均の大小関係になる傾向があります(一般的な目安として、試験ではこの関係が成り立つ前提の問題が出題されます)。 分散と標準偏差:「散らばり」を数値化する 代表値だけではわからないことがあります。「毎日25℃の夏」と「15℃と35℃が交互に来る夏」は平均気温が同じ25℃でも、体感はまったく異なります。この「散らばりの大きさ」を測る指標が分散と標準偏差です。 散らばりの最もシンプルな指標から始めましょう。最小値はデータの中で最も小さい値、最大値は最も大きい値です。そして 範囲(レンジ) = 最大値 − 最小値 は、データが全体としてどれだけの幅に広がっているかを1つの数値で表します。 例:「10, 25, 30, 45, 90」というデータなら範囲 = 90 − 10 = 80。ただし範囲は外れ値(極端な1点)に大きく左右されます。90が150になるだけで範囲は80から140に変わります。この弱点を補う指標として、次に分散・標準偏差・四分位範囲を学びます。 分散(variance)は「各データが平均からどれだけ離れているか」を数値化した指標です。 まず素朴に「各データと平均の差(偏差)を全部足して平均する」を試してみましょう。しかし偏差には正(平均より大きい)と負(平均より小さい)があり、そのまま足すと打ち消し合ってしまいます——実は偏差の合計は常にちょうど0になります。これでは「散らばり」が全く測れません。 そこで偏差を二乗します。二乗すると常に正の値になり、プラスとマイナスが打ち消し合わなくなります。この「偏差の二乗の平均」が分散です(記述統計では で割ります)。 二乗したことで単位も二乗になってしまいます(気温なら℃²)。そこで平方根をとったものが標準偏差(standard deviation)です。 標準偏差はもとのデータと同じ単位(℃)になるため、「平均から ○℃の範囲にデータの大半が入る」という直感的な解釈ができます。分散と標準偏差の単位の違いは試験でよく問われるポイントです。 注(分母 と の違い): ここで学ぶ分散は「手元にあるデータ全体の散らばり(記述統計)」を表すもので、分母は です。Chapter 4(推測統計)では、母集団の分散を推定する「不偏分散」(分母が )を使います。なぜ なのかはChapter 4で詳しく学びます。今は「記述統計では で割る」と覚えておいてください。 偏差値は、異なるテスト間・異なる集団間で「相対的な順位」を比較するために生まれた指標です。例えば「A校の模試で80点」と「B校の模試で75点」を直接比べても、どちらのテストが難しかったかわからないので意味がありません。そこで、どちらも「平均50・標準偏差10」の共通の尺度に変換してしまえば

※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。