時系列データの処理
成長率・移動平均・トレンド・コレログラムの考え方を学びます。
このモジュールで学ぶこと
「ある会社の売上が3年間で "10%増→10%減→20%増" と変化した。この3年間の平均成長率は何%か?」——単純に と計算するのは間違いです。このモジュールでは、時間とともに変化するデータを正しく扱う方法——成長率の正しい計算・移動平均によるトレンド抽出・自己相関の分析——を学びます。
成長率と幾何平均:「複利」の考え方
ある商品の価格が100円から120円になった場合、成長率(変化率)は です。一般に、前の時点 から今の時点 への成長率は次の式で計算します:
では複数年の平均成長率はどう計算すべきでしょうか?「10%増→10%減」の2年間を算術平均すると ですが、実際には 円と元の値より減っています。複数年にわたる平均成長率には、幾何平均を使わなければなりません:
が基準時点の値、 が 年後の値です。例えば3年間で「1.1倍→0.9倍→1.2倍」なら です。この5.9%を3年間複利計算すると、ほぼ元の積(1.188倍)に戻ります。算術平均成長率は常に幾何平均成長率以上になります(AM-GM不等式)。
複数年の平均成長率は算術平均でなく幾何平均を使う。 。
移動平均とトレンド:ノイズを取り除く
ある月の気温データは「暑い日・涼しい日」の短期的な変動が激しく、年間の気温上昇トレンドがわかりにくいことがあります。このような短期の変動(ノイズ)を除いて、長期的な傾向(トレンド)を見えやすくするのが移動平均です。直近 期分のデータの平均を次々と計算していきます:
例えば7日移動平均なら、毎日「過去7日間の平均」を計算して折れ線グラフにします。(ウィンドウ幅)が大きいほどグラフが滑らかになってトレンドが見やすくなりますが、直近の急激な変化への反応が遅くなるというトレードオフがあります。株価チャートの「25日移動平均線」や「75日移動平均線」はこの考え方を利用したものです。
自己相関とコレログラム:時間的なつながりを測る
通常の相関係数は「異なる2変数の関係」を測りましたが、時系列データには特有の性質があります——「今日の気温は昨日の気温と似ている」「今月の売上は先月の売上と似ている」という時間的な自己相関です。ラグ(ずれ) における自己相関係数は次の式で計算します:
これは「現在の値 と 期前の値 の相関」です。この を各ラグ に対してプロットした図がコレログラム(ACFプロット:自己相関関数プロット)です。コレログラムを見ると、季節性(例:毎年12月に が高い)やトレンドの有無(全ラグで がゆっくり減衰)などのパターンが視覚的に把握できます。自己相関がある時系列データにそのまま通常の回帰分析を適用すると、誤差の独立性の仮定が崩れ、推定の効率性が失われます。
コレログラムは横軸にラグ 、縦軸に (自己相関係数)をプロットしたグラフ。季節性・トレンドの検出に使う。
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。