生存時間解析:カプラン・マイヤーとCox比例ハザード
打ち切りデータの扱い方・カプラン・マイヤー推定・Cox比例ハザードモデルを学びます。
このモジュールで学ぶこと
「新薬を投与した患者が再発するまでの時間を追跡したが、調査終了時点でまだ再発していない患者がいる」——このような「イベントが観測されていないデータ(打ち切り)」を正しく扱う手法が生存時間解析です。
具体例:100人の癌患者を5年追跡
100人の癌患者を5年間追跡する研究を考えます。「イベント」は死亡、「打ち切り」は研究終了時にまだ生存しているか、転居等で連絡が途絶えたケースです。5年後に40人が死亡、60人が打ち切りだったとします。
このとき「平均生存時間 観測された生存時間の単純平均」とすると 重大なバイアス が生じます。なぜなら60人の打ち切り患者は「少なくとも5年以上生存した」ことが分かっていても、その後何年生きるかは不明だからです。「彼らは5年で死んだ」と扱うと過小推定、「除外」しても残ったのは早く死んだ人ばかりで過小推定になります。
生存関数 を Kaplan-Meier 法 で推定すると、打ち切り情報を「リスク集合の人数」として活用し、バイアスなく生存曲線を描けます。
右打ち切り(Right Censoring):調査終了時やフォローアップ中断でイベント(死亡・再発)が観測されなかった場合です。「少なくとも 時間以上生存した」という情報は有効で、捨てるべきではありません。
生存関数とハザード関数
生存関数(Survival Function):時刻 まで生存している確率。単調非増加で 、。
ハザード関数(Hazard Function):時刻 まで生存した人が、 から の微小時間内に死亡する瞬間の「リスクの強さ」:
ハザード関数の直感:「今この瞬間に生きている人が、次の一瞬で死ぬ条件付きリスク率」と読み替えられます。生存関数 が「累積した結果」を表すのに対し、ハザード関数 は「その時点の瞬間的な危険度」を表します。年齢で例えれば、 は「80歳まで生きる確率」、 は「80歳の人が81歳になる前に死ぬ条件付き割合」です。
生存関数とハザード関数は で結びついています( を累積ハザード関数と呼びます)。
カプラン・マイヤー推定量
カプラン・マイヤー推定量(Kaplan-Meier Estimator)は打ち切りデータを含む生存曲線の積極限推定量です:
:死亡が起きた時刻、:その時刻の死亡数、:その直前のリスク集合(観察中の人数)。
「各イベント時刻で条件付き生存確率を掛け合わせる」という直感です。段階関数(階段状)として描かれ、打ち切り観測は推定に寄与しますが死亡とは扱いません。
打ち切りはなぜ「捨てない」のか:打ち切られた患者も「 時点まではリスク集合に含まれていた(生きていた)」という情報を提供します。Kaplan-Meier 法は、その時刻まで にカウントし、打ち切り後はリスク集合から外す、という形で全情報を活用します。
よくある誤解:「打ち切り時刻を死亡時刻と同様に使って生存率を直接計算する」のは誤りです。Kaplan-Meier の式 で打ち切り時刻 そのものは (死亡数)にも分子の積にも入りません。打ち切られた人は「その時刻までリスク集合の人数 を支えていた」という形でのみ寄与し、打ち切り時刻以降は静かに から抜けます。「打ち切り = 死亡として扱う」とすると生存時間を著しく過小評価することになります。
Cox比例ハザードモデル
Cox比例ハザードモデル(Cox Proportional Hazards Model)は、共変量(年齢・治療法など)がハザードに与える効果を推定します:
はベースラインハザード(形を指定しない)、 が共変量の効果を乗法的に修正します。
比例ハザード仮定:2つのグループのハザード比 が時間 によらず一定。
パラメータは部分尤度で推定します。 が「 が1増えたときのハザード比」です。
「セミパラメトリック」の意味:パラメトリックモデル(指数・ワイブル分布など)は の形を完全に指定します。Cox モデルは を一切指定せず(ノンパラメトリック)、共変量の効果 のみをパラメトリックに推定します。この「半分だけパラメトリック」な構造が、柔軟性と解釈性を両立させる強みです。
比例ハザード仮定の検証
比例ハザード(PH)仮定が成立しない場合、Cox モデルの解釈は怪しくなります。
検証方法:
プロット:グループ別の Kaplan-Meier 曲線から計算した を に対してプロット。PH 仮定が成立すれば、曲線同士が 平行(等間隔)になります。
Schoenfeld 残差:時間との相関が0であれば PH 仮定 OK。相関が有意なら違反のサイン。
時間と共変量の交互作用項を追加: を当てはめて が有意なら違反。
PH 違反時の対処:(a) 時間依存共変量を導入する、(b) データを時間区間で層別化する、(c) 加速失敗時間(AFT)モデルなど別の構造を検討する、といった選択肢があります。
Kaplan-Meier vs Cox:使い分け表
試験頻出:Cox モデルは の形を指定しない「セミパラメトリックモデル」です。比例ハザード仮定の確認には - プロットや Schoenfeld 残差を使います。係数 なら 倍のハザード比、と解釈できる点も頻出です。
確認クイズ(抜粋)
Q1. 生存時間解析で「打ち切り」データを除外して解析するとどうなるか?
A. バイアスが生じる(生存時間を過小推定する)
Q2. カプラン・マイヤー推定量の特徴として正しいものはどれか?
A. 打ち切りデータを含む段階関数(階段状)の生存曲線を与える
Q3. Cox比例ハザードモデルが「セミパラメトリック」と呼ばれる理由はどれか?
A. 共変量の効果がパラメータで表されるが、ベースラインハザードは指定しない
全10問のクイズはサイトのインタラクティブ版でお試しください。
第6章の他のモジュール
※本サイトは個人による学習支援サイトであり、統計質保証推進協会・日本統計学会の公式サイトではありません。