Post

엑셀로 풀어보는 생존 분석 로그 순위 검정

로그순위 검정 (Log-Rank test)

개념


두개 이상의 그룹간의 생존율의 차이가 유의미한지 알기 위한 방법이다. 두 그룹간의 총괄적인 비교를 위해 아래와 같은 가설을 설정한다.

  • $H_0 : S_1(t) = S_2(t) \text{ for all t}$
  • $H_1 : S_1(t) \neq S_2(t) \text{ for all t}$

이후, 관측 자료를 $t_1 < t_2 < \cdots < t_k$ 로 정리한다.

 사망생존
그룹1$D_{1i}$$N_{1i}-D_{1i}$$N_{1i}$
그룹2$D_{2i}$$N_{2i}-D_{2i}$$N_{2i}$
$D_{i}$$N_{2i}-D_{2i}$$N_{i}$

$t_i$에서 $N_{1i},N_{2i},D_{i}$ 가 고정되어 있다면, $D_{1i}$가 초기하분포를 따르며, 그 평균과 분산은 아래와 같다.


\[E(D_{1i}) = N_{1i}D_{i}/N{i} = E_{1i}\]


\[V(D_{1i}) = V_{1i}\]


초기하 분포를 따른다면 각 테이블마다 평균과 분산을 구하고, 이를 활용하여 카이 제곱 검정 통계량을 구할 수 있다. 이 경우, 검정통계량 T는 자유도 1인 카이제곱분포를 따른다.


\[T = \dfrac{(\sum_{i=1}^{k} D_{1i}-E_{1i})^2}{\sum_{i=1}^{k} V_{1i}}\]


만약 T의 값이 임계치보다 크다면 두 그룹의 생존함수가 같다는 귀무가설을 기각하고 유의미한 차이가 있다고 볼 수 있다. 또한, 각 시점에서의 가중치를 주어 아래와 같은 검정통계량 식을 도출할 수 있다.


\[T = \dfrac{(\sum_{i=1}^{k} w_{i}D_{1i}-E_{1i})^2}{\sum_{i=1}^{k} w_{i}^{2}V_{1i}}\]


로그 랭크 테스트와 윌콕슨 검정 모두 생존곡선이 crossover될 경우, 그 차이를 테스트할 수 없다. 로그랭크 테스트는 두 그룹에서 한 그룹의 생존확률이 비례적인 증감을 테스트하는데 적합하다. (proportional hazards model) 윌콕슨 테스트는 사건시간이 log-normal distribution(두 그룹간에 분산이 동일하고 평균은 다를 때) 적합하다.

예시


각기 다른 치료법을 적용한 Trial A 그룹과 Trial B 그룹이 아래와 같이 존재한다.

  • 각 컬럼 1은 Duration Time으로 t이다.
  • 각 컬럼 2는 사망이 발생했거나 (1), 절단(0)을 나타낸다.

위 자료를 아래와 같이 정리한다.

  • t : duration time
  • d : 사망 발생
  • n : 관측 수
  • S(t) : 생존 함수 ($1-\frac{d}{n}$의 누적 곱)

생존 곡선은 아래와 같이 그려진다. 시각적으로 볼때 두 그룹간 큰 차이가 없을것으로 예상된다. 보다 더 정밀한 비교를 위해 로그 순위 검정을 실시한다.

로그 순위 검정은 앞서 말했듯, 카이 제곱 검정과 유사하다. 로그 순위를 계산하기 위해 각 t별 d의 기댓값을 계산하여 자료를 생성한다.

  • 기댓값
    • $e_{j}^{A} = n_{j}^{A} \cdot \dfrac{d_j}{n_j}$
    • $e_{j}^{B} = n_{j}^{B} \cdot \dfrac{d_j}{n_j}$
      • $d_j = d_j^A+d_j^B, n_j = n_j^A+n_j^B$
      • $e_j^A + e_j^B = d_j^A + d_j^B$


\[LogRank = \dfrac{(Obs_{A} - Exp_{A})^2}{Exp_A} + \dfrac{(Obs_{B} - Exp_{B})^2}{Exp_B}\]


\[=\dfrac{(12-9.82)^2}{9.82} + \dfrac{(8-10.17)^2}{10.17}\]


$H0$이 참이라면, 로그랭크테스트는 자유도가 1인 카이제곱분포를 따른다.


\[LR \sim \chi^2(1)\]


위 두 그룹의 로그랭크통계값은 0.94이고, 이 P-value는 0.33으로 0.05 유의수준보다 크다. 따라서 해당 그룹의 생존율에는 큰 차이가 없다.

Reference

Log-Rank Test | Real Statistics Using Excel
생존분석 - Survival Function의 차이 Log-Rank Test
[통계 공부] Log-rank test(로그 순위법) : 네이버 블로그

This post is licensed under CC BY 4.0 by the author.