엑셀로 풀어보는 생존 분석 로그 순위 검정
로그순위 검정 (Log-Rank test)
개념
두개 이상의 그룹간의 생존율의 차이가 유의미한지 알기 위한 방법이다. 두 그룹간의 총괄적인 비교를 위해 아래와 같은 가설을 설정한다.
- $H_0 : S_1(t) = S_2(t) \text{ for all t}$
- $H_1 : S_1(t) \neq S_2(t) \text{ for all t}$
이후, 관측 자료를 $t_1 < t_2 < \cdots < t_k$ 로 정리한다.
사망 | 생존 | 계 | |
---|---|---|---|
그룹1 | $D_{1i}$ | $N_{1i}-D_{1i}$ | $N_{1i}$ |
그룹2 | $D_{2i}$ | $N_{2i}-D_{2i}$ | $N_{2i}$ |
계 | $D_{i}$ | $N_{2i}-D_{2i}$ | $N_{i}$ |
$t_i$에서 $N_{1i},N_{2i},D_{i}$ 가 고정되어 있다면, $D_{1i}$가 초기하분포를 따르며, 그 평균과 분산은 아래와 같다.
초기하 분포를 따른다면 각 테이블마다 평균과 분산을 구하고, 이를 활용하여 카이 제곱 검정 통계량을 구할 수 있다. 이 경우, 검정통계량 T는 자유도 1인 카이제곱분포를 따른다.
만약 T의 값이 임계치보다 크다면 두 그룹의 생존함수가 같다는 귀무가설을 기각하고 유의미한 차이가 있다고 볼 수 있다. 또한, 각 시점에서의 가중치를 주어 아래와 같은 검정통계량 식을 도출할 수 있다.
로그 랭크 테스트와 윌콕슨 검정 모두 생존곡선이 crossover될 경우, 그 차이를 테스트할 수 없다. 로그랭크 테스트는 두 그룹에서 한 그룹의 생존확률이 비례적인 증감을 테스트하는데 적합하다. (proportional hazards model) 윌콕슨 테스트는 사건시간이 log-normal distribution(두 그룹간에 분산이 동일하고 평균은 다를 때) 적합하다.
예시
각기 다른 치료법을 적용한 Trial A 그룹과 Trial B 그룹이 아래와 같이 존재한다.
위 자료를 아래와 같이 정리한다.
생존 곡선은 아래와 같이 그려진다. 시각적으로 볼때 두 그룹간 큰 차이가 없을것으로 예상된다. 보다 더 정밀한 비교를 위해 로그 순위 검정을 실시한다.
로그 순위 검정은 앞서 말했듯, 카이 제곱 검정과 유사하다. 로그 순위를 계산하기 위해 각 t별 d의 기댓값을 계산하여 자료를 생성한다.
- 기댓값
- $e_{j}^{A} = n_{j}^{A} \cdot \dfrac{d_j}{n_j}$
- $e_{j}^{B} = n_{j}^{B} \cdot \dfrac{d_j}{n_j}$
- $d_j = d_j^A+d_j^B, n_j = n_j^A+n_j^B$
- $e_j^A + e_j^B = d_j^A + d_j^B$
$H0$이 참이라면, 로그랭크테스트는 자유도가 1인 카이제곱분포를 따른다.
위 두 그룹의 로그랭크통계값은 0.94이고, 이 P-value는 0.33으로 0.05 유의수준보다 크다. 따라서 해당 그룹의 생존율에는 큰 차이가 없다.
Reference
Log-Rank Test | Real Statistics Using Excel
생존분석 - Survival Function의 차이 Log-Rank Test
[통계 공부] Log-rank test(로그 순위법) : 네이버 블로그