Skip to content

Reign2121/Survival-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 

Repository files navigation

-R-Survival-analysis


kaplan-meier

비모수 통계 기법. 누적한계생존율을 구하여 그래프를 그립니다.

절단된 데이터를 이탈로 보지 않고, 실제 이탈이 일어난 데이터만 카운트 합니다.

  • log-rank test

두 범주의 생존율이 “차이가 있는 지”를 통계적으로 분석한다.


cox hazard ratio

카플란 마이어 곡선이 범주형 그룹간의 생존율 차이를 시각화하는 데 유용하다면, 이 콕스 비례 위험 모형은 카테고리, 연속형 변수들의 효과를 평가합니다.

"위험비"가 포인트 입니다.

시간에 따른 위험비가 동일하다고 가정합니다. 즉, 범주형 변수(예컨데, 남자/여자) 각각의 위험은 시간에 따라서 변화하지만 그 위험의 "ratio"는 같아야 하는 것이 이 모델의 핵심입니다.

이에 가장 중요한 것은

*Cox PH model은 설명 변수가 시간과 독립적인 관계를 갖는다고 가정하나, 이는 현실에서 맞지 않는 경우가 많다는 것입니다.. 시간이 흐르면서 설명 변수의 값은 변화하는 경우가 많기 때문에, 이를 고려하지 않으면 제대로된 모형을 만들기 어렵다. 따라서 가정이 맞는지 점검하고, 가정을 만족하지 않는 경우에 사용할 또 다른 모형을 준비해야 한다. -> 비례위험가정 위반 확인 -> 위반 시에 층화작업, 교호작용 추가


분석결과

kaplan-meier

이 분석은 가상의 데이터를 바탕으로 어떠한 서비스 이용고객의 생존(이탈)분석을 연습하는 것을 목적으로 한다.

image

  • 여성의 생존율은 남성보다 빠르게 감소한다. = 여성 고객이 해당 서비스를 더 빠르게 이탈하는 경향이 있다.

  • 환불을 받은 고객(returned1)의 생존율이 더 빠르게 감소한다. = 환불을 받은 고객이 해당 서비스를 더 빠르게 이탈하는 경향이 있다.

  • 쿠폰 이용 고객(voucher1)의 생존율이 더 빠르게 감소한다. = 쿠폰을 이용한 고객이 해당 서비스를 더 빠르게 이탈하는 경향이 있다.

Cox ph model

image

Hazard Ratio

여성에 대한 남성의 위험비 (남성/여성) = 0.55

쿠폰 사용에 대한 위험비 (쿠폰o / 쿠폰x) = 1.41

환불 여부에 대한 위험비 (환불o / 환불x) = 1.74

#비례위험가정 확인

cox.zph(cx.model) #시간과 잔차 간의 독립성 검정

image

gender 변수, p-value가 0.05보다 작기 때문에 독립성을 가정하는 귀무가설을 기각한다.

즉, 시간에 따라 독립적이지 못하고 영향을 받고 있다. *시계열 분석에서 잔차 독립성 검정과 반대되는 결과를 추구한다.

gender 변수는 그 위험비가 시간에 따라 일정하다는 가정을 충족한다고 볼 수 없다.

따라서 남성과 여성의 위험비, 즉, 성별에 따른 위험정도를 추정하는 것에 무리가 있다.

이에, 그 해결책으로 남성과 여성의 데이터 셋을 분리하여 분석을 수행할 수 있다.

결과는 아래와 같다.

image


시사점

남자들은 로얄티가 적다는 것을 의미한다고 볼 수 있음 ->남자들의 로얄티를 이끌어내는 지속적인 이벤트  (도장쿠폰, 포인트 지급 등)

전체적으로 여성의 이탈요인에 대한 추가 서베이 필요 ->전환장벽이 낮다. 사회적 효과를 결합시킨 전략이 효과적

reference https://seollane22.tistory.com/14

About

survival and churn analysis in biz domain

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages