Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Survival grupo r_def

A small tutorial about applicability of survival analysis for predicting churn, in business intelligence contexts. R script (linked) computes survival models and decision tree and compares them

  • Be the first to comment

Survival grupo r_def

  1. 1. Análisis de supervivencia (survival) Introducción a survival con R Una aplicación para rotación de clientes (churn) Pedro Concejero Octubre 2015
  2. 2. 2 ¿Qué es eso llamado churn? •De: •http://segmento.itam.mx/Administrador/Uploa der/material/La%20Lealtad%20de%20los%20Cons umidores%20y%20su%20Medicion.PDF
  3. 3. 3 Kaplan-Meier & Cox http://www.telegraph.co.uk/news/obituaries/medici ne-obituaries/8804883/Paul-Meier.html Meier, perhaps more than any other individual, was the person who influenced drug regulatory agencies to insist on the central importance of randomised evidence. Kaplan http://www.garfield.library.upenn.edu/classics1983/ A1983QS51100001.pdf http://www.gazettetimes.com/news/local/obituaries /edward-kaplan/article_3abb619d-834f-5e19-b34d- 3b54ccfd9cdb.html David Cox https://en.wikipedia.org/wiki/David_Cox_%28sta tistician%29
  4. 4. 4 Conceptos básicos - Excelente intro: http://blog.applied.ai/survival-analysis-part1/ - Función de supervivencia - La función de riesgo
  5. 5. 5 Conceptos básicos análisis de supervivencia - Código para todo el estudio en github: - https://github.com/pedroconcejero/survival - Creamos un objeto survival - El concepto clave: dato “censurado” (censored)
  6. 6. 6 Conceptos básicos - Excelente intro: http://blog.applied.ai/survival-analysis-part1/ - El concepto clave de “censoring” (censura, dato incompleto): dependiendo del alcance temporal del estudio, censura derecha, izquierda •Excelente trabajo sobre esto mismo: •https://dke.maastrichtuniversity.nl/westra/Ph DMaBa- teaching/GraduationStudents/LaurensAlberts200 6/Presentatie.ppt
  7. 7. 7 Conceptos básicos análisis de supervivencia - http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lect ure23.htm
  8. 8. 8 Curvas de supervivencia Kaplan-Meier - Curva para todo el grupo - Curvas *por* código localidad
  9. 9. 9 Modelo de riesgos proporcionales
  10. 10. 10 Modelo árbol tradicional - ‘International plan’ (yes/no) es clave - Árbol da puntos de corte fáciles de incorporar a curvas supervivencia
  11. 11. 11 Curvas de supervivencia por grupos relevantes a partir variables identificadas en árbol - ‘International plan’ (yes/no) es clave - Árbol da puntos de corte fáciles de incorporar a curvas supervivencia
  12. 12. 12 Proporcionalidad de los riesgos es un supuesto Comprobar supuestos de modelo de Cox - Curvas log-log deben ser paralelas - Si no lo son es porque tenemos predictores, o grupos, cuyo efecto es diferencial con el tiempo - En ese caso debemos plantearnos la extensión del modelo de Cox que permite este tipo de predictores
  13. 13. 13 Modelo de Cox extendido - Con función cph de la librería rms - Plot Hazard-Ratios, - Después de haber seleccionado variables significativas con un modelo Cox
  14. 14. 14 Modelo de Cox extendido - Predicción: Con modelo survival podemos predecir a lo largo del tiempo - Para poder comparar nuestra capacidad predictiva con la del árbol usaremos el máximo de tiempo en la variable correspondiente - Con un modelo de sólo 4 predictores alcanzamos una capacidad predictiva razonable, que además nos permite adquirir conocimiento sobre su comportamiento a lo largo del tiempo
  15. 15. 15 Pero … ¿por qué no es más popular en inteligencia de negocio? - ¿Por el nombre? - ¿Porque parece más aplicable en medicina – campo biomédico? - ¿Porque es un modelo estadístico “tradicional”? (Hay que comprobar supuestos, usar enfoque “artesanal” para ir ajustando modelo con variables) - Hay pocas publicaciones aplicadas a este campo - 6ª técnica o modelo en 2010 de acuerdo con investigación de KhahAbi, S, Gholamian, Namvar (investigación publicada) - Extensiones muy interesantes del modelo: - Eventos recurrentes - Múltiples eventos - modelos de riesgos competitivos - Event history analysis - Modelos paramétricos
  16. 16. 16 Conclusiones - Modelos survival permiten obtener capacidad predictiva razonable con modelos muy económicos, manejables, y “comprensibles” - Los modelos de supervivencia permiten estudiar el efecto de variables o factores a lo largo de tiempo, y predecir para momentos concretos en el tiempo -> esto no lo permiten modelos predictivos habituales - ¿Por qué hay que plantearse modelos alternativos? Survival y modelos predictivos habituales son perfectamente complementarios - Misma conclusion que L.J.S.M. Alberts: - Churn prediction in the mobile telecom industry https://dke.maastrichtuniversity.nl/westra/PhDMaBa- teaching/GraduationStudents/LaurensAlberts2006/Presentatie.ppt - (él o ella hace preparación más elaborada de los datos, y afina mucho más tanto en modelos tradicionales como en los de survival; de tal modo que la capacidad predictiva de ambos modelos es muy próxima)
  17. 17. Gracias!!!! pedro.concejerocerezo@gmail.com Twitter: @ConcejeroPedro https://twitter.com/ConcejeroPedro gRupo R madRid http://madrid.r-es.org/
  18. 18. Referencias • Survival & Churn • KhahAbi, S, Gholamian, Namvar (2010) Data Mining Applications in Customer Churn Management. 2010 Int. Conference on Intelligent Systems, Modelling and Simulation • https://www.researchgate.net/publication/232631280_Data_Mining_Applications_in_Customer_Churn_Management • Parametric Survival Models • http://www.datanalytics.com/2015/02/12/parametrizacion-de-modelos-de-supervivencia-parametricos/ • http://data.princeton.edu/pop509/ParametricSurvival.pdf • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm • Cox • A conversation with Sir David Cox, 1994: http://projecteuclid.org/download/pdf_1/euclid.ss/1177010394 • R & Survival • Drawing Survival Curves in R • http://rstudio-pubs-static.s3.amazonaws.com/5588_72eb65bfbe0a4cb7b655d2eee0751584.html • A course on non- and parametric survival models with R • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture23.htm • http://www.unc.edu/courses/2010spring/ecol/562/001/docs/lectures/lecture24.htm
  19. 19. 19 Conceptos básicos - Excelente intro: http://blog.applied.ai/survival-analysis-part1/ - El concepto clave de “censoring” (censura, dato incompleto): dependiendo del alcance temporal del estudio, censura derecha, izquierda, o “interrupción” (truncate) también izquierda o derecha

×