Successfully reported this slideshow.
Your SlideShare is downloading. ×

Minería de datos en salud series temporales

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Series temporales
Series temporales
Loading in …3
×

Check these out next

1 of 59 Ad

Minería de datos en salud series temporales

Download to read offline

CAPITULO 1 Mineria de datos en salud:

Seiries temporales es una forma sencilla de presentar como trabajar con datos espaciados en el tiempo para obtener información util.

CAPITULO 1 Mineria de datos en salud:

Seiries temporales es una forma sencilla de presentar como trabajar con datos espaciados en el tiempo para obtener información util.

Advertisement
Advertisement

More Related Content

Slideshows for you (20)

Advertisement

Similar to Minería de datos en salud series temporales (20)

Recently uploaded (20)

Advertisement

Minería de datos en salud series temporales

  1. 1. MINERÍA DE DATOS EN SALUD: SERIES TEMPORALES JAIRO CESAR ALEXANDER 2017
  2. 2. : HAY TÉCNICAS CUALITATIVAS, CUANTITATIVAS, BASADAS EN MODELOS CAUSALES Y MIXTOS • El primero utiliza datos cualitativos como la opinión de los expertos, y puede o no tener en cuenta el pasado. • El segundo, por el contrario, se centra exclusivamente en patrones y cambios de patrón, y por lo tanto se basa enteramente en datos históricos. • La tercera utiliza la información altamente refinada y específica acerca de las relaciones entre los elementos del sistema, y es lo suficientemente potente como para tener eventos especiales formalmente en cuenta. Al igual que con técnicas de análisis de series temporales y de proyección, el pasado es importante para los modelos causales. • Los modelos mixtos dan información cuantitativa a un grupo de expertos para sacar conclusiones validas.
  3. 3. COMO TRABAJAR CON SERIES TEMPORALES MÉTODOS CUANTITATIVOS
  4. 4. TRABAJAR CON SOFTWARE RECOMENDADOS • JDemetra+ TRAMO-SEATS, X13-ARIMA (libre) • GRETL (Libre) • JOINT POINT (Libre) • EXCEL (Comercial) • GMDH SHELL DS (Comercial) • MATLAB (Comercial) • IBM SPSS . MODELER (Comercial) • R (libre) • WEKA - PENTAHO https://surveillance.cancer.gov/joinpoint/ http://gretl.sourceforge.net/index.html
  5. 5. SERIES TEMPORALES: DEFINICIÓN Colección de observaciones hecha en el tiempo
  6. 6. TAREAS: DE LA MINERÍA DE SERIES TEMPORALES • Caracterización y comparación temporal: ejem. Dos departamentos tienen series de dengue muy similares • Análisis clustering temporal: ejem cluster costa atlantica cluster area amazoncia • Clasificacion temporal: la sifilis congenital esta bien el el centro, critica en la periferia, y acceptable en la region costera. • Reglas de asociación temporal: si la economia cae 3 puntos y la produccion se mantiene la desnutrición aumentara 7% • Analisis de patrones temporales, en carmen de bolivar se ha detectado un anormal caso de eventos adeversos a la vacunación que debe ser atendido. • Analisis de prediccción y tendencias temporales: ejemplo de continuar la tendencia no se cumplirarn las metas de desnutrición en niños para los proximos 4 años. • Detección de anomalias: inceremento en los casos de hemophilia en Colombia. Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake Time Series using Symbolic Representation, Ecological Informatics,
  7. 7. ETAPAS DE LOS MODELO DE SERIES TEMPORALES Formulación de un problema Estudio del Fenómeno Parte descriptiva 70% Parte pronostico 30% Explicación de supuestos Presentación de escenarios Generación de un modelo
  8. 8. DE LOS FENÓMENOS • Es necesario la comprensión del fenómenos, definiciones • Datos , recuentos, porcentajes, tasas, índices • Causalidad, asociaciones, dependencias • Estudios y modelos anteriores • Registros históricos
  9. 9. PARTE DESCRIPTIVA Suministra mucha mas información de la que se piensa
  10. 10. ANÁLISIS DE SERIES TEMPORALES • Representación de la serie temporal e indexación • Reducción de dimensionalidad • Medida de similaridad • Comparando todas las series • Distancia euclídea coeficientes DFT y los coeficientes DWT • Distancia “time warping” • Comparando sub secuencias de las series (búsqueda por desplazamiento) • Método General-Match • Minería en series temporales • Segmentación • Visualización
  11. 11. EJEMPLOS DE ALGORITMOS • Support vector regression (SVR) • algoritmo Gecko • Neural clustering method • fuzzy c -means (FCM) • Autorregresivo de media móvil (ARMA , ARIMA) • Modelos ocultos de Markov (HMM) • El análisis de conglomerados • descomposición wavelet • clasificación del vecino más cercano • árboles de decisión basados en DTW • transformación simbólica • candle stick charting Ak-chung Fu, A review on time series data mining, Engineering Applications of Artificial Intelligence, Volume 24, Issue 1, February 2011, Pages 164-181,
  12. 12. LOS NUEVOS: APROXIMACIÓN SIMBÓLICA Convierte los datos a palabras y utiliza algoritmos de procesamiento de lenguaje natural para descubrir y clasificar los patrones Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake Time Series using Symbolic Representation, Ecological Informatics,
  13. 13. RESUMEN DE REPRESENTACIONES • Polinómicas - regresión interpolación • Coeficientes • Simbólica • Arboles • Wavelet • Espectral - transformada de Fourier
  14. 14. LOS DATOS Y LAS FECHAS La segmentación e incompatibilidad de los sistemas de información puede ser un problema La depuración , de datos errados faltantes, inconsistentes, y con formatos incompatibles pueden tomar algún tiempo, que hay que tener en cuenta
  15. 15. OUTLIER • Es una observacion que se desvian mucho de las otras observaciones y se cree generada por mecanimos diferentes • La mayoria de software recomendado puede eliminar este tipo de datos, pero eso depende de los objetivos del invetigador.
  16. 16. VALORES MISSING FALTANTES U OCULTOS • El software puede detectar y tratar este problemas con varios métodos como la interpolación
  17. 17. INTEGRACIÓN DE BASE DE DATOS Y FORMATOS Mayores capacidades Los modelos generados deben ser pensados en producción desde el comienzo Y también en integración para superar los problemas de segmentación de los sistemas de información
  18. 18. MANEJO DE OS FORMATOS Y ESTANDARES Es necesario el manejo adecuado de los formato (estándar) en este caso la fecha en GRETL
  19. 19. DATOS INGRESO DE INFORMACIÓN http://www.ins.gov.co/lineas-de- accion/Subdireccion- Vigilancia/sivigila/Paginas/vigilancia- rutinaria.aspx FORMATO DE ARCHIVO PDF ! INS Es necesario que lo sistemas de información suministren información de forma útil, y no solo para cumplir la norma
  20. 20. ADQUISICIÓN DE INFORMACIÓN La información pueden venir de base de datos, ejem PENTAHO- Base de datos, o KNIME, en MYSQL. En la imagen integración de varios archivos de indicadores de salud (INS) de Excel en ACCESS
  21. 21. Un ejemplo de consulta SQL de un conjunto de tablas de EXCEL en ACCES (Indicadores de salud pública)
  22. 22. EJEMPLO DE GRAFICAS Y LA EXPLORACIÓN INICIAL Aquí se ve el comportamie nto de la varicela en Colombia, nota/ la varicela tiene vacuna efectiva. Registro histórico con proyección a 2018
  23. 23. LOS FILTROS Filtro media móvil exponencial Filtro tendencia polinómicaFiltro Hodrick -Prescott Serie varicela 2012- 2016 (recuento) PERMITEN: Mirar la tendencia Estacionalidad, componente aleatorio
  24. 24. CONSIDERACIONES SOBRE LA EXPLORACION DE SERIES DE TIEMPO • Algunos fenómenos son tan complejos que es necesario tener en cuenta ciertas cosas sobre como se clasifican, los fenómenos aleatorios, la teoría del caos, la causalidad y el manejos de escalas para tener en cuenta en los modelos
  25. 25. CONSIDERACIONES • - tipo de fenómeno • - el azar, la mala suerte o la buena suerte • - la causalidad • - la teoría del caos • - la ley de los grandes números y las escalas
  26. 26. -TIPOS DE FENÓMENOS DE ACUERDO A SU COMPLEJIDAD ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. MÉXICO, D.F. 2004 Todos los fenómenos no son tan predecibles como una Varicela, algunos rayan en lo aleatorio y parecen o se asemejan a series económicas En la figura se pueden ver diferentes tipos de fenómenos
  27. 27. -CONSIDERACIONES SOBRE LOS FENÓMENOS ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO. MÉXICO, D.F. 2004 Se puede ver que algunos fenómenos son muy deterministas, otros imposibles de predecir (aleatoriedad) con la ciencia actual , y otros están en el limite de lo predecible y tienen un comportamiento matemáticamente extraño.
  28. 28. -DEL DEMONIO DE LAPLACE A LA FÍSICA CUÁNTICA : DETERMINISMO VS INDETERMINISMO Aleatoriedad Concepto central dentro de la teoría de probabilidades y en los estudios del comportamiento cuya definición descansa en la suposición de que todo suceso tiene una causa, nada es azaroso. La noción de aleatoriedad aparece asociada al espacio generado por el desconocimiento humano (parcial o total) de tales causas. Así, la "aleatoriedad significa que no hay una ley conocida, capaz de ser expresada en un lenguaje coherente, que describa o explique los eventos y sus resultados" (Kerlinger, 1994, p.126). Demonio del mercurio alquímico, en el libro “Della trasmutatione metallica”, Giovani Battista Nazario, Brescia, 1589.
  29. 29. -MIS INDICADORES OBEDECEN SOLO A VARIABLES CONOCIDAS A EFECTO AZAR (PURÍSIMA SUERTE!) A VARIABLES DESCONOCIDAS O FENÓMENOS COMPLEJOS?
  30. 30. -LA CAUSALIDAD Según la indagación, "hasta el momento tenemos evidencia de que ningún factor técnico influyó en el accidente, todo está involucrado en un factor humano y gerencial".
  31. 31. -HAY QUE TENER EN CUENTA LA TEORÍA DEL CAOS
  32. 32. -PUEDE UN DISCURSO DE DONALD TRUMP EN WASHINGTON AFECTAR GRAVEMENTE LA SALUD DE UN NIÑO EN LA GUAJIRA?
  33. 33. -CONSIDERACIONES • El azar, la suerte, o el libre albedrio es importante? • Como estimarlos? Existen?? • Basta con cambiar la escala temporal? , o usar proporciones? • Bata con usar filtros ? • Toca usar índices de aletoriedad, dimesiones, fractalidad, etc..? • Que pasa con la predicción si el fenómeno es complejo y el azar cambia los condiciones iniciales del fenómeno? • Los diferencia entre lo pronosticado y lo real se debe al azar, a los factores asociados o a ambos y en que grado? • Mi predicción o mis acciones puede alterar el futuro?
  34. 34. -LEY DE LOS GRANDES NÚMEROS (APLICADA) • En la teoría de la probabilidad, bajo el término genérico de ley de los grandes números se engloban varios teoremas que describen el comportamiento del promedio de una sucesión de variables aleatorias conforme aumenta su número de ensayos. • Estos teoremas prescriben condiciones suficientes para garantizar que dicho promedio converge al promedio de las esperanzas de las variables aleatorias involucradas. Ejemplo la difusión de un gas es azarosa a pequeña escala pero determinística a gran escala.
  35. 35. -AUMENTAR LA ESCALA EN EL TIEMPO • Aumentar la escala de tiempo permite filtrar el componente aleatorio que se anula a si mismo y permite ver otros elementos de la serie temporal, como la tendencia, la estacionalidad, y los ciclos. • Disminuir la escala aumenta el efecto visible del componente suerte. • Inconvenientes? Por día Por semana Por mes Por trimestre Por semestre Por año Por 4 años
  36. 36. -AUMENTAR LA ESCALA EN EL EVENTO • Tasas x 1000 x 10 000 x 1 000 000 …. • Proporciones • Índices • Funciones • Inconvenientes Usar denominadores puede filtrar algunos componentes aleatorios y otros componentes como el crecimiento de la población, mortalidad Etc.
  37. 37. -FRACTALES Algunos fenómenos son independientes de escala !!!
  38. 38. VOLVIENDO AL MODELO Y LA MINERÍA HAY QUE SELECCIONAR UN MODELO OTRAS CONSIDERACIONES …. • En un modelo determinístico se pueden controlar los factores que intervienen en el estudio del proceso o fenómeno y por tanto se pueden predecir con exactitud sus resultados. • En un modelo estocástico no es posible controlar los factores que intervienen en el estudio del fenómeno y en consecuencia no produce simples resultados únicos. Cada uno de los resultados posibles se genera con una función de probabilidad que le adjudica una probabilidad a cada uno de éstos, Ejemplo: un modelo para predecir el tamaño de una epidemia en una población de N individuos. Para el caso determinístico se proporciona un valor único, C, mientras que el modelo estocástico permite la posibilidad de obtener desde cero hasta N individuos y se adjudica una cierta probabilidad a cada uno de estos sucesos. La diferencia es más grande de lo que parece, ya que en un modelo matemático determinístico en el contexto epidemiológico; un solo sujeto causa una epidemia generalizada, mientras que bajo un modelo estocástico existe la posibilidad de que la epidemia se extinga
  39. 39. SIEMPRE ESTA LA OPCIÓN DE LA ELABORACIÓN AUTOMÁTICA DEL MODELO DE SERIE TEMPORAL • La mayoría de software de alta calidad tiene funciones automatizadas para seleccionar el mejor modelo según nuestras necesidades y datos • En el caso de las series temporales JDEMETRA (software libre) o IBM SPSS MODELER y GMDH SHELL (software comercial) ofrecen herramientas muy sofisticadas para elaboración automática de modelos. • Los modelos luego pueden exportarse a medios de producción
  40. 40. LOS MODELOS EN R SON MAS MANUALES, AUNQUE EXISTEN MUCHOS PAQUETES DE AUTOMATIZACIÓN • Pronostico del autor generado con un modelo HOLTWINTERS en R para la serie de bajo peso al nacer en Colombia con datos semanales
  41. 41. SELECCIÓN AUTOMÁTICA DEL MODELO EJEMPLO Este es el modelizador experto automático de SPSS 20,0
  42. 42. MODELOS AUTOMÁTICOS EN SPSS
  43. 43. MODELOS AUTOMÁTICOS EN JDEMETRA+
  44. 44. HAY QUE TENER EN CUENTA EN LA ELABORACIÓN DEL MODELO PARA SERIE TEMPORAL • Información de buena calidad produce resultados de buena calidad • Datos de pésima calidad, generalmente producen malos resultados independiente de lo sofisticado de los algoritmos o software usado • La elaboración de modelos temporales como por ejemplo los ARIMA puede tomar algún tiempo , por eso puede ser recomendable iniciar con un proceso automático en MODELER GMDH SHELL Y JDEMETRA que presentan resultados bastante buenos .
  45. 45. MEDIDAS DE BONDAD DE AJUSTE: (SE USAN PARA SABER QUE TAN BUENO ES EL MODELO) • R cuadrado estacionaria, R cuadrado (R2), raíz del error cuadrático promedio (RMSE), error absoluto promedio (MAE), error absoluto porcentual promedio (MAPE), error absoluto máximo (MaxAE), error absoluto máximo porcentual (MaxAPE) y criterio de información bayesiano (BIC) normalizado
  46. 46. EJEMPLO DE SERIE DE TIEMPO BAJO PESO AL NACER Bajo peso al nacer vs Semana Epidemiológica
  47. 47. BAJO PESO AL NACER MAPA DE RECURRENCIA El grado de aleatoriedad puede estimarse con un mapa de recurrencia en este caso en MATLAB
  48. 48. MAPA DE RECURRENCIA Aquí se puede ver Un fenómeno desde completamente Azaroso (puntos) hasta Determinista (las líneas)
  49. 49. FILTROS - CURVE FITING TOOL General model Sin3: f(x) = a1*sin(b1*x+c1) + a2*sin(b2*x+c2) + a3*sin(b3*x+c3) where x is normalized by mean 26.58 and std 14.47 Coefficients (with 95% confidence bounds): a1 = 2162 (1718, 2606) b1 = 0.3811 (-0.2769, 1.039) c1 = 1.541 (1.002, 2.079) a2 = 6529 (-1.161e+07, 1.162e+07) b2 = 2.792 (-42.63, 48.21) c2 = 0.3984 (-41.46, 42.26) a3 = 6569 (-1.161e+07, 1.162e+07) b3 = 2.843 (-41.07, 46.75) c3 = -2.698 (-41.6, 36.2) Goodness of fit: SSE: 3.479e+06 R-square: 0.9146 Adjusted R-square: 0.9118 RMSE: 121.4 Los filtros pueden mostrar patrones no visibles interesantes..
  50. 50. LOS CAMBIOS DE ESCALA PARA CONTRARESTAR AL AZAR
  51. 51. Función previsión Suaviza cimiento exponencial AAA En Excel Función agregar elemento grafico líneas de tendencia con proyección en Excel Estadística Valor Alpha 0.50 Beta 0.00 Gamma 0.50 MASE 1.20 SMAPE 0.08 MAE 23.68 RMSE 33.10 ESTE ES UN EJEMPLO DE TEST DE BONDAD DE AJUSTE EN EXCEL
  52. 52. EJEMPLO BAJO PESO AL NACER • El análisis de las series temporales pude determinar que regiones departamentos y municipios están presentado mas el fenómeno, y si alguna política esta impactando en la región • La información estaría disponible no solo para el tomador de decisión sino también para la opinión publica, el medico y el usuario.
  53. 53. CONSIDERACIONES FINALES
  54. 54. DIMENSIONES: CIRCULO O CUADRADO (2D)? Hay que pensar Siempre desde varias Perspectivas El trabajo en quipo Multidiciplinario es Recomendable, Los dx poblaciones Son de equipo
  55. 55. PATRONES :UNA CARA EN MARTE? Crédito NASA
  56. 56. ASOCIACIONES – CAUSALIDAD - AZAR Tyler Viglen - Spurious Correlations website https://commons.wikimedia.org/w/index.php?curid=48043945
  57. 57. http://www.nature.com/nature/journal/v529/n7584/full/nature16166.html http://science.sciencemag.org/content/347/6217/78 SIEMPRE INTERPRETAR
  58. 58. •“La mejor manera de predecir el futuro es crearlo” (“The best way to predict the future is to create it”). Dennis Gabor Nobel de Física en Inventando el futuro 1963
  59. 59. FIN

×