Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

mineria

189 views

Published on

Minería de Datos

Published in: Business
  • Be the first to comment

  • Be the first to like this

mineria

  1. 1. Análisis y modelación de datos a través de Minería de Datos y algoritmos evolutivos de Regresión Lineal Múltiple Juan Pablo Bribiesca Espinosa ITAM 2015
  2. 2. Conceptos Básicos
  3. 3. Definición de Base de Datos Exclusión de candidatos Definición de variable de Respuesta Inclusión de Base de Datos Muestreo Aleatorio sin remplazo Definición de Clases (tuplas)
  4. 4. Exclusión de datos potencialmente erróneos y estabilización del modelo Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖0|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.99995 Apalancamiento: Distancia de Cook ∶ 𝑦𝑖0|𝐷𝑖 > 𝑚𝑎𝑥(𝑞 𝑔𝑎𝑚𝑚𝑎0.9995+0.0005∗ 𝑤−1 , 1) 25 50 75 0 25 50 75 100 horas trabajadas edad Amer-Indian-Eskimo Asian-Pac-Islander Black Other White 𝑦𝑖0 = β00 + 𝑗=1 𝑘 𝛽𝑗0 ∗ 𝑥𝑖𝑗 + 𝜀𝑖0 , 𝑖 = 1,2, … , 𝑛
  5. 5. Determinación de Transformaciones • Modelos no lineales por mínimos cuadrados. • Relaciones Funcionales - Familias: – Familia Polinomial – Familia Exponencial – Funciones Potencia – Modelos Rendimiento-Densidad – Modelos Sigmoidales – Splines
  6. 6. Determinación de Transformaciones Correlación de Pearson Escalamiento Jerarquización vía Coeficientes de Determinación Ajustados 𝜌 𝜌 = 𝜌 ∗ 1 − 0.0005 ∗ 𝑑𝑓 − 1 Definición de Transformaciones 𝑦𝑖2 = β02 + 𝑗=1 𝜑∗𝑘 𝛽𝑗2 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 2
  7. 7. Criterio de Información de Akaike • Depuración de regresores vía análisis AIC 𝐴𝐼𝐶 = 𝑛 ∗ log 𝑀𝑆 𝑅𝑒𝑠 + 2𝑘 𝑦𝑖3 = β03 + 𝑗=1 𝑘 𝛽𝑗3 ∗ 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) 𝑖 = 1,2, … , 𝑛 3 𝑘 ≤ 𝜑 ∗ 𝑘
  8. 8. Inserción de Relaciones • 𝐶𝑟𝑖𝑡𝑒𝑟𝑖𝑜: – 𝑝 − 𝑣𝑎𝑙𝑢𝑒 – 𝑑𝑓 ≤ 4: regresores númericos – 𝑑𝑓 ≤ 6: Regresores categóricos 𝑌𝑖4 = 𝑗=1 𝑤 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑗)) ∗ 𝛽𝑗4 + 𝑗=𝑤+1 𝑠 ( 𝑟 𝜖 {𝛼,𝛽,…,} 𝜗 𝐼(𝑡𝑟𝑎𝑛𝑠(𝑥𝑖𝑟)) ∗ 𝛽𝑗4 ) 𝑖 = 1,2, … , 𝑛4 𝜗: candidatos a transformación 𝑎=1 𝜗−1 𝑎∗(𝑎+1) 2 : posibles interacciones
  9. 9. Modelo final Stepwise AIC Outliers: 𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑒𝑠 𝐸𝑠𝑡𝑢𝑑𝑒𝑛𝑡𝑖𝑧𝑎𝑑𝑜𝑠: 𝑦𝑖𝐹|𝑟𝑖 > 𝑞𝑡,𝑛−1,0.9995 Distancia de Cook: 𝑦𝑖𝐹|𝐷𝑖 > 𝑚𝑎𝑥 𝑞 𝑔𝑎𝑚𝑚𝑎0.995+0.001∗ 𝑤−1 , 1 𝑖 = 1,2, … , 𝑛 𝐹 𝑤: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑖𝑡𝑒𝑟𝑎𝑐𝑖ó𝑛
  10. 10. Criterios • Análisis Exploratorio de Datos (aproximación) • Estadísticos: – Análisis de Varianza. – Contraste de White. – Prueba de normalidad de K-S.
  11. 11. “Cuando las estadísticas nos dicen que la familia mexicana tiene un promedio de cuatro hijos y medio, nos explicamos por qué siempre hay uno chaparrito.” Marco Antonio Almazán

×