Your SlideShare is downloading. ×
Introducción al análisis predictivo
con SQL Server
Ing. Eduardo Castro, PhD
ecastro@simsasys.com
Microsoft SQL Server MVP
...
SQL Saturday Sponsors
Gold Sponsors
Silver Sponsors
Bronze Sponsors
Fuentes consultadas
 TechEd 2014 Channel 9
 Enhancing Applications with SQL Server
Data Mining. Peter Myers
 Predictive...
Canal en YouTube
 http://www.youtube.com /
eduardocastrom
 http://slideshare.net/ecastrom
 http://tinyurl.com/comunidad...
Agenda
 Fundamentos
 Demostración
 Recursos
Definiciones
Frase Objetivo
"La minería de datos" Toma de decisiones
"Machine Learning" Determinar el algoritmo de mejor
d...
Introducción
Análisis predictivo
Predictive Analytics
Predictive
Modeling
Data Mining
Análisis predictivo
Análisis predictivo
¿Por qué el resurgimiento en el análisis
predictivo?
Antes <-----> Hoy
Explosión de datos se duplica cada 3
años (Ley de Moore)
Los volúmenes de datos no pueden ser
comprendid...
Científico de datos
Un científico de datos incorpora técnicas y teorías de
muchos campos, incluyendo las matemáticas, la e...
¿Qué es el análisis predictivo?
 El análisis de datos con técnicas matemáticas de
estadística, minería de datos y aprendi...
Qué es el análisis predictivo?
Predictive Analytics es el descubrimiento de información
predictiva, a veces oculta, de las...
La introducción de Data Mining
Minería de datos habilitada predictivo Analítica
Análisis predictivo
Presentación Exploraci...
¿Qué es el análisis predictivo?
Análisis Predictivo
Un componente vital en la Arquitectura de BI y
disponible en tiempo real a las aplicaciones, informes,...
Escenarios comunes de clientes por análisis
predictivo
Metodología / Enfoque
Planteamiento del problema
What do you want
to predict?
Is data available?
Set a Target
Improve on
c...
Metodología / Enfoque
Obtener
datos
Explorar
datos
Preparar
datos
Entrenamiento Pruebas
Elegir
algoritmos
Entrenar
Probar
...
Modelado de minería de datos
Etapa de diseño
Etapa de
procesamiento
Etapa de
consulta
Modelo de
minería
Modelado de minería de datos
Modelo de
minería
Datos de
entrenamiento
Data
Engine
Minería
Etapa de diseño
Etapa de
procesa...
Modelado de minería de datos
Data
Engine
Minería
Datos para
predecir
Datos
Predicción
Modelo de
minería
Etapa de diseño
Et...
El análisis predictivo ejemplo de flujo de
trabajo: tarjetas de crédito
El análisis predictivo ejemplo de flujo de
trabajo: tarjetas de crédito
Datos de crédito del Banco.
Los datos del historia...
El análisis predictivo ejemplo de flujo de
trabajo: tarjetas de crédito
Utilice Microsoft o una solución de
terceros (por ...
El análisis predictivo ejemplo de flujo de
trabajo: tarjetas de crédito
Utilice Microsoft o una solución de
terceros (por ...
El análisis predictivo ejemplo de flujo de
trabajo: tarjetas de crédito
Utilice Microsoft o una solución de
terceros (por ...
Definiciones
Variable de Clase son los datos que estamos prediciendo.
Instancia y Atributo es similar a una fila y columna...
Herramientas de análisis predictivo de
Microsoft
Solución de problemas empresariales reales con herramientas de
análisis predictivo de Microsoft: el problema
Solución de problemas empresariales reales con herramientas
de análisis predictivo de Microsoft: la solución
Modelos de orientación al cliente: árboles de
decisión
Modelos de orientación al cliente: resultados
Solución # 2: Análisis de victorias / derrotas
Modelo de segmentación del cliente con la
agrupación
Modelo de segmentación del cliente
Entender por qué algunos clientes no compran productos
X
SQL Server Data Mining
 Servicio, no aplicación
 SQL Server Análisis
Services (SSAS)
 Múltiples interfaces:
 SQL Serve...
Elija Algoritmos
Clustering Classification
Regression Association
SQL Server Data Mining
SQL Server 2005 y 2008
• Analysis Services
SQL Server 2012
• Servicio de Análisis Multidimensional
...
SQL Analysis Services Algoritmos de
minería
 Algoritmos de clasificación
 Árboles de decisión de Microsoft
 Microsoft N...
Datos SQL Server Algoritmos de minería
Algoritmo rápido y accesible
Se utiliza para clasificación
Técnica de minería de da...
SQL Server Data Mining Algoritmos
Continuado
Más sofisticados que los árboles de decisión y de Naïve Bayes, este algoritmo...
SQL Server Data Mining Algoritmos
Continuado
Grupos de una secuencia de eventos discretos en grupos naturales basados ​​en...
SQL Server Data Mining Algoritmos
Continuado
Clasificar
• Decision
Trees
• Logistic
Regression
• Naïve Bayes
• Neural
Netw...
ARIMA
 ARIMA (p, d, q): Auto-Regresivo Integrado de
Promedios
 p es el número de términos autorregresivos
 d es el núme...
ARIMA Ejemplos
 ARIMA (0,1,0) -
paseo aleatorio
 ARIMA (1,1,0) -
differenced modelo
autorregresivo de
primer orden
 ARI...
tiemp
o
venta¿Qué algoritmo es mejor?
Venta real
Las
medias
móviles
suavizada
s a la
regresión
lineal
simple
Regresión
lin...
El arte de la Previsión
tiempo
venta
Las ventas reales (dos
productos)
Las medias móviles
suavizadas a la
regresión lineal...
Minería de datos para Excel
 Construido para Office 2010:
32-bit o 64-bit Add-In
 Requiere Analysis Services
 SQL Serve...
Minería de datos para Excel
 Minería de datos cliente para Excel
 Construir, validar y gestionar los modelos de datos
 ...
PowerPivot para Excel
 Características
 Libros de Excel
 Aprovecha la memoria: Procesamiento rápido
 Carga los grandes...
PowerPivot
http://www.microsoft.com / en-us / bi /
powerpivot.aspx
Los datos de demostración
 Contoso Retail conjunto de datos de demostración
 http://www.microsoft.com/en-
us/download/de...
DEMOSTRACIÓN
Errores comunes en el análisis predictivo
Resumen
Cómo empezar
 Excel Data Mining Add-In (gratuito)
 http://www.microsoft.com/en-us/download/details.aspx?id=29061
 Power...
Conclusión
 SQL Server Analysis Services proporciona la
minería de datos de nivel empresarial para
Excel 2013 con PowerPi...
72 |
Eduardo
Castro
ecastro@simsasys.com ecastrom.blogspot.com
edocastro
PREGUNTAS Y RESPUESTAS
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Introducción al análisis predictivo con SQL Server
Upcoming SlideShare
Loading in...5
×

Introducción al análisis predictivo con SQL Server

728

Published on

En esta presentación vemos los conceptos fundamentales de análisis predictivo con SQL Server.

Saludos,

Eduardo Castro
Microsoft SQL Server MVP
Comunidad Windows

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
728
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Introducción al análisis predictivo con SQL Server"

  1. 1. Introducción al análisis predictivo con SQL Server Ing. Eduardo Castro, PhD ecastro@simsasys.com Microsoft SQL Server MVP PASS Regional Mentor
  2. 2. SQL Saturday Sponsors Gold Sponsors Silver Sponsors Bronze Sponsors
  3. 3. Fuentes consultadas  TechEd 2014 Channel 9  Enhancing Applications with SQL Server Data Mining. Peter Myers  Predictive Analytics in the Enterprise. Carlos Bossy  El arte (y ARIMA) de Forecasting. Dejan Sarka
  4. 4. Canal en YouTube  http://www.youtube.com / eduardocastrom  http://slideshare.net/ecastrom  http://tinyurl.com/comunidad windows
  5. 5. Agenda  Fundamentos  Demostración  Recursos
  6. 6. Definiciones Frase Objetivo "La minería de datos" Toma de decisiones "Machine Learning" Determinar el algoritmo de mejor desempeño
  7. 7. Introducción Análisis predictivo Predictive Analytics Predictive Modeling Data Mining
  8. 8. Análisis predictivo
  9. 9. Análisis predictivo
  10. 10. ¿Por qué el resurgimiento en el análisis predictivo?
  11. 11. Antes <-----> Hoy Explosión de datos se duplica cada 3 años (Ley de Moore) Los volúmenes de datos no pueden ser comprendidos por los seres humanos Difícil de encontrar patrones de ventaja competitiva Mejorar el criterio profesional de expertos de dominio (pequeño pero valioso) Descubrimiento de Conocimiento HoyAntes Volúmenes manejables de datos La facilidad y el poder de SQL Los expertos de dominio podría comprender y analizar una base de datos completa CPU con poder limitado Datos Finitos
  12. 12. Científico de datos Un científico de datos incorpora técnicas y teorías de muchos campos, incluyendo las matemáticas, la estadística, la ingeniería de datos, reconocimiento de patrones, aprendizaje avanzado , visualización, modelado de la incertidumbre, almacenamiento de datos y la computación de alto rendimiento con el objetivo de extraer el significado de datos. Ciencia de datos: un término utilizado indistintamente con inteligencia de negocio o análitica empresarial
  13. 13. ¿Qué es el análisis predictivo?  El análisis de datos con técnicas matemáticas de estadística, minería de datos y aprendizaje automático. Se utiliza para descubrir patrones ocultos, que da una ventaja competitiva.
  14. 14. Qué es el análisis predictivo? Predictive Analytics es el descubrimiento de información predictiva, a veces oculta, de las bases de datos utilizando atributos de datos relacionados y no relacionados con la aplicación de algoritmos de análisis, y la creación de modelos que generan resultados predictivos. Modelaje Predictivo es el proceso de creación de un modelo para predecir mejor la probabilidad de un resultado.
  15. 15. La introducción de Data Mining Minería de datos habilitada predictivo Analítica Análisis predictivo Presentación Exploración Descubri miento Pasivo Interactivo Proactiv e Insight Negocios Informes en conserva Ad hoc Reporting Modelo de Datos Data Mining Papel de Software
  16. 16. ¿Qué es el análisis predictivo?
  17. 17. Análisis Predictivo Un componente vital en la Arquitectura de BI y disponible en tiempo real a las aplicaciones, informes, ETL 145% vs 89% Predictive Analytics and ROI: Lessons from IDC's Financial Impact Study (Fuente: IDC http://www.spss.hu/home_page/idcreport.htm) Medidas (pasado) Predección (desconocido)
  18. 18. Escenarios comunes de clientes por análisis predictivo
  19. 19. Metodología / Enfoque Planteamiento del problema What do you want to predict? Is data available? Set a Target Improve on current results Develop Solution Integrate into Applications or Reports
  20. 20. Metodología / Enfoque Obtener datos Explorar datos Preparar datos Entrenamiento Pruebas Elegir algoritmos Entrenar Probar Despliegue Monitorear
  21. 21. Modelado de minería de datos Etapa de diseño Etapa de procesamiento Etapa de consulta Modelo de minería
  22. 22. Modelado de minería de datos Modelo de minería Datos de entrenamiento Data Engine Minería Etapa de diseño Etapa de procesamiento Etapa de consulta
  23. 23. Modelado de minería de datos Data Engine Minería Datos para predecir Datos Predicción Modelo de minería Etapa de diseño Etapa de procesamiento Etapa de consulta
  24. 24. El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito
  25. 25. El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito Datos de crédito del Banco. Los datos del historial de pago de la oficina de crédito. Los datos demográficos de terceros. Hacer frente a los valores extremos y valores perdidos. Preparar las variables continuas y categóricas.
  26. 26. El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto.
  27. 27. El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco.
  28. 28. El análisis predictivo ejemplo de flujo de trabajo: tarjetas de crédito Utilice Microsoft o una solución de terceros (por ejemplo, SAS). O ... Programe su propio algoritmo. Entrenar el modelo con gran subconjunto de los datos y probado en subconjunto más pequeño. La regresión logística es un estándar de facto. Monitorear continuamente el rendimiento del cuadro de mando de los nuevos clientes. Revisar el modelo una vez que comienza bajo rendimiento. Representar al modelo como una fórmula. Implementar el modelo en la herramienta de puntuación del banco. Integrar los resultados del modelo en aplicaciones para el uso por parte del personal o los socios del banco.
  29. 29. Definiciones Variable de Clase son los datos que estamos prediciendo. Instancia y Atributo es similar a una fila y columna que se utiliza como entrada para un modelo predictivo. Soporte se refiere al número de instancias de un patrón particular. Overfitting (Sobreentrenamiento) es un defecto en un modelo predictivo en el que el modelo refleja los datos de entrenamiento de forma muy similar Confussion Matrix (Matriz de clasificación) es una tabla que muestra los valores pronosticados y su precisión. Cross Validation es una forma de desarrollar y probar un modelo mediante el uso de un porcentaje de los datos para probar
  30. 30. Herramientas de análisis predictivo de Microsoft
  31. 31. Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: el problema
  32. 32. Solución de problemas empresariales reales con herramientas de análisis predictivo de Microsoft: la solución
  33. 33. Modelos de orientación al cliente: árboles de decisión
  34. 34. Modelos de orientación al cliente: resultados
  35. 35. Solución # 2: Análisis de victorias / derrotas
  36. 36. Modelo de segmentación del cliente con la agrupación
  37. 37. Modelo de segmentación del cliente Entender por qué algunos clientes no compran productos X
  38. 38. SQL Server Data Mining  Servicio, no aplicación  SQL Server Análisis Services (SSAS)  Múltiples interfaces:  SQL Server Data Tools (SSDT) ​​SQL Server Management Studio (SSMS)  PowerShell
  39. 39. Elija Algoritmos Clustering Classification Regression Association
  40. 40. SQL Server Data Mining SQL Server 2005 y 2008 • Analysis Services SQL Server 2012 • Servicio de Análisis Multidimensional Desarrollo • Business Intelligence Development Studio • Excel Data Mining Add-in
  41. 41. SQL Analysis Services Algoritmos de minería  Algoritmos de clasificación  Árboles de decisión de Microsoft  Microsoft Neural Network  Microsoft Naive Bayes  Algoritmos de regresión  Serie temporal de Microsoft  Regresión lineal de Microsoft  Microsoft regresión logística  Algoritmos de segmentación o agrupación  Microsoft Clustering  Algoritmos de asociación  Microsoft Asociación  Algoritmos de análisis de la secuencia  Microsoft clústeres de secuencia
  42. 42. Datos SQL Server Algoritmos de minería Algoritmo rápido y accesible Se utiliza para clasificación Técnica de minería de datos populares Se utiliza para la clasificación, regresión y asociación Busca la mejor manera posible en línea recta a través de una serie de puntos Se utiliza para el análisis de predicción
  43. 43. SQL Server Data Mining Algoritmos Continuado Más sofisticados que los árboles de decisión y de Naïve Bayes, este algoritmo puede explorar escenarios muy complejos Se utiliza para la clasificación y regresión tareas Un caso particular de la red neuronal algoritmo Encuentra agrupaciones naturales dentro de los datos Apoya las tareas de segmentación y detección de anomalías
  44. 44. SQL Server Data Mining Algoritmos Continuado Grupos de una secuencia de eventos discretos en grupos naturales basados ​​en semejanza Se utiliza para predecir los valores futuros de una serie temporal Fue mejorado en SQL Server 2008 para producir más precisa pronósticos a más largo plazo Comúnmente utilizado para el mercado análisis de la cesta de aprender qué productos se compran juntos
  45. 45. SQL Server Data Mining Algoritmos Continuado Clasificar • Decision Trees • Logistic Regression • Naïve Bayes • Neural Networks Estimar • Decision Trees • Linear Regression • Logistic Regression • Neural Networks Cluster • Clustering Forecast • Time Series Asociación • Association Rules • Decision Trees
  46. 46. ARIMA  ARIMA (p, d, q): Auto-Regresivo Integrado de Promedios  p es el número de términos autorregresivos  d es el número de diferencias no estacionales  q es el número de errores de pronóstico rezagados en la ecuación de predicción  Ecuación general ARIMA 17    q i t i i p i t di i LYLL 11 *)*1(*)1)(*1( 
  47. 47. ARIMA Ejemplos  ARIMA (0,1,0) - paseo aleatorio  ARIMA (1,1,0) - differenced modelo autorregresivo de primer orden  ARIMA (0,1,1) con constante = suavización exponencial simple con un crecimiento  ARIMA (1,1,1) 18 1 tt YY  )( 21 1     tt tt YY YY   11 *   ttt YY  1 21 1 * )(       t tt tt YY YY   
  48. 48. tiemp o venta¿Qué algoritmo es mejor? Venta real Las medias móviles suavizada s a la regresión lineal simple Regresión lineal por tramos Nota: ajuste mejor no siempre significa mejor predicción!
  49. 49. El arte de la Previsión tiempo venta Las ventas reales (dos productos) Las medias móviles suavizadas a la regresión lineal simple -todos los tiempos Regresión lineal simple - la última vez Regresión lineal por tramos ¿Qué algoritmo es mejor? Nota: ajuste mejor no siempre significa mejor predicción!
  50. 50. Minería de datos para Excel  Construido para Office 2010: 32-bit o 64-bit Add-In  Requiere Analysis Services  SQL Server 2012 Data Mining  Enterprise o  Inteligencia de Negocios o  Revelador
  51. 51. Minería de datos para Excel  Minería de datos cliente para Excel  Construir, validar y gestionar los modelos de datos  Examinar y modelos de minería de datos de consulta • Herramientas de tabla de análisis para Excel  Lleve a cabo una serie de análisis de mesa  No se requieren conocimientos de la minería de datos
  52. 52. PowerPivot para Excel  Características  Libros de Excel  Aprovecha la memoria: Procesamiento rápido  Carga los grandes conjuntos de datos (especialmente de 64 bits)  Analytics a través DAX  Aprovecha los procesadores Multi-Core
  53. 53. PowerPivot http://www.microsoft.com / en-us / bi / powerpivot.aspx
  54. 54. Los datos de demostración  Contoso Retail conjunto de datos de demostración  http://www.microsoft.com/en- us/download/details.aspx?id=18279  De Windows Azure Marketplace  https://datamarket.azure.com/
  55. 55. DEMOSTRACIÓN
  56. 56. Errores comunes en el análisis predictivo
  57. 57. Resumen
  58. 58. Cómo empezar  Excel Data Mining Add-In (gratuito)  http://www.microsoft.com/en-us/download/details.aspx?id=29061  PowerPivot (Free)  http://www.microsoft.com / en-us / bi / powerpivot.aspx  Windows 7  http://windows.microsoft.com/en-US/windows/shop/windows-7  SQL Server 2012  http://www.microsoft.com / sqlserver / es / es / default.aspx  Microsoft Office  http://office.microsoft.com/en-us/
  59. 59. Conclusión  SQL Server Analysis Services proporciona la minería de datos de nivel empresarial para Excel 2013 con PowerPivot
  60. 60. 72 | Eduardo Castro ecastro@simsasys.com ecastrom.blogspot.com edocastro PREGUNTAS Y RESPUESTAS

×