Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining
 

Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining

on

  • 1,633 views

This webinar is in Spanish - ...

This webinar is in Spanish -
El uso de análisis predictivo o minería de datos está en auge. A nivel mundial, cada vez más, las empresas contratan servicios especializados de análisis de información que ayuden a marcar una diferencia con la competencia. Por otro lado, el volumen creciente de data así como su naturaleza cambiante y compleja, hacen inmanejable el proceso de análisis de forma tradicional y está siendo necesario incorporar tecnología y consultoría de punta, basada en el uso de modelos matemáticos avanzados. Pentaho Corporation y Matrix CPM Solutions los invita a participar en el seminario en línea “Análisis Predictivo con Pentaho Data Mining”, en donde se revisarán las grandes oportunidades que existen para su uso y aplicación.

Statistics

Views

Total Views
1,633
Views on SlideShare
1,364
Embed Views
269

Actions

Likes
0
Downloads
24
Comments
0

3 Embeds 269

http://www.matrixdatalabs.com 172
http://localhost 94
https://twitter.com 3

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Pentaho Data Mining Presentation Transcript

    • Análisis Predictivo con Pentaho Data MiningBuscando modelos más allá de la analítica
    • Carenne Ludeña.DATA SCIENTIST•  Presentación•  Analítica Predictiva (PA):•  ¿Qué?, ¿Dónde?, ¿Cuándo?•  Realidades Cambiantes: PA y BigData•  El “Data Science Team”•  Tendencias, mitos y realidades•  PA, Big Data y Pentaho•  Weka-R•  Integración (PDI)•  Un caso en desarrollo: predicción deChurn•  Dos casos de estudio•  Arquitectura de un proyecto•  Pentaho + Matrix DataLabs
    • PresentadorJose L. CamaraChannel Manager LATAM / PentahoJose has more than 15 years of experience in sales, distribution, consultingand support of Business Intelligence and Data Integration Solutions. Josehas been involved in different types of projects like Data Warehouse, DataCleansing, Data Governance, Data Consolidation, Master DataManagement, OLAP Analysis, Predictive Analysis and BusinessIntelligence with customers such as General Electric, Merrill Lynch, Nike,BBVA Bancomer, Santander, Martí, Elektra, Banco de Costa Rica, Cemex,Telmex, Lime Communications and some others providing hundreds ofthousand of dollars in savings during the implementation of these projects.Currently José works for Pentaho as a Channel Manager for Latin America
    • LOS EXPOSITORESCarlos UrgellesDATA SCIENTIST  Carenne LudeñaDATA SCIENTIST  Carenne es Científica de Datos e investigadora en matemática estadística.Luego de su doctorado en la Universidad de Orsay (Francia), trabajódurante 15 años en el Instituto Venezolano de Investigaciones Científicas yes Coordinadora de la maestría de Modelos Aleatorios de la UniversidadCentral de Venezuela. Combina sus intereses académicos con desarrollode aplicaciones en petróleo, salud, finanzas y telecomunicaciones. Esexperta en minería de datos y el uso de R y Weka. En 2011 fuegalardonada con el premio de la Fundación Empresas Polar,una de las distinciones científicas más importantes de Venezuela.Carlos tiene más de 20 años de experiencia en consultaría de desarrollode sistemas de información especializados en el área de Inteligencia deNegocios. Se ha desempeñado como consultor, líder técnico, gerente deproyectos y ventas. Posee más de 50 proyectos implantados en 7 paisesy en áreas que incluyen ventas, finanzas, consolidación y planificaciónfinanciera, logística e inventarios. Con muchas horas de cursos dictadosen su haber, en los 90 hizo la labor de evangelización de BI en Latinoaméricay ha sido una gran promotor de Pentaho en la región. Es un emprendedorde proyectos relacionados con BI.
    • ANALÍTICA PREDICTIVA¿QUÉ, CUÁNDO Y DÓNDE?Es un término que englobauna serie de técnicas, algoritmosy procedimientos para la extracciónde patrones subyacentes en la data.Estos patrones permiten descubrir,predecir, entender y explicar.  Caterpillar  Inc.  reduced  rota1ng  machinery  anomalies  by  nearly  45  percent,  thanks  to  improvents  delivered  bydata-­‐mining  methods.  Predicting QualityOutcomes ThroughData Mining
    • APLICACIONESAPLICACIONESSector    público  Energía  Tele-comunicacionesRetail  Petróleo  Salud  Banca    Y    aseguradoras  Mercadeo E-gobiernoProducción/DistribuciónChurnAtención individualizadaControl automatizadoHistorias automatizadasModelos de riesgoDetección de fraudeCampañas dirigidas
    • •  Cada día hay más datos•  Se requieren respuestas en tiempo real•  Muchos negocios: atenciónindividualizada del clientes•  Control de Calidad de datos•  Mercados competidos: atracción denuevos clientes y diseño de nuevosproductos•  Tecnología que evoluciona rápidamente•  En conclusión: ¡más y más rápido!  REALIDADES CAMBIANTES
    • BA en un punto de inflexión8  (Gartner,  December  2011)  “The proliferation of data has caused enterprises to need new tools and processes to collect data (both structured andunstructured) and to store, manage, manipulate, analyze, aggregate, combine, and integrate data. ”  J|M|P  Securi1es,  Big  Data  and  How  BI  Got  Its  Groove  Back,  Nov.  2011      (IDC  Digital  Universe  Study,  June  2011)                  40353025201510502005 2010 2015 2020ZB    (IDC  Digital  Universe  Study,  June  2011)                  Estas realidades cambiantes ponen a prueba las herramientas clásicas de BI
    • •  Fenómeno Big Data:• Volumen• Variedad• Velocidad• Veracidad•  Se requiere poder extraer, procesary almacenar grandes volúmenes de datosen tiempo real•  Aplicaciones de algoritmos de alta demandade tiempo y memoria•  Imperativo: mecanismos eficientespara pre-procesamiento y análisis de datos•  Nuevas tecnologías de extracción, capacidadde almacenamiento y análisis implican nuevastendencias en el manejo de información  ANALÍTICA PREDICTIVA Y BIG DATA
    • BIG DATA / NUEVAS TENDENCIASVariedad y volumen:Bases de datos no estructuradasWeb miningCrawling de redes socialesText miningSpatial data mining…  
    • DE MINERÍA DE DATOS AL DATA SCIENCE TEAM•  Ahora es un trabajo de equipo•  Manejo, extracción y análisis de la información, tareacompleja•  Se requiere de especialistas capaces de trabajar enconjunto•  Tendencia de grandes empresas y empresas de BIalrededor del mundo•  Data Science Team (DST):•  Ingenieros de datos (manejo y extracciónde información)•  Analistas de datos•  Estadísticos•  Expertos en fraude y calidad de datos•  No es siempre posible crear un DST. Opciones:• Tercerización• Consultoría  
    • ANALÍTICA PREDICTIVA ENCIFRASEmpresas líderes y su relación con Big DataFuente: Estudio Aberdeen 2013Los líderes aumentan su tendencia a seguirlo siendo por su incrementoen el uso de habilidades asociadas al uso inteligente de la información.  Keeping Up with Customers – DynamicBehavior Profiles  
    • Pedictive AnalyticsFuente: Estudio Aberdeen 2013Dynamic Offers Drive Perfomance  ANALÍTICA PREDICTIVA ENCIFRAS
    • LAS EMPRESAS LÍDERES Y ADOPCIÓN DEESTRATEGIAS DE APHug a Geek- State of IT/MarketingAlignment  Predictive Value – Best-in-ClassAdoption of Data Analytics Technologiesfor Marketing  Los líderes invierten más en tecnología y los que invierten más son líderes.La mayor inversión de las empresas líderes es en Analítica Predictiva.  
    • CIFRAS EN AMÉRICA LATINAInversión en BD/PA a nivelmundial  Median Spending per companyon Big Data in 2012- by country  Percentage of Companies whose BigData initiatives haveImproved Decision-Making  Inversión baja,pero alto impacto
    • MITOS•  Es interesante pero demasiadocostoso para mi empresa•  Para poder hacer analítica predictivao minería de datos es necesario invertiren la compra de softwareespecializado•  Es necesario contar con personalcalificado y entrenado y mi empresano puede costear este gasto•  El tipo de información que se obtienede la aplicación de este tipo de técnicasla sabe de todos modos el que“sabe del negocio”•  En conclusión: no vale la pena  
    • REALIDADES•  Existen “soluciones a la medida”.•  Una intervención puntual puederesolver un problema importante•  La inversión en software depende delas necesidades de la empresa•  Pueden implementarsesoluciones “llave en mano”•  La instalación de DST es un procesogradual y no es necesario en todos loscasos•  “El que sabe del negocio” tiene unavisión intuitiva importante. Sin embargo,esta información es:•  Intransferible y no automatizable•  Ineficiente al aumentar el volumendel negocio•  Incompleta•  Uso inteligente de la información= másy mejores negocios  
    • Data Mining, Big Data y Pentaho
    • •  Apoyo en todo el proceso de exploración y construcción de modelosPre-procesamiento de datosEvaluación y comparación estadística de modelosExploración gráfica de datos e interfaces gráficas para visualización y comparación de modelos•  Herramientas y Algoritmos69 (y aumentando) herramientas (filtros) para pre-procesamiento118 (y aumentando) algoritmos de clasificación/regresión11 (y aumentando) algoritmos de agrupamiento18 evaluadores para atributos más informativos+ 12 algoritmos de búsqueda6 algoritmos de reglas de asociación•  InterfacesExplorer – exploración, visualización y procesamiento de data. Construcción, evaluciónpreliminar y exportación de modelos.Experimenter – Comparación en gran escala de algoritmos usando pruebas estadísticaspara determinación de diferencias significativas en modelos.KnowledgeFlow – minería de datos como procesos. Exportación de modelos/procesos.•  Integración a la suite Pentaho  PENTAHO DATA MINING (AKA WEKA)
    • BIG DATA Y PENTAHO20  •  Incorporación de información en formato no tradicional y manejo eficiente de grandesvolúmenes de datos: bases de datos no estructuradas integradas a Pentaho•  Algunos ejemplos•  Extracción grandes volúmenes (Teras) Haddop/ Hive/ Pentaho•  Web mining y crawling de redes sociales: extracción y almacenamiento en NoSQL
    • Integraciónde procesosen PDI  R/ PDM(WEKA)  ProcesamientoBig Data  BIG DATA, PDM, R, PENTAHO BA
    • EXTRACCIÓN+PROCESAMIENTO+REPORTING22  Análisis/predicción/integración•  Exploración•  Descubrimiento•  Modelaje y predicción    Gerencia para la tomade decisiones•  Visualizacióny exploración•  Tableros/Índices•  Seguimientointeractivo del negocio    •  Uso versátil de la información•  Facilidad•  Velocidad•  Flexibilidad    ExtracciónProcesamientoReportes
    • UN EJEMPLO EN DESARROLLOCÁLCULO DE PROBABILIDADES DECANCELACIÓN o CHURN23  El Churn o cancelaciónde clientes, se refiere ala proporcióno tasa de clientes quese van o dejan alproveedorde un servicio duranteun horizonte de tiempodeterminado.  El modelo de predicciónChurn busca identificarlos suscriptores conalta probabilidad deabandonar el servicioen el futuro cercano , suvalor para el negocio ylos factores que lacausan, para asítomar las accionescorrespondientes.  La cancelación de uncliente siempre generapérdidas.Es mas difícil y costosoconseguir un nuevocliente que retenerlo.  Modelos de cancelación de clientes (Churn)Cálculo de probabilidades de cancelación: identificación de clientes difíciles/mejoría en tasas de retención/atenciónindividualizada.Modelos adaptados por categorías o segmentos de clientes para mejorar capacidad predictiva
    • Caracterizaciónde clientes  Identificaciónde variablesy análisissupervivencia  Identificaciónde Gruposde influenciay redes sociales  Conocer cuáles sonlas variables que másinfluyenSi probabilidad decancelación alta: cuáles la probabilidad decancelación en 3meses o 6 meses  A veces es relevanteconocer las redesde interacción de clientes§  Recuperables/No recuperables§  Probabilidadde recuperación  Técnicas de análisisUN EJEMPLO EN DESARROLLOCÁLCULO DE PROBABILIDADES DECANCELACIÓN o CHURN
    • Esquema Modular Pentaho-Weka-RExploración: integraciónPentaho/Weka/R•  Esquema modular•  Mejor modelo•  Segmentación previa•  Análisis supervivencia•  Análisis redes    ModelajeIntegraciónAnálisisExploratioUN EJEMPLO EN DESARROLLOCÁLCULO DE PROBABILIDADES DECANCELACIÓN o CHURN
    • Analítica PredictivaCasos de estudio
    • Segmentación de clientes: información valiosa sub-utilizada•  Datos históricos de fidelidad y consumo (RFM).•  ¿Quién compra qué y cómo paga?•  Campañas dirigidas/Nuevos productos  Detección de fraude: problema importantecon significativas implicaciones económicas y sociales•  Detección de valores o patrones anómalos•  Estrategias sofisticadas y variadas: difícil con Big Data  CASOS DE ESTUDIO
    • Empresa de telecomunicacionesData: varios millones de registroscon más de 350 atributosCaracterísticasde clientes (forma de pago,tecnología, localizacióngeográfica, planes,...)Variables de uso:agregados mensualesde llamadas (entrantesy salientes por operadora), mensajes(entrantes y salientespor operadora), volumende datos. Variables de consumo  Determinar la vigencia de planespre-existentes.Mejorar el rendimiento del procesode mercadeo/ventas: mercadeodirigido.Detectar nuevas necesidadesy targetsProponer nuevos productosu oportunidades de negocio  Preparando la DataMuestreo inicial de la data:Pentaho + hadoopExploración-determinación devariables informativas: WEKAConstrucción de un modelo desegmentación inicial: WEKAConstruyendo el modeloSegmentación: k-medias (algoritmoparalelizble usando hadoop map/reducer)Ajuste y selección del mejor modelo:WEKAExportando el modelo: KnowledgeFlow pluginsAplicando el modelo a toda la data:PDIEsquemas integrados en Pentahopara análisis y reportes  SEGMENTACIÓN DE CLIENTESIntroducción  
    • •  Segmentación automatizada:Datos futuros•  Aplicación de los modelossobre toda la base dedatos  •   Exploración: datos pasados ypresentes•  Descubrir relaciones entrevariables o entre individuos.•  Determinar segmentos querespondan a las expectativasdel negocio.•  Descubrir cuáles son lasvariables que determinanciertos comportamientos•  Construcción de modelos desegmentación apropiados    IntegraciónmodelosMap-ReduceCreación delModelo base(knowledge flow)SEGMENTACIÓN DE CLIENTES
    • SEGMENTACIÓN DE CLIENTESSoluciones•  Análisis de probabilidades de clasificaciónpermite detectar casos confusos•  Análisis de planes existentescon segmentos identificados  Pentaho/Weka•  Integración del segmentador al sistema de manejo de clientes permiteutilizar las herramientas de BI con esta nueva variable•  Diseñar nuevas políticas de mercadeo y ventas•  Mejora en eficiencia: mayor adaptabilidad a las necesidades reales declientesNo existen planesadaptados para 14%de clientes en pre-pagocon mayor consumo  Patrones de consumode 76% de clientes debencanalizarse mejor. No hayplanes adecuados paraeste grupo de clientesmayoritario  Más de 90% de planes hechospara menos de 10% de clientespost-pago sin diferenciarcaracterísticasde consumo  Análisis y conclusiones  
    • Empresa de distribución masivaData: relaciones de ventas deempresas revendedoras (variosmillones de clientes) a suempresa matriz.Datos diarios de ventasComportamiento estacionalmarcado:Variaciones interdiariasVariaciones trimestralesTendencia creciente anual  Luego de un cambio deplataforma tecnológica ocurridaa final de abril 2007, laempresa matriz sospecha queuna de las revendedoras está“maquillando” los números.Sin embargo dado el granvolumen de datos se hacedifícil observar anomalías quesólo se intuyen por una pérdidaen la masa global de lasganancias reportadas.  Preparando la data:Limpieza de datos: datosfaltantesEliminación detendencias: anuales,trimestrales y diarios (pordía de la semana).Construyendo el modelo:Análisis exploratorio en RAplicación detransformacionesadecuadas.Determinación de mecanismode fraude.Estimación de pérdidasgeneradas por el fraude  DETECCIÓN DE FRAUDEIntroducción  
    • Diseño demodelosSolución a lamedidaAnálisis exploratorioPentaho/REvaluación  del  problema:    comprensión  del  mecanismo  de  fraude  y  es1mación  de  pérdidas  Exploración  y  creación  de  una  transformación  apropiada  de  los  datos  para  determinación  cuan1ta1va  de  fraude      DETECCIÓN DE FRAUDEEsquema PENTAHO-R
    • Soluciones•  Fraude ocasionado por eliminación devalores que sobrepasan un cierto umbral.•  Las pérdidas estimadas se basan en larelación entre las ganancias diarias y lamediana.    Pentaho/R•  Solución a la medida•  El ajuste monetario debido alreconocimiento del fraude fue significativo.  Transformaciónapropiada permiteanálisis cuantitativo demecanismo de fraude  El análisis de los gruposantes y después permitehacer un cálculo deganancias no percibidas.      Análisis y conclusionesDETECCIÓN DE FRAUDE
    • Arquitectura de un proyecto
    • ARQUITECTURA PENTAHO DATA MININGData warehousePentaho Data Integration•  Combinar/preparar data•  Construir & guardar modelos de DM•  Incluir modelos para Scoring & actualizacióndel DW con prediccionesPentaho Data Mining (WEKA)•  Exploración & preparación de data•  Construir, probar y comparar modelosRepositorio ETLde transformaciónServidor Pentaho BA•  Dashboards, reporting etc.  
    • •  Creación del repositorio:•  Pre-procesamiento/calidad de data•  Análisis descriptivo y predictivo:•  Pre-procesamiento para análisis (grandesvolúmenes)•  Análisis descriptivo/reducción de dimensiones•  Creación y evaluación de modelos•  Agregación y/o selección de modelos•  Creación de modelos exportables Pentaho y/oelaboración entregables•  Creación reportes y dashboards en Pentaho•  Ajustes•  Análisis de efectividadARQUITECTURA DE UN PROYECTORecepción delos DatosData QualityKick OffSemana  0  Semana  1  Semana  2  Semana  3  Semana  4  –  Semana  N  Pre-­‐procesamiento Análisis  DescripFvo  y  PredicFvo  Creación  Modelo   Evaluación  Modelo   Exportación/Entregables  Reportes  y  Dahboards   Ajustes  Análisis  de  EfecFvidad  
    • Pentaho+Matrix Data Labs
    • SOLUCIONES A LA MEDIDA  SOPORTECONSULTORÍACAPACITACIÓNSOLUCIONES INTEGRADASPENTAHO + BD + DMEN SITIO OUTSOURCING SAASHerramienta flexible•  Pentaho Business Analytics•  Pentaho Data Mining    Equipo multifacético•  Analítica + BI•  Big Data +PA•  Científicos de datos•  Web and text mining  PENTAHO + MATRIX DATA LABS
    • Matrix Data Labs , unidad de negocios de MatrixCPM Solutions, nace en 2012 como una iniciativade Carenne, Carlos y sus equiposde trabajo, convencidos del gran potencialdel desarrollo de esta área en la región.Matrix Data Labs desarrolla proyectos contecnología de estado del arte en el áreade analítica predictiva, Big Data e integraciónde información.
    • MATRIX CPM SOLUTIONS•  Empresa fundada en Diciembre de 2005•  Con oficinas en Venezuela y Colombia•  Amplia experiencia en el desarrollo de modelosde Inteligencia de Negocios.•  “Pentaho Certified Partner” desde Enero 2007.“Pentaho Gold Reseller” Febrero 2009. “LatinAmerican Partner of the Year 2008”. “PentahoGlobal Partner Award 2011; Reseller of theYear”•  “Infobright System Integrator & ResellerPartner” desde Abril 2009•  Cuenta con experiencia en soporte, consultoríay capacitación en USA, México, RepúblicaDominicana, Colombia, Venezuela, Bolivia,Perú, Ecuador, El Salvador y Chile.
    • www.matrixcpmsolutions.comcontactos@matrixcpmsolutions.com  Carenne Ludeña cludena@matrixcpmsputions.comCarlos Urgelles curgelles@matrixcpmsolutions.com