Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

2

on

  • 499 views

 

Statistics

Views

Total Views
499
Views on SlideShare
499
Embed Views
0

Actions

Likes
0
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Ejemplo de Metrofang…
  • Comentar algunas áreas: Bioinformatics, Banking & similar…
  • Hablar de METROFANG
  • PMML: Predictive Mining (Modelling) Mark-up Language (ORACLE)

2 2 Presentation Transcript

  • An Introduction to Mining (2) Análisis Inteligente de Datos y Data Mining Alfredo Vellido
  • DATA MINING as a methodology
  • CRISP: a DM methodology
    • CR oss- I ndustry S tandard P rocess for Data Mining : neutral methodology from the point of view of industry, tool and application (free & non-proprietary)
    • Pete Chapman, Randy Kerber ( NCR ); Julian Clinton, Thomas Khabaza, Colin Shearer ( SPSS ), Thomas Reinartz, Rüdiger Wirth ( DaimlerChrysler )
    • CRISP-DM was conceived in 1996
    • DaimlerChrysler: leaders in industrial application, SPSS: leaders in product development ( Clementine, 1994) , NCR: owners of large (huge!) databases (Teradata )
    • Financed by the EU . Version 1.0 released officially in 1999
  • CRISP: Methodology phases
  • Use of DM methodologies Enterprise MinerTM : SEMMA The acronym SEMMA -- sample, explore, modify, model, assess -- refers to the core process of conducting data mining. Beginning with a statistically representative sample of your data, SEMMA makes it easy to apply exploratory statistical and visualization techniques, select and transform the most significant predictive variables, model the variables to predict outcomes, and confirm a model's accuracy.
  • CRISP: Phases: Problem understanding COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION DETERMINAR OBJETIVO NEGOCIO CALIBRAR SITUACIÓN DETERMINAR OBJETIVOS DM PRODUCIR PLAN PROYECTO BACKGROUND INVENTORIO RECURSOS OBJETIVOS DM PLAN DE PROYECTO OBJETIVOS DE NEGOCIO CRITERIOS DE ÉXITO NEGOCIO CRITERIOS DE ÉXITO DM REQUERIMS. ASUNCIONES LIMITACIONES RIESGOS CONTINGEN. TERMINOLOG. COSTES & BENEFICIOS SELECCIÓN INICIAL HERRAM.
  • DM application areas (’06)
  • CRISP: Phases: Data understanding OBTENER DATOS INICIALES DESCRIPCIÓN DATOS EXPLORACIÓN DATOS VERIFICAR CALIDAD DATOS COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION INFORME DATOS INICIALES INFORME DESCRIPTIVO DATOS INFORME EXPLORACIÓN DATOS INFORME CALIDAD DATOS
  • METROFANG: a real story about data understanding (1)
  • METROFANG: a real story about data understanding (2)
    • Missing data
    • Estacionalidad
    • Outliers
    • Series Temporales
    • Fin de semana?
    • FORUM???
  • What data format we use?
  • CRISP: Phases: Data preparation COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION SELECCIÓN DE DATOS LIMPIEZA DE DATOS RECONSTRUC. DATOS INTEGRAR DATOS DAR FORMATO A LOS DATOS ARGUMENTACIÓN DE LA SELECCIÓN INFORME LIMPIEZA DE DATOS VARIABLES DERIVADAS DATOS INTEGRADOS OSERVACIONES GENERADAS DATOS CON NUEVO FORMATO
  • Is data preparation that important?
  • Common data types …(’05)
  • Common data types …(’06) Compared to 2005 KDnuggets Poll on “Types of data you analyzed/mined in last 12 months”, the biggest increase was in anonymized data (perhaps and indicator of increasing importance of privacy issues).
  • How large it is and where do you store it?…(’06)
  • CRISP: Phases: Modelling SELECCIONAR TÉCNICA MODELADO CREAR DISEÑO TEST CONSTRUIR MODELO VALIDAR MODELO COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION TÉCNICA SELECCIONADA DISEÑO DE TEST ELECCIÓN DE PARÁMETROS VALIDACIÓN DEL MODELO MODELO DESCRIPCIÓN DE MODELO
  • CRISP: Typology of DM problems
  • CRISP: Selection of techniques U N I V E R S O D E T É C N I C A S TÉCNICAS ADECUADAS A PROBLEMA REQUERIMIENTOS POLÍTICOS (Negocio, ejecutiva) LIMITACIONES Tipo de datos, conocimiento HERRAMIENTA(S) SELECCIONADA(S) Tiempo, dinero, rr.hh. (Definidas por herramientas)
  • Commonly used models (‘05)…
  • Commonly used models (‘06)…
  • CRISP: Phases: Evaluation COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION EVALUAR RESULTADOS REVISAR PROCESOS DETERMINAR PRÓXIMOS PASOS EVOLUCIÓN RESULTADOS DM REVISION DEL PROCESO LISTA DE POSIBLES ACCIONES DECISIONES MODELOS APROBADOS
  • CRISP: Phases: Deployment PLANIFICAR IMPLEMEN TACIÓN PLANIFICAR MONITORIZACIÓN Y MANTENIMIENTO PRODUCIR INFORME FINAL REVISAR PROYECTO COMPRENSIÓN PROBLEMA NEGOCIO COMPRENSIÓN DATOS PREPARACIÓN DATOS MODELADO EVALUACIÓN IMPLEMEN TACION PLAN DE IMPLEMENTACIÓN PLAN DE MONITORIZACIÓN Y MANTENIMIENTO INFORME FINAL DOCUMENTACIÓN DE LA EXPERIENCIA PRESENTACIÓN FINAL
  • How do you deploy it? (’06)
  • Software popularity (‘05)
  • Software popularity (‘06)
  • SPSS webinars Seminario on line: Depuración de Datos con SPSS Viernes, 6 de Octubre de 2006 - 10:00h Duración: 30 minutos Mejore la validación de los datos para obtener resultados más precisos. El nuevo módulo SPSS Validación de Datos le permite: Identificar fácilmente casos, variables o valores sospechosos o que no son válidos Ver patrones de datos que faltan y resumir distribuciones de variables. Sabiendo esto, puede determinar la validez de los datos y eliminar o corregir los casos sospechosos que considere antes del análisis. Seminario on line: Clementine Desktop Viernes, 20 de Octubre de 2006 - 10:00h Duración: 30 minutos La minería de datos o “Data Mining” es una tecnología que aporta a su empresa un valor considerable y cuantificable. Al descubrir conexiones y patrones ocultos en los datos, el Data Mining permite a su organización mejorar sus procesos de negocio y tomar las mejores decisiones en el momento oportuno. SPSS Inc. ofrece ahora Clementine Desktop con el fin de ayudar a las pequeñas y medianas empresas y unidades de negocio dentro de organizaciones mayores a disfrutar las ventajas del Data Mining. Como Clementine, nuestra solución de Data Mining líder del sector, Clementine Desktop combina técnicas avanzadas de análisis con una interfaz visual y muy intuitiva. Además es compatible con CRISP-DM (Cross-Industry Standard Process para Data Mining), que es la metodología estándar de minería de datos. REGISTRO: https://spssevents.webex.com/       Viernes 6 de Octubre     Depuración de datos con SPSS
  • Show me the money!
  • Miner’s salaries over the globe (’05-’06)…
  • Mining jobs… Company: Microsoft Position: Research SDE Location: Redmond, WA As a Research Developer, you will be working side by side with applied researchers in the adCenter Labs to incubate and build research prototypes in the areas of data mining, information retrieval and online auction. Realize the algorithms in the form of research prototypes to functional production components… The ideal candidate should have Excellence in algorithms, data structure, discrete math, data base and data warehousing Production coding experience in web scripting, C/C++, .NET framework, Perl, SQL/MDX . (02/10/06) Company: Waterfront International Ltd, Position: Data Mining Analyst Location: Toronto, Canada Waterfront International is a Toronto-based financial consulting firm, specializing in developing computer based statistical trading strategies. Primary Responsibilities: Perform financial market data research and analysis to identify and resolve data issues using advanced data mining techniques. Develop proprietary data mining tools and applications, and predictive models. Requirements: PhD or Masters in mathematics, statistics or computer science specializing in data mining // Must possess expert level C/C++ programming skills // Some financial experience desired but not required. (25/09/06)
  • Mining jobs … Company: Yahoo! Position: Data Mining Researcher Location: Sunnyvale, CA Each day Yahoo! collects approximately ten terabytes of data- more than the entire Library of Congress. We analyze this data and act on it to constantly better our user experience, while building the world’s best consumer-centric data platform. Yahoo! DATA MINING and RESEARCH GROUP (DMR) is looking for an outstanding data mining researcher who wants to work on real problems leading to solutions that make a direct and measurable business impact. This individual should enjoy formulating problems based on customer needs, selecting, modifying and/or building appropriate tools or methodologies, and providing true end-to-end solutions for diversified and challenging data mining and data research projects. # Experience in exploratory data analysis and data mining process # Proven knowledge of data mining and machine learning methods and tools # Ph.D. in Data Mining, Machine Learning, Information Retrieval, Statistics, Artificial Intelligence, or a related field # Software development skills (C/C++, Perl, Java, SQL, etc.) (10/09/06)
  • Mining jobs… Company: Siemens Corporate Research Position: Research Scientist - Semantic Analysis . Location: Princeton, NJ The Semantic Analysis Group of Siemens Corporate Research, Princeton, NJ, has an opening for a Research Scientist in the area of semantic modeling and analysis. The ideal candidate will have a background in statistical learning, natural language processing, and ontological knowledge formalism technologies. In particular, candidates with experience in using machine learning techniques for semantic analysis of unstructured data in a range of applications such as data cleaning, clustering, summarization, question/answering and topic detection will be preferred. Familiarity with Semantic Web and knowledge representation are also expected. We will only consider candidates holding a Ph.D. in Computer Science, Electrical Engineering or Applied Math (25/09/06)
  • ¡Empleos! de minero… Company: NOVAQUALITY CONSULTING Position: Consultor de Data Mining con SAS Location: Madrid Estamos buscando una persona con amplia experiencia en proyectos de minería de datos utilizando las diferentes soluciones de SAS . Realizará tanto labores técnicas, análisis de estructuras de bases de datos, definición de procesos y generación de matrices, etc.., como labores funcionales y de interlocución con los responsables de negocio. Experiencia de al menos 3 años en proyectos de Data Mining. Implantando modelos predictivos y descriptivos, desde su concepción hasta su puesta en producción. Altos conocimientos de las distintas herramientas de SAS , tanto de tratamiento de datos básicos ( SAS BASE ), análisis estadístico y minería de datos ( SAS Stat y EM ). (04/10/06) Company: DMR Consulting Position: Consultores Sr. Business Intelligence Location: Barcelona Precisamos incorporar Consultores Senior Business Intelligence para participar en la definición y ejecución de soluciones relacionadas con Business Intelligence como: Cuadro de Mandos, Balanced Scorecard, Reporting, Marketing Analítico, Data Mining, entornos de simulación , etc. Ingeniero Superior o similar con experiencia en diseño e implantación de soluciones de negocio basadas en Business Intelligence, Data Warehousing y/oData Mining. Con conocimiento de varios de los siguientes productos del mercado : - BBDD Relacionales : Oracle: SQL Server, DB2, Informix, etc. - Reporting : Oracle Reports: Dynasight, OnVision, Chrystal Reports, etc. - Herramientas Analíticas : Cognos, Business Objects, Mycrostrategy, Análisis Services (03/10/06)
  •  
  •