• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Data Mining
 

Data Mining

on

  • 6,539 views

 

Statistics

Views

Total Views
6,539
Views on SlideShare
5,873
Embed Views
666

Actions

Likes
0
Downloads
199
Comments
0

7 Embeds 666

http://www.bernardorobelo.com 565
http://interdata.cl 39
http://bernardorobelo.blogspot.com 36
http://www.slideshare.net 19
http://bernardorobelo.blogspot.mx 4
http://bernardorobelo.blogspot.com.ar 2
http://bernardorobelo.blogspot.com.es 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Data Mining Data Mining Presentation Transcript

    • DataMining
      Bernardo A. Robelo Jirón
      bernardorobelo.blogspot.com
    • Quées el Data Mining
      TEORÍAGrandesempresastienenvaliosainformaciónoculta y almacenada en sus bases de datosproveniente de la acumulación de info a lo largo de suhistoria.
      CERTEZAS
      Esosdatos no pueden ser extraídospormétodosinformáticosconvencionalesniportécnicasestadísticastradicionales.
      Se requiere de algoritmos y técnicasmáscomplejasprovenientes del área de la Inteligencia Artificial y la MatemáticaCompleja, como ser RedesNeuronales, Árboles de Decisión, RegresiónLogística, AlgoritmosGenéticos y Análisis Fractal.
      VALOR
      Su valor radica, en que el descubrimiento de dichospatronespuedeconvertirse en el activomásimportanteparaunaempresa a la hora de toma de decisiones en susnegocios. Conociendo de estamanera con másdetalle a susclientes, la dinámica de susproductos en el mercado, realizandomodeloseficientes de predicción y determinando la influencia de las variables involucradas.
      SEGÚN EL MITPara el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.
    • Quées el Data Mining
      DEFINICIÓN
      La Minería de Datos, es un conjunto de técnicasprovenientes de la Inteligencia Artificial y la MatemáticaCompleja,cuyafinalidad, en el ambienteempresarial,es la de encontrar en grandes bases de datospatronesocultos, no triviales e imposibles de detectarmedianteotrosmecanismosestadísticos; paraluegoextraerdichainformación, la cualpuedeconvertirse en el activomásimportante de unaempresa a la hora de toma de decisiones y encararfuturasestrategias de negocios.
    • Tecnicas
      A. RedesNeuronales
      Características:
      - Sistema Artificial queemula el funcionamiento del cerebrohumano.- Son capaces de aprendermediantediferentesalgoritmos de entrenamiento.
      - Existendiferentestipos de RedesNeuronalesArtificiales. Su utilización y entrenamientodepende del problemaqueesténencomendadas a resolver.
      - Son flexibles y resistentes a errores. - Puedenprocesarse en tiempo real.- Susprincipalesusos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicablesporejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.
      Neurona Humana
      Neurona Artificial
      Red Neuronal Artificial
    • Tecnicas
      B. Árboles de Decisión
      Características:
      • Sistema de Predicciónbasado en reglas.- Llevan a cabo tests complejosque se ramificanhastallegar al resultadoóptimo.- Reflejanlasconsecuencias de lasdecisionestomadas a partir de los resultadosobtenidos.- Su aplicación fundamental se da en grandestiendas de supermercados o retail y en campañasdirigidas de Marketing. Analizandolas bases de datos de una de estasindustrias se puedesegmentar a la perfección a quetipo de clientes se les va a ofrecer un nuevoproducto.
      EJEMPLO:
      Unaempresalíder en electrodomésticos decide hacerunacampañaparaofrecer un nuevoproducto, un reproductor de músicaportátil de grancapacidad y con un precioaccesible. Dichaempresaposeeunagran base de datos con todaslasventasrealizadas a lo largo de 15 años de historia.
      Se deseaexploraresta base paraencontrarpatrones y asísegmentar a susclientes y realizarunacampaña de marketing dirigida.
      A continuación la solución al problema
    • Tecnicas
      B. Árboles de Decisión
      Notas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.
      Solución al problema anterior:Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis.
      EDAD
      > 38
      28-38
      18-27
      P=0,65
      P=0,61
      NSE ALTO
      NSE MED
      NSE BAJO
      Profesional
      Tecnico/Analista
      NSE ALTO
      NSE MED
      NSE BAJO
      Emplado
      Estudiante
      P=0,81
      P=0,51
      P=0,42
      P=0,29
      P=0,37
      P=0,12
      P=0,76
      P=0,67
    • Tecnicas
      C. RegresiónLogística
      Características:
      • Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.- Sus principales aplicaciones se dan en los modelos de scoring:Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas.
      En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.
    • Tecnicas
      D. Análisis Fractal
      Características:
      • Los Fractales son elementosmatemáticosqueposeen dos propiedadesbásicas:Unadimensión fractalAutosimilitud a diferentesescalas.El Análisis Fractal se aplicahoy en día en variossectorescientíficos y de negocios. En el análisisbursátil, en los estudios de series de tiempocomplejas, en la medición y dinámica del tráfico de redesy en detección de fraudes.Suscaracterísticas de poseerunadimensión no entera o fraccionaria, y el de ser autosimilares, haceque se puedamodelar y describir con mayor realismo un sistema natural, financiero o social; y porsobretodo, esunaexcelentetécnicaparacrearmodelos de predicción.En FractalTecnosespecializamos en estetipo de análisis.
    • Aplicaciones
      Si bien un estudio o análisis de Data Mining esaplicable a cualquierempresa con grandes o medianas bases de datos, se destaca en los siguientesrubros:
      A. Aplicaciones con éxito en el campo de la empresa y los negocios:- Análisis de Riesgo (Bancos, EmpresasFinancieras, Seguros)- Detección de Fraudes (Bancos, EmpresasFinancieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentesindustrias a la hora de encararcampañas de Marketing)- InvestigaciónPura (Laboratorios, Empresas de TecnologíaMédica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productosvarios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandesproveedores de Internet, Sistemasformadosporredes de distribucíonfísicacompleja)B. Campos de Investigación- Si bien se aplicahoy en día con éxito en la simulación y predicción del Mercado Bursátil, aúnqueda un amplio campo porinvestigar, tanto en RedesNeuronales de Kohonen (mapasautoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, esotro campo en auge en el mundo de la SeguridadInformática. En estoscasos, se utilizanpotentesRedesNeuronales.
      C. Ciencia- Medicina, Biología y Psicología. Cualquierestudio de investigación, en practicamentecualquierárea, hoyutilizatécnicas de Data Mining paraevaluarresultados. Éxito de unanuevadrogaes un ejemploclásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamenteaplicado en el sector de petróleo).D. Aplicaciones en el Gobierno- Anti-terrorismo (Sistemaspara el entrecruzamiento de llamadastelefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índicesmacroeconómicos y estudios de distribución social.
    • Data Mining comoInteligencia de Negocios
      La Inteligencia de Negocios, disciplinamásconocidaporsunombre en ingléscomo Business Intelligence, tienelassiguientescaracterísticasfundamentales:Acceso a la InformaciónObtenerReportes de calidadApoyo en la toma de decisionesLas herramientasmásdestacadasparaconseguirdichospuntos son:Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAP
      El proceso de Data Mining, consta de variospasos, los mismosabarcan:Etapa de consultoría: Comprender el problema y determinar de lastécnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisisdeterminados en la primeraetapa (redesneuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.Portodo lo expresado en el presentedocumento, Data Mining es la herramientamáspotentequeacompaña a los responsables de unaempresa o cualquiertipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultadospresentes, pasados y aúnfuturos.
    • DataMining
      SQL Server Analysis Services
      DataMining
    • Como trabaja?
      Tipos de Algoritmos ProblemasNegocios
      Clustering = grouping
      Asociacion de segmentos y atributos.
      Ej: E-Commerce WebSite
      Clustering Algorithm
      Classification = predecir un valor especifico
      Gran volumen de datos, Hight-Quality Historical Data
      Decision Trees
      Naïve Bayes
      Neural Network
      Association = correlacion
      Ej: Vendedores de detalles ( Cervezas y Panales)
      Association Algorithm
      Regression = Prevision a un numero continuo
      Time Series
      Logistic Regression
      Sequences = Proceso y Rutas ( websites)
      Sequence Clustering
      Deviation = ValoresExtremos (fraudes, credit card)
      Decision Tree
      Clustering
    • Como trabaja?
      Case Tables  FuenteDatos
      Lista de Valoresqueutilizara el algoritmo
      Nested Tables
      Informacionadicional
      Ejemplo: Customer Table
      9 Algoritmos
      Mining Structures contienen Mining Models
    • Algoritmos
      1. Association Rules
      2. Clustering
      3. Sequence Clustering
      4. Decision Trees
      5. Linear Regression
      6. Time Series
      7. Naive Bayes
      8. Neural Network
      9. Logistic Regression
    • Association Rules
      Algoritmo genera reglasindicandocomo los items debenaparecerjuntos.
      Ejemplo:
      Permitepredecircuando un clienteseleccionara un item, el clienteseleccionaratambienotrotipo de item.
    • Clustering
      El algoritmocorremuchasiteracionesbuscandogrupos de items quetenganpropiedadessimilares.
      Ejemplo:
      BuscarClientes con un ciertonivel de educacionquetenganingresossimilares. Estonosdefinira un Cluster.
    • Sequence Clustering
      El algoritmocombinaanalisis de secuencias con cluster paraanalizar la transicion o cambios entre estados.
      Ejemplo:
      La prediccion del cluster indicaracualtransiciones la queocurrira en base a patronespasados
    • Decision Trees
      Organiza los datos en un Arbol de Red en el cualcadanodorepresentauna decision acerca de unacaracteristica de la informacion.
      El algoritmosoporta la prediccion de los atributos o caracteristicas.
    • Linear Regression
      Es unaaplicacion particular del Decision Tree paracrear un arbol de decisiones con unaraizsencilla.
    • Time Series
      Analiza el tiemporelacionado con datosusandounaregresion lineal.
      Ejemplo:
      Predecirlasventasfuturas en base a lasventas en el pasado.
    • Naive Bayes
      Examina un atributo en el tiempoparaanalizarcomo el atributo se relaciona a otroatributopara ser predecido.
      Para ejecutarloesmuyfacilperoignora la influencia de la combinaciones de otrosatributos.
    • Neural Network
      Similar al sistemanerviosotrabajandoparaanalizarlasentradas(input) al sistema, cadanodo en la red tiene un peso paradeterminarlassalidas (output) del sistema de cadanodo
    • Logistic Regression
      Es unaaplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous