Data Mining

7,901 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
7,901
On SlideShare
0
From Embeds
0
Number of Embeds
697
Actions
Shares
0
Downloads
335
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Data Mining

  1. 1. DataMining<br />Bernardo A. Robelo Jirón<br />bernardorobelo.blogspot.com<br />
  2. 2. Quées el Data Mining<br />TEORÍAGrandesempresastienenvaliosainformaciónoculta y almacenada en sus bases de datosproveniente de la acumulación de info a lo largo de suhistoria.<br />CERTEZAS<br />Esosdatos no pueden ser extraídospormétodosinformáticosconvencionalesniportécnicasestadísticastradicionales. <br />Se requiere de algoritmos y técnicasmáscomplejasprovenientes del área de la Inteligencia Artificial y la MatemáticaCompleja, como ser RedesNeuronales, Árboles de Decisión, RegresiónLogística, AlgoritmosGenéticos y Análisis Fractal.<br />VALOR <br />Su valor radica, en que el descubrimiento de dichospatronespuedeconvertirse en el activomásimportanteparaunaempresa a la hora de toma de decisiones en susnegocios. Conociendo de estamanera con másdetalle a susclientes, la dinámica de susproductos en el mercado, realizandomodeloseficientes de predicción y determinando la influencia de las variables involucradas. <br />SEGÚN EL MITPara el Massachusetts Institute Technology, el Data Mining es una de las diez tecnologías emergentes que cambiará al Mundo.<br />
  3. 3. Quées el Data Mining<br /> DEFINICIÓN<br />La Minería de Datos, es un conjunto de técnicasprovenientes de la Inteligencia Artificial y la MatemáticaCompleja,cuyafinalidad, en el ambienteempresarial,es la de encontrar en grandes bases de datospatronesocultos, no triviales e imposibles de detectarmedianteotrosmecanismosestadísticos; paraluegoextraerdichainformación, la cualpuedeconvertirse en el activomásimportante de unaempresa a la hora de toma de decisiones y encararfuturasestrategias de negocios.<br />
  4. 4. Tecnicas<br />A. RedesNeuronales<br />Características:<br />- Sistema Artificial queemula el funcionamiento del cerebrohumano.- Son capaces de aprendermediantediferentesalgoritmos de entrenamiento.<br />- Existendiferentestipos de RedesNeuronalesArtificiales. Su utilización y entrenamientodepende del problemaqueesténencomendadas a resolver.<br />- Son flexibles y resistentes a errores. - Puedenprocesarse en tiempo real.- Susprincipalesusos se dan en el reconocimiento de patrones y en los modelos de predicción.- Son aplicablesporejemplo en el Mercado Bursátil, en los sistemas OCR, en la Segmentación de Clientes, en predicciones de Demanda y especialmente en Detección de Fraudes y Riesgos.<br />Neurona Humana<br />Neurona Artificial<br />Red Neuronal Artificial<br />
  5. 5. Tecnicas<br />B. Árboles de Decisión<br />Características:<br /><ul><li>Sistema de Predicciónbasado en reglas.- Llevan a cabo tests complejosque se ramificanhastallegar al resultadoóptimo.- Reflejanlasconsecuencias de lasdecisionestomadas a partir de los resultadosobtenidos.- Su aplicación fundamental se da en grandestiendas de supermercados o retail y en campañasdirigidas de Marketing. Analizandolas bases de datos de una de estasindustrias se puedesegmentar a la perfección a quetipo de clientes se les va a ofrecer un nuevoproducto.</li></ul>EJEMPLO:<br />Unaempresalíder en electrodomésticos decide hacerunacampañaparaofrecer un nuevoproducto, un reproductor de músicaportátil de grancapacidad y con un precioaccesible. Dichaempresaposeeunagran base de datos con todaslasventasrealizadas a lo largo de 15 años de historia. <br />Se deseaexploraresta base paraencontrarpatrones y asísegmentar a susclientes y realizarunacampaña de marketing dirigida.<br />A continuación la solución al problema<br />
  6. 6. Tecnicas<br />B. Árboles de Decisión<br />Notas:El árbol puede ramificarse mucho más aún y poseer un mayor número de variables.En este caso, el responsable de la campaña de Marketing, tiene buenas herramientas para optar por dirigir su campaña a personas entre 18 y 27 años de clase media, y a empleados de entre 28 y 38 años.<br />Solución al problema anterior:Se plantea un árbol de decisión, el cual determina de manera inteligente (es parte del algoritmo) que la variable fundamental a considerar es la edad. A partir de allí se comienza a ramificar el árbol. La edad se divide en tres rangos. La segunda variable de mayor peso es el Nivel Socio Económico de la persona y su profesión. El árbol, mostrará en cada una de sus ramas un número entre 0 y 1 que indica la probabilidad de que una persona en dicho segmento compre el producto que se está ofreciendo. De esta manera, se convierte en una herramienta fundamental en la toma de decisiones para encarar una campaña de marketing eficiente. La potencia de un algoritmo de AD radica en su capacidad de ordenar y segmentar las variables de mayor a menor. Aquí los resultados en este análisis. <br />EDAD<br />&gt; 38<br />28-38<br />18-27<br />P=0,65<br />P=0,61<br />NSE ALTO<br />NSE MED<br />NSE BAJO<br />Profesional<br />Tecnico/Analista<br />NSE ALTO<br />NSE MED<br />NSE BAJO<br />Emplado<br />Estudiante<br />P=0,81<br />P=0,51<br />P=0,42<br />P=0,29<br />P=0,37<br />P=0,12<br />P=0,76<br />P=0,67<br />
  7. 7. Tecnicas<br />C. RegresiónLogística<br />Características:<br /><ul><li> Poderosa herramienta estadística, que en un análisis de Data Mining se conecta a bases de datos para encontrar patrones de dependencia de variables.- Sus principales aplicaciones se dan en los modelos de scoring:Bancos: Utilizan el modelo de scoring para el análisis de riesgo a la hora de otorgar un crédito.Seguros: Utilizan el modelo de scoring para clasificar clientes y diferenciar el valor de una póliza dependiendo probabilísticamente de los riesgos de cada una de las personas analizadas. </li></ul>En estas dos industrias, el análisis de Data Mining para los modelos de puntaje o scoring, se ha convertido en una herramienta de uso crítico.<br />
  8. 8. Tecnicas<br />D. Análisis Fractal<br />Características:<br /><ul><li> Los Fractales son elementosmatemáticosqueposeen dos propiedadesbásicas:Unadimensión fractalAutosimilitud a diferentesescalas.El Análisis Fractal se aplicahoy en día en variossectorescientíficos y de negocios. En el análisisbursátil, en los estudios de series de tiempocomplejas, en la medición y dinámica del tráfico de redesy en detección de fraudes.Suscaracterísticas de poseerunadimensión no entera o fraccionaria, y el de ser autosimilares, haceque se puedamodelar y describir con mayor realismo un sistema natural, financiero o social; y porsobretodo, esunaexcelentetécnicaparacrearmodelos de predicción.En FractalTecnosespecializamos en estetipo de análisis.</li></li></ul><li>Aplicaciones<br />Si bien un estudio o análisis de Data Mining esaplicable a cualquierempresa con grandes o medianas bases de datos, se destaca en los siguientesrubros:<br />A. Aplicaciones con éxito en el campo de la empresa y los negocios:- Análisis de Riesgo (Bancos, EmpresasFinancieras, Seguros)- Detección de Fraudes (Bancos, EmpresasFinancieras, Seguros, Telecomunicaciones)- Segmentación de Clientes (Diferentesindustrias a la hora de encararcampañas de Marketing)- InvestigaciónPura (Laboratorios, Empresas de TecnologíaMédica, Sociología, Psicología)- Predicción de la Demanda (Logística, Distribución de productosvarios: alimentos, diarios, revistas, etc…)- Tráfico de Redes. (Grandesproveedores de Internet, Sistemasformadosporredes de distribucíonfísicacompleja)B. Campos de Investigación- Si bien se aplicahoy en día con éxito en la simulación y predicción del Mercado Bursátil, aúnqueda un amplio campo porinvestigar, tanto en RedesNeuronales de Kohonen (mapasautoorganizados) como en el Análisis Fractal.- Sistemas de detección de intrusos y contra el robo de identidad, esotro campo en auge en el mundo de la SeguridadInformática. En estoscasos, se utilizanpotentesRedesNeuronales.<br />C. Ciencia- Medicina, Biología y Psicología. Cualquierestudio de investigación, en practicamentecualquierárea, hoyutilizatécnicas de Data Mining paraevaluarresultados. Éxito de unanuevadrogaes un ejemploclásico- Geología y Geografía. Compresión de imágenes, estudios de superficies y terrenos (ampliamenteaplicado en el sector de petróleo).D. Aplicaciones en el Gobierno- Anti-terrorismo (Sistemaspara el entrecruzamiento de llamadastelefónicas, celulares, e-mails, tarjetas de crédito, etc … , exploración web, el software ). - Análisis de índicesmacroeconómicos y estudios de distribución social.<br />
  9. 9. Data Mining comoInteligencia de Negocios<br />La Inteligencia de Negocios, disciplinamásconocidaporsunombre en ingléscomo Business Intelligence, tienelassiguientescaracterísticasfundamentales:Acceso a la InformaciónObtenerReportes de calidadApoyo en la toma de decisionesLas herramientasmásdestacadasparaconseguirdichospuntos son:Data Mining y Data WarehouseSistemas de Predicción y Modelado (Análisis Fractal es un ejemplo de ello)Cubos OLAP<br />El proceso de Data Mining, consta de variospasos, los mismosabarcan:Etapa de consultoría: Comprender el problema y determinar de lastécnicas a aplicar.Limpieza de las Bases de Datos.Correr los análisisdeterminados en la primeraetapa (redesneuronales, árboles de decisión, etc.)Comprensión de los resultados.Validación de los mismos.Portodo lo expresado en el presentedocumento, Data Mining es la herramientamáspotentequeacompaña a los responsables de unaempresa o cualquiertipo de proyecto, en el momento de la toma de decisiones de negocios y en el análisis de resultadospresentes, pasados y aúnfuturos. <br />
  10. 10. DataMining<br />SQL Server Analysis Services<br />DataMining<br />
  11. 11. Como trabaja?<br />Tipos de Algoritmos ProblemasNegocios<br />Clustering = grouping <br />Asociacion de segmentos y atributos.<br />Ej: E-Commerce WebSite<br />Clustering Algorithm<br />Classification = predecir un valor especifico<br />Gran volumen de datos, Hight-Quality Historical Data<br />Decision Trees<br />Naïve Bayes<br />Neural Network<br />Association = correlacion<br />Ej: Vendedores de detalles ( Cervezas y Panales)<br />Association Algorithm<br />Regression = Prevision a un numero continuo<br />Time Series<br />Logistic Regression<br />Sequences = Proceso y Rutas ( websites) <br />Sequence Clustering<br />Deviation = ValoresExtremos (fraudes, credit card)<br />Decision Tree<br />Clustering<br />
  12. 12. Como trabaja?<br />Case Tables  FuenteDatos<br />Lista de Valoresqueutilizara el algoritmo<br />Nested Tables<br />Informacionadicional<br />Ejemplo: Customer Table<br />9 Algoritmos<br />Mining Structures contienen Mining Models<br />
  13. 13. Algoritmos<br />1. Association Rules<br />2. Clustering<br />3. Sequence Clustering<br />4. Decision Trees<br />5. Linear Regression<br />6. Time Series<br />7. Naive Bayes<br />8. Neural Network<br />9. Logistic Regression<br />
  14. 14. Association Rules<br />Algoritmo genera reglasindicandocomo los items debenaparecerjuntos.<br />Ejemplo:<br />Permitepredecircuando un clienteseleccionara un item, el clienteseleccionaratambienotrotipo de item.<br />
  15. 15. Clustering<br />El algoritmocorremuchasiteracionesbuscandogrupos de items quetenganpropiedadessimilares. <br />Ejemplo: <br />BuscarClientes con un ciertonivel de educacionquetenganingresossimilares. Estonosdefinira un Cluster.<br />
  16. 16. Sequence Clustering<br />El algoritmocombinaanalisis de secuencias con cluster paraanalizar la transicion o cambios entre estados.<br />Ejemplo:<br />La prediccion del cluster indicaracualtransiciones la queocurrira en base a patronespasados<br />
  17. 17. Decision Trees<br />Organiza los datos en un Arbol de Red en el cualcadanodorepresentauna decision acerca de unacaracteristica de la informacion.<br />El algoritmosoporta la prediccion de los atributos o caracteristicas.<br />
  18. 18. Linear Regression<br />Es unaaplicacion particular del Decision Tree paracrear un arbol de decisiones con unaraizsencilla.<br />
  19. 19. Time Series<br />Analiza el tiemporelacionado con datosusandounaregresion lineal. <br />Ejemplo:<br />Predecirlasventasfuturas en base a lasventas en el pasado.<br />
  20. 20. Naive Bayes<br />Examina un atributo en el tiempoparaanalizarcomo el atributo se relaciona a otroatributopara ser predecido.<br />Para ejecutarloesmuyfacilperoignora la influencia de la combinaciones de otrosatributos.<br />
  21. 21. Neural Network<br />Similar al sistemanerviosotrabajandoparaanalizarlasentradas(input) al sistema, cadanodo en la red tiene un peso paradeterminarlassalidas (output) del sistema de cadanodo<br />
  22. 22. Logistic Regression<br />Es unaaplicacion del algoritmo Neural Network, soporta la prediccion de atributos de manera discrete y continous<br />

×