Mineria de datos

2,043 views
1,863 views

Published on

Practica de Mineria de Datos, Universidad Nacional de Loja Carrera de Ingenieria en Sistemas

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,043
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
87
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Mineria de datos

  1. 1. Área de la Energía, las Industrias y Recursos Naturales no Renovables CARRERA DE INGENIERIA EN SISTEMAS MODULO X “INTELIGENCIA ARTIFICIAL” ALUMNA: Mayra Elizabeth Ávila Rosales TEMA: “Practica de Minería de Datos.” DOCENTE: Ing.: Luis Antonio Chamba Eras. PERIODO ACADEMICO: Marzo- Julio del 2012 LOJA-ECUADOR
  2. 2. Practica de Minería de Datos1. Objetivos  Extraer información interesante/útil a partir de datos.  Estudiar los fundamentos de la minería de datos incluyendo: el aprendizaje de máquina, el reconocimiento de patrones y la estadística, así como sus aplicaciones a la solución de diferentes problemas prácticos.  Extracción de conocimiento, mediante una técnica de minería de datos, obtener un modelo de conocimiento representado por patrones.2. Contenido Teórico Minería de Datos o Introducción Los avances tecnológicos en las últimas décadas nos han facilitado enormemente el acceso a grandes volúmenes de datos. La cantidad de información que manejamos hoy en día nos obliga a abordar el estudio de los datos/información desde una perspectiva global y no fragmentada. En los anos 90 apareció el concepto DATA MINING. Esta técnica se vinculo estrecha-mente con la dirección de empresas y en concreto al marketing. o Definición La Minería de Datos busca el procesamiento de información de forma clara para el usuario o cliente, de tal forma que pueda clasificar la información de acuerdo a parámetros inicialmente establecidos y de acuerdo a las necesidades que se buscan, es decir por medio de la minería de datos se dan acercamientos claros a resultados estadísticamente factibles a entendimiento y razón de una persona. o Tipos de minería de Datos  Minería de Datos Predictivas (MDP) Usa primordialmente técnicas estadísticas
  3. 3.  Minería de Datos para Descubrimiento de Conocimiento (MDDC)  Usa primordialmente técnicas de Inteligencia Artificialo Características principales  Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios anos.  En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet.  El entorno de la minería de datos suele tener una arquitectura cliente- servidor.  Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados  Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e inesperados.o Fases de la Minería de Datos Figura 1: Fases de la Minería de Datos
  4. 4. o Técnicas para la Minería de Datos  Agrupación de Datos La agrupación o clustering consiste en agrupar un conjunto de datos basándose en la similitud de los valores de sus atributos. El clustering identifica regiones densamente pobladas, denominadas clúster, de acuerdo a alguna medida de distancia establecida.  Clasificación de datos La clasificación se utiliza para clasificar un conjunto de datos basado en los valores de sus atributos. La clasificación encuentra las propiedades comunes entre un conjunto de objetos y los clasifica en diferentes clases, de acuerdo a un modelo de clasificación.  Reglas de Asociación La minería de reglas de asociación consiste en encontrar reglas de la forma (A1yA2y...yAm) entonces (B1yB2y...yBn), donde Ai y Bj son valores de atributos del conjunto de datoso Extensiones de la Minería de Datos  Web Mining Consiste en aplicar las técnicas de MD a documentos y servicios de la Web. Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automáticamente almacenan en una bitácora de accesos (log). Las herramientas de Web Mining analizan y procesan los logs para producir información significativa.  Text Mining Se refiere a examinar una colección de documentos y descubrir información no contenida en ningún documento individual de la colección. Dado que el 80 por ciento de la información de una compañía se almacena en forma de documentos, existen técnicas que apoyan al TM
  5. 5. o Mapa conceptual de la Minería de Datos Figura 2: Mapa Conceptual de la Mineria 13. Desarrollo o Enunciado del problema La empresa de software para Internet “Memolum Web” quiere extraer tipologías de empleados, con el objetivo de hacer una política de personal más fundamentada y seleccionar a qué grupos incentivar. Las variables que se recogen de las fichas de los 15 empleados de la empresa son: • Sueldo: sueldo anual en euros. • Casado: si está casado o no. • Coche: si viene en coche a trabajar (o al menos si lo aparca en el párking de la empresa). • Hijos: si tiene hijos. • Alq/Prop: si vive en una casa alquilada o propia. • Sindic.: si pertenece al sindicato revolucionario de Internet • Bajas/Año: media del nº de bajas por año • Antigüedad: antigüedad en la empresa • Sexo: H: hombre, M: mujer. Los datos de los 15 empleados se encuentran en el fichero “Empleados.arff”. Para acceder a este fichero se debe ingresar a la siguiente dirección www.dsic.upv.es/~cferri/weka. A continuación clic en la palabra “datos” e inmediatamente empezara la descarga del archivo comprimido “Datasets.rar” en
  6. 6. donde se encuentra “Empleados.arff”. Se intenta extraer grupos de entre estos quince empleados o Proceso de resolución del Problema Se utilizará el método de Clúster para ello acudimos a la ventana Clúster, luego seleccionaremos Choose para seleccionar el algoritmo SimpleKmeans, finalmente definimos 3 el número de clúster (En este apartado se agregará la ventana con los resultados que arroja el software weka al aplicar el algoritmo y el diagrama de dispersión) Ingreso a wekaEn la primera parte del Software WEKA, se muestra la interfaz del software WEKAque permite visualizar el pre-procesamiento de los datos contenidos en el archivo“empleados.arff”, donde se puede identificar si los datos son reconocidos con laverificación de las 15 instancias y 9 atributos generados, tal como se muestra en laFigura 3. Fig. 3: Pre-procesamiento del archivo “empleados.arff”
  7. 7. En la figura 3, nos muestra los resultados arrojados por el programa WEKA aplicandola técnica de Clúster y el algoritmo SimpleKMeans, para esta práctica se trabaja en 3clúster, los mismos que definen los siguientes resultados:  Clúster 0: Podemos visualizar que este clúster agrupa a 6 empleados con las características como: un sueldo anual de 29166.6667 euros, no está casado pero si tiene hijos, no va en coche a trabajar, vive en una casa alquilada, si pertenece al sindicato revolucionario de Internet, bajas por año de 6.1667, tiene 8.3 años de antigüedad y finalmente es del sexo femenino.  Clúster 1: En este clúster agrupa a 5 empleados con características en común como un de un sueldo anual de 16600 euros, está casado y tiene hijos, viene en coche a trabajar, vive en una casa propia, no pertenece al sindicato revolucionario de Internet, tiene bajas por año un total de 3.4, tiene 8.4 años de antigüedad y finalmente es del sexo masculino.  Clúster 2: Finalmente el ultimo clúster agrupa a 4 empleados tales como: un sueldo anual de 14500 euros, está casado por lo tanto tiene hijos, va en coche a trabajar, vive en una casa alquilada, no pertenece al sindicato revolucionario de Internet, tiene un promedio de bajas por año de 6.25, tiene 7.75 años de antigüedad y finalmente es del sexo masculinoAdemás podemos visualizar los resultados de los clúster en porcentaje:  Cluster 0 con 6 instancias: 40%  Cluster 1 con 5 instancias: 33%  Cluster 2 con 4 instancias: 27% Fig.4: Aplicación de la Técnica Clúster y el Algoritmo SimpleKMeans
  8. 8. Por otra parte en el Software Weka podemos visualizar los datos de los empleados a través del diagrama de correlación-dispersión, donde nos muestra las 15 instancias distribuidas en el diagrama divididas por los 3 clusters: clusters 0 (color azul), clusters 1 (color rojo) y clusters 0 (color verde), tal como se muestra en la Figura 5. Fig. 5: Diagrama de correlación-dispersión o Análisis de los ResultadosUna vez que hemos analizados los datos sobre el caso de estudio de extraer tipologíasde empleados, se concluye que los empleados agrupados en el clúster 3, se les debeincentivar y mejorar las políticas para el mejoramiento personal y obtener ganancias.
  9. 9. 4. Conclusiones o la minería de datos permite ahorrar grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. o Contribuye con la toma de decisiones. o La MD proporciona poder de decisión y resultados de la mejor forma. o Genera modelos descriptivos: permite a empresas explorar y comprender los datos e identificar patrones relacionados y dependencias que impactan en los resultados finales. o Genera Modelos Predictivos: permite que las relaciones no descubiertas través del proceso de la Minería de Datos sean expresado como reglas de negocio.5. Bibliografía o [1] S. Vallejos, “Trabajo de adscripción minería de datos”, Corrientes - Argentina, 2006, pp. 11 – 14. o [2] Cursos, investigación y recursos en inteligencia artificial. “Introducción a técnicas de Minería de Datos”. Disponible: http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classific ation/class_61_decision_trees.ppt [citado en 23 de Febrero de 2008] o [3] IEspaña. “Árboles y reglas de decisión”. Disponible: http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.htm l [citado en 23 de Febrero de 2008] o [4] Proz.” Árbol de decisión (óptima)”. Disponible: http://www.proz.com/kudoz/2311529[citado en 28 de Febrero de 2008]6. Licencia Práctica de Minería Datos De por Mayra Elizabeth Ávila Rosales está bajo una licencia Creative Commons Reconocimiento-No comercial-Compartir bajo la misma licencia 3.0 Unported .

×