Mineria de datos en weka

6,842 views

Published on

inteligencia artificial
Ingeniería en sistemas comunicacionales

Published in: Education
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,842
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
428
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Mineria de datos en weka

  1. 1. Instituto Tecnológico de Milpa Alta Ingeniería en Sistemas Computacionales Aguirre Monroy Uriel Inteligencia Artificial M.C. Irvin Hussein López Nava Minería de Datos en Weka
  2. 2. Introducción a la interfaz de WekaPrimero que nada les dejo un link de descarga del programas y otropara las respectivas bases de datos que se utilizaran en este tutorial.Programa: http://weka.malavida.com/descargarBases de datos:http://cs.uns.edu.ar/~cic/dm2007/index.php?accion=download&dir=downloads/datasetsInterfaz principal de Weka Explorador Experimentación Flujo de conocimiento Interfaz de Comandos Simple Presionamos el botón de Explorador y nos abrirá una nuevaventana la cual nos permite carga de información que tengamosalmacenada en algún medio como una base de datos.
  3. 3. Descripción de las pestañas superiores.Pre procesos: Permite carga toda la información que tengamos yvisualizar los datos, posee filtros para la ejecución del mismo.Clasificación: Permite acceso a las técnicas de clasificación y regresión ynos permite el árbol de ejecución dentro del flujo de datosClúster:Clúster: Se pude decir que es igual a clasificación, pero nos permiteobtener un porcentaje de error y sacar la medida de dodo el conjunto dedatos.Asociación: Esta es la acción más importante ya que nos permite sabercuáles son las relaciones entre toda la información que ingresamos yque a simpe vista no vemos.Selección de atributos: Determina cuales son los atributos masimportantes para la ejecución de la minería de datos.
  4. 4. Visualización: Permite ver de manera graficas los resultados que seobtuvieron atreves de la minería de datos.Buenos pues hasta a hora solo hemos visto algunos aspecto de lainterfaz de Weka y ya es hora de que empecemos a trabaja pero entesles menciono que Weka nos permite cargar la información de nuestrosregistros de diferentes maneras, nos permite a través de bases de datos,a partir de una URL, o a partir de un archivo que se encuentrealmacenado en el equipo, Weka permite cargar archivos pero que sean.arff el cual contiene una estructura interna determinada.Cargara registros y Filtrado de datos.Cargar un archivo. arffA continuación se muestra la interfaz de cómo es carga un archivo .arffen Weka, en este caso cargaremos una bases de datos que ya tenemoscreada en nuestro equipo la cual corresponde a la tripulación queabordad el Titanic.Presionamos el botón Open File y buscamos el archivo en nuestrosistema.
  5. 5. A continuación se muestran los datos de los registros que contiene labase de datos Titanic.Observamos cómo se habilitan todas las opciones de la parte inferior yvemos en la parte izquierda los diferentes atributos que contiene elregistro: Clase, edad, sexo, sobrevivió. Observemos como a partir deque seleccionamos cada uno del lado derecho se muestran la cantidadde registros y en la parte superior el numero de registros por ejemplo laclase tiene 325 registros de primer clase,285 la segunda clase, 706 detercera y un total de 885 tripulantes. Weka nos permite poder removeratributos para poder removerlos totalmente con el botón Remove, o siloprefieres podemos realizar filtrado de los atributos a partir de lo quenosotros queramos.
  6. 6. Presionemos el botón seleccionar y observemos las opciones de filtradoque nos aparecen.En la siguiente imagen observamos los diferentes tipos de filtrado quecontiene Weka, los cuales pueden ser algoritmos que ya han sidosupervisados y revisados por Weka y otros que se encuentran enproceso de evaluación. Supervisado Añadir un clasificador Por selección de atributos Por orden de clase Discretear Bynario nominal
  7. 7. La aplicación de estos filtros va a depender del tipo de información quenosotros queramos obtenerClasificación de datosApliquemos un algoritmos de clasificación para nuestros datos de lasiguiente manera presionemos el botón superior Classify como semuestra en la imagen y seleccionemos el algoritmo J48 presionando elbotón Choose.Una vez seleccionado el algoritmo tendremos una pantalla de estamanera:
  8. 8. En la cual podemos realizar diferentes tipos de entrenamiento para laminería de datos como son:Use training set: El aprendizaje de Weka es realizado por todos losregistros que se encuentran cargados.Supplied test set: Se puede seleccionar un archivo. arrf que se encargadel aprendizaje de la minería de datosCoss-Coss-validación: El aprendizaje será a partir de una cantidad de camposque queramos.Percentage-Percentage-split: Se encarga de especificar de registros serán utilizadospara el aprendizaje de la minería de datos.En el siguientes recuadro vemos las diferentes variables que seencuentran en el archivo .arff de los registros que se subieron, siemprela variable base o la variable muestra será la última ingresada, pero aquípodemos seleccionarlo a nuestro libre gusto para poder obtener unmayor resultado en la minería de datos. En esta ocasión seleccionamosel último.
  9. 9. Y procedemos a presionar el botan Start.Nos arrojara los siguientes resultados el cual nos dará un recuadro conel resumen del árbol generado:
  10. 10. Este recuadro contiene información de los registros el cual dice:Si una persona es del sexo masculino y está en la primera clase y esadulto no sobrevivieron 57 de los 175 pasajeros y si sobrevivieron 5niños.Otro dato que observamos en la imagen es que de la persona del sexomasculino y sea un adulto no sobrevivieron 14 de los 168 pasajeros quehabía.También podemos observar la cantidad de instancias que se generarony los atributos que se encontraron que en este caso son cuatro.Además nos muestra la cantidad de hojas y tamaño del árbol:
  11. 11. También podemos apreciar el porcentaje del error que se puedegenerar:Un dato importante que debemos tener en cuenta son los resultadosque nos arroja la matriz de confusión:La cual se interpreta de la siguiente manera: muestra en la diagonalesque tanto porcentaje de error o de confiabilidad se puede tener en ladiagonal entre mayor se al resultado de su respectiva letra mayor es elgrado de confiabilidad, en este caso vemos que 270>20 y 1470>441por lo que los resultados obtenidos son confiables.
  12. 12. Para poder visualizar el árbol de ejecución damos clik derecho sobre elalgoritmo y seleccionamos la opción visualize tree. tree.
  13. 13. Podemos observar que las personas del sexo masculino que seencuentran en la clase uno y que sea de edad adulta no sobrevivieron 57de los 175 de los niños sobrevivieron 5, de la clase dos si es adulto nosobrevivieron 14 de los 168 y sobrevivieron 11 niños.Observemos que pasa si la persona es del sexo femenino.Tripulación: Sobrevivieron 3 de los 23Primera calase: sobrevivieron 4 de los 145Segunda calase: sobrevivieron 13 de los 106Tercera calase: no sobrevivieron 90 de los 196.Podemos generar el árbol no a partir de si sobrevivió o no si no a partirdel sexo.
  14. 14. En esta imagen se aprecia la matriz de confusión donde los parámetrosson mucha más precisos que los anteriores, se a precian 1561 puntosbuenos y solo 147 errores, para b que es sexo femenino 179 errores y323 puntos buenos. Por los tanto podemos decir que los datos sonconfiables y si los podemos tomar en cuenta. A hora veamos el árbol deejecución como ya sabemos:Aplicación de un ClústerA hora apliquemos un Clúster de la siguiente manera:
  15. 15. Presionamos el botón choose y seleccionamos el algoritmoSimpleKMeans ya que este es el más eficiente y preciso.Una vez seleccionado le damos Start :
  16. 16. Observemos los resultados y analicemos lo que nos muestra: En la imagen muestra que se realizaron 3 iteraciones una con todo los datos los cuales fueron 2201 datos y otra iteración con solo un cierto números de datos para los cuales se utilizaron 1663 del total de datos y la ultima con solo 538 datos. También podemos ver queen Clúster 1 el que mayor predomino fe la tripulación, en edad fueadulto sexo masculino, y hubo más muertes que personas salvada.En el clúster 2 los resultados fueranos los mismo, pero en le clúster 3 laclase predominante fue la tres y los adultos del sexo femenino y hubomás personas vivas que muertas.Podemos decir que los resultados no son uniformes y que los resultadosen los diferentes clúster pueden ser completamente diferentes.En la parte inferior vemos que el clúster 0 ocupo el 76 % de losregistros y el clúster 1 solo el 24 % de ellos.AsociaciónPodemos entrar a la opción de asociación de la siguiente forma nosdirigimos a la pestañas superiores de la interfaz de Weka y damos cliken la opción de asociación ver la imagen.
  17. 17. Esta opción es la una de las interesantes ya que en ella podemos verinformación oculta detrás de la información de todos los registrosingresados, primero que nada demos selecciona el algoritmo deasociación A priori y precedemos a presiona Start.
  18. 18. Los resultados que debemos ver serán los siguientes:En esta información podemos ver la cantidad de instancias, la relación ,la cantidad de atributos , y la más importante es la que encontramos lafinal del los resultados:En estas líneas vemos que el algoritmo encontró 10 recomendacionesde información de la relación de todos los registros que ingresamos, elconf representa el porcentaje de acierto, por ejemplo la interpretaciónde la primera línea seria así:
  19. 19. Las personas que tiene la clase tripulación es igual a adulto, esto quieredecir que todas las personas de la tripulación eran adultas con un 100%de certeza.En le segunda vemos que toda la persona que sea de tripulación y desexo masculino todos son adultos con un 100% de certezaTodas las personas del sexo masculino y que no sobrevivieron fueronadultas, esto con 0.97 de certeza.Y buenos así sería la interpretación para el resto de lasrecomendaciones, podemos decir que estos datos son muy obvios perocuando tenemos gran cantidad de información este tipo de informacióna veces no se aprecia a simple vista.Selección de AtributosSeleccionamos la pestaña selección de atributos de la siguiente forma:
  20. 20. Este nos permite determina cuales son los atributos más importantesrelevantes para determinar la minería de datos, con esta sabemos cuáles la variable más influyente dentro del proceso, seleccionamos cual vaa ser el algoritmo evaluador nosotros seleccionamos el primero perodependerá de las necesidades que tengamos y posterior menteseleccionamos el modo BestFris el mejor de todos:Ya solo presionamos Start y vemos algo como esto:
  21. 21. En eta información lo que podemos ver es que la variable que nosrecomienda es el Sexo. Sexo.VisualizaciónEl modo visualización es un modo que muestra gráficamente ladistribución de todos los atributos dando graficas de dos dimensionesen las que va representando en los ejes todos los posibles pares decombinación de los atributos, de este modo nos permite vescorrelaciones y asociaciones entres los atributos de una forma másgrafica.Presionamos el botón visualización y vemos la siguiente pantalla:
  22. 22. Las opciones que tenemos son:PlotSize: define el tamaño de la graficaPresionamos el botón Update.PointSize: Define el tamaño del punto expresado.
  23. 23. Jitter: es el ruido que se aplica a las variables para ver las posiblesrelaciones entre ellas.Analicemos estas graficas:
  24. 24. En esta graficas vamos, se aprecia como la clase está relacionada con elsexo al igual que edad, pero el sexo no tiene que ver si sobrevivió o nosobrevivió.Al igual podemos ver que la edad no tiene nada que ver con lasupervivencia.Bueno pues hasta aquí terminamos el análisis de los sobrevivientes laTitanic y como conclusión podemos decir que la variable mássignificativa fue el sexo con 86 % de certeza, seguida de la supervivenciacon un 79% de certeza.
  25. 25. A continuación realizaremos la aplicación de los algoritmos que yahemos visto para analizar las siguientes bases de datos. Las podemos descargar del link que ya mencionamos al principio de este documento.Aplicamos un algoritmo de clasificación J48 :Clasificación
  26. 26. En la siguiente figura vemos como los resultados nos presenta un83.871 % de certeza y una matriz de confusión con 14 puntos buenoscontra solo 7 errores para a, 116 puntos buenos para b, con solo 18errores, por lo cual podemos decir que los datos son confiables.Visualicemos el árbol para su análisis.
  27. 27. Si cambiamos la variarle a sexo observamos que el índice de erroresdisminuye un poco pero la certeza disminuye también por lo tanto lavariable mas ponderable es en función del clase.Clúster:Clúster: A continuación apliquemos un clúster a los datos
  28. 28. Bueno en estor resultado muestran cinco iteraciones a los datos con untotal 155 instancias. Podemos definir que los resultados son subjetivospor que el porcentaje de de instancias analizadas es muy bajo solo 63%de ellas.Selección de atributos.En la imagen podemos observa como la variable recomendada es lanúmero cinco que corresponde a Class.
  29. 29. Visualización.En esta grafica apreciamos como los accidentes están relacionados conla edad y con casi todos los demás, pero no está relacionada con laclase.
  30. 30. Continuemos con el análisis de la bases de datos Zoo.Tenemos un total de 18 atributos y 101 instancias .Calcificación
  31. 31. En los resultados observamos que tenemos 92.0792 de certeza y7.9208 de errores, por lo tanto estos datos son muy confiables.Dado que al cambiar la variable el porcentaje de certeza baja en vez deaumentar.Al analizar la matriz de confusión vemos claramente que los valores conrespecto a la variable son favorables. Por ejemplo para las aves tenemos20 puntos a favor y cero errores en los demás, en cambio para losinsectos tenemos 5 a favor y 2 errores, pero aun con estos pequeñoserrores siguen siendo datos confiables.
  32. 32. ClústerEn la imagen vemos la ejecución de dos iteraciones de las cuales elclúster 0 tomo 41 instancias que representan 41 % de los datos y elclúster 1 60 instancias que representan un 59 % de los datos.En los datos observamos que la instancia False predomino en el clúster1.Selección de atributosPodemos apreciarque el atributorecomendado es elnúmero 10 quecorresponde a Tail.
  33. 33. Visualización En las graficas apreciamos algunos atributos y su relación entreellos. Análisis a la base de datos empleados empleados.
  34. 34. Tenemos un total de 9 instancias y un total de 15 instancias. Clúster. Clúster.Esta instancia esta Sexo es la precisa de entre las demás que existen.La cual nos arroja un porcentaje a favor de 66.667 % y 33.333% de error. Visualización del árbol:

×