Práctica en Weka

5,395 views

Published on

Published in: Health & Medicine, Technology
1 Comment
1 Like
Statistics
Notes
No Downloads
Views
Total views
5,395
On SlideShare
0
From Embeds
0
Number of Embeds
37
Actions
Shares
0
Downloads
170
Comments
1
Likes
1
Embeds 0
No embeds

No notes for slide

Práctica en Weka

  1. 1. Inteligencia Artificial Avanzada Mayra Montalván 22/04/2009
  2. 2. OBJETIVO El objetivo de este ejercicio es familiarizarse con el entorno WEKA para lo cuál se trabajará con una base de datos que contiene datos sobre medidas médicas de pacientes (todas mujeres) y en la que se pretende determinar cuáles son los factores que hacen que una persona se le diagnostique la enfermedad conocida como Diabetes. Usando el algoritmo de aprendizaje automático más conocido como Árboles de Clasificación, procederemos a realizar el árbol de decisión para tal diagnóstico.
  3. 3. PROBLEMA Las variables son las mediciones relativas a las del paciente: edad, embarazo y más información.  Número de Instancias de la base de datos: 768.  Número de Atributos: 8 más clase.  Para cada atributo: (todos con valores numéricos) 1. Número de veces embarazada. 2. Una concentración de glucosa en plasma 2 horas en una prueba de tolerancia oral a la glucosa. 3. La presión arterial diastólica (mm Hg). 4. Pliegue tricipital espesor (mm) 5. 2-horas de insulina en suero (mu U / ml) 6. Índice de masa corporal (peso en kg / (altura en m) ^ 2) 7. Diabetes pedigrí función 8. Edad (años) 9. Variable de clase (0 ó 1)
  4. 4. PROBLEMA  Valores de Atributos Faltantes: Ninguno  Distribución de Clase : (clase con valor 1 es interpretada como: quot;tested positivequot;) VALOR DE LA CLASE NÚMERO DE INSTANCIAS 500 0 268 1 Valores en el atributo Clase: De: 0 A: tested_negative De: 1 A: tested_positive
  5. 5. UN POCO DE LA BASE DE DATOS Para visualizar y/o descargar la base de datos original visita este enlace: http://www.sc.ehu.es/ccwbayes/docencia/mmcc/files/UCI- MMCC/diabetes.arff
  6. 6. GENERACIÓN DEL ÁRBOL Se dispone de los datos recogidos para pronosticar la aparición de la diabetes en pacientes, que se trata sólo de mujeres menores de 21 años, para lo cuál procedemos con: 1. Lanzar el Interfaz Explorer en la herramienta WEKA:
  7. 7. GENERACIÓN DEL ÁRBOL
  8. 8. GENERACIÓN DEL ÁRBOL 2. Cargar la Base de Datos: Para cargar la base de datos se utilizará el botón OPEN FILE del interfaz Explorer (pestaña Preprocess), se seleccionará el directorio data y dentro de él, el fichero quot;diabetes.arffquot;. El resultado será una pantalla como la que se muestra en la figura:
  9. 9. GENERACIÓN DEL ÁRBOL
  10. 10. GENERACIÓN DEL ÁRBOL 3. En la parte izquierda aparecen los atributos mencionados anteriomente. 4. Haciendo clic sobre cada uno de los atributos, se muestra información sobre el mismo en la parte derecha de la ventana. En el caso de atributos discretos se indica el número de instancias que toman cada uno de los valores posibles; y en el caso de atributos reales se muestran los valores máximo, mínimo, medio y la desviación estándar. Una vez vistas las posibilidades de representación gráfica, se probará uno de los algoritmos de aprendizaje automático incluidos en WEKA: los árboles de decisión.
  11. 11. GENERACIÓN DEL ÁRBOL 5. Para ello se seleccionará la pestaña Classify y se elegirá un clasificador pulsando el botón Choose. Aparecerá una estructura de directorios en la que se seleccionará el directorio trees y dentro del él el algoritmo J48. Se mantendrán las opciones por defecto del clasificador (J48 –C 0.25 –M 2), tal y como muestra la pantalla siguiente.
  12. 12. GENERACIÓN DEL ÁRBOL
  13. 13. GENERACIÓN DEL ÁRBOL El resto de opciones para el experimento también se mantendrán en los valores por defecto: activa la opción de test ‘cross validation’ e inactivas las restantes. Para generar el árbol se pulsará Start. El resultado será el que muestra la pantalla siguiente, donde se muestran en modo texto tanto el árbol generado como la capacidad de clasificación del mismo:
  14. 14. GENERACIÓN DEL ÁRBOL
  15. 15. GENERACIÓN DEL ÁRBOL También es posible visualizar el árbol de decisión de una forma más legible. Para ello se debe hacer clic con el botón derecho en la ventana de resultados, sobre el resultado de la generación del árbol. Aparecerá un menú desplegable:
  16. 16. GENERACIÓN DEL ÁRBOL Y dentro de ese menú se deberá seleccionar la opción ‘Visualize tree’. El resultado se muestra en la figura siguiente:
  17. 17. FIN DE LA PRESENTACIÓN

×