2. OBJETIVO
El objetivo de este ejercicio es familiarizarse con el entorno
WEKA para lo cuál se trabajará con una base de datos que
contiene datos sobre medidas médicas de pacientes (todas
mujeres) y en la que se pretende determinar cuáles son los
factores que hacen que una persona se le diagnostique la
enfermedad conocida como Diabetes.
Usando el algoritmo de aprendizaje automático más
conocido como Árboles de Clasificación, procederemos a
realizar el árbol de decisión para tal diagnóstico.
3. PROBLEMA
Las variables son las mediciones relativas a las del paciente: edad,
embarazo y más información.
Número de Instancias de la base de datos: 768.
Número de Atributos: 8 más clase.
Para cada atributo: (todos con valores numéricos)
1. Número de veces embarazada.
2. Una concentración de glucosa en plasma 2 horas en una prueba de
tolerancia oral a la glucosa.
3. La presión arterial diastólica (mm Hg).
4. Pliegue tricipital espesor (mm)
5. 2-horas de insulina en suero (mu U / ml)
6. Índice de masa corporal (peso en kg / (altura en m) ^ 2)
7. Diabetes pedigrí función
8. Edad (años)
9. Variable de clase (0 ó 1)
4. PROBLEMA
Valores de Atributos Faltantes: Ninguno
Distribución de Clase : (clase con valor 1 es interpretada como: quot;tested
positivequot;)
VALOR DE LA CLASE NÚMERO DE INSTANCIAS
500
0
268
1
Valores en el atributo Clase:
De: 0 A: tested_negative
De: 1 A: tested_positive
5. UN POCO DE LA BASE DE DATOS
Para visualizar y/o descargar la base de datos original visita
este enlace:
http://www.sc.ehu.es/ccwbayes/docencia/mmcc/files/UCI-
MMCC/diabetes.arff
6. GENERACIÓN DEL ÁRBOL
Se dispone de los datos recogidos para pronosticar la
aparición de la diabetes en pacientes, que se trata sólo de
mujeres menores de 21 años, para lo cuál procedemos con:
1. Lanzar el Interfaz Explorer en la herramienta WEKA:
8. GENERACIÓN DEL ÁRBOL
2. Cargar la Base de Datos: Para cargar la base de datos se
utilizará el botón OPEN FILE del interfaz Explorer (pestaña
Preprocess), se seleccionará el directorio data y dentro de él,
el fichero quot;diabetes.arffquot;. El resultado será una pantalla como
la que se muestra en la figura:
10. GENERACIÓN DEL ÁRBOL
3. En la parte izquierda aparecen los atributos mencionados
anteriomente.
4. Haciendo clic sobre cada uno de los atributos, se muestra
información sobre el mismo en la parte derecha de la
ventana. En el caso de atributos discretos se indica el
número de instancias que toman cada uno de los valores
posibles; y en el caso de atributos reales se muestran los
valores máximo, mínimo, medio y la desviación estándar.
Una vez vistas las posibilidades de representación gráfica, se
probará uno de los algoritmos de aprendizaje automático
incluidos en WEKA: los árboles de decisión.
11. GENERACIÓN DEL ÁRBOL
5. Para ello se seleccionará la pestaña Classify y se elegirá un
clasificador pulsando el botón Choose. Aparecerá una
estructura de directorios en la que se seleccionará el
directorio trees y dentro del él el algoritmo J48. Se
mantendrán las opciones por defecto del clasificador (J48 –C
0.25 –M 2), tal y como muestra la pantalla siguiente.
13. GENERACIÓN DEL ÁRBOL
El resto de opciones para el experimento también se
mantendrán en los valores por defecto: activa la opción de
test ‘cross validation’ e inactivas las restantes. Para generar
el árbol se pulsará Start. El resultado será el que muestra la
pantalla siguiente, donde se muestran en modo texto tanto el
árbol generado como la capacidad de clasificación del mismo:
15. GENERACIÓN DEL ÁRBOL
También es posible visualizar el árbol de decisión de una
forma más legible. Para ello se debe hacer clic con el botón
derecho en la ventana de resultados, sobre el resultado de la
generación del árbol. Aparecerá un menú desplegable:
16. GENERACIÓN DEL ÁRBOL
Y dentro de ese menú se deberá seleccionar la opción
‘Visualize tree’. El resultado se muestra en la figura
siguiente: