ÁRBOLES DE CLASIFICACIÓN
Upcoming SlideShare
Loading in...5
×
 

ÁRBOLES DE CLASIFICACIÓN

on

  • 7,633 views

Define los diferentes algoritmos de clasificación aplicados a la Inteligencia Artificial y como construir un árbol de clasificación

Define los diferentes algoritmos de clasificación aplicados a la Inteligencia Artificial y como construir un árbol de clasificación

Statistics

Views

Total Views
7,633
Views on SlideShare
7,539
Embed Views
94

Actions

Likes
0
Downloads
95
Comments
0

2 Embeds 94

http://www.todopps.info 76
http://www.slideshare.net 18

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

ÁRBOLES DE CLASIFICACIÓN ÁRBOLES DE CLASIFICACIÓN Presentation Transcript

  • UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA ÁRBOLES DE CLASIFICACIÓN Verónica Ramírez Raquel Solano
  • ÁRBOLES DE CLASIFICACIÓN
  • INTRODUCCIÓN
    • Dentro del aprendizaje automático el tema a tratar es árboles de clasificación o también conocidos como árboles de decisión.
    • Los factores que han influido en su difusión son: accesibilidad a diferentes implementaciones, la explicación que aporta a la clasificación, la posibilidad de ser representados gráficamente, y la rapidez de clasificar nuevos patrones.
    • Los árboles de clasificación están dentro de los métodos de clasificación supervisada , teniendo una variable dependiente o clase. La construcción del árbol de clasificación se realiza mediante un proceso de inducción.
  • DEFINICIÓN[2]
    • Los árboles de clasificación se basan en una estructura en forma de árbol, donde las ramas representan conjuntos de decisiones, las cuales generan reglas para la clasificación de un conjunto de datos en subgrupos de datos.  Las ramificaciones se generan de forma recursiva hasta que se cumplan ciertos criterios de parada.
  • ESTRUCTURA DE UN ÁRBOL Nodo Raíz Nodo Hoja Nodo Intermedio Nodo Padre Nodo Hijo Complejidad del árbol = # de nodos hoja
    • El proceso comienza por el nodo raíz
    • Hacer un análisis para determinar cual es la variable por la que hay que preguntar para dividir la muestra de entrenamiento original
    • El proceso pararía cuando los nodos hoja contuvieran casos de una única clase.
    • Es importante definir tres procedimientos:
    • ¿Cómo se realiza la selección de las divisiones?
    • ¿Cómo se toma la decisión de declarar a un nodo como intermedio o como hoja?
    • ¿Cómo se asigna la pertenencia de cada nodo hoja a las posibles clases?
    PROCESO DE CONSTRUCCIÓN
  • Algoritmo General
  • PROFUNDIZANDO UN POCO
    • Los dos aspectos mas importantes a la hora de construir los árboles son: como se decide la división en un nodo y el criterio de parada en el desarrollo del árbol .
    • Las diferentes taxonomías para clasificar los tipos de árboles son: la división en función de la naturaleza de la variable dependiente, discreta o continua y el numero de ramas o hijos que se permitan salir del nodo.
    • Los árboles podrán ser binarios cuando solo permitan dividir cada nodo en 2, o n-arios cuando el numero de divisiones pueda ser mayor que 2.
  • SELECCIÓN DE LA DIVISIÓN…
    • Si la variable es discreta tendremos que plantearnos si desarrollamos una rama por cada una de las categorías que tiene dicha variable, o agruparlas en dos o más conjuntos.
    • Se aplica a árboles de clasificación.
    • Si la variable es continua habrá que decidir si queremos una división binaria y con que valor.
    • Se aplica a arboles de clasificación.
  • … SELECCIÓN DE LA DIVISION Sea: tr,r=1,…l, el conjunto de nodos hijo consecuencia de dividir el nodo t. pr= la proporción de casos de t que se distribuyen en cada uno de los hijos tr. prj=proporción de casos de la clase j en el nodo tr cm(m=1…M) numero de clases Compara la heterogeneidad o impureza del nodo padre con la suma de las impurezas de los nodos hijos Determina con que variable realizar la primera división.
  • EJEMPLO Se desea determinar las reglas que rigen el comportamiento de un alumno durante su vida académica para poder detectar casos que presenten riesgo de abandonar los estudios, para ello se dispone de los siguientes datos:
  • EJEMPLO[1]:
    • Patrones y variables predictoras
  • … EJEMPLO
    • R1 : If X1 > 1;5 then C = 2
    • R2 : If 1 < X1 < 1;5 then C = 1
    • R3 : If X1 < 1 y X2 < 1 then C = 1
    • R4 : If X1 < 1 y X2 > 1 then C = 2
  • EJEMPLO Variables predictorias Variables discretas Variable dependiente 9 5 Pronostico Temperatura Humedad Viento Jugar Sol Calor Alta No No Sol Calor Alta Si No Cubierto Calor Alta No Si Lluvia Media Alta No Si Lluvia Frio Normal No Si Lluvia Frio Normal Si No Cubierto Frio Normal Si Si Sol Media Alta No No Sol Frio Normal No Si Lluvia Media Normal No Si Sol Media Normal Si Si Cubierto Media Alta Si Si Cubierto Calor Normal No Si lluvia Media Alta Si No
  • CALCULAR ENTROPIA ANTROPIA MEDIA GANANCIA Ganancia (Pronostico)= 0.247 Ganancia (Temperatura)=0.029 Ganancia (Humedad) = 0.152 Ganancia (viento)= 0.048 PRONOSTICO Si Si No No No Si Si Si Si Si Si Si No No Sol Cubierto Lluvia TEMPERATURA Si Si No No Si Si Si No No Si Si Si No Calor Media Frío HUMEDAD Si Si Si No No No No Si Si Si Si Si Si No Alta Normal VIENTO Si Si Si Si Si Si No No No Si Si Si No No No No Si PRONOSTICO Si Si No No No Si Si Si Si Si Si Si No No Sol Cubierto Lluvia
  • Si PRONOSTICO Si Sol Cubierto Lluvia HUMEDAD VIENTO Alta Normal No Si Si No No TABLA Ganancia (Temperatura)=0,571 Ganancia (humedad)=0,971 Ganancia (viento)=0,021 Ganancia (Temperatura)=0,159 Ganancia (humedad)=0,159 Ganancia (viento)=0,971 Pronostico Temperatura Humedad Viento Jugar Sol Calor Alta No No Sol Calor Alta Si No Sol Media Alta No No Sol Frio Normal No Si Sol Media Normal Si Si Pronostico Temperatura Humedad Viento Jugar Cubierto Calor Alta No Si Cubierto Frio Normal Si Si Cubierto Media Alta Si Si Cubierto Calor Normal No Si Pronostico Temperatura Humedad Viento Jugar Lluvia Media Alta No Si Lluvia Frio Normal No Si Lluvia Frio Normal Si No Lluvia Media Normal No Si lluvia Media Alta Si No
  • ÁRBOLES PARSIMONIOSOS
    • Complejidad sea suficiente para resolver el problema y que sean capaces de enfrentarse a nuevos casos de una manera eficiente
    • No es deseable que los nodos terminales fueran homogéneos a los árboles de clasificación se les aplica la poda
      • Pre-poda
      • Post-poda
    • Pre-Poda
      • Van aplicando algún criterio según se va desarrollando el árbol, de manera que se decide parar el desarrollo de algunos nodos aun no siendo homogéneos del todo
      • Ejemplo
        • La ganancia en información:
        • Mínima ( > )
    • Post-Poda
      • El árbol se desarrolla del todo hasta conseguir nodos homogéneos, y posteriormente se van eliminando subárboles basándose en algún criterio (ganancia en información, x2), otros criterios para ir podando el árbol y reduciendo su complejidad
  • Información Incompleta: casos missing
    • Maneras para afrontar el problema:
      • Estadística: rellena las variables con valores medio o la moda del conjunto de datos
      • El algoritmo de construcción/clasificación sea capaz de afrontar el problema
        • Añadir un nodo hijo demás a cada división para introducir en el los casos que no tienen valor definido
        • Repartir el caso proporcionalmente entre las ramas del nodo en el que se pregunta por el valor de la variable desconocida
  • Los mas conocidos Algoritmo Variables predictorias Tipo de división Criterio de división Casos missing Método de poda implementación CART (1984) Continuas Discretas Binaria Ganancia (gini index) si Post-poda Libre comercial ID3 (1979) Discretas n-aria Ganancia (entropia) no --- Comercial C4.5 (1993) Continuas Discretas Binaria N-aria Gain ratio (entropía) si Post-poda Libre comercial J4.8 Continuas Discretas Binaria n-aria Gain ratio (entropía) si Post-poda Libre (Weka) C5.0 --- ---- ---- --- --- Comercial CHAID (1975) Discretas n-aria x2 si Pre-poda Comercial
  • Referencias
    • [1] http://www.sc.ehu.es/ccwbayes/docencia/mmcc/docs/t10arboles.pdf
    • [2]http://www.eustat.es/document/datos/ct_04_c.pdf
    • http://www.ucm.es/info/pslogica/aprendizaje.pdf
  • Pronostico Temperatura Humedad Viento Jugar Sol Calor Alta No No Sol Calor Alta Si No Cubierto Calor Alta No Si Lluvia Media Alta No Si Lluvia Frio Normal No Si Lluvia Frio Normal Si No Cubierto Frio Normal Si Si Sol Media Alta No No Sol Frio Normal No Si Lluvia Media Normal No Si Sol Media Normal Si Si Cubierto Media Alta Si Si Cubierto Calor Normal No Si lluvia Media Alta Si No