Árboles de Clasificación

4,659
-1

Published on

Ärboles de Clasificación

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
4,659
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
67
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Árboles de Clasificación

  1. 1. AUTOR: Nancy Loarte
  2. 2. <ul><li>Los sistemas basados en árboles de clasificación forman una familia llamada TDIDT (Top-Down Induction of Decision Trees). </li></ul><ul><li>El programa AID (Automatic Interaction Detection), de Sonquist, Baker y Morgan (1971), representa uno de los primeros métodos de ajuste de los datos basados en árboles de clasificación. AID esta basado en un algoritmo recursivo con sucesivas particiones de las observaciones originales en otros subgrupos menores y más homogéneos mediante secuencias binarias de particiones. </li></ul><ul><li>Posteriormente, conocido como CART (Classification And Regression Trees o árboles de clasificación y regresión), propuesto por Breiman et. al. (1984). </li></ul>
  3. 3. <ul><li>Un algoritmo recursivo de clasificación no binario, llamado CHAID (Chi-square automatic interaction detection),  introducido por Kass (1980). </li></ul><ul><li>El algoritmo C4.5. desarrollado por Quinlan  (1993). </li></ul><ul><li>El algoritmo ID3 (Interactive Dichotomizer)  (Quinlan, 1986). </li></ul><ul><li>Los Arboles Bayesianos basados en la aplicación de métodos Bayesianos a arboles de clasificación. </li></ul><ul><li>Una alternativa mas conocida como MARS ( Multivariate Adaptative Regresión Splines), propuesto por Friedman (1991). </li></ul>
  4. 4. <ul><li>Un árbol de clasificación es una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo. </li></ul><ul><li>Es uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado. Como forma de representación del conocimiento, los árboles de clasificación se destacan por su sencillez. </li></ul>
  5. 5. <ul><li>Un árbol de clasificación posee los siguientes elementos: </li></ul><ul><li>Nodos intermedios: engendran dos o mas (dependiendo del método empleado) segmentos descendientes inmediatos. También denominados segmentos intermedios. </li></ul><ul><li>Nodos terminales: es un nodo que no se puede dividir mas, también denominado segmento terminal. </li></ul><ul><li>Rama de un nodo t: consta de todos los segmentos descendientes del nodo t, excluyendo t. </li></ul><ul><li>Árbol de decisión completo ( T max ): árbol en el cual cada nodo terminal no se puede ramificar. </li></ul><ul><li>Subárbol: se obtiene de la poda de una o mas ramas del árbol completo T max . </li></ul>
  6. 6. Aprendizaje. Consiste en la construcción del árbol a partir de un conjunto de prototipos, S. Constituye la fase más compleja y la que determina el resultado final. A esta fase dedicamos la mayor parte de nuestra atención
  7. 7. Clasificación . Consiste en el etiquetado de un patrón, X , independiente del conjunto de aprendizaje. Se trata de responder a las preguntas asociadas a los nodos interiores utilizando los valores de los atributos del patrón X . Este proceso se repite desde el nodo raíz hasta alcanzar una hoja, siguiendo el camino impuesto por el resultado de cada evaluación.
  8. 8. <ul><li>Constituye la fase de aprendizaje. La construcción se puede resumir en los siguientes puntos, de acuerdo a un esquema recursivo: </li></ul><ul><li>El avance está basado en la partición de un nodo de acuerdo a alguna regla, normalmente evaluando una condición sobre el valor de alguna variable: Los prototipos que verifican la condición se asignan a uno de los dos nodos hijo (normalmente el izquierdo) y los restantes, al otro. Cuando un nodo se particiona, pasa a ser un nodo intermedio. </li></ul>
  9. 9. <ul><li>2. El caso base o condición de parada tiene como objetivo detener el proceso de partición de nodos. Cuando se verifica la condición de parada en un nodo, éste es un nodo hoja. </li></ul><ul><li>Los prototipos asociados a un nodo hoja constituyen un agrupamiento homogéneo, por lo que al nodo se le asigna una etiqueta. </li></ul><ul><li>En ocasiones, se poda el árbol resultante utilizando alguna regla de poda </li></ul>
  10. 10. <ul><li>Ventajas </li></ul><ul><li>Es una técnica no parámetrica, tiene en cuenta las interacciones que existen entre los datos. </li></ul><ul><li>Son bastante rápidos y la exigencia computacional no es muy alta . </li></ul><ul><li>Sobresale a observaciones mal etiquetadas. </li></ul><ul><li>La regla de asignación es simple y legibles, por tanto la interpretación de resultados es directa e intuitiva. </li></ul><ul><li>Es válida sea cual fuera la naturaleza de las variables explicativas: continuas, binarias nominales u ordinales . </li></ul>
  11. 11. <ul><li>Desventajas </li></ul><ul><li>Existe dificultad para elegir el árbol óptimo. </li></ul><ul><li>Existe mucha inestabilidad en los datos por lo que las reglas de asignación son sensibles. </li></ul><ul><li>No existe una función general de las variables por lo tanto existe la pérdida de la representación geométrica. </li></ul><ul><li>Los árboles de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos hoja sea significativa. </li></ul>
  12. 12. <ul><li>http://math.uprm.edu/~edgar/treeDaza.html </li></ul><ul><li>http://www.fceco.uner.edu.ar/extinv/publicdocent/sarangur/pdf/arbolesdecision.pdf </li></ul><ul><li>http://math.uprm.edu/~edgar/clasifall9.pdf </li></ul><ul><li>http://iie.fing.edu.uy/ense/asign/recpat/material/tema3_00-01/node26.html </li></ul>

×