Your SlideShare is downloading. ×
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Algoritmos de Clasificación
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Algoritmos de Clasificación

21,755

Published on

Una breve descripción de lo que son los árboles de clasificación.

Una breve descripción de lo que son los árboles de clasificación.

Published in: Technology, Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
21,755
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
633
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA Roberth Paúl Bravo Castro María Esther Ruilova Rojas ÁRBOLES DE CLASIFICACIÓN (INTELIGENCIA ARTIFICIAL AVANZADA) INTRODUCCIÓN Los árboles de clasificación son uno de los más utilizados en el tema de aprendizaje automático. Su rapidez a la hora de la clasificación, su fácil implementación, etc. son factores que influyen en su propagación. Entran dentro de los métodos de clasificación supervisada, formados por una variable dependiente (clase), cuyo objetivo es averiguar dicha clase para casos nuevos. El modelo así obtenido puede servir para clasificar casos cuyas clases se desconozcan o, simplemente, para comprender mejor la información de la que disponemos. Se abarca un poco el tema de los algoritmos más conocidos que se aplican en el tema como son el algoritmo CART que basa su criterio por defecto en el Gini index para la clasificación, el IDE3 que realiza divisiones sobre los posibles valores de la clase predoctora y usa un criterio de ganancia en información como función de división, otro algoritmo es el C4.5 que es el sucesos del IDE3, el J4.8 que es una implementación del C4.5 entre otros. Todos estos algoritmos nos han ayudado al proceso de clasificación según han ido apareciendo y nos siguen ayudando gracias a las nuevas versiones de los mismos. características en regiones mutuamente DESARROLLO DE CONTENIDOS excluyentes, de tal forma que cada región esté asociada a una clase y, dado Patrón: Es una unidad de información, un patrón particular, decidir a que clase integrada de tal forma que capture la de las disponibles pertenece. esencia descriptiva de un objeto, teniendo como meta principal la Aprendizaje supervisado: Estas representación de cualquier entidad del técnicas disponen para su ejecución, de mundo real a la que se le pueda dar un un conjunto de patrones, integrado en lo nombre y sea descriptible. que se conoce como muestra de Puede ser representativo de caracteres entrenamiento o conjunto de datos de escritos, símbolos, imágenes, firmas, entrenamiento (CE). Este conjunto de huellas dactilares, espectrogramas, etc. datos es recolectado por un experto humano en el campo de estudio y Patrón ruidoso: Es aquel patrón que agrupa en clases o categorías, de puede confundir al clasificador debido a acuerdo a las propiedades que cada uno que guarda cierto parecido con objetos posee, los casos resueltos previamente. de otras clases. El clasificador es entrenado con este CE y realiza la identificación de la clase Clasificación: Se puede interpretar correspondiente para nuevos patrones, como la partición del espacio de empleando el conocimiento ya 1
  • 2. adquirido y tratando de realizar esa verdadero valor de otra Y (clase a la que identificación con el menor error pertenece el ejemplo). posible. Clasificador: función d(x) definida en es espacio de clasificación X, que relaciona a cada patrón o ejemplo x del espacio de clasificación con una sola ÁRBOLES DE CLASIFICACIÓN clase del conjunto de posibles valores a los que puede pertenecer Cm (m=1, … , Todo árbol de clasificación comienza M). con un nodo al que pertenecen todos los casos de la muestra que se quiere Clase o categoría: Grupo de patrones clasificar (nodo raíz), el resto de nodos que guardan un alto grado de similitud se dividen en nodos intermedios y entre sí y un alto grado de disimilitud nodos terminales. entre los patrones de otros grupos. Generalmente las clases representan la A la hora de clasificar cada patrón, el (s) solución (es) en que se divide el punto de partida es el nodo raíz y, problema. dependiendo de los valores de la clase predoctora por la que se pregunta, los Conjunto de entrenamiento: Conjunto casos se van distribuyendo por los de objetos previamente etiquetados y nodos hijo. El proceso se repite en cada separados en clases utilizados durante el nodo hasta llegar a los nodos hoja. proceso de aprendizaje supervisado. Al número de nodos hoja que tiene un Sobreajuste: El modelo está demasiado árbol se le suele denominar complejidad ajustado a las instancias de de árbol. entrenamiento, y no funciona adecuadamente con las nuevas instancias. Producido por fronteras de decisión muy complejas. Entropía: Medida del grado de incertidumbre asociado a una distribución de probabilidad. pk: probabilidad de que un ejemplo esté en la clase k: con nk = número de ejemplos en la clase k. Ganancia de Información: Medida de cuanto ayuda el conocer el valor de una Se puede decir que los árboles de variable aleatoria X (atributo de un clasificación, además de clasificar, son ejemplo dado) para conocer el capaces de extraer una estructura que 2
  • 3. representa, en cierta medida, el entrenamiento, generalmente son concepto o el patrón de comportamiento eliminados debido a que las que hay asociado a la muestra sobre la coincidencias suelen no estar presentes que se ha inducido. en el conjunto de validación. Para su construcción se definen tres Existen varias razones para la poda de procedimientos: los árboles: la sobre-generalización, la evaluación de variables poco • ¿cómo se realiza la selección de importantes o significativas y el gran divisiones? tamaño del árbol obtenido. En el primer • ¿cómo se toma la decisión de de caso, un árbol puede haber sido declarar un nodo como construido a partir de ejemplos con intermedio o como hoja? ruido, con lo cual algunas ramas del • ¿cómo se asigna la pertenencia árbol pueden ser engañosas; en cuanto a de cada nodo hoja a las posibles la evaluación de variables no relevantes, clases? éstas deben podarse ya que sólo agregan niveles en el árbol y no contribuyen a la A los árboles de clasificación se les ganancia de información. Por último, si aplica un procedimiento que los hace el árbol obtenido es demasiado parsimoniosos que se denomina poda. profundo o demasiado frondoso se dificulta la interpretación por parte del La poda consiste en eliminar todo el usuario, con lo cual hubiera sido lo subárbol que tiene como raíz el nodo en mismo utilizar un método de caja negra. cuestión, convirtiéndolo así en una hoja, cuya clase corresponde a valor mas Existen dos enfoques para podar los común de los ejemplares asociados a árboles: la pre-poda (preprunning) y la ese nodo. post-poda (postprunning). En el primer caso se detiene el crecimiento del árbol Un nodo solo es eliminado si el árbol cuando la ganancia de información podado que resulta de ello, no presenta producida al dividir un conjunto no un desempeño peor que el árbol original supera un umbral determinado; en la sobre el conjunto de validación. El postpoda se podan algunas ramas una efecto de esto, es que los nodos que se vez que se ha terminado de construir el han colocado en el árbol por árbol. coincidencias fortuitas en los datos del Algoritmo Básico 3
  • 4. La idea subyacente al algoritmo TDIDT es que mientras que todos los patrones que se correspondan con una determinada rama del árbol de clasificación no pertenezcan a una misma clase, se seleccione la variable que de entre las no seleccionadas en esa rama sea la más informativa o la más idónea con respecto de un criterio previamente establecido. La elección de esta variable sirve para expandir el árbol en tantas ramas como posibles valores toma dicha variable. Finalmente, se expresa el árbol de clasificación por medio de un conjunto de reglas. ÁLGORITMOS Algoritmo ID3 Introducido por Quinlan (1986). El algoritmo ID3 genera árboles de decisión a partir de a partir de ejemplos de partida. cls (Hunt, Marin, y Stone, 66) fue el precursor de id. El tan sólo utilizaba atributos binarios y tenía heurísticas para decidir qué atributo escoger. La terminología usada en este contexto para denominar a la cantidad de información mutua es la de ganancia en información. El algoritmo de ID3 es el siguiente: 4
  • 5. 1. Seleccionar el atributo Ai que maximice la ganancia, e.d, el que tenga menor entropia. 2. Crear un nodo para ese atributo, con tanto sucesores como valores tenga. 3. Introducir los ejemplos en los sucesores según el valor que tenga el atributo Ai. 4. Por cada sucesor: SI sólo hay ejemplos de una clase ck. Entonces etiquetarlo con ck. SINO, llamar al id3 con una tabla formada por los ejemplos de ese nodo, eliminando la columna del atributo Ai. ID3 intenta encontrar el árbol más sencillo que separa mejor los ejemplos. Para ello utiliza la entropía para elegir o tomar decisiones. Algoritmo C4.5 Es una mejora del IDE3. Se basa en la utilización del criterio ratio de ganancia. De esta manera se consigue evitar que las variables con mayor número de posibles valores salgan beneficiadas en la selección. Además el algoritmo C4.5 incorpora una poda del árbol de clasificación una vez que éste ha sido inducido. La poda está basada en la aplicación de un test de hipótesis que trata de responder a la pregunta de si merece la pena expandir o no una determinada rama. 5
  • 6. Algoritmo CART Utiliza el criterio basado en Gini index para el caso de la clasificación. Cuando se pretende construir un árbol de regresión, los criterios se basan en la mínima suma de las desviaciones cuadráticas. Para realizar la post-poda realiza una estimación del error, bien mediante un conjunto de datos diferente del que se ha utilizado para construir el árbol, o bien aplicando una metodología de validación cruzada. Algoritmo J4.8 Implementación del C4.5. Permite establecer ciertos parámetros, como obligar a realizar divisiones binarias sobre variables discretas, o cambiar el método de post-poda que utiliza el C4.5 por un método basado en la reducción de error. Algoritmo CHAID No realiza una fase de post-poda para evitar el sobreentrenamiento, sino que es en la misma fase de construcción del árbol cuando se decide parar. Sólo es capaz de tratar con variables predoctoras discretas. AVANCES EN LA TOMA DE ÁREAS DE APLICACIÓN DE LOS DECISIONES EN PROYECTOS DE ÁRBOLES DE CLASIFICACIÓN DESARROLLO DE SOFTWARE. Estos son los temas de algunas tesis Autor: Javier Aroba Páez previas la obtención del Título de Ing. Universidad de Sevilla. en Sistemas. Uso de técnicas de aprendizaje supervisado (algoritmo C4.5) para la obtención de reglas de gestión para la 6
  • 7. estimación de costes en el desarrollo de Tomando un conjunto de bases de datos software. las cuales las cuales ayudaron a determinar las posibles causas de El conocimiento de estas reglas de algunas enfermedades. gestión sirve de ayuda en la toma de decisiones para estimar DESARROLLO DE SISTEMAS automáticamente los resultados INTELIGENTES PARA deseados por el responsable del CLASIFICACIÓN Y DIAGNÓSTICO proyecto (coste, tiempo de entrega, EN MEDICINA. calidad, productividad, etc.). Además, la obtención de reglas de gestión permite Autor: Suhail Musa Issa Odeh. al director del proyecto analizar cuáles Universidad de Granada son las políticas de gestión más significativas para conseguir los Este trabajo se centra en el desarrollo de objetivos del Proyecto Software. esquemas de diagnóstico automático y flexible. Para ello se exploran distintas Además el uso de aprendizaje no alternativas capaces de utilizar supervisado, aplicación de redes eficientemente la información de un neuronales, red neuronal modular. grupo de casos “etiquetados” para el diagnóstico de otros casos nuevos. CONFRONTACIÓN DE DOS La clasificación es la atribución de una TÉCNICAS DE MINERÍAS DE clase específica a un objeto, la cual DATOS APLICADAS A UN necesita un cierto grado de abstracción DOMINIO ESPECÍFICO para poder extraer generalidades a partir de los ejemplos disponibles. Autor: Mario Galvis, Fabricio Martínez. Pontificia Universidad Javeriana. Aplicado a aplicaciones biomédicas genéricas y diagnóstico de cáncer en la Pretende mostrar las principales piel. diferencias entre dos técnicas de minerías de datos, árboles de decisión y reglas de asociación. CONCLUSIONES El uso de la herramienta WEKA para Los árboles de clasificación se aplican a hacer un análisis entre los algoritmos y varias ramas de estudio junto con los determinar cuales son más óptimos algoritmos de decisión y las redes tomando en cuenta aspectos como: neuronales y redes bayesianas, su velocidad de ejecución, precisión para estudio ayuda a poder obtener clasificación de datos de origen, resultados más acertados de precisión para predicción de datos clasificación dependiendo del aspectos futuros, escalabilidad, robustez. o aspectos a clasificar. OPTIMIZACIÓN DE REDES Como aspecto fundamental aplica el BAYESIANAS BASADO EN proceso de poda: pre-poda y post-poda TÉCNICAS DE APRENDIZAJE POR para obtener árboles parsimoniosos. INDUCCIÓN. Es importante establecer su aplicación Autor: Pablo Felgaer en algunos proyectos de tesis aplicados Universidad de Buenos Aires. a desarrollo de software, minería de datos, medicina. 7
  • 8. Gracias al aprendizaje supervisado, podemos construir patrones que nos ayuden a establecer soluciones para problemas complejos y para los cuales se aplica el conocimiento de la Inteligencia Artificial. BIBLIOGRAFIA http://www.spss.com/es/classification_tr ees/analysis.htm http://www.sc.ehu.es/ccwbayes/docenci a/mmcc/docs/t10arboles.pdf http://isa.umh.es/asignaturas/iarp/transp arencias/criterios_seleccion_modelos.pd f http://www.gsi.dit.upm.es/~gfer/ssii/arb oles.pdf http://www.ucm.es/BUCM/cee/doc/04- 009/04009.pdf 8

×