• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Dataminig con Weka. Caso: Árboles de decisión
 

Dataminig con Weka. Caso: Árboles de decisión

on

  • 2,215 views

Este documento expone un ejemplo de cómo generar un árbol de decisión empleando WEKA. ...

Este documento expone un ejemplo de cómo generar un árbol de decisión empleando WEKA.

WEKA que es la herramienta libre de Datamining seleccionada para éste trabajo y el algoritmo de árbol de decisión que constituye una de las técnicas de toma de decisiones más empleadas en Datamining.

Se trabajará sobre una base de datos clásica incluida en el propio programa. Se trata de una base de datos llamada WEATHER.ARFF , en la que se pretende determinar cuáles son los factores que hacen que una cierta persona practique o no el tenis.

Cada instancia de la base de datos se corresponde con un cierto día en el que la persona se plantea si jugar o no al tenis, y recoge los siguientes atributos:

• Aspecto del cielo: {soleado, cubierto, lluvioso}.
• Temperatura: medida en grados.
• Humedad: medida en %.
• Viento: {si, no}.
• Juega al tenis: {si, no}.

Statistics

Views

Total Views
2,215
Views on SlideShare
2,215
Embed Views
0

Actions

Likes
0
Downloads
63
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft Word

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Dataminig con Weka. Caso: Árboles de decisión Dataminig con Weka. Caso: Árboles de decisión Document Transcript

    • Datamining con Waikato Environment for Knowledge Analysis, WEKA Dataminig «Es el proceso de analizar los datos desde diferentes perspectivas y resumirla en información útil, información que puede ser utilizada para aumentar los ingresos, reduce los costos, o ambos». (UCLA Anderson, 2009.) U n i v e r s i d a d N a c i o n a l d e P i u r aU n i v e r s i d a d L a i c a “ E l o y A l f a r o ” d e M a n a b í Manta, 2013
    • 1 OBJETIVOS 32 MATERIALES UTILIZADOS 32.1 PRÁCTICAS DE DATAMINIG 32.2 SISTEMA OPERATIVO 32.3 OTROS 43 RESULTADOS, TÉCNICAS 44 CONCEPTOS BÁSICOS 44.1 MINERÍA DE DATOS 44.2 ESCENARIOS DE LA MINERÍA DE DATOS 42.3 TÉCNICAS DE MINERÍAS DE DATOS 52.3.1 REDES NEURONALES 52.3.2 REGRESIÓN LINEAL 52.3.3 ÁRBOLES DE DECISIÓN 52.3.4 MODELOS ESTADÍSTICOS 52.3.5 AGRUPAMIENTO O CLUSTERING 52.3.6 REGLAS DE ASOCIACIÓN 52.4 WEKA 62.4.1 PRINCIPALES CONFIGURACIONES DE WEKA 62.5 ÁRBOLES DE DECISIÓN 85 INSTALACIÓN 86 BITÁCORA 117 PANTALLAZOS 138 DIAPOSITIVAS 159 A MODO DE CONCLUSIONES Y RECOMENDACIONES 1510 INCONVENIENTES 1611 REFERENCIAS BIBLIOGRÁFICAS 16
    • 1 OBJETIVOS GENERAR DE UN ÁRBOL DE DECISIÓN CON WEKAEste documento expone un ejemplo de cómo generar un árbol de decisión empleandoWEKA.WEKA que es la herramienta libre de Dataminingseleccionada para éste trabajo y elalgoritmo de árbol de decisión que constituye una de las técnicas de toma dedecisiones más empleadas en Datamining.Se trabajará sobre una base de datos clásica incluida en el propio programa. Se tratade una base de datos llamada WEATHER.ARFF1,en la que se pretende determinar cuálesson los factores que hacen que una cierta persona practique o no el tenis.Cada instancia de la base de datos se corresponde con un cierto día en el que lapersona se plantea si jugar o no al tenis, y recoge los siguientes atributos: Aspecto del cielo: {soleado, cubierto, lluvioso}. Temperatura: medida en grados. Humedad: medida en %. Viento: {si, no}. Juega al tenis: {si, no}.2 MATERIALES UTILIZADOSLos materiales corresponden a los recursos de software empleados:2.1 Prácticas de Dataminig WEKA (Waikato Environment for Knowledge Analysis) Versión 3.5.8. Cuyoscréditos (c) 1999 – 2008 pertenecen a la The University of Waikato. JRE (Java RuntimeEdition) versión 1.7 de 64 Bits. JDK (Java Development Kit) 1.7 de 64 Bits, aunque realmente para las prácticas mostradas solo se usó JRE y no el JDK. OpcionanlmenteWeka incorpora una versión reducida de JRE que garantiza la funcionalidad al menos de Weka.2.2 Sistema operativo Microsoft Windows 8 Enterprise, versión de 64 Bits.1 La citada base de datos esta disponibles en muchos servidores a través de internet, para el caso puedetomar como referencia la url:https://code.google.com/p/demoquanlynhathuoc/downloads/detail?name=weather.arff(Code Google,2011)
    • 2.3 La Base de Datos del EjemploSe trabajará sobre una base de datos clásica incluida en el propio programa. Se tratade una base de datos llamada WEATHER.ARFF, en la que se pretende determinar cuálesson los factores que hacen que una cierta persona practique o no el tenis.2.4 Otros WindowMovieMaker2 de Windows 8 Enterprise para la edición de videos. Software de ofimática.3 RESULTADOS, TÉCNICAS La técnica empleada para el desarrollo de éste documento fue la investigaciónbibliográfica; de allí los consabidas estrategias de prueba y error, heurística y elmodelado (que se dio siguiendo ejemplos varios de la web).4 CONCEPTOS BÁSICOS4.1 Minería de DatosLa minería de datos usa principios estadísticos contrastados para detectar patrones enlos datos, ayudándole a tomar decisiones inteligentes sobre problemas complejos. Laaplicación de los algoritmos de minería de datos permitirá predecir tendencias,identificar patrones, crear reglas y recomendaciones, analizar la secuencia de eventosen conjuntos de datos complejos y obtener nuevos puntos de vista (MSDN, 2013).4.2 Escenarios de la minería de datosLa minería de datos es el proceso de detectar la información procesable de losconjuntos grandes de datos. Utiliza el análisis matemático para deducir los patrones ytendencias que existen en los datos. Normalmente, estos patrones no se puedendetectar mediante la exploración tradicional de los datos porque las relaciones sondemasiado complejas o porque hay demasiado datos (MSDN, 2013).Estos patrones y tendencias se pueden recopilar y definir como un modelo de mineríade datos. Los modelos de minería de datos se pueden aplicar en escenarios como lossiguientes: Pronóstico: cálculo de las ventas y predicción de las cargas del servidor o del tiempo de inactividad del servidor. Riesgo y probabilidad: elección de los mejores clientes para la distribución de correo directo, determinación del punto de equilibrio probable para los escenarios de riesgo, y asignación de probabilidades a diagnósticos y otros resultados. Recomendaciones: determinación de los productos que se pueden vender juntos y generación de recomendaciones. Búsqueda de secuencias: análisis de los artículos que los clientes han introducido en el carrito de la compra y predicción de posibles eventos.2 Por defecto Windows 8 no incorpora tal herramienta pero se instaló una versión disponible paraWindows Vista.
    • Agrupación: distribución de clientes o eventos en grupos de elementos relacionados, y análisis y predicción de afinidades.La generación de un modelo de minería de datos forma parte de un proceso mayorque incluye desde la formulación de preguntas acerca de los datos y la creación de unmodelo para responderlas, hasta la implementación del modelo en un entorno detrabajo. Este proceso se puede definir mediante los seis2.3 Técnicas de minerías de datosLas técnicas más representativas son:2.3.1 Redes neuronalesSon un paradigma de aprendizaje y procesamiento automático inspirado en la formaen que funciona el sistema nervioso de los animales. Se trata de un sistema deinterconexión de neuronas en una red que colabora para producir un estímulo desalida. Algunos ejemplos de red neuronal son: El Perceptrón, El Perceptrón multicapa,Los Mapas Autoorganizados, también conocidos como redes de Kohonen.2.3.2 Regresión linealEs la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficienteen espacios multidimensionales donde puedan relacionarse más de 2 variables.2.3.3 Árboles de decisiónUn árbol de decisión es un modelo de predicción utilizado en el ámbito de lainteligencia artificial, dada una base de datos se construyen estos diagramas deconstrucciones lógicas, muy similares a los sistemas de predicción basados en reglas,que sirven para representar y categorizar una serie de condiciones que suceden deforma sucesiva, para la resolución de un problema. Ejemplos: Algoritmo ID3, AlgoritmoC4.5.2.3.4 Modelos estadísticosEs una expresión simbólica en forma de igualdad o ecuación que se emplea en todoslos diseños experimentales y en la regresión para indicar los diferentes factores quemodifican lavariable de respuesta.2.3.5 Agrupamiento o ClusteringEs un procedimiento de agrupación de una serie de vectores según criterioshabitualmente de distancia; se tratará de disponer los vectores de entrada de formaque estén más cercanos aquellos que tengan características comunes.Ejemplos:Algoritmo K-means, Algoritmo K-medoids.2.3.6 Reglas de asociaciónSe utilizan para descubrir hechos que ocurren en común dentro de un determinadoconjunto de datos.
    • 2.4 WEKAEl sitio web official de Weka, describe a WEKA como una colección de algoritmosdeaprendizaje automático para la tarea extracción de datos. Los algoritmos pueden seraplicados directamente a un conjunto de datos o ser llamados desde código Java(usando el JDK de Java y un IDE). Weka contiene herramientas para el pre-procesamiento, clasificación, regresión, clustering, reglas de asociación y visualizaciónde datos. También es muy adecuado para el desarrollo de nuevos sistemas deaprendizaje de máquina. Ésta definición es una traducción del sito oficial. “Wekais a collection of machine learningalgorithmsfor data miningtasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.”(Mark Hall, Eibe Frank, Geoffrey Holmes, & Bernhard P, 2009)2.4.1 Principales configuraciones de WEKA 49 herramientas de pre-procesamiento de datos 76 algoritmos de clasificación / regresión 8 algoritmos de agrupamiento 15 atributos/subconjunto evaluadores + 10 algoritmos de búsqueda para configurar la selección. 3 algoritmos para encontrar reglas de asociación 3 interfaces gráficas de usuario "The Explorer" (análisis exploratorio de datos) " TheExperimenter” (entorno experimental) "El KnowledgeFlow" (nuevo modelo de proceso inspirado interfaz)
    • Imagen 1: Interfaz Explorer de WEKA Imagen 2: Interfaz Experimenter
    • Imagen 3: Interfaz flujo de conocimiento2.5 Árboles de decisiónEl algoritmo de árboles de decisión de es un algoritmo híbrido que incorpora distintosmétodos para crear un árbol, y admite varias tareas de análisis, incluyendo la regresión,la clasificación y la asociación. El algoritmo de árboles de decisión de admite elmodelado de los atributos discretos y continuos (MSDN, 2013).5 INSTALACIÓNDescargar WEKA desde la página oficial (aunque se lo puede encontrar en muchosotros servidores de internet): http://www.cs.waikato.ac.nz/ml/weka/downloading.htmlSiga los pasos sugeridos de acuerdo a su plataforma de Hardware y Software:
    • Imagen 4: Captura de los recursos de instalación de WEKA, desde el sitio oficialWEKA también dispone de versiones Developer, que en suma permiten desde un IDEde Java hacer personalizaciones por código y en general gozar de las bondades típicasdel software libre.Luego de la descarga apropiada de WEKA, lo que resta es instalarlo: 1. Si no tiene un JRE o JDK, debe primero instalarlo, pues lo que hace tal software es instalar la máquina virtual de Java en su equipo, detalle característico de las aplicaciones de Java. 2. Seguir los pasos de instalación del mismo modo que lo haría en cualquier versión de Windows.
    • Imagen 5: El instalador de Weka para 64 Bits y el JRE "especial" de Weka Imagen 6: Instalación de Weka Finalizada correctamente
    • Una vez instalado, podrá disponer de los siguientes accesos: Imagen 7: Accesos directos generados por el instalador de WekaPara el caso de las prácticas usaremos el acceso Weka 3.6, como el nombre indica elacceso withconsole nos provee de una consola adicional de líneas de comandos, paraejecutar comandos típicos de java.6 BITÁCORA El soporte completo y en Español sobre Weka es escaso, no obstante las respuestas de Google sobre Weka se cuentan por millones, con pocas entradas en español en referencia al volumen
    • Imagen 8: Resultados de Google sobre "WEKA"El respetable buscador Bing de Microsoft muestra en cambio muchos menosresultados: Imagen 9: Resultados de Bing sobre "WEKA"Un problema, o error común es no tener la versión adecuada de JRE o JDK en funciónde la versión de WEKA que se descarga y del sistema operativo que se tiene.WEKA es un software que ocupa unos pocos Megas en disco duro, pero su utilidad esenorme, y se ha escrito suficiente material sobre ello, no obstante para adentrarse en elmismo, los documentos oficiales residentes o accesibles desde
    • http://www.cs.waikato.ac.nz/ml/weka/documentation.html son en todo momento (acriterio del grupo) el mejor punto de partida.A partir de las versiones originales del mencionado sitio, el grupo se apoyó enconceptos escritos en español, siendo varios de éstos propuestos por el afamado sitioMSDN de la empresa Microsoft.Fue grato notar que universidades del País, concretamente la Universidad TécnicaParticular de Loja, emplea en sus procesos formativos a WEKA para la enseñanza deminería de datos.7 SCREENSHOT O CAPTURAS DE PANTALLA Imagen 10: Pantalla inicial de WEKA ejecutándose en Microsoft Windows 8 x64
    • Imagen 11: Vista de la aplicación Explorer de WEKA al tiempo que se apertura la base de datos de ejemplo Weather.arff
    • Imagen 12: Ficha Clasificación, donde se puede encontrar la opción del "Árbol de decisión"8 DIAPOSITIVAS Se adjuntan…9 A MODO DE CONCLUSIONES Y RECOMENDACIONES En este trabajo se ha presentado una forma de construir arboles de decisión en WEKA, se ha conseguido resultados que de ser llevados a gran escala serian prometedores experimentalmente. El modelo de clasificación empleado, se puede considerar un híbrido entre los algoritmos de construcción de árboles dedecisión y los algoritmosde inducción de listas de decisión. No está de más recordar que el árbol de decisión es una técnica de aprendizaje supervisado, siendo estas, técnicas que predicen un dato (o un conjunto de ellos) desconocido a priori, a partir de otros conocidos. Propiamente en términos de Datamining, el árbol de decisión al estar basado en algoritmos de extracción en reglas de asociación, no solo que es eficiente, sino que también es escalable. Estaes una característica esencial en la resolución de problemas de Data Mining, pues permite la utilización extraer información deenormes conjuntos de datos. Es de vital importancia el conocimiento de técnicas que permitan anticiparse y predecir los posibles resultados de las decisiones a tomar, “apuntando” siempre
    • a tener mayores posibilidades de éxito y una adecuada gestión en administración de diversos frentes,. El manejo de técnicas sencillas y compresibles de cómo llevar a cabo un adecuado proceso de elección de estrategias y decisiones supone un paso adelante en eficiencia.10 INCONVENIENTES Un problema, o error común es no tener la versión adecuada de JRE o JDK en función de la versión de WEKA que se descarga y del sistema operativo que se tiene. Aunque derivado de lo anterior también puede citarse el desconocimiento que el grupo tenía, de la existencia del JRE especifico de WEKA, que viene a ser algo así como una edición especial del JRE para el funcionamiento de WEKA. La instalación de WEKA no supuso complejidad, lo que si resultó algo dificultoso fue escoger el algoritmo a emplear… pues como se detalló antes, WEKA ha madurado mucho en el campo de la minería de datos, posee diversas interfaces y en cada una de ellas a su vez diversas aplicaciones de minería de datos y algoritmos varios dentro de ellas, que en el caso de la versión que hemos usado llega a la cantidadde 43 algoritmos. Finalmente el grupo decidió aplicar árboles de decisión. Que es dentro de WEKA una especie de “submundo” para aplicar Datamining. Sobre la edición del video, el grupo no tenía como fortaleza la edición de archivos de videos, pero practicando un poco se pudo presentar el producto usando la herramienta “WindowMovieMaker” de Windows 8. Siguiendo con el video, había un gran dilema sobre definir quien haría las narraciones en video, es decir el audio. En realidad allí como grupo lamentamos no contar con una compañera dentro del mismo. Siguiendo con el video, hay que destacar que por defecto Windows 8 no incorpora Windows MovieMaker, y buscando en el sitio oficial de descargas de Microsoft tampoco había una versión específica para la versión Enterprise de Windows 8 x64, por tal razón haciendo pruebas, encontramos que la versión 2.6 de MovieMaker para Windows Vista x86, se comportaba muy bien en Windows 8 x64. Allí se desarrolló el video.11 REFERENCIAS BIBLIOGRÁFICASMark Hall, Eibe Frank, Geoffrey Holmes, & Bernhard P. (2009). The WEKA Data Mining Software: An Update; SIGKDD Explorations (Vol. XI).MSDN. (2013). Minería de datos. Recuperado el 31 de Marzo de 2013, de http://msdn.microsoft.com/es-ec/library/bb510516.aspxMSDN. (2013). Referencia técnica del algoritmo de árboles de decisión de Microsoft. Recuperado el 30 de Marzo de 2013, de http://msdn.microsoft.com/es- ec/library/cc645868(v=sql.100).aspx