INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOS
WEKA Waikato Environment for Knowledge Analysis
Características <ul><li>Software Libre desarrollado en Java </li></ul><ul><li>Técnicas: </li></ul><ul><ul><li>Preprocesado...
Opciones <ul><li>Explorer :   Es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementa...
Weka Explorer
Open File <ul><li>Formato ARFF( Attribute-Relation File Format) </li></ul><ul><li>Carga de los datos </li></ul><ul><ul><li...
Formato ARFF <ul><li>Estructura del Archivo texto (extensión .arff) </li></ul><ul><ul><li>% comentarios </li></ul></ul><ul...
Formato ARFF
Pre-procesado de los datos <ul><li>Esta es la primera parte por la que se debe pasar antes de realizar ninguna otra operac...
Pre-procesado de los datos <ul><li>Filtros de atributos </li></ul>
Visualización <ul><li>La herramienta de visualización de WEKA permite presentar gráficas 2D que relacionen pares de atribu...
Clasificación <ul><li>Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuest...
Clasificación <ul><li>la aplicación de algoritmos de clasificación a diferentes problemas de predicción de atributos defin...
Clasificación <ul><li>Clasificador como árbol de decisión: J48 </li></ul><ul><li>El algoritmo J48 de WEKA es una implement...
Clasificación
Asociación <ul><li>Los algoritmos de asociación permiten la búsqueda automática de reglas que  relacionan conjuntos de atr...
Asociación <ul><li>El principal algoritmo de asociación implementado en WEKA es el algoritmo  &quot;Apriori&quot;.  Este a...
AGrupamiento <ul><li>La opción  Cluster del  Experimenter  nos permite aplicar algoritmos de agrupamiento de instancias a ...
AGrupamiento <ul><li>Agrupamiento numérico </li></ul><ul><li>En primer lugar utilizaremos el algoritmo de agrupamiento K-m...
KnowledgeFlow
Referencias DR. NICOLAS KEMPER VALVERDE Universidad Nacional Autónoma de México
Upcoming SlideShare
Loading in...5
×

Componente de weka (mineria datos ing. software)

6,521

Published on

mineria de datos

Published in: Education, Travel
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
6,521
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
234
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Componente de weka (mineria datos ing. software)

  1. 1. INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOS
  2. 2. WEKA Waikato Environment for Knowledge Analysis
  3. 3. Características <ul><li>Software Libre desarrollado en Java </li></ul><ul><li>Técnicas: </li></ul><ul><ul><li>Preprocesado </li></ul></ul><ul><ul><li>Clasificación </li></ul></ul><ul><ul><li>Agrupamiento </li></ul></ul><ul><ul><li>Asociación </li></ul></ul><ul><ul><li>Visualización </li></ul></ul>
  4. 4. Opciones <ul><li>Explorer : Es la opción que permite llevar a cabo la ejecución de los algoritmos de análisis implementados sobre los ficheros de entrada, una ejecución independiente por cada prueba. </li></ul><ul><li>Experimenter: esta opción permite definir experimentos más complejos, con objeto de ejecutar uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y comparar estadísticamente los resultados </li></ul><ul><li>Simple CLI: la interfaz &quot;Command-Line : Interfaz&quot; es simplemente una ventana de comandos java para ejecutar las clases de WEKA </li></ul>KnowledgeFlow: esta opción es una novedad de WEKA 3-4 que permite llevar a cabo las mismas acciones del &quot;Explorer&quot;, con una configuración totalmente gráfica, inspirada en herramientas de tipo &quot;data-flow&quot; para seleccionar componentes y conectarlos en un proyecto de minería de datos
  5. 5. Weka Explorer
  6. 6. Open File <ul><li>Formato ARFF( Attribute-Relation File Format) </li></ul><ul><li>Carga de los datos </li></ul><ul><ul><li>Archivos de Texto </li></ul></ul><ul><ul><li>Bases de Datos (JDBC) </li></ul></ul><ul><ul><li>Dirección URL (Servidor </li></ul></ul>
  7. 7. Formato ARFF <ul><li>Estructura del Archivo texto (extensión .arff) </li></ul><ul><ul><li>% comentarios </li></ul></ul><ul><ul><li>@relation NOMBRE_RELACION </li></ul></ul><ul><ul><li>@attribute r1 real </li></ul></ul><ul><ul><li>@attribute i1 integer </li></ul></ul><ul><ul><li>@attribute s1 {v1_s1, v2_s1,…vn_s1} </li></ul></ul><ul><ul><li>… </li></ul></ul><ul><ul><li>@data </li></ul></ul><ul><ul><li>DATOS </li></ul></ul>
  8. 8. Formato ARFF
  9. 9. Pre-procesado de los datos <ul><li>Esta es la primera parte por la que se debe pasar antes de realizar ninguna otra operación, ya que se precisan datos para poder llevar a cabo cualquier análisis. </li></ul><ul><li>Filtros de atributos </li></ul><ul><ul><li>Filtros de selección (remove) </li></ul></ul><ul><ul><li>Filtros de discretización (Filtro Discretiza R (#atribut) </li></ul></ul><ul><ul><li>Filtros de instancias </li></ul></ul><ul><ul><li>Filtro AddExpression ( (a3^3.4)*a1+sqrt(floor(tan(a4))) </li></ul></ul>
  10. 10. Pre-procesado de los datos <ul><li>Filtros de atributos </li></ul>
  11. 11. Visualización <ul><li>La herramienta de visualización de WEKA permite presentar gráficas 2D que relacionen pares de atributos, con la opción de utilizar además los colores para añadir información de un tercer atributo. </li></ul>
  12. 12. Clasificación <ul><li>Si queremos realizar una clasificación lo primero será elegir un clasificador y configurarlo a nuestro gusto, para ello pulsaremos sobre el botón Choose dentro del área Classifier. Una vez pulsado se desplegará un árbol que nos permitirá seleccionar el clasificador deseado. Una vez seleccionado aparecerá, en la etiqueta contigua al botón Choose, el filtro seleccionado y los argumentos con los que se ejecutará. Esta información es muy útil si queremos utilizar el interfaz de consola ya que podremos configurar nuestro filtro con la interfaz y luego obtener el resultado apto para línea de mandato. </li></ul>
  13. 13. Clasificación <ul><li>la aplicación de algoritmos de clasificación a diferentes problemas de predicción de atributos definidos sobre los datos de entrada en este ejemplo. El problema de clasificación siempre se realiza sobre un atributo simbólico , en el caso de utilizar un atributo numérico se precisa por tanto discretizarlo antes en intervalos que representarán los valores de clase. </li></ul><ul><li>Clasificador “OneR”: Este es uno de los clasificadores más sencillos y rápidos, aunque en ocasiones sus resultados son sorprendentemente buenos en comparación con algoritmos mucho más complejos. Simplemente selecciona el atributo que mejor “explica” la clase de salida. Si hay atributos numéricos, busca los umbrales para hacer reglas con mejor tasa de aciertos </li></ul>
  14. 14. Clasificación <ul><li>Clasificador como árbol de decisión: J48 </li></ul><ul><li>El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los algoritmos de minería de datos que más se ha utilizado en multitud de aplicaciones. No vamos a entrar en los detalles de todos los parámetros de configuración, dejándolo para el lector interesado en los detalles de este algoritmo, y únicamente resaltaremos uno de los más importantes, el factor de confianza para la poda, confidence level, puesto que influye notoriamente en el tamaño y capacidad de predicción del árbol construido. </li></ul>
  15. 15. Clasificación
  16. 16. Asociación <ul><li>Los algoritmos de asociación permiten la búsqueda automática de reglas que relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, en el sentido de que no existen relaciones conocidas a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son estadísticamente significativas. </li></ul>
  17. 17. Asociación <ul><li>El principal algoritmo de asociación implementado en WEKA es el algoritmo &quot;Apriori&quot;. Este algoritmo unicamente puede buscar reglas entre atributos simbólicos, razón por la que se requiere haber d discretizado todos los atributos numéricos. </li></ul>
  18. 18. AGrupamiento <ul><li>La opción Cluster del Experimenter nos permite aplicar algoritmos de agrupamiento de instancias a nuestros datos. Estos algoritmos buscan grupos de instancias con características &quot;similares&quot;, según un criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos discretizado todos los atributos numéricos. </li></ul>
  19. 19. AGrupamiento <ul><li>Agrupamiento numérico </li></ul><ul><li>En primer lugar utilizaremos el algoritmo de agrupamiento K-medias, por ser uno de los más veloces y eficientes, si bien uno de los más limitados. Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el conjunto de datos </li></ul>
  20. 20. KnowledgeFlow
  21. 21. Referencias DR. NICOLAS KEMPER VALVERDE Universidad Nacional Autónoma de México
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×