Paper de iaa
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
3,230
On Slideshare
3,230
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
82
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. RECONOCIMIENTO DE PATRONES PARA MEDIR LA USUABILIDAD DE LAS HERRAMNIENTAS WEB 2.0 Vanessa Cindhy Celi Ing. Nelson Piedra Loja, Ecuador Ing. Nelson Piedra vcceli@utpl.edu.ec Loja, Ecuador vcvanecc2@gmail.com nopiedra@utpl.edu.ec inteligencia artificial para ayudar en la toma de RESUMEN decisiones a través de técnicas de minería de datos En Inteligencia Artificial (IA) utiliza varios métodos [10] e inteligencia artificial. entre la cuáles podemos encontrar árboles de Los patrones de reconocimiento nos ayudarían a clasificación, redes bayecianas, redes neuronales y reducir el tiempo en medir la usabilidad de la página modelos ocultos de Markov. Web El objetivo de este proyecto es encontrar un patrón de comportamiento para medir la usabilidad de las Planteamiento del problema herramientas Web.2.0 . Hoy en día las herramientas Web 2.0 han alcanzado Términos Generales un gran auge por eso es importante la usabilidad de Algoritmos, Finanzas, Experimentación, Verificación. cada una de ellas ya que la mayoría de personas acceden a estas herramientas por lo tanto, existen Palabras claves algunas técnicas que permiten encontrar patrones de comportamiento basados en un conjunto de variables Arboles de clasificación. independientes, que se pueden aplicar para medir la usabilidad como son las redes bayecianas. Inteligencia Artificial. Objetivo 1.INTRODUCCIÓN El objetivo principal del presente trabajo es Para medir la usabilidad nos basamos en ciertos primeramente definir las características principales o criterios y estándares que debe cumplir una pagina el reconocimiento de patrones que permitan mejorar Web . Para esto es necesario definir las variables el proceso de medición de la usabilidad de las predoctoras o independientes para realizarlo herramientas Web 2.0 mediante redes bayecianas que se fundamentan en la teoría de probabilidades, y combinan la potencia 1ESTADO DEL ARTE del teorema de Bayes con la expresividad semántica de los grafos dirigidos, estos permiten representar un 1.1Como medir la usabilidad modelo casual por medio de una representación gráfica. Para medir la usabilidad de las herramientas Web 2.0 Motivación he utilizado una serie de parámetros obtenida a El uso de la Inteligencia Artificial (IA) en partir de los estándares ISO 9241 y la ISO 9126 . aplicaciones de clasificación es un tema muy De toda esta lista de parámetros se escoge los más importante ayudando a que las técnicas de IA se representativos para las diferentes audiencias que adapten a los problemas reales, esto es lo que ha ingresan a las herramientas Web 2.0. motivado el trabajo investigativo con el objetivo de comprender la importancia que representa la
  • 2. 1.2 Fundamentos de reconocimiento de patrones . Redes de creencias 1.2.1Reconocimiento de patrones . Redes probabilísticas . Redes casuales. Tomado de [3], un patrón es una entidad a la que se . Mapas de conocimiento. puede dar un nombre y que está representada por un conjunto de propiedades medidas y las relaciones entre ellas (vector de características). Por ejemplo, un patrón puede ser una señal sonora y su vector de características el conjunto de coeficientes espectrales extraídos de ella. Reconocimiento de patrones lo define el autor de esta investigación [3] como: “La categorización de datos de entrada en clases identificadas, por medio de la extracción de características significativas o atributos de los datos extraídos de un medio ambiente que contiene detalles irrelevantes”. El reconocimiento de patrones [11], tienes un punto esencial que es la clasificación que permite clasificar clases de acuerdo a sus características, el objetivo es clasificar patrones con base en un conocimiento a priori o información estadística extraída de los patrones. Los patrones a clasificar suelen ser grupos de medidas u observaciones. Para la clasificación se puede usar un conjunto de Imagen 1. Ejemplo de Redes Bayesianas [13] aprendizaje, del cual ya se conoce la clasificación de la información a priori y se usa para entrenar al sistema, siendo la estrategia resultante conocida como 1.2.3.1Aprendizaje Automático de la red Bayesianas aprendizaje supervisado. Si se toma un sistema experto que constituye una En wikipedia se listan algunas de las aplicaciones rede bayesiana esta debe cambiar conforme donde se aplica reconocimiento de patrones, entre aumentan los datos concretos o casos, así en sus ellas: reconocimiento de voz, la clasificación de primeros pasos las red bayesiana puede ser construida documentos (por ejemplo spam/no spam), el según la opinión de los expertos o bien según la reconocimiento de escritura, reconocimiento de caras información de la que se parte o teniendo en cuenta humanas y muchas más, derivándose las dos últimas ambas cosas. Conforme vamos añadiendo del análisis de imágenes. información al red se va modificando tanto su 1.2.2 Redes Bayesianas estructura como los parámetros mediante un proceso Las redes bayesianas conforman una manera práctica de aprendizaje y compacta de representar el conocimiento incierto 1.2.4 Clasificadores Bayesianos basada en esta idea. El clasificador bayesiano es una función que se Las redes bayesianas modelan un fenómeno mediante asigna al valor que tiene un atributo discreto que un conjunto de variables y las relaciones de toma el nombre de clase o instancia. Un sistema dependencia entre ellos. experto puede tomar la misma actividad que un Las redes bayesianas son una presentación gráfica clasificador. de dependencias directas entre ellas. En el caso que la base de conocimientos sea una red Las redes bayesianas también se las conoce con el bayesianas, la función de clasificación estará nombre: definida atreves de probabilidades condicionadas.
  • 3. 1.2.5Descripción de los Algoritmos de aprendizaje aprendizaje más intuitivo posible Navegabilidad Un sitio debe ser Clasificador Naive Bayes.- Este clasificador es el de la página cómodo para el usuario, que se utiliza es el que se utiliza en el teorema de principal debe ser fácilmente Bayes en conjunción con la hipótesis de navegable. El usuario independencia condicional de las variables tiene que poder ir de un predictoras lado a otro del sitio rápidamente y sin perderse. 1.3MINERIA DE DATOS Atractividad Que la interfaz del sitio del sitio sea amigable al usuario La minería de datos[8],[9] es una parte de todo el Calidad de Que tenga temas proceso de la extracción del conocimiento útil y ayuda concretos y que sea fácil comprensible, previamente desconocido, desde bases de entender de datos heterogéneas, la minería de datos se encarga de reunir ventajas de varias áreas como la Estadística, Audiencia Los usuarios que tiene la Inteligencia Artificial, la Computación Gráfica, las el sitio Bases de Datos y el Procesamiento Masivo. Por lo general la definición más común de minería de datos es: Un proceso no trivial de identificación válida, novedosa, potencial útil y entendible de 2.2Metodología patrones comprensibles que se encuentran ocultos en los datos [8]. Sin embargo existen definiciones La metodología aplicada en la investigación es: enfocadas hacia otros puntos de vista como el enfoque empresarial que es: La integración de un Seleccionar las variables predictoras más conjunto de áreas que tienen como propósito la importantes. identificación de un conocimiento obtenido a partir Descripción de las variables predictoras y la de las bases de datos que aporten un variable clase. Aplicación del las redes bayesianas Analizar el resultado 3.2.1Adquisición y proceso de datos 2.DESARROLLO E IMPLEMENTACIÓN Se ha tomado como muestra datos en base a los 2.1Identificación de las variables requerimientos necesarios para medir la usabilidad de un sitio para obtener el crédito. En la Tabla 2 se muestra los datos tomados como muestra de las Para la identificación de las variables se realizó un características principales. estudio de los estándares que se utilizan para medir la usabilidad de una página tomando las variables con mayor poder predictivo. En Tabla 1 se muestra un Las variables tomadas en cuenta para el diseño del listado y descripción de las mismas: modelo se describen en la Tabla 2, Tabla 1. Descripción de las variables predictoras NOMBRE DESCRIPCIÓN Tabla 2. Datos iniciales de prueba VARIABLE REQUISITOS ESTUDIANTE/GARANTE Facilidad de Esto se refiera si que los programas son lo
  • 4. @attribute Calidaddeayuda numeric @attribute Audiencia numeric @attribute usabilidad {si,no} @data Wiki, 0.90, 0.90, 0.90, 0.90, 0.90, si Música, 0.45, 0.30, 0.56, 0.35, 0.25, no Documentos, 0.90, 0.90, 0.90, 0.90, Tomando en cuenta los requisitos más importantes 0.90, si para medir la usabilidad de un sitio se ha creado la AgregaciónVideo, 0.70, 0.70, 0.70, tabla de datos que se muestra en Tabla 2 que serán 0.70, 0.70, si como datos de entrada, donde las variables más Video, 0.85, 0.75, 0.85, 0.70, 0.85, si decisivas para medir la usabilidad son : Fotos, 0.90, 0.90, 0.90, 0.90, 0.90, si Herramientaweb {Wiki, Música, Documentos, Locación, 0.45, 0.30, 0.56, 0.35, AgregaciónVideo, Video, Fotos, Locación, 0.25, no ClientesServicioRed, NichosRed, RedesSociales, ClientesServicioRed, 0.90, 0.90, MensajeríaVoz, Podcasting, MarcadoresSociales, 0.90, 0.90, 0.90, si Micromedia, ComunidadesBlog, ConversaciónBlog, NichosRed, 0.70, 0.70, 0.70, 0.70, PlataformasBlogs, VideoBlogs} 0.70, si Facilidadaprendizaje numeric RedesSociales, 0.85, 0.75, 0.85, navegabilidaddelapaginaprincipal numeric 0.70, 0.85, si atractividaddelsitio numeric MensajeríaVoz, 0.45, 0.30, 0.56, 0.35, 0.25, no Calidaddeayuda numeric Podcasting, 0.90, 0.90, 0.90, 0.90, Audiencia numeric 0.90, si usabilidad {si,no} MarcadoresSociales, 0.90, 0.90, 0.90, 0.90, 0.90, si Micromedia, 0.70, 0.70, 0.70, 0.70, Para su posterior ejecución se ha creado un archivo 0.70, si de datos .arff, denominado herramientasweb2.0.arff ComunidadesBlog, 0.85, 0.75, 0.85, con un total de 84 instancias, a continuación una 0.70, 0.85, si muestra: ConversaciónBlog, 0.90, 0.90, 0.90, 0.90, 0.90, si @attribute Herramientaweb {Wiki, PlataformasBlogs, 0.45, 0.30, 0.56, Música, Documentos, AgregaciónVideo, 0.35, 0.25, no Video, Fotos, Locación, VideoBlogs, 0.90, 0.90, 0.90, 0.90, ClientesServicioRed, NichosRed, 0.90, si RedesSociales, MensajeríaVoz, Podcasting, MarcadoresSociales, Micromedia, ComunidadesBlog, ConversaciónBlog, PlataformasBlogs, 2.3Herramientas a utilizar VideoBlogs} @attribute Facilidadaprendizaje 2.3.1Weka numeric @attribute navegabilidaddelapaginaprincipal numeric @attribute atractividaddelsitio numeric
  • 5. En la Imagen 3 se muestra el gráfico que vota el algoritmo bayes net Para obtener los patrones de comportamiento se tomará la información de cada variable con la respectiva clasificación de cada nodo final o nodo hoja a partir del árbol mostrado en la Imagen 3. 3.1.1Algoritmo Bayesnet Los resultados obtenidos en el algoritmo de bayesnet son los siguientes: Imagen 2. Interfaz Weka La herramienta que se ha elegido para el trabajo es Weka [6], es una colección de algoritmos de aprendizaje automático para tareas de minería de datos. Los algoritmos pueden ser aplicados 3.2Validación de resultados directamente a un conjunto de datos o llamada de su propio código Java. Weka contiene herramientas de 3.2.1Algoritmo de árbol J48 datos pre-procesamiento, clasificación, regresión, A continuación se evalúa la capacidad de confianza clustering, reglas de asociación y visualización. del algoritmo de bayesnet para ver si las herramientas También es muy apropiada para el desarrollo de cumple con los estándares de seguridad, teniendo nuevos sistemas de aprendizaje automático. Se ha como resultados instancias correctamente clasificadas tomado en cuenta esta herramienta porque presenta la 18 con un porcentaje de 100% y 0 instancias utilización de algoritmos de clasificación mediante el incorrectamente clasificadas con porcentaje de 0%. uso de redes bayesianas. 3.RESULTADOS 3.1 Árbol de clasificación Imagen 4. Resultados de la clasificación de instancias Imagen 3. Árbol generado con el algoritmo J48
  • 6. En la En la Imagen 6, se muestra la matriz de confusión de JRip, con respecto a la clase si tiene un error de 5 ya que el valor correcto sería 36, en la clase no tiene un error de 1 ya que debería ser 48. Imagen 5, se muestra la matriz de confusión, con respecto a la clase si tiene un error de 0 ya que el valor correcto sería 14, con la clase no tiene un error de 4 ya que debería ser 4. Imagen 6. Matriz de neivebayesnet 3.3Comparación de los algoritmos A continuación se hace una comparación de los 2 algoritmos aplicados en base a los resultados obtenidos. Imagen 5. Matriz de confusión bayesnet Los mejores resultados los ofrece el algoritmo de reglas de decisión J48 ya que define de una manera más precisa los patrones de comportamiento, de 3.2.2Algoritmo de neivesbayetnet acuerdo a la clasificación de instancias y a los valores de la matriz de confusión. Para evaluar los resultados con el algoritmo bsyesnet se ha tomada la matriz de confusión Tabla 3. Comparación de bayesnet y neivebayesnet COMPARACIÓN DE LOS ALGORITMOS ALGORITM Instancias Instancias O correctament correctament % e clasificadas e clasificadas Error bayesnet 18100% 00% 0% neivebayesnet 18100% 00 21,1 % 3.4 Clementine 12.0
  • 7. 3.6 Entorno Clementine es una herramienta de data mining que permite desarrollar de forma rápida modelos predictivos y desplegarlos para mejorar la toma de decisiones. Clementine es conocida mundialmente como la herramienta líder de data mining, ya que entrega el máximo retorno de inversión de sus datos en poco tiempo. A diferencia de otras herramientas de data mining – que fracasan en el soporte del ciclo de negocio completo de data mining y se centran simplemente en modelos para destacar el rendimiento – Clementine apoya el ciclo completo de data mining para reducir el tiempo hasta la solución final. Clementine está diseñada considerando los estándares de la industria del data mining – CRISP-DM (CRoss Industry Standard Process for Data Mining). CRISP- DM hace de data mining un proceso de negocio al enfocar la tecnología de data mining en resolver problemas de negocio específicos. En esta imagen se puede observar los datos la tabla el tipo y el modelo a escoger, 3.5 Desarrollo El modelo que se escogió es bayes net con la finalidad de comparar los resultados obtenidos en Disponemos de los datos acerca de la usabilidad de ambas herramientas las herramientas web 2.0 dependiendo de diversas variables El objetivo es poder medir la usabilidad de las herramientas web 2.0. Los datos están en el 3.7 Red bayesiana y probabilidad condicional del fichero: “basededatos.txt” y son los siguientes: sitio
  • 8. La red es creada mediante este cuadro de padres y probabilidades dentro de la usabilidad cuando es menor a 0.662 el uno significa no y cero si mediante estas probabilidades se va creando la rede bayesianas 3.8 Matriz Las variables predictoras son las que se encuentran de color azul y la variable de salida es la de color rojo Al comparar los resultados con weka son los mismos existe 18 instancias correctas con un 100% 3.9 Tabla de auditoría de datos En esta tabla de auditoría nos da una breve información del proyecto nos presenta gráfico 4.CONCLUSIONES El uso de los algoritmos bayesnet, neivebayesnet y la herramienta weka son de
  • 9. mucha utilidad ya que permiten tomar %20Badajoz/comunicaciones/%E1rboles%20de decisiones al momento de analizar cada caso, %20clasificaci%F3n....pdf identificando cuales son las características Eduardo Morales Manzanares, 2005, más relevantes medir la accesibilidad de las “Escalamiento de Algoritmos”, herramientas , a través de clasificación y http://ccc.inaoep.mx/~emorales/Cursos/KDD03/n visualización de datos. ode54.html El numero de datos tanto para la base de Alejandro Boris Valiente y Zaida Cebrián datos como para la de entrenamiento tiene Jiménez, “Inteligencia en Redes de que ser representativa para obtener los Comunicaciones: Practica Weka, Diagnostico y resultados más aproximados. Cardiología” Los resultados presentados son una http://www.it.uc3m.es/jvillena/irc/practicas/05- aproximación a la realidad ya que se ha 06/12mem.pdf tomado una muestra de los posibles casos que F. Valenga, I. Perversi, E. Fernández, H. Merlino, pueden ocurrir. D. Rodríguez, P. Britos y R. García Martínez, Los algoritmos de clasificación pueden ser “Aplicacion de mineria de datos para la aplicados en diferentes campos donde se exploracion y deteccion de patrones delictivos en requiera clasificar un conjunto de datos, Argentina”, tomando en cuenta las diferentes variables http://www.itba.edu.ar/archivos/secciones/98JIISI aplicadas. C-08-31-39.pdf Luego de los resultados obtenidos de cada Inflexa, “Qué es Minería de Datos”, algoritmo se concluye con certeza que el http://www.inflexa.com/inflexa/soluciones/mineri algoritmo neivebayesnet tiene un nivel de adedatos/ confianza más aproximado que bayesnet. Olmos Pineda “Minería de datos”, Instituto Tecnológico de Puebla, México, 1992. 5.REFERENCIAS http://www.itpuebla.edu.mx/Eventos/Memoriasy ResSemanaInformatica2007/02- María Del Carmen Sosa Sierra, “Inteligencia %20IvanOlmosPineda.pdf, artificial en la gestión financiera empresarial”, Instituto Ecuatoriano de Crédito Educativo y http://ciruelo.uninorte.edu.co/pdf/pensamiento_ge Becas, http://www.iece.fin.ec/LaInstitucion.aspx stion/23/6_Inteligencia%20artificial.pdf Wikipedia, “Reconocimiento de patrones, Carlos J. Alonso González, Departamento de ”http://es.wikipedia.org/wiki/Reconocimiento_de Informática, “Inducción de Reglas _patrones Proposicionales”, http://www.infor.uva.es/~calonso/IAII/Aprendizaj Pablo Lázaro Grande Benito, 2008, e/InduccionReglasProposicionales.pdf http://recuperacion-organizacion- informacion.atspace.com/extraccion_informacion Jesús Walter Salinas Flores, “Reconocimiento de _clasificacion_supervisada/arboles-decision.html patrones de morosidad para un producto crediticio usando la técnica de árbol de http://farm4.static.flickr.com/3249/2747320896_1 clasificación CART”, 738560745_o.jpg http://www.cybertesis.edu.pe/sisbib/2005/salinas Aitor Puerta Goicoechea, “Imputación basada en _fj/html/index-frames.html árboles de clasificación”, 2002, María José Vázquez Cueto, Dolores Gómez http://www.eustat.es/document/datos/ct_04_c.pdf Domínguez, “Arboles de clasificación: una http://www.um.es/geograf/sigmur/teledet/tema09. metodología para el análisis de crisis bancarias”, pdf 2009, Wikipedia, Algoritmo ID3, http://www.asepelt.org/ficheros/File/Anales/2005 http://es.wikipedia.org/wiki/Algoritmo_ID3 %20- Basilio Sierra Araujo, Aprendizaje Automático: conceptos básicos y avanzados, Aspectos básicos
  • 10. utilizando en software WEKA, Universidad del Ilustración 2, se visualiza los datos creados en el País Vasco, 2006 archivo IECEEntrenamiento.arff Sofía J. Vallejos, Minería de Datos, Argentina, 2006, http://exa.unne.edu.ar/depar/areas/informatica/Sis temasOperativos/Mineria_Datos_Vallejos.pdf Carlos Damián Mirabella, “Descubrimiento del conocimiento en bases de datos”, http://www.exa.unicen.edu.ar/catedras/dbdiscov/ mirabella.pd ANEXOS Como anexos se ha añadido la corrida de los Ilustración 2. Datos en Weka algoritmos en la herramienta Weka. En la En la Ilustración 1, se puede contemplar la vista de la herramienta weka, donde se muestra todos los atributos (variables) del archivo IECEEntrenamiento.arff utilizado para la obtención de los patrones. Ilustración 3, se muestra los resultados visuales de los datos de todas las variables, ingresados en el archivo Herramientasweb2.0.arff. Ilustración 1. Vista principal: Atributos En la Ilustración 3. Visualización de todas las variables
  • 11. Ilustración 4. Salida de datos con el algoritmo baysnet