2. Introducción
2
Web Usage Mining: descubrimiento automático
de patrones en los clicks realizados sobre un
sitio Web y los datos recolectados o generados
como resultado de las interacciones de los
usuarios con uno o más sitios Web.
Objetivo: analizar los patrones de
comportamiento de los usuarios interactuando
con un sitio Web.
Los patrones descubiertos son generalmente
representados como colecciones de páginas,
objetos o recursos que son accedidos por un
grupo de usuarios con un objetivo en común.
3. Introducción
3
Los datos utilizados para Web Usage Mining:
Logs de servidores web.
Contenido del sitio.
Datos acerca de los visitantes, obtenidos de fuentes
externas.
Datos de otras aplicaciones.
No siempre están disponibles todos.
Cuando si están, deben ser integrados.
8. Limpieza de datos
8
Data cleaning / cleansing
Eliminar referencias irrelevantes y campos en
logs
Eliminar referencias a navegaciones de robots
Eliminar referencias erroneas
Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
9. Identificar sesiones
(sesionización)9
En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
15. PageView
15
Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
16. Path completion
16
Caché en el cliente o servidor puede derivar en
referencias de accesos perdidas para las
páginas que se encuentran en el caché.
Por ejemplo:
Si un usuario regresa a una página A durante la
misma sesión, probablemente podrá ver la
versión descargada anteriormente de A que se
encuentra en el caché de su computadora y por
lo tanto no se vuelve a solicitar al servidor.
Esto ocasiona que la segunda referencia a A no
sea registrada en el log del servidor Web.
18. Path completion
18
El problema es inferir referencias perdidas
debido a uso de caché.
Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
19. Integración con eventos de e-
commerce19
Puede ser orientado a productos o visitas
Utilizados para trackear y analizar conversión
de navegadores a compradores.
La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
20. Eventos orientados a producto
20
Vista de producto
Ocurre cada vez que un producto aparece en una
visita a una página.
Tipos típicos: imagen, link, texto.
Click a productos
Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
21. Eventos orientados a productos
21
Cambios en carritos de compra
Agregar o eliminar productos del carrito
Modificar productos en el carrito (cantidad u otra
caracteristica)
Compra de producto u oferta
Los eventos de compra ocurren separadamente
para cada producto en el carrito de compras.
Los sitios de subastas pueden rastrear eventos
de oferta además de las compras de productos.
26. Análisis de sesiones
26
Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
Ventajas:
Obtener información sobre los clientes tipicos.
Trazar problemas específicos en el sitio.
Desventajas:
Volumen alto de datos.
Dificil de generalizar.
27. Análisis de sesiones: reportes
agregados27
Forma más común de análisis
Los datos son agregados a niveles
predeterminados (días o sesiones).
Ventajas:
Vista general de utilización del sitio.
Minimo espacio en disco para procesamiento.
Desventajas:
Problemas para bucear en los datos.
28. OLAP
28
Permite cambios en los niveles de agregación
para múltiples dimensiones.
Generalmente asociado a un Data Warehouse.
Pros y contras
Muy flexible.
Requiere más recursos que los reportes
estáticos.
29. Data Mining
29
Itemset frecuente
La Home Page y el Carrito de Compras son
visitados juntos por el 20% de las sesiones.
Las categorias Libros y Música son visitados
juntos en 1.5% de las sesiones.
Reglas de asociación
Cuando la Home Page es visitada, el Carrito de
Compras es visto tambien el 90% del tiempo.
Cuando la categoria Libros es visitada en una
sesión, la categoria Música también es visitada
el 5% del tiempo.
30. Data Mining (cont)
30
Patrones secuenciales
Agrega una dimensión extra a las dos anteriores, el
tiempo.
El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
Clustering: basado en contenido o uso
Segmentación cliente / visitante
Categorización de páginas y productos
32. Personalización
32
Personalización Web: “personalizar la
experiencia de navegación de un usuario
ajustando el look and feel y contenido
dependiendo los intereses y necesidades del
usuario.
Motivos:
Mejorar y profundizar la relación con el cliente.
Proveer relación continua para mejorar la lealtad
del cliente.
Proveer la habilidad de medir el comportamiento
del cliente e identificar como el cliente responde a
los esfuerzos de marketing.
33. Enfoques tipicos
33
Filtros basados en reglas
Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,
agregar el link C)
Filtros colaborativos
Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
Filtros basados en contenidos
Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
Métodos hibridos
Combinación de filtros colaborativos y de contenidos.