SlideShare a Scribd company logo
1 of 33
WEB MINING
Web Usage MiningJuan Azcurra
Introducción
2
 Web Usage Mining: descubrimiento automático
de patrones en los clicks realizados sobre un
sitio Web y los datos recolectados o generados
como resultado de las interacciones de los
usuarios con uno o más sitios Web.
 Objetivo: analizar los patrones de
comportamiento de los usuarios interactuando
con un sitio Web.
 Los patrones descubiertos son generalmente
representados como colecciones de páginas,
objetos o recursos que son accedidos por un
grupo de usuarios con un objetivo en común.
Introducción
3
 Los datos utilizados para Web Usage Mining:
 Logs de servidores web.
 Contenido del sitio.
 Datos acerca de los visitantes, obtenidos de fuentes
externas.
 Datos de otras aplicaciones.
 No siempre están disponibles todos.
 Cuando si están, deben ser integrados.
Logs de servidores Web
4
1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://dataminingresources.blogspot.com/
2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727)
http://maya.cs.depaul.edu/~classes/cs589/papers.html
3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200
318814 HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1)
http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey
4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/
5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027
HTTP/1.1 maya.cs.depaul.edu
Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)
http://maya.cs.depaul.edu/~classes/cs480/announce.html
Proceso de Web Usage Mining
5
Fase de preparación de datos
6
Preprocesamiento de datos
7
Limpieza de datos
8
 Data cleaning / cleansing
 Eliminar referencias irrelevantes y campos en
logs
 Eliminar referencias a navegaciones de robots
 Eliminar referencias erroneas
 Agregar referencias faltanets debido a caching
(una vez realizada la sesionización)
Identificar sesiones
(sesionización)9
 En el análisis de uso de la Web, los datos están
en sesiones de visitas al sitio: la actividad
realizada por un usuario desde el momento que
ingresa al sitio hasta que lo deja.
 Dificultad para obtener datos confiables de uso
debido a servidores proxy y aplicaciones de
ocultamiento, referencias pérdidas debido a
cache y la imposibilidad de los servidores de
distinguir entre diferentes visitas.
Estrategias de sesionización
10
Heurísticas de sesionización
11
Ejemplo de sesionización
12
Identificación de usuario
13
Ejemplo de identificación de
usuario14
PageView
15
 Un pageview es una representación agregada
de una colección de páginas Web
contribuyendo a visualizar en el navegador del
usuario el resultado de una acción simple (un
click).
 Conceptualmente, cada pageview puede ser
visualizado como una colección de objetos o
recursos representando un especifico “evento
de usuario”, ej: leyendo un artículo, mirando una
páginad e producto o agregando un producto al
carrito de compras.
Path completion
16
 Caché en el cliente o servidor puede derivar en
referencias de accesos perdidas para las
páginas que se encuentran en el caché.
 Por ejemplo:
 Si un usuario regresa a una página A durante la
misma sesión, probablemente podrá ver la
versión descargada anteriormente de A que se
encuentra en el caché de su computadora y por
lo tanto no se vuelve a solicitar al servidor.
 Esto ocasiona que la segunda referencia a A no
sea registrada en el log del servidor Web.
Referencias perdidas por caché
17
Path completion
18
 El problema es inferir referencias perdidas
debido a uso de caché.
 Conocer caminos de navegación efectivos
requiere conocimiento extensivo de la
estructura de links dentro del sitio.
 Información de referencia en los logs del
servidor puede ser usada en la desambiguación
de inferencias de caminos.
Integración con eventos de e-
commerce19
 Puede ser orientado a productos o visitas
 Utilizados para trackear y analizar conversión
de navegadores a compradores.
 La mayor dificultad para eventos de e-commerce
es definir e implementar los eventos para un sitio.
 Otro desafio importante es la integración exitosa
de los datos obtenidos de la navegación.
Eventos orientados a producto
20
 Vista de producto
 Ocurre cada vez que un producto aparece en una
visita a una página.
 Tipos típicos: imagen, link, texto.
 Click a productos
 Ocurre cada vez que un usuario hace click en un
producto para obtener mayor información.
Eventos orientados a productos
21
 Cambios en carritos de compra
 Agregar o eliminar productos del carrito
 Modificar productos en el carrito (cantidad u otra
caracteristica)
 Compra de producto u oferta
 Los eventos de compra ocurren separadamente
para cada producto en el carrito de compras.
 Los sitios de subastas pueden rastrear eventos
de oferta además de las compras de productos.
Proceso de Web Usage Mining
22
Integración con el contenido del
sitio23
Integración con la estructura de
links24
Análisis de e-commerce
25
Análisis de sesiones
26
 Forma más simple de análisis: examinar
inviduos o grupos de individuos desde el log del
server y datos de e-commerce.
 Ventajas:
 Obtener información sobre los clientes tipicos.
 Trazar problemas específicos en el sitio.
 Desventajas:
 Volumen alto de datos.
 Dificil de generalizar.
Análisis de sesiones: reportes
agregados27
 Forma más común de análisis
 Los datos son agregados a niveles
predeterminados (días o sesiones).
 Ventajas:
 Vista general de utilización del sitio.
 Minimo espacio en disco para procesamiento.
 Desventajas:
 Problemas para bucear en los datos.
OLAP
28
 Permite cambios en los niveles de agregación
para múltiples dimensiones.
 Generalmente asociado a un Data Warehouse.
 Pros y contras
 Muy flexible.
 Requiere más recursos que los reportes
estáticos.
Data Mining
29
 Itemset frecuente
 La Home Page y el Carrito de Compras son
visitados juntos por el 20% de las sesiones.
 Las categorias Libros y Música son visitados
juntos en 1.5% de las sesiones.
 Reglas de asociación
 Cuando la Home Page es visitada, el Carrito de
Compras es visto tambien el 90% del tiempo.
 Cuando la categoria Libros es visitada en una
sesión, la categoria Música también es visitada
el 5% del tiempo.
Data Mining (cont)
30
 Patrones secuenciales
 Agrega una dimensión extra a las dos anteriores, el
tiempo.
 El x% del tiempo, cuando A aparece en una
transacción, B también aparece.
 Ejemplo: La página PlayStation PSP Vita es visitada
despues de PlayStation PSP el 50% de las veces,
esto ocurre en el 5% de las sesiones.
 Clustering: basado en contenido o uso
 Segmentación cliente / visitante
 Categorización de páginas y productos
Aplicaciones de Data Mining
31
Personalización
32
 Personalización Web: “personalizar la
experiencia de navegación de un usuario
ajustando el look and feel y contenido
dependiendo los intereses y necesidades del
usuario.
 Motivos:
 Mejorar y profundizar la relación con el cliente.
 Proveer relación continua para mejorar la lealtad
del cliente.
 Proveer la habilidad de medir el comportamiento
del cliente e identificar como el cliente responde a
los esfuerzos de marketing.
Enfoques tipicos
33
 Filtros basados en reglas
 Proveer contenido basado en reglas predefinidas (ej.,
si el usuario hace click en A y utiliza X navegador,
agregar el link C)
 Filtros colaborativos
 Brindar recomendaciones a los usuarios basado en
las respuestas de otros usuarios similares.
 Filtros basados en contenidos
 Analizar las páginas que visita el usuario y
recomendar aquellas con contenido similar.
 Métodos hibridos
 Combinación de filtros colaborativos y de contenidos.

More Related Content

Viewers also liked

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure miningAtul Khanna
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)Amir Fahmideh
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation FinalEr. Jagrat Gupta
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?Sthepany Nevado Cordova
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoGuillermo Campolongo
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networkingeoshea
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelamanuel alfredo rodriguez
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartlottexselxqbod
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentSoumitra Kansabanik
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDcdebo18
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondenteLourdes Pereira
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebecguest2f53b8
 

Viewers also liked (20)

Discovering knowledge using web structure mining
Discovering knowledge using web structure miningDiscovering knowledge using web structure mining
Discovering knowledge using web structure mining
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web mining (structure mining)
Web mining (structure mining)Web mining (structure mining)
Web mining (structure mining)
 
Web content mining
Web content miningWeb content mining
Web content mining
 
Web Mining Presentation Final
Web Mining Presentation FinalWeb Mining Presentation Final
Web Mining Presentation Final
 
¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?¿Cómo el turismo aprovecha el cambio climático?
¿Cómo el turismo aprovecha el cambio climático?
 
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermoUrgencias u.n.cuyo 2013 dr campolongo, guillermo
Urgencias u.n.cuyo 2013 dr campolongo, guillermo
 
Unit 16 tractors
Unit 16 tractorsUnit 16 tractors
Unit 16 tractors
 
Portafolio 1
Portafolio 1Portafolio 1
Portafolio 1
 
Web 2.0: It's All about Social Networking
Web 2.0: It's All about Social NetworkingWeb 2.0: It's All about Social Networking
Web 2.0: It's All about Social Networking
 
virus informatico
virus informaticovirus informatico
virus informatico
 
Separacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuelaSeparacion del hogar conyugal abogado en venezuela
Separacion del hogar conyugal abogado en venezuela
 
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmartIndoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
Indoor Tanning Eye Safety - Eye M.D.-approved information from EyeSmart
 
Human Capital March 2016
Human Capital March 2016Human Capital March 2016
Human Capital March 2016
 
Montaje
MontajeMontaje
Montaje
 
A mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investmentA mdel to estimate the value of the option to abandon a project or investment
A mdel to estimate the value of the option to abandon a project or investment
 
Debora 4ºDc
Debora 4ºDcDebora 4ºDc
Debora 4ºDc
 
Edital seleção-correspondente
Edital seleção-correspondenteEdital seleção-correspondente
Edital seleção-correspondente
 
Pres Web2.0
Pres Web2.0Pres Web2.0
Pres Web2.0
 
Le 400eme De Quebec
Le 400eme De QuebecLe 400eme De Quebec
Le 400eme De Quebec
 

Similar to Web Usage Mining - Temas Avanzados

Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxChristian Carrasco
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteOveralia
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteGuillermo Vilarroig
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsEider E Iñaki
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesSilvia Reyes
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analyticsRaul HAV
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en InternetJavier Espadas
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Javier Espadas
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo Multiplica
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Justo Ibarra
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideJuan C. Camus
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social mediasmiroxa-25
 

Similar to Web Usage Mining - Temas Avanzados (20)

Curso de Google Analytics
Curso de Google AnalyticsCurso de Google Analytics
Curso de Google Analytics
 
Curso de Google analytics
Curso de Google analyticsCurso de Google analytics
Curso de Google analytics
 
Web Analytics | Clase 2/4
Web Analytics | Clase 2/4Web Analytics | Clase 2/4
Web Analytics | Clase 2/4
 
Google analytics
Google analyticsGoogle analytics
Google analytics
 
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptxClase Comercio Electrónico GOOGLE ANALYTICS.pptx
Clase Comercio Electrónico GOOGLE ANALYTICS.pptx
 
Analítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicanteAnalítica Web con Google analytics universidad_alicante
Analítica Web con Google analytics universidad_alicante
 
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de AlicanteCharla sobre Google Analytics y Analítica Web en la Universidad de Alicante
Charla sobre Google Analytics y Analítica Web en la Universidad de Alicante
 
Configuración analítica con Universal Analytics
Configuración analítica con Universal AnalyticsConfiguración analítica con Universal Analytics
Configuración analítica con Universal Analytics
 
Porqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia ReyesPorqué tener un blog corporativo / Silvia Reyes
Porqué tener un blog corporativo / Silvia Reyes
 
Google Analytics.pdf
Google Analytics.pdfGoogle Analytics.pdf
Google Analytics.pdf
 
Monitorización y Analytics
Monitorización y AnalyticsMonitorización y Analytics
Monitorización y Analytics
 
Web 2.0 (odp)
Web 2.0 (odp)Web 2.0 (odp)
Web 2.0 (odp)
 
Web 2[1].0
Web 2[1].0Web 2[1].0
Web 2[1].0
 
Web metrics and analytics
Web metrics and analyticsWeb metrics and analytics
Web metrics and analytics
 
Posicionamiento en Internet
Posicionamiento en InternetPosicionamiento en Internet
Posicionamiento en Internet
 
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
Posicionamiento en Internet. Máster en Tecnologías Web de la Universidad de C...
 
#Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo #Uxday. Medir UX desde Analytics por Felipe Carrillo
#Uxday. Medir UX desde Analytics por Felipe Carrillo
 
Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1Curso Avanzado Google Analytics Parte 1
Curso Avanzado Google Analytics Parte 1
 
Redes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mideRedes Sociales: qué se mide y cómo se mide
Redes Sociales: qué se mide y cómo se mide
 
Google analytics osea-social medias
Google analytics osea-social mediasGoogle analytics osea-social medias
Google analytics osea-social medias
 

More from Juan Azcurra

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosJuan Azcurra
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosJuan Azcurra
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosJuan Azcurra
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business IntelligenceJuan Azcurra
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWKJuan Azcurra
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information RetrievalJuan Azcurra
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosJuan Azcurra
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web MiningJuan Azcurra
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big DataJuan Azcurra
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text MiningJuan Azcurra
 

More from Juan Azcurra (16)

Gestión de la Calidad en Proyectos
Gestión de la Calidad en ProyectosGestión de la Calidad en Proyectos
Gestión de la Calidad en Proyectos
 
Gestión del Alcance en los Proyectos
Gestión del Alcance en los ProyectosGestión del Alcance en los Proyectos
Gestión del Alcance en los Proyectos
 
Fundamentos de Administración de Proyectos
Fundamentos de Administración de ProyectosFundamentos de Administración de Proyectos
Fundamentos de Administración de Proyectos
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
Introducción a Business Intelligence
Introducción a Business IntelligenceIntroducción a Business Intelligence
Introducción a Business Intelligence
 
NoSQL - MongoDB
NoSQL - MongoDBNoSQL - MongoDB
NoSQL - MongoDB
 
Text mining
Text miningText mining
Text mining
 
Opinion mining
Opinion miningOpinion mining
Opinion mining
 
Web Link Analysis
Web Link AnalysisWeb Link Analysis
Web Link Analysis
 
Web Log Analysis - AWK
Web Log Analysis - AWKWeb Log Analysis - AWK
Web Log Analysis - AWK
 
Web Usage Mining
Web Usage MiningWeb Usage Mining
Web Usage Mining
 
Web Content Mining - Information Retrieval
Web Content Mining - Information RetrievalWeb Content Mining - Information Retrieval
Web Content Mining - Information Retrieval
 
Web Content Mining - Datos estructurados
Web Content Mining - Datos estructuradosWeb Content Mining - Datos estructurados
Web Content Mining - Datos estructurados
 
Introducción a Web Mining
Introducción a Web MiningIntroducción a Web Mining
Introducción a Web Mining
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
Introducción a Text Mining
Introducción a Text MiningIntroducción a Text Mining
Introducción a Text Mining
 

Recently uploaded

Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdfsharitcalderon04
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Marketing BRANDING
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
La tecnología y su impacto en la sociedad
La tecnología y su impacto en la sociedadLa tecnología y su impacto en la sociedad
La tecnología y su impacto en la sociedadEduardoSantiagoSegov
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 

Recently uploaded (20)

Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdf
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
La tecnología y su impacto en la sociedad
La tecnología y su impacto en la sociedadLa tecnología y su impacto en la sociedad
La tecnología y su impacto en la sociedad
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 

Web Usage Mining - Temas Avanzados

  • 1. WEB MINING Web Usage MiningJuan Azcurra
  • 2. Introducción 2  Web Usage Mining: descubrimiento automático de patrones en los clicks realizados sobre un sitio Web y los datos recolectados o generados como resultado de las interacciones de los usuarios con uno o más sitios Web.  Objetivo: analizar los patrones de comportamiento de los usuarios interactuando con un sitio Web.  Los patrones descubiertos son generalmente representados como colecciones de páginas, objetos o recursos que son accedidos por un grupo de usuarios con un objetivo en común.
  • 3. Introducción 3  Los datos utilizados para Web Usage Mining:  Logs de servidores web.  Contenido del sitio.  Datos acerca de los visitantes, obtenidos de fuentes externas.  Datos de otras aplicaciones.  No siempre están disponibles todos.  Cuando si están, deben ser integrados.
  • 4. Logs de servidores Web 4 1 2006-02-01 00:08:43 1.2.3.4 - GET /classes/cs589/papers.html - 200 9221 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://dataminingresources.blogspot.com/ 2 2006-02-01 00:08:46 1.2.3.4 - GET /classes/cs589/papers/cms-tai.pdf - 200 4096 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://maya.cs.depaul.edu/~classes/cs589/papers.html 3 2006-02-01 08:01:28 2.3.4.5 - GET /classes/ds575/papers/hyperlink.pdf - 200 318814 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1) http://www.google.com/search?hl=en&lr=&q=hyperlink+analysis+for+the+web+survey 4 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/announce.html - 200 3794 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/ 5 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/styles2.css - 200 1636 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html 6 2006-02-02 19:34:45 3.4.5.6 - GET /classes/cs480/header.gif - 200 6027 HTTP/1.1 maya.cs.depaul.edu Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) http://maya.cs.depaul.edu/~classes/cs480/announce.html
  • 5. Proceso de Web Usage Mining 5
  • 6. Fase de preparación de datos 6
  • 8. Limpieza de datos 8  Data cleaning / cleansing  Eliminar referencias irrelevantes y campos en logs  Eliminar referencias a navegaciones de robots  Eliminar referencias erroneas  Agregar referencias faltanets debido a caching (una vez realizada la sesionización)
  • 9. Identificar sesiones (sesionización)9  En el análisis de uso de la Web, los datos están en sesiones de visitas al sitio: la actividad realizada por un usuario desde el momento que ingresa al sitio hasta que lo deja.  Dificultad para obtener datos confiables de uso debido a servidores proxy y aplicaciones de ocultamiento, referencias pérdidas debido a cache y la imposibilidad de los servidores de distinguir entre diferentes visitas.
  • 15. PageView 15  Un pageview es una representación agregada de una colección de páginas Web contribuyendo a visualizar en el navegador del usuario el resultado de una acción simple (un click).  Conceptualmente, cada pageview puede ser visualizado como una colección de objetos o recursos representando un especifico “evento de usuario”, ej: leyendo un artículo, mirando una páginad e producto o agregando un producto al carrito de compras.
  • 16. Path completion 16  Caché en el cliente o servidor puede derivar en referencias de accesos perdidas para las páginas que se encuentran en el caché.  Por ejemplo:  Si un usuario regresa a una página A durante la misma sesión, probablemente podrá ver la versión descargada anteriormente de A que se encuentra en el caché de su computadora y por lo tanto no se vuelve a solicitar al servidor.  Esto ocasiona que la segunda referencia a A no sea registrada en el log del servidor Web.
  • 18. Path completion 18  El problema es inferir referencias perdidas debido a uso de caché.  Conocer caminos de navegación efectivos requiere conocimiento extensivo de la estructura de links dentro del sitio.  Información de referencia en los logs del servidor puede ser usada en la desambiguación de inferencias de caminos.
  • 19. Integración con eventos de e- commerce19  Puede ser orientado a productos o visitas  Utilizados para trackear y analizar conversión de navegadores a compradores.  La mayor dificultad para eventos de e-commerce es definir e implementar los eventos para un sitio.  Otro desafio importante es la integración exitosa de los datos obtenidos de la navegación.
  • 20. Eventos orientados a producto 20  Vista de producto  Ocurre cada vez que un producto aparece en una visita a una página.  Tipos típicos: imagen, link, texto.  Click a productos  Ocurre cada vez que un usuario hace click en un producto para obtener mayor información.
  • 21. Eventos orientados a productos 21  Cambios en carritos de compra  Agregar o eliminar productos del carrito  Modificar productos en el carrito (cantidad u otra caracteristica)  Compra de producto u oferta  Los eventos de compra ocurren separadamente para cada producto en el carrito de compras.  Los sitios de subastas pueden rastrear eventos de oferta además de las compras de productos.
  • 22. Proceso de Web Usage Mining 22
  • 23. Integración con el contenido del sitio23
  • 24. Integración con la estructura de links24
  • 26. Análisis de sesiones 26  Forma más simple de análisis: examinar inviduos o grupos de individuos desde el log del server y datos de e-commerce.  Ventajas:  Obtener información sobre los clientes tipicos.  Trazar problemas específicos en el sitio.  Desventajas:  Volumen alto de datos.  Dificil de generalizar.
  • 27. Análisis de sesiones: reportes agregados27  Forma más común de análisis  Los datos son agregados a niveles predeterminados (días o sesiones).  Ventajas:  Vista general de utilización del sitio.  Minimo espacio en disco para procesamiento.  Desventajas:  Problemas para bucear en los datos.
  • 28. OLAP 28  Permite cambios en los niveles de agregación para múltiples dimensiones.  Generalmente asociado a un Data Warehouse.  Pros y contras  Muy flexible.  Requiere más recursos que los reportes estáticos.
  • 29. Data Mining 29  Itemset frecuente  La Home Page y el Carrito de Compras son visitados juntos por el 20% de las sesiones.  Las categorias Libros y Música son visitados juntos en 1.5% de las sesiones.  Reglas de asociación  Cuando la Home Page es visitada, el Carrito de Compras es visto tambien el 90% del tiempo.  Cuando la categoria Libros es visitada en una sesión, la categoria Música también es visitada el 5% del tiempo.
  • 30. Data Mining (cont) 30  Patrones secuenciales  Agrega una dimensión extra a las dos anteriores, el tiempo.  El x% del tiempo, cuando A aparece en una transacción, B también aparece.  Ejemplo: La página PlayStation PSP Vita es visitada despues de PlayStation PSP el 50% de las veces, esto ocurre en el 5% de las sesiones.  Clustering: basado en contenido o uso  Segmentación cliente / visitante  Categorización de páginas y productos
  • 31. Aplicaciones de Data Mining 31
  • 32. Personalización 32  Personalización Web: “personalizar la experiencia de navegación de un usuario ajustando el look and feel y contenido dependiendo los intereses y necesidades del usuario.  Motivos:  Mejorar y profundizar la relación con el cliente.  Proveer relación continua para mejorar la lealtad del cliente.  Proveer la habilidad de medir el comportamiento del cliente e identificar como el cliente responde a los esfuerzos de marketing.
  • 33. Enfoques tipicos 33  Filtros basados en reglas  Proveer contenido basado en reglas predefinidas (ej., si el usuario hace click en A y utiliza X navegador, agregar el link C)  Filtros colaborativos  Brindar recomendaciones a los usuarios basado en las respuestas de otros usuarios similares.  Filtros basados en contenidos  Analizar las páginas que visita el usuario y recomendar aquellas con contenido similar.  Métodos hibridos  Combinación de filtros colaborativos y de contenidos.