SlideShare a Scribd company logo
1 of 19
Download to read offline
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
CenidetCenidet
Sistema Generador de Predicciones deSistema Generador de Predicciones de
Acceso para la ReplicaciAcceso para la Replicacióón de Sitios de lan de Sitios de la
Web en Dispositivos InalWeb en Dispositivos Inaláámbricosmbricos
Ing. Gabriel HernIng. Gabriel Hernáández Mndez Mééndezndez
M.C.JuanM.C.Juan Gabriel GonzGabriel Gonzáález Sernalez Serna
Ing. JuanIng. Juan Carlos olivaresCarlos olivares
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Agenda
•• IntroducciIntroduccióón.n.
•• Arquitectura.Arquitectura.
•• IdentificaciIdentificacióón de usuarios.n de usuarios.
•• IdentificaciIdentificacióón de sesiones de usuarios.n de sesiones de usuarios.
•• Mecanismos para la identificaciMecanismos para la identificacióón de usuarios yn de usuarios y
sesiones.sesiones.
•• BBúúsqueda de patrones interesantes.squeda de patrones interesantes.
•• ÍÍtems frecuentes.tems frecuentes.
•• Reglas de asociaciReglas de asociacióón.n.
•• MinerMineríía de reglas de asociacia de reglas de asociacióónn
•• Conclusiones.Conclusiones.
•• BibliografBibliografíía.a.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Introducción
• El Web Mining se refiere a la aplicación de
técnicas de Data Mining sobre la World
Wide Web.
• De esta definición se deriva que WM es
simplemente aprovechar las técnicas de
DM para obtener conocimiento de la
información disponible en Internet.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Introducción
• Existen ejemplos claros en lo resulta útil el análisis de
los datos de uso Web.
– Mejorar el diseño de la estructura de un sitio Web.
– Planeación de campañas de marketing orientadas al comercio
electrónico.
– Mejoramiento de sistemas, ya sea en la calidad de su
desempeño.
– En el caso particular de este estudio, se utilizó el análisis para
identificar patrones de acceso a recursos Web con el objetivo de
seleccionar archivos para el acaparamiento en dispositivos
inalámbricos.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Arquitectura
• Este trabajo implementa el ciclo clásico utilizado
para el descubrimiento del conocimiento
Logs de Proxy y servidor
Web Identificación de sesiones y
usuarios
Reglas, ítems frecuentes,
patrones
Conocimiento
Interesante
Pre-procesamiento
Descubrimiento de
Patrones
Análisis de Patrones
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Arquitectura
• La arquitectura utilizada se detalla en la siguiente figura.
Recolección de archivos log
Identificación del formato de
la bitácora
Limpieza de bitácoras
Fase 1. Recolección y Pre-procesamiento
Recolección de
bitácoras a nivel de
servidor Web
Recolección de
bitácoras a nivel de
servidor Proxy
Base de Datos
Repositorio
Identificación de sesiones
Fase 2. Identificación de Sesiones
Enfoque basado en
heurística
Enfoque basado en
número de peticiones
Enfoque basado en
tiempo de duración
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Base de Datos
Repositorio
Identificación de sesiones
Fase 2. Identificación de Sesiones
Enfoque basado en
heurística
Enfoque basado en
número de peticiones
Enfoque basado en
tiempo de duración
Arquitectura
Fase 3. Minería de Datos
Ítems
Frecuentes
Reglas de
Asociación
Motor de minería
Fase 4. Recolección
de estructuras
Recolección de
Estructuras Web
Almacenamiento
de estructuras
Recolector de
estructuras
Fase 6. Aplicación del
conocimiento
Mercadotecnia
Mejora de sistemas
Pre-carga de archivos
Fase 5. Análisis
gráfico de los
resultados
Visor de
Patrones de
Navegación
Visor de
Estructuras
Web
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Identificación de usuarios
• En el mejor de los casos el nombre del usuario va implícito en los archivos
log, desafortunadamente, muy pocos recursos Web solicitan la
identificación del usuario.
• En la ausencia de tal información, el nombre del host, el recurso Web
solicitado por el usuario y el agente navegador utilizado por el usuario, son
las únicas opciones que se tienen para llevar acabo la identificación de los
usuarios que visitan un sitio Web.
• La identificación de usuario sería trivial si se asume que cada uno de los
visitantes tienen un única dirección IP asignada, pero desafortunadamente
no es así, ya que la presencia de servidores Proxy por parte de los
proveedores de Internet y en redes locales enmascaran a los usuarios.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Identificación de sesiones de usuario
• Una sesión en las bitácoras de solicitudes de los servidores Web
incluye todos los recursos Web que un visitante solicitó durante su
estancia en el sitio Web.
• Desafortunadamente, las bitácoras de los servidores Web no
mantienen un control sobre los recursos solicitados durante una
visita.
• Es por ello que la identificación de usuarios y sesiones de usuarios
en bitácoras de servidores Web se tiene que realizar mediante
mecanismos específicos.
• En este trabajo se incluyen 3 mecanismos para la identificación de
usuarios y sesiones.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Mecanismos para la identificación de usuarios y
sesiones
• El primer mecanismo se enfoca en identificar usuarios y sus sesiones que
tengan un tiempo de duración determinado, es decir, una sesión inicia
cuando el usuario entra al sitio Web y termina cuando el tiempo de duración
indicado se alcanza o se dejan de registrar peticiones.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Mecanismos para la identificación de usuarios y
sesiones
• Otro mecanismo para crear sesiones es definiendo un número máximo de
recurso de pueden estar dentro de una sesión, el usuario decide el numero
de recursos que puede estar contenidos durante una sesión.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Mecanismos para la identificación de usuarios y
sesiones
• El tercer mecanismo es un algoritmo heurístico basado en la problemática
de que un visitante no siempre está un tiempo determinado en un sitio
además de que el número de recursos Web solicitados nunca está definido.
• Dicho algoritmo es capaz de identificar usuario y los recursos Web
solicitados durante su visita a un sitio Web incluyendo la identificación de
aquellos múltiples usuarios que se encuentran detrás de un servidor Proxy.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Búsqueda de patrones interesantes
• Una vez que se ha localizado las sesiones de usuarios, es posible
aplicar técnicas para el descubrimiento de patrones sobre los datos
almacenados.
• Algunos algoritmos desempeñan el análisis estadístico y otros la
minería de datos
• En este trabajo se utilizaron principalmente búsqueda de ítems
frecuentes y minería de reglas de asociación.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Ítems frecuentes
• Los conjuntos de ítems frecuentes pueden ser usados para
relacionar las páginas más frecuentes en consultarse
conjuntamente durante una sesión de usuario. Algunos ejemplos de
ítems frecuentes so como los siguientes:
– La página index.html y aspirantes.html del dominio
www.cenidet.edu.mx son accedías juntas en un 20% de las
sesiones de usuario registradas.
– El archivo minero.zip y el documento minero.doc son accedidos
juntos en un 12% de las sesiones de usuario.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Reglas de asociación
• Cualquier conjunto de ítems frecuentes puede ser tan distante como
la profundidad del árbol de navegación del sitio Web al que
corresponda.
• Un conjunto de ítems frecuentes esta dado por dos elementos (A y
B) los cuales puede llevar a dos reglas de asociación representadas
por A B y B A aunque los valores que definen el nivel de interés
de cada una de las reglas sea distinto, por ejemplo:
• Cuando la página index.html es accedida en una sesión, la página
aspirantes.html tiene un 90% de probabilidad de ser accedida en la
misma sesión.
• Cuando la página aspirante.html es accedida en una sesión, la
pagina index.html tiene un 20% de probabilidad de ser accedida en
la misma sesión.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Minería de reglas de asociación
• En el contexto de minería de uso Web el conjunto de ítems
frecuentes y reglas de asociación se refieren a un conjunto de
páginas Web que son accedidas juntas y cuya frecuencia de acceso
supera un umbral mínimo especificado representado por los valores
de soporte y confianza.
• Dependiendo del valor del umbral, el nivel de interés de las reglas
crece o decrementa y así mismo sirve para delimitar el número de
reglas generadas y permitir su manipulación y análisis.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Conclusiones
• Hemos presentado un trabajo que es capaz de encontrar reglas
interesantes a partir de archivos log generados por el servidor Web
y el servidor Proxy.
• Nuestro sistema puede ser usado por expertos en el área de
minería de uso Web y por no expertos y cualquier administrador de
sitios Web pueda analizar sus archivos log sin tener conocimientos
sobre minería de datos
• Los módulos presentados y analizados en este estudio, se han
implementado y probado en el laboratorio de sistemas distribuidos
del Centro Nacional de Investigación y Desarrollo Tecnológico.
• Este trabajo forma parte de la plataforma middleware que dará
soporte a desconexiones de usuarios en una red inalámbrica, los
patrones generados por la herramienta servirán como datos entrada
a un sistema que lleva a cabo el acaparamiento de archivos en
dispositivos inalámbricos.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
Bibliografia
• [1] Robert Cooley, Pang-Nim Tan, Jaideep Srivastava. “WebSIFT: The Web Site Information Filter System”.
University of Minnesota. 1999.
• [2] F. Masseglia, P. Poncelete, M. Teisseire. “Using Data Mining Techniques on Web Access Logs to Dynamically
Improve Hypertext Structure”. University of Versailles.
• [3] Raymon Kosala, Hendrik Blockeel, Frnak Neven. “Web Mining Research: A Survey”. Departament of Computer
Science, Katholieke Univeriteit Leuven, Belgium. 2000.
• [4] Myra Spiliopoulou, Lukas C. Faulstich. “WUM: A Web Utilization Miner“. Institut fûr Wirtschaftsinformatik,
Humboultord Berlin.
• [5] R. Cooley, B. Mobasher. “Web Mining: Information and Pattern Discovery, Department of Computer Science
and Engineering”. University of Minnesota, Minneapolis, USA, 1997.
• [6] Myra Spiliopoulou, Lucas C. Faulstich. “A Data Miner analyzing the Navigational Behaviour of Web Users”.
Institut fûr Wirtschaftsinformatik, Humboultord Berlin.
• [7] Jaideep Srivastava, R. Cooley. “Web Usage Mining: Discovery and Applications of Usage Patterns from Web
Data”. Department of Computer Science and Engineering, University of Minnesota, Minneapolis, USA.
• [8] Robert Cooley, Bamshad Mobasher, “Data preparation for Mining World Wide Web Browsing Patterns”,
Department of Computer Science, University of Minnesota, October 1998.
• [9] Rakesh Agrawal, Ramakrishnan Srikant, “Fast Algorithms for Mining Association Rules”, IBM Almaden
Research Center, San Jose CA, USA.
• [10] Rakesh Agrawal, Tomasz Imielinski, “Mining Association Rules between Sets Items in Large Databases”, IBM
Almaden Research Center, San Jose CA, USA.
• [11] Behzad Mortazavi-Asl, “Discovering and mining user web-page traversal patterns”, Simon Fraser University,
1999.
• [12] David René Valenzuela Molina, “Mecanismos para predicción de acaparamiento de datos en sistemas
cliente/servidor móviles”, CENIDET, 2002.
• [13] Robert Walker Cooley, “Web Usage Mining: Discovery and Application of Interesting Patterns from Web
Data”, Universidad de Minnesota, Mayo 2000.
CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet
¡¡¡Gracias por su atención!!!
¿Preguntas, Comentarios?

More Related Content

Viewers also liked

Les sciences autochtones
Les sciences autochtonesLes sciences autochtones
Les sciences autochtonesteedmedia
 
Política Educacion
Política EducacionPolítica Educacion
Política Educacionaricordoba
 
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ans
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ansYou'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ans
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ansMartin Basdevant
 
Ce Que Tu RepréSentes
Ce Que Tu RepréSentesCe Que Tu RepréSentes
Ce Que Tu RepréSentesguestfaa252
 
Basesprospectif
BasesprospectifBasesprospectif
Basesprospectifydau
 
Journée Clud des 100 étoiles
Journée Clud des 100 étoilesJournée Clud des 100 étoiles
Journée Clud des 100 étoilesFabrice Carlier
 
Oferta Officenet 2008 (Blog)
Oferta Officenet 2008 (Blog)Oferta Officenet 2008 (Blog)
Oferta Officenet 2008 (Blog)Juan Carlos Lucas
 
De la emergencia planetaria a la construcción de un futuro sostenible
De la emergencia planetaria a la construcción de un futuro sostenibleDe la emergencia planetaria a la construcción de un futuro sostenible
De la emergencia planetaria a la construcción de un futuro sostenibledecadaoei
 
Investissements Publicitaires Du 1er Semestre 2008
Investissements Publicitaires Du 1er Semestre 2008Investissements Publicitaires Du 1er Semestre 2008
Investissements Publicitaires Du 1er Semestre 2008test test
 
Antonio Puerta
Antonio PuertaAntonio Puerta
Antonio Puertasergiofm
 
ANSA_HOPE_in_stations_fiche_projet
ANSA_HOPE_in_stations_fiche_projetANSA_HOPE_in_stations_fiche_projet
ANSA_HOPE_in_stations_fiche_projetGaëlle Baudry
 
Solutions Durables
Solutions DurablesSolutions Durables
Solutions Durablesjumpfrance
 
Logiciel libre, principe et définitions
Logiciel libre, principe et définitionsLogiciel libre, principe et définitions
Logiciel libre, principe et définitionsBibLibre
 

Viewers also liked (19)

Les sciences autochtones
Les sciences autochtonesLes sciences autochtones
Les sciences autochtones
 
Enf Trans Sexual
Enf Trans SexualEnf Trans Sexual
Enf Trans Sexual
 
Política Educacion
Política EducacionPolítica Educacion
Política Educacion
 
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ans
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ansYou'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ans
You'll never be alone again ! Etude quali de l'écosystème digital des 18-25 ans
 
Ce Que Tu RepréSentes
Ce Que Tu RepréSentesCe Que Tu RepréSentes
Ce Que Tu RepréSentes
 
Basesprospectif
BasesprospectifBasesprospectif
Basesprospectif
 
Backtrack
BacktrackBacktrack
Backtrack
 
#25ansAPESS. L’importance de l’information, le rôle des observatoires de l’e...
#25ansAPESS. L’importance de l’information, le rôle des observatoires de l’e...#25ansAPESS. L’importance de l’information, le rôle des observatoires de l’e...
#25ansAPESS. L’importance de l’information, le rôle des observatoires de l’e...
 
Journée Clud des 100 étoiles
Journée Clud des 100 étoilesJournée Clud des 100 étoiles
Journée Clud des 100 étoiles
 
Oferta Officenet 2008 (Blog)
Oferta Officenet 2008 (Blog)Oferta Officenet 2008 (Blog)
Oferta Officenet 2008 (Blog)
 
Journée de l'Europe 2015
Journée de l'Europe 2015Journée de l'Europe 2015
Journée de l'Europe 2015
 
De la emergencia planetaria a la construcción de un futuro sostenible
De la emergencia planetaria a la construcción de un futuro sostenibleDe la emergencia planetaria a la construcción de un futuro sostenible
De la emergencia planetaria a la construcción de un futuro sostenible
 
Investissements Publicitaires Du 1er Semestre 2008
Investissements Publicitaires Du 1er Semestre 2008Investissements Publicitaires Du 1er Semestre 2008
Investissements Publicitaires Du 1er Semestre 2008
 
Antonio Puerta
Antonio PuertaAntonio Puerta
Antonio Puerta
 
FERNEY CASO
FERNEY CASOFERNEY CASO
FERNEY CASO
 
ANSA_HOPE_in_stations_fiche_projet
ANSA_HOPE_in_stations_fiche_projetANSA_HOPE_in_stations_fiche_projet
ANSA_HOPE_in_stations_fiche_projet
 
Solutions Durables
Solutions DurablesSolutions Durables
Solutions Durables
 
Logiciel libre, principe et définitions
Logiciel libre, principe et définitionsLogiciel libre, principe et définitions
Logiciel libre, principe et définitions
 
Ebooks format
Ebooks formatEbooks format
Ebooks format
 

Similar to Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalámbricos

Networking :: Siguiente mejor registro de las practicas de gestion a traves d...
Networking :: Siguiente mejor registro de las practicas de gestion a traves d...Networking :: Siguiente mejor registro de las practicas de gestion a traves d...
Networking :: Siguiente mejor registro de las practicas de gestion a traves d...goodyears8246
 
Presentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetPresentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetFacultad de Ciencias y Sistemas
 
Presentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetPresentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetFacultad de Ciencias y Sistemas
 
Auditoria de redes, herramientas CASE .pptx
Auditoria de redes, herramientas CASE .pptxAuditoria de redes, herramientas CASE .pptx
Auditoria de redes, herramientas CASE .pptxGerenciaEfran
 
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptx
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptxSoftware Libre-2023 PRESENTACIÓN SISTEMAS.pptx
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptxjanicemamani2019
 
Proyecto Semestral Base de Datos
Proyecto Semestral Base de DatosProyecto Semestral Base de Datos
Proyecto Semestral Base de DatosKristopher Marrero
 
2007_lunes8_inicio.ppt
2007_lunes8_inicio.ppt2007_lunes8_inicio.ppt
2007_lunes8_inicio.pptTICSEPERU1
 
Requerimientos.ppt
Requerimientos.pptRequerimientos.ppt
Requerimientos.pptTereBestene
 
Requerimientos funcionales y no funcionales
Requerimientos funcionales y no funcionalesRequerimientos funcionales y no funcionales
Requerimientos funcionales y no funcionalesLeidyChavarria8
 
Clase 2 - Construccion de los SI.ppt
Clase 2 - Construccion de los SI.pptClase 2 - Construccion de los SI.ppt
Clase 2 - Construccion de los SI.pptrogergrefa1
 
Tema 4 mecanismos de defensa
Tema 4 mecanismos de defensaTema 4 mecanismos de defensa
Tema 4 mecanismos de defensaMariano Galvez
 
Método de autenticación seguro de usuarios de base de datos y de sistema para...
Método de autenticación seguro de usuarios de base de datos y de sistema para...Método de autenticación seguro de usuarios de base de datos y de sistema para...
Método de autenticación seguro de usuarios de base de datos y de sistema para...Jonathan Franchesco Torres Baca
 

Similar to Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalámbricos (20)

ASP.NET MVC
ASP.NET MVCASP.NET MVC
ASP.NET MVC
 
Web usage mining tools
Web usage mining toolsWeb usage mining tools
Web usage mining tools
 
Networking :: Siguiente mejor registro de las practicas de gestion a traves d...
Networking :: Siguiente mejor registro de las practicas de gestion a traves d...Networking :: Siguiente mejor registro de las practicas de gestion a traves d...
Networking :: Siguiente mejor registro de las practicas de gestion a traves d...
 
Presentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetPresentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en Internet
 
02 captura de requisitos
02 captura de requisitos02 captura de requisitos
02 captura de requisitos
 
Presentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en InternetPresentación de Asignatura::Diseño de Sistemas en Internet
Presentación de Asignatura::Diseño de Sistemas en Internet
 
S8-DAW-2022S1.pptx
S8-DAW-2022S1.pptxS8-DAW-2022S1.pptx
S8-DAW-2022S1.pptx
 
Presentacion defensa(1)
Presentacion defensa(1)Presentacion defensa(1)
Presentacion defensa(1)
 
Auditoria de redes, herramientas CASE .pptx
Auditoria de redes, herramientas CASE .pptxAuditoria de redes, herramientas CASE .pptx
Auditoria de redes, herramientas CASE .pptx
 
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptx
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptxSoftware Libre-2023 PRESENTACIÓN SISTEMAS.pptx
Software Libre-2023 PRESENTACIÓN SISTEMAS.pptx
 
2007 lunes8 inicio
2007 lunes8 inicio2007 lunes8 inicio
2007 lunes8 inicio
 
Proyecto Semestral Base de Datos
Proyecto Semestral Base de DatosProyecto Semestral Base de Datos
Proyecto Semestral Base de Datos
 
2007_lunes8_inicio.ppt
2007_lunes8_inicio.ppt2007_lunes8_inicio.ppt
2007_lunes8_inicio.ppt
 
ing de requisitos.ppt
ing de requisitos.ppting de requisitos.ppt
ing de requisitos.ppt
 
Requerimientos.ppt
Requerimientos.pptRequerimientos.ppt
Requerimientos.ppt
 
Requerimientos funcionales y no funcionales
Requerimientos funcionales y no funcionalesRequerimientos funcionales y no funcionales
Requerimientos funcionales y no funcionales
 
Clase 2 - Construccion de los SI.ppt
Clase 2 - Construccion de los SI.pptClase 2 - Construccion de los SI.ppt
Clase 2 - Construccion de los SI.ppt
 
Appserver
AppserverAppserver
Appserver
 
Tema 4 mecanismos de defensa
Tema 4 mecanismos de defensaTema 4 mecanismos de defensa
Tema 4 mecanismos de defensa
 
Método de autenticación seguro de usuarios de base de datos y de sistema para...
Método de autenticación seguro de usuarios de base de datos y de sistema para...Método de autenticación seguro de usuarios de base de datos y de sistema para...
Método de autenticación seguro de usuarios de base de datos y de sistema para...
 

More from Juan Carlos Olivares Rojas

Analítica de Datos usando Single Board Computers
Analítica de Datos usando Single Board ComputersAnalítica de Datos usando Single Board Computers
Analítica de Datos usando Single Board ComputersJuan Carlos Olivares Rojas
 
Analitica de Datos en Dispositivos de Internet de las Cosas
Analitica de Datos en Dispositivos de Internet de las CosasAnalitica de Datos en Dispositivos de Internet de las Cosas
Analitica de Datos en Dispositivos de Internet de las CosasJuan Carlos Olivares Rojas
 
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...Juan Carlos Olivares Rojas
 
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de México
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de MéxicoPropuesta de Flexibilidad Curricular en el Tecnológico Nacional de México
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de MéxicoJuan Carlos Olivares Rojas
 
Analítica de Datos en Simulador de Redes para Sistemas de Medición Inteligente
Analítica de Datos en Simulador de Redes para Sistemas de Medición InteligenteAnalítica de Datos en Simulador de Redes para Sistemas de Medición Inteligente
Analítica de Datos en Simulador de Redes para Sistemas de Medición InteligenteJuan Carlos Olivares Rojas
 
Propuesta de Mercado Eléctrico Minorista Transactivo en México
Propuesta de Mercado Eléctrico Minorista Transactivo en MéxicoPropuesta de Mercado Eléctrico Minorista Transactivo en México
Propuesta de Mercado Eléctrico Minorista Transactivo en MéxicoJuan Carlos Olivares Rojas
 
Cyber Security on Transactions in Smart Metering Systems usign Blockchain
Cyber Security on Transactions in Smart Metering Systems usign BlockchainCyber Security on Transactions in Smart Metering Systems usign Blockchain
Cyber Security on Transactions in Smart Metering Systems usign BlockchainJuan Carlos Olivares Rojas
 
A Survey on Smart Metering Systems using Blockchain for E-mobility
A Survey on Smart Metering Systems using Blockchain for E-mobilityA Survey on Smart Metering Systems using Blockchain for E-mobility
A Survey on Smart Metering Systems using Blockchain for E-mobilityJuan Carlos Olivares Rojas
 
Detección de Movimiento usando Medidores Inteligentes
Detección de Movimiento usando Medidores Inteligentes Detección de Movimiento usando Medidores Inteligentes
Detección de Movimiento usando Medidores Inteligentes Juan Carlos Olivares Rojas
 
A Survey on Smart Metering Systems using Human-Computer Interaction
A Survey on Smart Metering Systems using Human-Computer InteractionA Survey on Smart Metering Systems using Human-Computer Interaction
A Survey on Smart Metering Systems using Human-Computer InteractionJuan Carlos Olivares Rojas
 
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...Juan Carlos Olivares Rojas
 
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...Juan Carlos Olivares Rojas
 
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...Juan Carlos Olivares Rojas
 
Internet de las Cosas en Redes Eléctricas Inteligentes
Internet de las Cosas en Redes Eléctricas InteligentesInternet de las Cosas en Redes Eléctricas Inteligentes
Internet de las Cosas en Redes Eléctricas InteligentesJuan Carlos Olivares Rojas
 
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...Juan Carlos Olivares Rojas
 
Ciber Seguridad en Redes Eléctricas Inteligentes
Ciber Seguridad en Redes Eléctricas InteligentesCiber Seguridad en Redes Eléctricas Inteligentes
Ciber Seguridad en Redes Eléctricas InteligentesJuan Carlos Olivares Rojas
 
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...Juan Carlos Olivares Rojas
 

More from Juan Carlos Olivares Rojas (20)

Ieee itmsb20
Ieee itmsb20Ieee itmsb20
Ieee itmsb20
 
Ropec20neural stick
Ropec20neural stickRopec20neural stick
Ropec20neural stick
 
Analítica de Datos usando Single Board Computers
Analítica de Datos usando Single Board ComputersAnalítica de Datos usando Single Board Computers
Analítica de Datos usando Single Board Computers
 
Analitica de Datos en Dispositivos de Internet de las Cosas
Analitica de Datos en Dispositivos de Internet de las CosasAnalitica de Datos en Dispositivos de Internet de las Cosas
Analitica de Datos en Dispositivos de Internet de las Cosas
 
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...
A Comparative Assessment of Cryptography Algorithms for Data Analytic Applica...
 
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de México
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de MéxicoPropuesta de Flexibilidad Curricular en el Tecnológico Nacional de México
Propuesta de Flexibilidad Curricular en el Tecnológico Nacional de México
 
Analítica de Datos en Simulador de Redes para Sistemas de Medición Inteligente
Analítica de Datos en Simulador de Redes para Sistemas de Medición InteligenteAnalítica de Datos en Simulador de Redes para Sistemas de Medición Inteligente
Analítica de Datos en Simulador de Redes para Sistemas de Medición Inteligente
 
Propuesta de Mercado Eléctrico Minorista Transactivo en México
Propuesta de Mercado Eléctrico Minorista Transactivo en MéxicoPropuesta de Mercado Eléctrico Minorista Transactivo en México
Propuesta de Mercado Eléctrico Minorista Transactivo en México
 
Cyber Security on Transactions in Smart Metering Systems usign Blockchain
Cyber Security on Transactions in Smart Metering Systems usign BlockchainCyber Security on Transactions in Smart Metering Systems usign Blockchain
Cyber Security on Transactions in Smart Metering Systems usign Blockchain
 
A Survey on Smart Metering Systems using Blockchain for E-mobility
A Survey on Smart Metering Systems using Blockchain for E-mobilityA Survey on Smart Metering Systems using Blockchain for E-mobility
A Survey on Smart Metering Systems using Blockchain for E-mobility
 
Detección de Movimiento usando Medidores Inteligentes
Detección de Movimiento usando Medidores Inteligentes Detección de Movimiento usando Medidores Inteligentes
Detección de Movimiento usando Medidores Inteligentes
 
A Survey on Smart Metering Systems using Human-Computer Interaction
A Survey on Smart Metering Systems using Human-Computer InteractionA Survey on Smart Metering Systems using Human-Computer Interaction
A Survey on Smart Metering Systems using Human-Computer Interaction
 
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...
Machine Learnign Model for the Detection of Electricity Energy Fraud Using an...
 
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...
Forecasting Electricity Consumption Using Weather Data in Edge-Fog-Cloud Data...
 
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...
Aplicacion de Tecnicas de UX en el Desarrollo de un Portal de un Sistema de M...
 
Internet de las Cosas en Redes Eléctricas Inteligentes
Internet de las Cosas en Redes Eléctricas InteligentesInternet de las Cosas en Redes Eléctricas Inteligentes
Internet de las Cosas en Redes Eléctricas Inteligentes
 
Estrategias didacticas
Estrategias didacticasEstrategias didacticas
Estrategias didacticas
 
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...
Optimización de la Eficiencia Energética en los Hogares utilizando una Arquit...
 
Ciber Seguridad en Redes Eléctricas Inteligentes
Ciber Seguridad en Redes Eléctricas InteligentesCiber Seguridad en Redes Eléctricas Inteligentes
Ciber Seguridad en Redes Eléctricas Inteligentes
 
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...
Estudio de Vulnerabilidad de Protocolos y Redes de Comunicación para Medidore...
 

Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalámbricos

  • 1. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet CenidetCenidet Sistema Generador de Predicciones deSistema Generador de Predicciones de Acceso para la ReplicaciAcceso para la Replicacióón de Sitios de lan de Sitios de la Web en Dispositivos InalWeb en Dispositivos Inaláámbricosmbricos Ing. Gabriel HernIng. Gabriel Hernáández Mndez Mééndezndez M.C.JuanM.C.Juan Gabriel GonzGabriel Gonzáález Sernalez Serna Ing. JuanIng. Juan Carlos olivaresCarlos olivares
  • 2. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Agenda •• IntroducciIntroduccióón.n. •• Arquitectura.Arquitectura. •• IdentificaciIdentificacióón de usuarios.n de usuarios. •• IdentificaciIdentificacióón de sesiones de usuarios.n de sesiones de usuarios. •• Mecanismos para la identificaciMecanismos para la identificacióón de usuarios yn de usuarios y sesiones.sesiones. •• BBúúsqueda de patrones interesantes.squeda de patrones interesantes. •• ÍÍtems frecuentes.tems frecuentes. •• Reglas de asociaciReglas de asociacióón.n. •• MinerMineríía de reglas de asociacia de reglas de asociacióónn •• Conclusiones.Conclusiones. •• BibliografBibliografíía.a.
  • 3. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Introducción • El Web Mining se refiere a la aplicación de técnicas de Data Mining sobre la World Wide Web. • De esta definición se deriva que WM es simplemente aprovechar las técnicas de DM para obtener conocimiento de la información disponible en Internet.
  • 4. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Introducción • Existen ejemplos claros en lo resulta útil el análisis de los datos de uso Web. – Mejorar el diseño de la estructura de un sitio Web. – Planeación de campañas de marketing orientadas al comercio electrónico. – Mejoramiento de sistemas, ya sea en la calidad de su desempeño. – En el caso particular de este estudio, se utilizó el análisis para identificar patrones de acceso a recursos Web con el objetivo de seleccionar archivos para el acaparamiento en dispositivos inalámbricos.
  • 5. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Arquitectura • Este trabajo implementa el ciclo clásico utilizado para el descubrimiento del conocimiento Logs de Proxy y servidor Web Identificación de sesiones y usuarios Reglas, ítems frecuentes, patrones Conocimiento Interesante Pre-procesamiento Descubrimiento de Patrones Análisis de Patrones
  • 6. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Arquitectura • La arquitectura utilizada se detalla en la siguiente figura. Recolección de archivos log Identificación del formato de la bitácora Limpieza de bitácoras Fase 1. Recolección y Pre-procesamiento Recolección de bitácoras a nivel de servidor Web Recolección de bitácoras a nivel de servidor Proxy Base de Datos Repositorio Identificación de sesiones Fase 2. Identificación de Sesiones Enfoque basado en heurística Enfoque basado en número de peticiones Enfoque basado en tiempo de duración
  • 7. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Base de Datos Repositorio Identificación de sesiones Fase 2. Identificación de Sesiones Enfoque basado en heurística Enfoque basado en número de peticiones Enfoque basado en tiempo de duración Arquitectura Fase 3. Minería de Datos Ítems Frecuentes Reglas de Asociación Motor de minería Fase 4. Recolección de estructuras Recolección de Estructuras Web Almacenamiento de estructuras Recolector de estructuras Fase 6. Aplicación del conocimiento Mercadotecnia Mejora de sistemas Pre-carga de archivos Fase 5. Análisis gráfico de los resultados Visor de Patrones de Navegación Visor de Estructuras Web
  • 8. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Identificación de usuarios • En el mejor de los casos el nombre del usuario va implícito en los archivos log, desafortunadamente, muy pocos recursos Web solicitan la identificación del usuario. • En la ausencia de tal información, el nombre del host, el recurso Web solicitado por el usuario y el agente navegador utilizado por el usuario, son las únicas opciones que se tienen para llevar acabo la identificación de los usuarios que visitan un sitio Web. • La identificación de usuario sería trivial si se asume que cada uno de los visitantes tienen un única dirección IP asignada, pero desafortunadamente no es así, ya que la presencia de servidores Proxy por parte de los proveedores de Internet y en redes locales enmascaran a los usuarios.
  • 9. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Identificación de sesiones de usuario • Una sesión en las bitácoras de solicitudes de los servidores Web incluye todos los recursos Web que un visitante solicitó durante su estancia en el sitio Web. • Desafortunadamente, las bitácoras de los servidores Web no mantienen un control sobre los recursos solicitados durante una visita. • Es por ello que la identificación de usuarios y sesiones de usuarios en bitácoras de servidores Web se tiene que realizar mediante mecanismos específicos. • En este trabajo se incluyen 3 mecanismos para la identificación de usuarios y sesiones.
  • 10. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Mecanismos para la identificación de usuarios y sesiones • El primer mecanismo se enfoca en identificar usuarios y sus sesiones que tengan un tiempo de duración determinado, es decir, una sesión inicia cuando el usuario entra al sitio Web y termina cuando el tiempo de duración indicado se alcanza o se dejan de registrar peticiones.
  • 11. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Mecanismos para la identificación de usuarios y sesiones • Otro mecanismo para crear sesiones es definiendo un número máximo de recurso de pueden estar dentro de una sesión, el usuario decide el numero de recursos que puede estar contenidos durante una sesión.
  • 12. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Mecanismos para la identificación de usuarios y sesiones • El tercer mecanismo es un algoritmo heurístico basado en la problemática de que un visitante no siempre está un tiempo determinado en un sitio además de que el número de recursos Web solicitados nunca está definido. • Dicho algoritmo es capaz de identificar usuario y los recursos Web solicitados durante su visita a un sitio Web incluyendo la identificación de aquellos múltiples usuarios que se encuentran detrás de un servidor Proxy.
  • 13. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Búsqueda de patrones interesantes • Una vez que se ha localizado las sesiones de usuarios, es posible aplicar técnicas para el descubrimiento de patrones sobre los datos almacenados. • Algunos algoritmos desempeñan el análisis estadístico y otros la minería de datos • En este trabajo se utilizaron principalmente búsqueda de ítems frecuentes y minería de reglas de asociación.
  • 14. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Ítems frecuentes • Los conjuntos de ítems frecuentes pueden ser usados para relacionar las páginas más frecuentes en consultarse conjuntamente durante una sesión de usuario. Algunos ejemplos de ítems frecuentes so como los siguientes: – La página index.html y aspirantes.html del dominio www.cenidet.edu.mx son accedías juntas en un 20% de las sesiones de usuario registradas. – El archivo minero.zip y el documento minero.doc son accedidos juntos en un 12% de las sesiones de usuario.
  • 15. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Reglas de asociación • Cualquier conjunto de ítems frecuentes puede ser tan distante como la profundidad del árbol de navegación del sitio Web al que corresponda. • Un conjunto de ítems frecuentes esta dado por dos elementos (A y B) los cuales puede llevar a dos reglas de asociación representadas por A B y B A aunque los valores que definen el nivel de interés de cada una de las reglas sea distinto, por ejemplo: • Cuando la página index.html es accedida en una sesión, la página aspirantes.html tiene un 90% de probabilidad de ser accedida en la misma sesión. • Cuando la página aspirante.html es accedida en una sesión, la pagina index.html tiene un 20% de probabilidad de ser accedida en la misma sesión.
  • 16. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Minería de reglas de asociación • En el contexto de minería de uso Web el conjunto de ítems frecuentes y reglas de asociación se refieren a un conjunto de páginas Web que son accedidas juntas y cuya frecuencia de acceso supera un umbral mínimo especificado representado por los valores de soporte y confianza. • Dependiendo del valor del umbral, el nivel de interés de las reglas crece o decrementa y así mismo sirve para delimitar el número de reglas generadas y permitir su manipulación y análisis.
  • 17. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Conclusiones • Hemos presentado un trabajo que es capaz de encontrar reglas interesantes a partir de archivos log generados por el servidor Web y el servidor Proxy. • Nuestro sistema puede ser usado por expertos en el área de minería de uso Web y por no expertos y cualquier administrador de sitios Web pueda analizar sus archivos log sin tener conocimientos sobre minería de datos • Los módulos presentados y analizados en este estudio, se han implementado y probado en el laboratorio de sistemas distribuidos del Centro Nacional de Investigación y Desarrollo Tecnológico. • Este trabajo forma parte de la plataforma middleware que dará soporte a desconexiones de usuarios en una red inalámbrica, los patrones generados por la herramienta servirán como datos entrada a un sistema que lleva a cabo el acaparamiento de archivos en dispositivos inalámbricos.
  • 18. CenidetCenidetCenidetCenidetCenidetCenidetCenidetCenidet Bibliografia • [1] Robert Cooley, Pang-Nim Tan, Jaideep Srivastava. “WebSIFT: The Web Site Information Filter System”. University of Minnesota. 1999. • [2] F. Masseglia, P. Poncelete, M. Teisseire. “Using Data Mining Techniques on Web Access Logs to Dynamically Improve Hypertext Structure”. University of Versailles. • [3] Raymon Kosala, Hendrik Blockeel, Frnak Neven. “Web Mining Research: A Survey”. Departament of Computer Science, Katholieke Univeriteit Leuven, Belgium. 2000. • [4] Myra Spiliopoulou, Lukas C. Faulstich. “WUM: A Web Utilization Miner“. Institut fûr Wirtschaftsinformatik, Humboultord Berlin. • [5] R. Cooley, B. Mobasher. “Web Mining: Information and Pattern Discovery, Department of Computer Science and Engineering”. University of Minnesota, Minneapolis, USA, 1997. • [6] Myra Spiliopoulou, Lucas C. Faulstich. “A Data Miner analyzing the Navigational Behaviour of Web Users”. Institut fûr Wirtschaftsinformatik, Humboultord Berlin. • [7] Jaideep Srivastava, R. Cooley. “Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data”. Department of Computer Science and Engineering, University of Minnesota, Minneapolis, USA. • [8] Robert Cooley, Bamshad Mobasher, “Data preparation for Mining World Wide Web Browsing Patterns”, Department of Computer Science, University of Minnesota, October 1998. • [9] Rakesh Agrawal, Ramakrishnan Srikant, “Fast Algorithms for Mining Association Rules”, IBM Almaden Research Center, San Jose CA, USA. • [10] Rakesh Agrawal, Tomasz Imielinski, “Mining Association Rules between Sets Items in Large Databases”, IBM Almaden Research Center, San Jose CA, USA. • [11] Behzad Mortazavi-Asl, “Discovering and mining user web-page traversal patterns”, Simon Fraser University, 1999. • [12] David René Valenzuela Molina, “Mecanismos para predicción de acaparamiento de datos en sistemas cliente/servidor móviles”, CENIDET, 2002. • [13] Robert Walker Cooley, “Web Usage Mining: Discovery and Application of Interesting Patterns from Web Data”, Universidad de Minnesota, Mayo 2000.