Yahoo | Búsquedas: su uso para diseñar un mejor sitio - Presentation Transcript
Cómo saber qué quieren las personas
a través de las búsquedas y
su impacto en el diseño de sitios Web
Ricardo Baeza Yates
VP, Yahoo! Research
Barcelona, España & Santiago, Chile
2
Agenda
Introducción
Conceptos de Diseño de Sitios Web
Plataforma SearchMonkey de Yahoo!
Diseño dirigido por el Usuario
Minería Web
Optimizando un Sitio
Minería de Consultas 3
Desafíos en la Web
Entendiendo la Web
• El repositorio público de datos más grande que existe
( más de 12 mil millones de páginas estáticas?)
• Hoy hay más de 176 millones de servidores Web
(49% Apache, 36% Microsoft)
• Red altamente conectada con distribución de Zipf en los
enlaces y en muchas otras medidas
x–
Auto-similar &
Log
Auto-organizada
Log
11
Tendencias
• Web 2.0, redes sociales
– Fragmentación de la propiedad del contenido
– Fragmentación del acceso (visitas, tema)
– Fragmentación del permiso de acceso
• Incremento de la Web semántica
– RDF, microformatos, metadatos en general
• Aumento de la publicidad en Internet asociada a búsquedas
12
Web 2.0 en Yahoo!
Sitios sociales tuvieron 115M visitantes únicos, 56M “menores de 35”.
• Yahoo! Groups 8 millones,, 1 de cada 10 usuarios
• Del.icio.us 2 millones de usuarios
• Flickr 1 million de fotos al día
• Yahoo! Respuestas 100M usuarios únicos,, 250M respuestas
• Messenger 85M usuarios únicos
(dat os del 2007)
Publicidad
2011
2012
2011
2007
Las Diferentes Facetas de la Web
15
La Estructura de la Web
16
La Persona tras la Consulta
17
Consultas en la Web
Diversidad cultural, educacional y geográfica
Consultas cortas, interacción impaciente
pocas consultas & pocas respuestas vistas
Vocabulario diferente y menos extenso
Diferentes objetivos (Broder, 2000):
Necesidad informacional
Necesidad navigacional
Necesidad transaccional
Refinada por Rose & Levinson, WWW 2004 18
Necesidades de las Personas
• Necesidad (Broder 2002)
– Informacional – queremos aprender acerca de algo (~40% / 65%)
hemoglobina baja
– Navegacional – queremos ir a un sitio (~25% / 15%)
El País
– Transaccional – queremos hacer algo (web-mediated) (~35% / 20%)
• Acceder a un servicio Clima Barcelona
Imágenes de la luna
• Descargar
Canon S410
• Comprar
– Ambiguedades
alquiler coches Chile
• Encontrar una lista de páginas
• Búsqueda exploratoria 19
Objetivos de un Sitio Web
• Generar visitas y fidelidad
• Estar en la Web
• Diseñar para las personas y los buscadores
• Explotar publicidad dirigida y eficiente
– Diferentes modelos: CPM, CPC
– Diferentes lugares: búsqueda, contexto
Dos Puntos de Vista
• La Persona semántica
– Diseñador software
– Usuario contenido persona
• El Computador
– Buscador
– Agente de software software
– Herramienta de uso persona
sintaxis
Un Modelo Causal
Persona
Buscador
Usando el Sentido Común
Encuéntrame, descárgame y úsame.
Déjate luego seducir y vuelve a mí una y otra vez.
Yo por mi parte usaré mucho, mucho sentido común
y trataré de sorprenderte cada día.
Los cinco pasos causales en un sitio Web:
• Buscabilidad
Ubicuidad
• Visibilidad y accesibilidad
• Contenido Usabilidad
Arquitectura
• Estética
• Fidelidad
Arquitectura: Ser
Ubicuidad: Estar
Usabilidad: Servir
Buscabilidad
Visibilidad
Contenido
Estética
Fidelidad
(crear hábito)
Ubicuidad (Buscadores)
Un gran porcentaje de las visitas a un sitio
proviene de buscadores, entonces:
• ¿Encontrará mi sitio un buscador?
– No, si no ha registrado su sitio o si no posee
un enlace desde un sitio conocido
• ¿Pongo trabas a los buscadores?
– Si, si uso mal Flash, Javascript u otras
herramientas que no permiten extraer los
enlaces hacia páginas internas
Sitios Impenetrables
Se puede esgrimir la excusa de la ignorancia,
pero hay casos en que esto es imperdonable:
• Las empresas de TI no pueden apelar a la
excusa de ser ignorantes
• Sitios de gobierno
• Las empresas donde la información es uno
de sus valores fundamentales.
• España: 30% de 300 mil sitios (2005)
¡Y sin mencionar las empresas de
información que no tienen sitio Web!
Buscabilidad (Personas)
• ¿Tengo el texto correcto en mi página
principal? ¿Puedo encontrar mi sitio
imaginando que palabras usarán mis clientes?
• ¿Queda mi sitio bien ubicado en una
búsqueda?
– Si la respuesta es no, consiga enlaces desde
otros sitios y mejore sus metadatos (para
cuando se usen)
– Busque los enlaces a que tiene su sitio
37
Visibilidad (Personas)
• ¿Es su diseño compatible con todos los
navegadores o usted supone que todo el
mundo usa Explorer y Windows?
• ¿Es su sitio liviano?
• ¿Es su HTML complicado o usa
herramientas de diseño sofisticadas?
download + rendering time
Accesibilidad
• ¿Considera su sitio alternativas para
personas con discapacidades visuales o le
da lo mismo?
• Existen normativas, fáciles de seguir, que
permiten la creación de páginas web
accesibles para todos
• WAI, Web Accessibility Initiative,
http://w3c.org/WAI/
• Recuerde que los crawlers son ciegos!
Contenido
• Su sitio debe tener algún interés si la
persona ha llegado hasta aquí
– elementos legibles y comprensibles
– coherencia de la navegación y
– de la funcionalidad en todas las páginas.
• La semántica del contenido debe responder
a la pregunta ¿cuál es mi audiencia
objetivo?
Contenido
• ¿Es su prosa asequible a todo el mundo?
• ¿Es el idioma usado una barrera para sus
clientes?
• ¿Tenemos las palabras con que nos buscarán?
• Sea humilde: nadie sabe que quieren sus
clientes (además cambia en el tiempo)
Estética
• Su diseño gráfico debe ser bonito pero sin
sacrificar los puntos anteriores
– Esto significa cosas obvias como no usar
fondos que afecten la legibilidad o recargar
la página con elementos distractivos
• El diseño gráfico debe ser elegante y
simple, pero también puede ser feo y
funcional
Fidelidad
• Su sitio ha sido usado, ¿pero volverá esta
persona a él?
– contenido o servicio que se necesite en
forma periódica
– que sea adictivo en el buen sentido de la
palabra
– que genere una comunidad virtual de
personas con intereses comunes
• Es el desafío más difícil:
el de la seducción permanente
Mejorar el Acceso a los Contenidos
• Search Monkey (Yahoo!)
– Motivar a los proveedores de contenido a
mejorar sus resultados en los buscadores y
por ende la satisfacción de los usuarios
– Proveer herramientas para mejorar el uso de
anotaciones semánticas y desarrollar
aplicaciones
– Todos ganan
Qué es SearchMonkey?
U na pl af
at orm a abi a para usar dat
ert os
estructurados que perm i en generar resul ados
t t
m ás út l y rel
ies evant en Yahoo!
es
Before Af er
t
Resultado Mejorado
Enlaces
i ernos
nt
i agen
m
Resum en
at but
ri os/
valores
Diseño Dirigido por el Usuario
• User-driven design
– Ejemplo: Yahoo!
Las personas que usan su sitio deciden su
contenido, estructura y funcionalidad
Minería Web
• Contenido: texto & multimedia
• Estructura: análisis de enlaces,
minería de redes (grafos)
• Uso: análisis de logs (bitácoras), consultas
• Correlacionar lo anterior
– Depende de la aplicación
53
Ventajas de la Minería Web
Contenido y estructura
Verificar la calidad de un sitio
Problema principal: las personas
Uso: información semántica implícita
Es gratis y en general es mucha
No tiene sesgo
Complementaria a estudios de usuarios
Valor comercial invaluable
54
Recolección de Datos
• Contenido y Estructura: Crawling
• Uso: Logs (Bitácoras)
– Logs del servidor Web (e.g. Apache)
• Usar el referer
– Logs de aplicaciones específicas
55
Limpieza de los Datos
• Depende del problema
• Contenido: eliminar duplicados
• Enlaces: rotos, inconsistentes
• Logs: detección de spam Web
– Robots vs. personas
56
Almacenamiento
• Organización: contenido, enlaces, logs
– XML, BD convencional, etc.
• Datos de uso:
– Anonimizar si es necesario
– Definir sesiones
57
Minería de Contenido y Estructura
• Verificar conectividad
• Verificar consistencia y estilo
– Navegación consistente
• Verificar organización
– Páginas similares deben estar enlazadas
– Páginas distintas no deberían enlazarse
Minería de Navegación:
Reorganización del Sitio
Hot links
Modelo de Usuario
Minería de Consultas
Mejorar los buscadores: ranking, índice
Esencia de la Información
– El sitio Web que la gente quiere
– El sitio Web que debemos tener
– Mejorar contenido y estructura
61
Distribución de las Consultas
Ley de Zipf: pocas consultas populares,
muchas consultas únicas 62
Consultas vs. Texto
64
¿Cuán lejos se va en los resultados?
(Fuente: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
65
Home page
Hub page
Página con
interacción
Rose & Levinson 2004
67
Datos en Consultas
Sesión: ( (t, q), (URL, dt)* )+
Persona, lugar, tiempo: IP, cookie
Tarea: interacción anterior
Dispositivo: sistema operativo, browser, ...
Referer: de donde viene
68
Minería de Búsqueda:
Esencia de la Información
Externas Internas
Resultados
Mejor texto para los enlaces
Análisis de los casos negativos
– Respuestas que no gustan
– Consultas sin respuestas
– Páginas que sólo se visitan vía una búsqueda
Nuevos contenidos
70
Para Recordar...
• Su sitio web siempre será probado
minuciosamente .....
.... cada vez que llegue un usuario
.... sólo si lo encuentra y lo entiende
Bibliografía – General
• Modern Information Retrieval R.
Baeza-Yates & B. Ribeiro-Neto, Addison-Wesley, 1999.
Segunda edición por aparecer..
• Mining the Web: Analysis of Hypertext and Semi
Structured Data
Soumen Chakrabarti. Morgan Kaufmann; 2002.
• Click: What Millions of People Are Doing Online and
Why it Matters, Bill Tancer.
• Ambient Findibility, Peter Morville, O`Reilly 2006.
• Search Analytics, Lou Rosenfeld
Sitio Web personal (libro por aparecer)
• Estudio de la Web Española
R. Baeza-Yates, C. Castillo y V. López (Cybermetrics, 2006)
-
http://www.catedratelefonica.upf.es/.
• Websites:
– http://www.searchenginewatch.com/
– http://www.searchengineshowdown.com/
0 comments
Post a comment