Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Caracterización de una entidad basada en opiniones: un estudio de caso
1. Caracterización de una entidad
basada en opiniones:
un estudio de caso
Damiano Spina, Enrique Amigó,
Bernardino Beotas
Julio Gonzalo
Grupo ALMA
Grupo PLN y RI de la UNED b.beotas@almatech.es
{damiano,enrique,julio}@lsi.uned.es www.grupoalma.com
nlp.uned.es
2.
3.
4. Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
5. Informe de reputación de la UNED ?
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
6. Informe de reputación de la UNED
Ventajas
Desventajas
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
7. Caracterización de una entidad basada
en opiniones
(opinion-based entity profiling)
– Cuáles son los comentarios (positivos y negativos)
más recurrentes de los usuarios
– Esencial para una buena gestión de reputación
• Reflejan la imagen que los usuarios tienen de la entidad
– No se trata de forma explícita en el área de las
tecnologías de la lengua
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
8. Índice
• Tecnologías relacionadas
• Estudio de caso
• Aproximación baseline: clustering
• ¿Puede Wordnet contribuir a solucionar el
problema?
• Conclusiones y posibilidades futuras
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
9. Gestión de la reputación online
Monitorización
Gestión Análisis
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
10. Tecnologías relacionadas
Análisis
Polaridad, Extracción de basado en
Detección de Extracción del Resumen de
orientación emociones en características
subjetividad opinante opiniones
semántica texto (Hu y Liu, 2004; Liu,
(Wiebe, Wilson (Strapparava y Hu, y Cheng, 2005;
(Strapparava y (Kim y Hovy,
y Cardie, 2005)
(Turney, 2002) Mihalcea, 2008) Gamon et al., 2005)
Mihalcea, 2008) 2005)
Minería de opiniones
(análisis de sentimientos)
(Pang y Lee, 2008)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
11. Tecnologías relacionadas
Descubrimiento Influencia en Búsqueda y Resumen de
de tendencias blogs filtrado de blogs posts
(Glance, Hurst y (Mishne y de
Tomokiyo, 2004) (Java et al., 2006) Rijke, 2006) (Hu, Sun y Lim, 2007)
Análisis de blogs
(Agarwal y Liu, 2008)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
12. Tecnologías relacionadas
Opinion-based entity profiling
Resumen de Análisis basado Descubrimiento
… opiniones en características de tendencias …
(Hu y Liu, 2004; Liu, Hu, y Cheng,
(Strapparava y Mihalcea, 2008) (Glance, Hurst y Tomokiyo, 2004)
2005; Gamon et al., 2005)
Minería de opiniones (análisis de sentimientos) Análisis de blogs
(Pang y Lee, 2008) (Agarwal y Liu, 2008)
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
13. Estudio de caso: UNED
• Universidad Nacional de Educación a
Distancia (UNED)
• Más del 50% recolectadas en el estudio
pertenecen a sitios de valoraciones
– Sólo hay opiniones
• detección de subjetividad
– Ventajas y desventajas
• polaridad
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
14. Estudio de caso: UNED
Ventajas f Desventajas f
trabajar y estudiar a la vez 21 Más difícil que la presencial 15
Algunos problemas técnicos y 1
Flexibilidad de horarios 23
administrativos
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
15. Estudio de caso: UNED
Ventajas f Desventajas f
trabajar y estudiar a la vez 21 Más difícil que la presencial 15
Algunos problemas técnicos y 2
Flexibilidad de horarios 24
administrativos
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
16. Estudio de caso: UNED
Ventajas f Desventajas f
trabajar y estudiar a la vez 21 Más difícil que la presencial 15
Algunos problemas técnicos y 5
Flexibilidad de horarios 25
administrativos
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
17. Estudio de caso: UNED
Esfuerzo
8 personas-hora
206 opiniones
Ventajas f Desventajas f
trabajar y estudiar a la vez 21 Más difícil que la presencial 15
Algunos problemas técnicos y 4
Flexibilidad de horarios 26
administrativos
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
18. Estudio de caso: UNED
Ventajas
Desventajas
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
19. Dificultades de la tarea
Ventaja Expresiones
Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo,
adaptabilidad a tiempos, gestionas tu
propio tiempo, vas a tu aire
No tener que asistir a clase Estudias en casa, no hay que ir a clase, no
requiere desplazarse, no presencial
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
20. Dificultades de la tarea
Ventaja Expresiones
Flexibilidad de horarios Libertad de horarios, estudias a tu ritmo,
adaptabilidad a tiempos, gestionas tu
propio tiempo, vas a tu aire
No tener que asistir a clase Estudias en casa, no hay que ir a clase, no
requiere desplazarse, no presencial
Desventaja Expresiones
Estudiar por cuenta propia Has de ser muy constante, soledad, saber
organizarse
Más difícil que la presencial Es mucho más difícil, muy dura
Precio Gasto económico, qué cara
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
21. Aproximación baseline: clustering
• Algoritmo de clustering Lingo
– Pensado para agrupar resultados de un motor de búsqueda (snippets)
– Latent Semantic Indexing
• Adaptación al castellano
– Extensión de la lista de palabras vacías
• 146 -> 446 palabras
– Eliminación de tildes
– Penalización para los descriptores compuestos por un solo término
• Ventajas y desventajas consideradas de forma independiente
• Entrenamiento de los umbrales
– De forma cruzada
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
22. Aproximación baseline: clustering
• Evaluación
– Precisión y cobertura BCubed
• Cumple todas las restricciones formales descritas en
Amigó et al. (2009)
– Pureza y pureza inversa
– Medida F con α=0.5
– Baselines
• Uno en uno: cada documento forma un cluster
• Todos en uno: todos los documentos se agrupan en un
único cluster
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
23. Resultados
Pureza Precisión Cobertura F
Pureza F(P,PI)
Inversa BCubed BCubed BCubed
Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25
Ventajas Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22
Lingo 0.59 0.59 0.59 0.46 0.50 0.48
Pureza Precisión Cobertura F
Pureza F(P,PI)
Inversa BCubed BCubed BCubed
Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31
Desventajas Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13
Lingo 0.48 0.61 0.54 0.34 0.50 0.40
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
24. Resultados
Pureza Precisión Cobertura F
Pureza F(P,PI)
Inversa BCubed BCubed BCubed
Uno en uno 1.00 0.14 0.25 1.00 0.14 0.25
Ventajas Todos en uno 0.25 1.00 0.40 0.12 1.00 0.22
Lingo 0.59 0.59 0.59 0.46 0.50 0.48
Pureza Precisión Cobertura F
Pureza F(P,PI)
Inversa BCubed BCubed BCubed
Uno en uno 1.00 0.18 0.31 1.00 0.18 0.31
Desventajas Todos en uno 0.16 1.00 0.27 0.07 1.00 0.13
Lingo 0.48 0.61 0.54 0.34 0.50 0.40
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
25. Análisis de fallos
• Errores de precisión
– “permiten”, “pueden”
– “estudiar a distancia” vs. “hay que estudiar más”
• Errores de cobertura
– Sesgo positivo: clusters que asocian aspectos menos
comentados
– Los aspectos más comentados tienden a dispersarse en
varios clusters
• “no tener que asistir a clase “ se agrupa en los clusters “No
hay que ir a clase”, “No tienes que desplazarte”, “No requiere
presencia”, “comodidad” y “no acudir a clases”
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
26. ¿Puede WordNet contribuir a
solucionar el problema?
Precio {importe1, precio1}
Gasto económico
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
27. ¿Puede WordNet contribuir a
solucionar el problema?
Precio {importe1, precio1}
hipónimo
{coste1, costo1}
Gasto económico
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
28. ¿Puede WordNet contribuir a
solucionar el problema?
Precio {importe1, precio1}
hipónimo
{coste1, costo1}
hipónimo
{gastos1, gasto1, desembolso2} Gasto económico
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
29. ¿Puede WordNet contribuir a
solucionar el problema?
Precio {importe1, precio1}
hipónimo
{coste1, costo1}
hipónimo
{gastos1, gasto1, desembolso2} Gasto económico
Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}
Muy difícil
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
30. ¿Puede WordNet contribuir a
solucionar el problema?
Precio {importe1, precio1}
hipónimo
{coste1, costo1}
hipónimo
{gastos1, gasto1, desembolso2} Gasto económico
Requiere mucho esfuerzo {esfuerzo1, afán1, dedicación1, desvelo1}
hipónimo
{dificultad2} Muy difícil
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
31. ¿Puede WordNet contribuir a
solucionar el problema?
Ejemplo Expresión 1 Expresión 2
7 Estudiar a tu ritmo Gestionas tu propio tiempo
8 Gestionas tu propio tiempo Libertad de horarios
9 Adquisición efectiva de Se aprende de verdad
conocimientos
10 Soledad Debe de gustarte hablarte a ti mismo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
32. Conclusiones
• Caracterización (profiling) de una entidad
basada en opiniones
• Costosa de realizar manualmente
• Difícil de abordar automáticamente
– Expresiones cortas
– Paráfrasis
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
33. Posibilidades futuras
• Creación de corpus de opiniones
– Entidades de distintos dominios
– Incluyendo otras fuentes de información
• Foros, blogs, redes sociales
• Evaluación comparativa de distintos algoritmos de clustering
• Uso de otras bases de conocimiento
– eXtended WordNet
– WordNet Domains
– SUMO
• Uso de algoritmos de desambiguación (Agirre y Sora, 2009)
• Estudiar la agrupación de opiniones considerando la variable
temporal
– Qué se dice de la entidad
– Cómo varía en función del tiempo
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
34. ¡Muchas gracias!
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com
35. Métricas BCubed
Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA
nlp.uned.es www.grupoalma.com