Opinion Mining #datafestAr

1,608 views
1,562 views

Published on

Presentación en el marco del Datafest La Nación - Universidad Austral.

El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,608
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
24
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Opinion Mining #datafestAr

  1. 1. Minado deOpiniones!#datafest!Lic. Ernesto Mislej!ernesto@7puentes.com - @fetnelio !Datafest – La Nación & Univ. Austral !Noviembre 2012 – BA – Argentina ! 7puentes.com!
  2. 2. Outline • Intro & Background • Modelo Formal • Subtareas • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization) • Problemas y desafíos • Referencias
  3. 3. Intro El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas. OM es una disciplina relativamente reciente que utiliza técnicas de IR, AI, ML y NLP para recuperar textos de opinión e inducir la orientación/polaridad semántica; más informalmente, extraer opiniones y sentimientos de textos. Incluye subtareas como: • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization)
  4. 4. Social media • La social media es una gran espacio donde se comparten opiniones y experiencias de consumidores. • Las opiniones pueden ser sobre un producto como un teléfono celular o una película; un evento, como un festival de música; o una persona como un candidato político. • Los textos son: • datos poco-estructurados, • pueden estar mal formados, • ajustado a las condiciones del medio (140 caracteres), • errores de ortografía, • lenguajes particulares, emoticons, multi-lang, • y muchos problemas más tratados por técnicas de Procesamiento de Lenguaje Natural.
  5. 5. Opinion Mining is Big Business !"#$%&#()*+,*-.%,,#%/01*234 !"#$#%$&#$#$(&#)&*#(&*+)#$,)) Alguien que quiere comprar una ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61 cámara ! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/) • Busca comentarios y reviews. ! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61 Alguien que ya compró una cámara ! =%..,$2)&%$&#2 • Escribe su experiencia. ! >6#2,)&13%+2&20,#6&,?",6#,$5, • Fanático vs. contra-fanático. ! =1.,61&1$+9152+6,6 Fabricante ! @,2)&9,,:3158&96%.&5+)2%.,6 • Obtiene feedback de los ! A."6%;,&20,#6&"6%:+52) consumidores. ! B:<+)2&168,2#$(&-2612,(#,) • Mejora de los productos. • Adapta estrategias de márketing.!
  6. 6. Otras aplicaciones Opinion Mining Ads placements • Relevar e identificar la ubicación para imprimir un ad en la social media. • Teniendo en cuenta opiniones de la página huésped. • Opiniones propias y de la competencia. Influencia y Reputación • Identificar usuarios líderes y formadores de opinión. • Predecir compra de usuarios. Opinion Spam • Identificar opiniones falsas. • Identificar usuarios falsos/sesgados.
  7. 7. El vestido de Venus
  8. 8. El vestido de Venus !"#$%&#()*+,*-.%,,#%/01*234 !"#$#%$&#$#$(&)*"%+)+&,-)+)&#$+#(-,+ !
  9. 9. Online social media sentiment apps • Twitter sentiment: http://twittersentiment.appspot.com/ • Twends: http://twendz.waggeneredstrom.com/ • Twittratr: http://twitrratr.com/ • SocialMention: http://socialmention.com/ • . . . +40 empresas en USA • Tribatics: http://www.tribatics.com/ • SocialMetrix: http://socialmetrix.com/ • Zenzey: http://www.zenzey.com/ • Keepcon: http://keepcon.com/ • Ventura*: http://7puentes.com/products/ventura/
  10. 10. Online social media sentiment apps - Issues • Funciona para gente famosa! • Diferentes estrategias para construir los modelos de sentiment analysis causan resultados muy dispares. • Basados en diccionarios, rule-based, SVM, EM, etc. • Dificultad para separar la polaridad general • Buzz (menciones) vs. Opiniones. • Muchas veces funciona muy bien. Y algunas muy mal.
  11. 11. No sólo cámaras y vestidos... • Películas, obras de teatro, libros, moda. • Predicciones, tendencias, humor social. • Monitoreo de opinión pública de acciones de gobierno, actos de campaña. • Feedback sobre congresos, eventos, conferencias. • Monitoreo de catástrofes, accidentes, estado del tránsito, etc. • Comportamiento del mercado de valores. Medir el buzz de acciones, bonos, títulos.
  12. 12. ¿La voz del pueblo o de un experto? Depende de la complejidad de la pregunta. Y de la precisión de la respuesta. ¿Cuál es la altura del monte ¿Cuál es la capital de España? Kilimanjaro? 1 Barcelona 1 19,341 ft 2 Madrid 2 23,341 ft 3 Valencia 3 15,341 ft 4 Sevilla 4 21,341 ft
  13. 13. No todas las opiniones valen lo mismo • ¿Cómo medir el valor de una opinión? • Usuario expertos del dominio. • Usuario frecuentes. • Spammer? • Expertos en un área no necesariamente son expertos en otra. Confianza • Basada en el vínculo (local): User-similarity, entramado social. • Basada en la reputación (global): Esta recomendación me ha sido útil
  14. 14. Subtareas Opinion Retrieval & Extraction • Recuperar de grandes volúmenes de textos, aquellos que contienen referencia al objeto. • Luego identificar el contexto de opinión. Sentiment Analysis • Extraer la polaridad de la opinión • Puede ser positivo-negativo, pos-neg-neutro, o una escala numérica. Opinion summarization • Resumir la opinión general de un conjunto de opiniones o de una opinón con varias facetas. • El resumen puede ser una metáfora visual.
  15. 15. Opinion Retrieval & Extraction Me compré una cámara de fotos el día de ayer. Me salió muy cara, pero saca unas fotos excelentes y la batería dura mucho. • Identificar zonas dentro de la página que responden a un texto de opinión. • Reglas sintácticas, estructurales del sitio. • Modelos estadísticos sobre sliding windows. • Identificación del objeto, marca. • Contexto fijo y variable. • Detección de puntos, fin de párrafo, etc. • ID, hastag, sinónimos, hiperónimos, etc.
  16. 16. Sentiment Analysis Identificar y extraer la orientación subjetiva de un texto. • Objetivo, Subjetivo. • Positivo, Negativo, Neutro. Rango numérico. • Métodos basados en reglas: diccionarios, boosted weak rules, etc. • Modelos de machine learning: SVM, NB, EM. • Prepos: steming, lematización, extracción de palabras por función (ADJ, VER, ADV). • Sentiment words: Genial, excelente, horrible, malo, peor, roto, etc.
  17. 17. Sentiment classification using ML methods. Pang, EMNLP-02 Este paper aplica diversos métodos de ML supervisado para la clasificación de reviews de películas. En el preprocesamiento se utilizaron: tags de negación (no, pero, sin embargo, no obstante, por el contrario. . . ), unigramas, bigramas, POS tags, posición dentro de la oración. Se utilizaron métodos Naïve Bayes, Maximum entropy, Support vector machine, este último con la mejor performance del 83 %.
  18. 18. Unsupervised review classification. Turney, ACL-02 Se extrajeron reviews de epinions.com sobre autos, bancos, películas y destinos turísticos. El enfoque consta de 3 partes: 1 POS Tagging. Se extrajeron frases de 2-palabras según diversos patrones sintácticos: JJ-NN (Adjective-singular common nouns). 2 Se estima la orientación semantica (SO) de las frases utilizando Pointwise mutual information (PMI). 3 Se calcula el SO promedio para todas las frases.
  19. 19. Unsupervised review classification. Turney, ACL-02 Pointwise mutual information P(a ∧ b) PMI(word1 , word2 ) = log2 P(a) ∧ P(b) Semantic orientation (SO) SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor) Se puede usar el operador NEAR de AltaVista para buscar las frases y calcular los indicadores PMI y SO.
  20. 20. Unsupervised review classification. Turney, ACL-02 Por último se calcula el SO promedio para todas las frases que componen la opinión. La performance de este enfoque: • autos - 84 % • bancos - 80 % • películas - 65.83 % • destinos turísticos - 70.53 %
  21. 21. Term Subjectivity and Term... Esuli and Sebastiani Construye clasificadores a nivel término objetivo-subjetivo y positivo-negativo. También de manera semisupervisada. • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln y Lo de términos Positivos, Negativos y Objetivos. • Los términos son synsets de Wordnet http://wordnet.princeton.edu/. • Y en cada iteración se navega por el grafo resultante de las relaciones de cada synset. • direct antonymy, similarity, derivedfrom, pertains-to, attribute, y also-see... • Sentiwordnet http://sentiwordnet.isti.cnr.it/
  22. 22. Opinion summarization & visualization
  23. 23. Opinion summarization & visualization Ejemplo: AIT en opinión política! Elecciones legislativas 2009! Controles de Alcoholemia! Seguimiento Gripe A! 7puentes.com! Análisis Inteligente de Textos!
  24. 24. Opinion summarization & visualization
  25. 25. Opinion summarization & visualization
  26. 26. Opinion summarization & visualization
  27. 27. Opinion summarization & visualization
  28. 28. Herramientas • NLTK Natural Language Toolkit http://nltk.org/ • Freeling http://nlp.lsi.upc.edu/freeling/ • Mallet MAchine Learning for LanguagE Toolkit http://mallet.cs.umass.edu/ • GATE General Architecture for Text Engineering http://gate.ac.uk/ • Bow: A Toolkit for Statistical Language Modeling http://www.cs.cmu.edu/∼mccallum/bow/ • Cluto: Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/views/cluto • icsiboost: Open-source implementation of Boostexter http://code.google.com/p/icsiboost/ • ManyEyes http://www-958.ibm.com/software/data/cognos/manyeyes/ • TwitterStreamGraphs http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
  29. 29. Referencias • Opinion Mining: Exploiting the Sentiment of the Crowd, Diana Maynard, Adam Funk, Kalina Bontcheva. University of Sheffield, UK. 1995-2012 • Sentiment Analysis and Opinion Mining, Bing Liu, AAAI-2011, EACL-2012, and Sentiment Analysis Symposium, Department of Computer Science, University Of Illinois at Chicago • Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012., Bing Liu. • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/ • Web Data Mining, Bing Liu, Springer, December, 2006 • Language and Intelligence Group, Università di Pisa. http://medialab.di.unipi.it/web/Language+Intelligence/
  30. 30. Gracias porvuestra !atención!Lic. Ernesto Mislej!ernesto@7puentes.com - @fetnelio !

×