Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Opinion Mining #datafestAr

1,739 views

Published on

Presentación en el marco del Datafest La Nación - Universidad Austral.

El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Opinion Mining #datafestAr

  1. 1. Minado deOpiniones!#datafest!Lic. Ernesto Mislej!ernesto@7puentes.com - @fetnelio !Datafest – La Nación & Univ. Austral !Noviembre 2012 – BA – Argentina ! 7puentes.com!
  2. 2. Outline • Intro & Background • Modelo Formal • Subtareas • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization) • Problemas y desafíos • Referencias
  3. 3. Intro El objetivo del Minado de Opiniones - (OM) es recuperar y extraer la orientación semántica de un conjunto de textos para clasificarlos de acuerdo a ella como positivas o negativas. OM es una disciplina relativamente reciente que utiliza técnicas de IR, AI, ML y NLP para recuperar textos de opinión e inducir la orientación/polaridad semántica; más informalmente, extraer opiniones y sentimientos de textos. Incluye subtareas como: • Recuperación de Opiniones (Opinion Retrieval) • Modelos de Análisis de Sentimiento (Sentiment Analysis) • Resumen (Summarization)
  4. 4. Social media • La social media es una gran espacio donde se comparten opiniones y experiencias de consumidores. • Las opiniones pueden ser sobre un producto como un teléfono celular o una película; un evento, como un festival de música; o una persona como un candidato político. • Los textos son: • datos poco-estructurados, • pueden estar mal formados, • ajustado a las condiciones del medio (140 caracteres), • errores de ortografía, • lenguajes particulares, emoticons, multi-lang, • y muchos problemas más tratados por técnicas de Procesamiento de Lenguaje Natural.
  5. 5. Opinion Mining is Big Business !"#$%&#()*+,*-.%,,#%/01*234 !"#$#%$&#$#$(&#)&*#(&*+)#$,)) Alguien que quiere comprar una ! -%.,%$,&/0%&/1$2)&2%&3+4&1&51.,61 cámara ! 7%%8)&9%6&5%..,$2)&1$:&6,;#,/) • Busca comentarios y reviews. ! -%.,%$,&/0%&<+)2&3%+(02&1&51.,61 Alguien que ya compró una cámara ! =%..,$2)&%$&#2 • Escribe su experiencia. ! >6#2,)&13%+2&20,#6&,?",6#,$5, • Fanático vs. contra-fanático. ! =1.,61&1$+9152+6,6 Fabricante ! @,2)&9,,:3158&96%.&5+)2%.,6 • Obtiene feedback de los ! A."6%;,&20,#6&"6%:+52) consumidores. ! B:<+)2&168,2#$(&-2612,(#,) • Mejora de los productos. • Adapta estrategias de márketing.!
  6. 6. Otras aplicaciones Opinion Mining Ads placements • Relevar e identificar la ubicación para imprimir un ad en la social media. • Teniendo en cuenta opiniones de la página huésped. • Opiniones propias y de la competencia. Influencia y Reputación • Identificar usuarios líderes y formadores de opinión. • Predecir compra de usuarios. Opinion Spam • Identificar opiniones falsas. • Identificar usuarios falsos/sesgados.
  7. 7. El vestido de Venus
  8. 8. El vestido de Venus !"#$%&#()*+,*-.%,,#%/01*234 !"#$#%$&#$#$(&)*"%+)+&,-)+)&#$+#(-,+ !
  9. 9. Online social media sentiment apps • Twitter sentiment: http://twittersentiment.appspot.com/ • Twends: http://twendz.waggeneredstrom.com/ • Twittratr: http://twitrratr.com/ • SocialMention: http://socialmention.com/ • . . . +40 empresas en USA • Tribatics: http://www.tribatics.com/ • SocialMetrix: http://socialmetrix.com/ • Zenzey: http://www.zenzey.com/ • Keepcon: http://keepcon.com/ • Ventura*: http://7puentes.com/products/ventura/
  10. 10. Online social media sentiment apps - Issues • Funciona para gente famosa! • Diferentes estrategias para construir los modelos de sentiment analysis causan resultados muy dispares. • Basados en diccionarios, rule-based, SVM, EM, etc. • Dificultad para separar la polaridad general • Buzz (menciones) vs. Opiniones. • Muchas veces funciona muy bien. Y algunas muy mal.
  11. 11. No sólo cámaras y vestidos... • Películas, obras de teatro, libros, moda. • Predicciones, tendencias, humor social. • Monitoreo de opinión pública de acciones de gobierno, actos de campaña. • Feedback sobre congresos, eventos, conferencias. • Monitoreo de catástrofes, accidentes, estado del tránsito, etc. • Comportamiento del mercado de valores. Medir el buzz de acciones, bonos, títulos.
  12. 12. ¿La voz del pueblo o de un experto? Depende de la complejidad de la pregunta. Y de la precisión de la respuesta. ¿Cuál es la altura del monte ¿Cuál es la capital de España? Kilimanjaro? 1 Barcelona 1 19,341 ft 2 Madrid 2 23,341 ft 3 Valencia 3 15,341 ft 4 Sevilla 4 21,341 ft
  13. 13. No todas las opiniones valen lo mismo • ¿Cómo medir el valor de una opinión? • Usuario expertos del dominio. • Usuario frecuentes. • Spammer? • Expertos en un área no necesariamente son expertos en otra. Confianza • Basada en el vínculo (local): User-similarity, entramado social. • Basada en la reputación (global): Esta recomendación me ha sido útil
  14. 14. Subtareas Opinion Retrieval & Extraction • Recuperar de grandes volúmenes de textos, aquellos que contienen referencia al objeto. • Luego identificar el contexto de opinión. Sentiment Analysis • Extraer la polaridad de la opinión • Puede ser positivo-negativo, pos-neg-neutro, o una escala numérica. Opinion summarization • Resumir la opinión general de un conjunto de opiniones o de una opinón con varias facetas. • El resumen puede ser una metáfora visual.
  15. 15. Opinion Retrieval & Extraction Me compré una cámara de fotos el día de ayer. Me salió muy cara, pero saca unas fotos excelentes y la batería dura mucho. • Identificar zonas dentro de la página que responden a un texto de opinión. • Reglas sintácticas, estructurales del sitio. • Modelos estadísticos sobre sliding windows. • Identificación del objeto, marca. • Contexto fijo y variable. • Detección de puntos, fin de párrafo, etc. • ID, hastag, sinónimos, hiperónimos, etc.
  16. 16. Sentiment Analysis Identificar y extraer la orientación subjetiva de un texto. • Objetivo, Subjetivo. • Positivo, Negativo, Neutro. Rango numérico. • Métodos basados en reglas: diccionarios, boosted weak rules, etc. • Modelos de machine learning: SVM, NB, EM. • Prepos: steming, lematización, extracción de palabras por función (ADJ, VER, ADV). • Sentiment words: Genial, excelente, horrible, malo, peor, roto, etc.
  17. 17. Sentiment classification using ML methods. Pang, EMNLP-02 Este paper aplica diversos métodos de ML supervisado para la clasificación de reviews de películas. En el preprocesamiento se utilizaron: tags de negación (no, pero, sin embargo, no obstante, por el contrario. . . ), unigramas, bigramas, POS tags, posición dentro de la oración. Se utilizaron métodos Naïve Bayes, Maximum entropy, Support vector machine, este último con la mejor performance del 83 %.
  18. 18. Unsupervised review classification. Turney, ACL-02 Se extrajeron reviews de epinions.com sobre autos, bancos, películas y destinos turísticos. El enfoque consta de 3 partes: 1 POS Tagging. Se extrajeron frases de 2-palabras según diversos patrones sintácticos: JJ-NN (Adjective-singular common nouns). 2 Se estima la orientación semantica (SO) de las frases utilizando Pointwise mutual information (PMI). 3 Se calcula el SO promedio para todas las frases.
  19. 19. Unsupervised review classification. Turney, ACL-02 Pointwise mutual information P(a ∧ b) PMI(word1 , word2 ) = log2 P(a) ∧ P(b) Semantic orientation (SO) SO(phrase) = PMI(phrase, excellent) − PMI(phrase, poor) Se puede usar el operador NEAR de AltaVista para buscar las frases y calcular los indicadores PMI y SO.
  20. 20. Unsupervised review classification. Turney, ACL-02 Por último se calcula el SO promedio para todas las frases que componen la opinión. La performance de este enfoque: • autos - 84 % • bancos - 80 % • películas - 65.83 % • destinos turísticos - 70.53 %
  21. 21. Term Subjectivity and Term... Esuli and Sebastiani Construye clasificadores a nivel término objetivo-subjetivo y positivo-negativo. También de manera semisupervisada. • Se parte de 3 conjuntos pequeños de entrenamiento: Lp , Ln y Lo de términos Positivos, Negativos y Objetivos. • Los términos son synsets de Wordnet http://wordnet.princeton.edu/. • Y en cada iteración se navega por el grafo resultante de las relaciones de cada synset. • direct antonymy, similarity, derivedfrom, pertains-to, attribute, y also-see... • Sentiwordnet http://sentiwordnet.isti.cnr.it/
  22. 22. Opinion summarization & visualization
  23. 23. Opinion summarization & visualization Ejemplo: AIT en opinión política! Elecciones legislativas 2009! Controles de Alcoholemia! Seguimiento Gripe A! 7puentes.com! Análisis Inteligente de Textos!
  24. 24. Opinion summarization & visualization
  25. 25. Opinion summarization & visualization
  26. 26. Opinion summarization & visualization
  27. 27. Opinion summarization & visualization
  28. 28. Herramientas • NLTK Natural Language Toolkit http://nltk.org/ • Freeling http://nlp.lsi.upc.edu/freeling/ • Mallet MAchine Learning for LanguagE Toolkit http://mallet.cs.umass.edu/ • GATE General Architecture for Text Engineering http://gate.ac.uk/ • Bow: A Toolkit for Statistical Language Modeling http://www.cs.cmu.edu/∼mccallum/bow/ • Cluto: Software for Clustering High-Dimensional Datasets http://glaros.dtc.umn.edu/gkhome/views/cluto • icsiboost: Open-source implementation of Boostexter http://code.google.com/p/icsiboost/ • ManyEyes http://www-958.ibm.com/software/data/cognos/manyeyes/ • TwitterStreamGraphs http://www.neoformix.com/Projects/TwitterStreamGraphs/view.php
  29. 29. Referencias • Opinion Mining: Exploiting the Sentiment of the Crowd, Diana Maynard, Adam Funk, Kalina Bontcheva. University of Sheffield, UK. 1995-2012 • Sentiment Analysis and Opinion Mining, Bing Liu, AAAI-2011, EACL-2012, and Sentiment Analysis Symposium, Department of Computer Science, University Of Illinois at Chicago • Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012., Bing Liu. • Bing Liu’s Home Page. http://www.cs.uic.edu/∼liub/ • Web Data Mining, Bing Liu, Springer, December, 2006 • Language and Intelligence Group, Università di Pisa. http://medialab.di.unipi.it/web/Language+Intelligence/
  30. 30. Gracias porvuestra !atención!Lic. Ernesto Mislej!ernesto@7puentes.com - @fetnelio !

×