Procesamiento del Lenguaje Natural, Revista nº 47 septiembre de 2011, pp 179-187                  recibido 02-05-2011 acep...
Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-BarcoPhones 3 y además con la colección JRC4. Estos ...
Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogmo veremos en las siguientes secciones, la inclu-     ...
Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco            Clasificación            word      ...
Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogComo podemos deducir a partir de los experimen-       ...
Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco  dad de 0,25 y una negatividad de 0,75, añadir...
Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogdo sólo WN obtenemos mejores resultados que           ...
Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco6     Referencias                              ...
Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlog  lencia. In Accessing Multilingual Information       ...
Upcoming SlideShare
Loading in …5
×

Minería de Opiniones

756 views
680 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
756
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Minería de Opiniones

  1. 1. Procesamiento del Lenguaje Natural, Revista nº 47 septiembre de 2011, pp 179-187 recibido 02-05-2011 aceptado 23-05-2011 Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlog Sentiment Analysis and Opinion Mining: The EmotiBlog Corpus Javi Fernández Ester Boldrini University of Alicante, Department of University of Alicante, Department of Language and Computing Systems Language and Computing Systems javifm@ua.es eboldrini@dlsi.ua.es José Manuel Gómez Patricio Martínez-Barco University of Alicante, Department of University of Alicante, Department of Language and Computing Systems Language and Computing Systems jmgomez@ua.es patricio@dlsi.ua.esResumen: EmotiBlog es una colección de entradas de blogs creado y anotado para detectar expresionessubjetivas en los nuevos géneros textuales nacidos con la Web 2.0. Investigaciones previas han demostra-do la relevancia de los sistemas de aprendizaje automático como recurso para la detección de informaciónde opinión. En este artículo exploramos características adicionales para un análisis profundo de estas téc-nicas. Además, comparamos EmotiBlog con la colección JRC. Los resultados obtenidos demuestran lavalidez de EmotiBlog y nos animan a seguir en esta línea de investigación.Palabras clave: Análisis de Sentimientos, EmotiBlog, Aprendizaje Automático.Abstract: EmotiBlog is a collection of blog posts created and annotated for detecting subjective expres-sions in the new textual genres born with the Web 2.0. Previous work has demonstrated the relevance ofthe Machine learning systems as tool for detecting opinionated information. In this paper we explore addi-tional features for a deep analysis of these techniques. Moreover, we compare EmotiBlog with the JRCcollection. The obtained results demonstrate the usefulness of EmotiBlog and support us to continue inthis research path.Keywords: Sentiment Analysis, EmotiBlog Corpus, Machine Learning.1 Introducción y motivación1 utilizar (aunque sea no en la totalidad de los casos), el empleo de técnicas de PLN resulta complicadoGracias a la expansión de la Web 2.0, los últimos ya que las herramientas que tenemos a disposiciónaños han visto un crecimiento exponencial de la no contemplan irregularidades lingüísticas en lainformación subjetiva disponible en Internet. Este mayoría de los casos. Teniendo en cuenta estefenómeno ha originado interés por el análisis de contexto, nuestra investigación está motivada prin-sentimientos (AS), una tarea del procesamiento del cipalmente por la carencia de recursos, métodos ylenguaje natural (PLN) que identifica opiniones herramientas para un efectivo procesamiento de larelacionadas con un objeto (Liu, 2006). Los datos información subjetiva. Por tanto, el principal obje-subjetivos tienen un gran potencial; de hecho, pue- tivo de este artículo es demostrar que el corpus y elden ser explotados por administraciones públicas, modelo de anotación de EmotiBlog pueden ser unempresas y particulares para, por ejemplo, conocer recurso válido y robusto para contribuir a superarla opinión de los personalidades públicas, elegir la los desafíos del AS. En los experimentos observa-propaganda idónea según las preferencias u opi- mos que nuestra aproximación contribuye a resol-niones de la gente o encontrar el producto mejor ver la carencia de datos anotados con unavalorado por los usuarios (Liu, 2007). Dado el tipo granularidad gruesa. Hemos entrenado un modelode registro más informal que los usuarios suelen usando sistemas de aprendizaje automático (AA) con los corpus EmotiBlog Kyoto 2 y EmotiBlog1 Este trabajo ha sido parcialmente financiado por los proyec-tos TEXTMESS 2.0 (TIN2009-13391-C04-01) y Prometeo 2(PROMETEO/2009/199), y por la acción complentaria de la El corpus EmotiBlog está compuesto por entradas de blogsGeneralitat Valenciana (ACOMP/2011/001). sobre el Protocolo de Kyoto y las Elecciones en Zimbabwe yISSN 1135-5948 © 2011 Sociedad Española Para el Procesamiento del Lenguaje Natural
  2. 2. Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-BarcoPhones 3 y además con la colección JRC4. Estos Balahur and Montoyo (2008). Estos recursos con-experimentos han sido posibles ya que los corpus tienen palabras sueltas cuya polaridad y emocióncomparten ciertos elementos anotados comunes no son necesariamente aquellas anotadas dentro del(mirar sección 3). De esta forma hemos obtenido recurso en un contexto más amplio. En nuestroun conjunto mayor de resultados comparables. Una trabajo, sin embargo, hemos creado un corpus am-vez realizada esta comparación, hemos integrado pliamente anotado tanto a nivel de sentencia comodos recursos léxicos con relaciones semánticas: de elementos individuales dentro de la frase paraSentiWordNet (Esuli and Sebastiani, 2006) y considerar el contexto y su influencia. El punto deWordNet (Miller, 1995) para aumentar la cobertura partida de la investigación de la emoción se marcóde los resultados sin disminuir la precisión. Para principalmente por el trabajo de Wiebe (1994)mejorar los resultados de los modelos de aprendi- quién estableció los puntos de referencia en la con-zaje supervisado, hemos utilizados técnicas de figuración del AS para el reconocimiento del len-PLN (stemming, lematización, bolsa de palabras, guaje orientado a opinión y discriminar éste deletc.). En trabajos previos se ha demostrado que lenguaje objetivo. Wiebe propuso un método paraEmotiBlog es un recurso beneficioso para la bús- etiquetar los corpus dependiendo de estos dos as-queda de respuestas de opinión en Balahur et al. pectos. Nuestro trabajo tiene en consideración esta(2009c y 2010a,b) o el resumen automático de inicial distinción pero añadimos un nivel más pro-textos subjetivos (Balahur et al. 2009a). Por tanto, fundo de anotación de la emoción. Ya que expre-el primer objetivo de esta investigación es demos- siones de emoción también están relacionadas contrar que EmotiBlog es un recurso útil para entrenar la opción, trabajos previos también incluyen revi-sistemas AA enfocados a varias aplicaciones. Co- siones y comentarios de usuarios para la clasifica-mo veremos en la sección 2, la mayor parte de los ción a nivel de documento, usando clasificadorestrabajos hechos en minería de opiniones (MO) sólo de sentimiento, técnicas de AA (Pang and lee,clasifican la polaridad del sentimiento en positivo 2003), puntuación de características (Dave, La-o negativo. Por lo tanto, nuestro segundo objetivo, wrence and Pennock, 2003), relaciones sintácticases demostrar que el uso de EmotiBlog puede ser y otros atributos con SVM (Mullen and Collier,beneficioso para valorar otras características como 2004), clasificación de sentimientos considerandola intensidad y la emoción gracias a su etiquetado escalas de valoración (Pang et al, 2002) y métodoscon granularidad fina. Así, nuestro tercer objetivo supervisados (Chaovalit and Zhow, 2005). Investi-es demostrar cómo una clasificación más profunda gación en clasificación a nivel de documentos in-de la tarea de MO es crucial (mirar sección 2) para cluye clasificación de sentimientos de revisionesavanzar en esta área de investigación. Creemos que (Ng et al. 2006), realimentación de los clienteshay una necesidad de determinar la intensidad y el (Gamon et al. 2005) o experimentos comparativostipo de emoción (Boldrini et al, 2009a) como parte (Cui et al. 2005). Otros analizan sentimientos ade otros elementos presentados en Boldrini et al. nivel de frase usando técnicas de bootstrapping(2010). como Riloff and Wiebe (2003), o considerando adjetivos (Hatzivassiloglou and Wiebe, 2000) o2 Trabajos relacionados buscando fuerzas de opinión (Wilson et al., 2004).El AS es una disciplina del PLN que recientemente Otros trabajos incluyen frases comparativas, ex-ha originado interés en la comunidad científica tracción de relaciones y características basadas engenerando algunos recursos como WordNet Affect MO y resumen (Turney, 2002) o emplean recursos(Strapparava and Vilitutti, 2004), SentiWordNet léxicos con relaciones semánticas como Sen-(Esuli and Sebastiani, 2006), Micro-WNOP (Cerini tiWordNet en Ohana y Tierney (2009) o Abulaishet. Al, 2007) – estos dos últimos con relaciones et al. (2009). Todos estos están enfocados en en-semánticas con WordNet – o Emotion triggers por contrar y clasificar la polaridad de las palabras de opinión (mayoritariamente adjetivos) sin tener en cuenta los modificadores o el contexto. Así, nues-en Estados Unidos, pero para este trabajo sólo hemos utilizado tro trabajo presenta el primer paso hacia una com-la parte del Protocolo de Kyoto prensión contextual de las raíces del lenguaje de3 Es una extensión de EmotiBlog con opiniones acerca de las expresiones de opinión y el desarrollo de unteléfonos móviles4 http://langtech.jrc.ec.europa.eu/JRC_Resources.html sistema de MO para una aplicación concreta. Co- 180
  3. 3. Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogmo veremos en las siguientes secciones, la inclu- empleamos aquellas frases de JRC en las que todossión de EmotiBlog permite un análisis y procesa- los anotadores han coincidido. La Tabla 1 tambiénmiento más detallados. Aparte de este recurso, presenta el tamaño de este corpus en frases.incluimos otros recursos léxicos y técnicas de PLNpara alcanzar un entrenamiento automático más 4 Experimentos del sistema de AAefectivo y con mejores resultados. Con el fin de demostrar que EmotiBlog es un va- lioso recurso para AA, hemos llevado a cabo una3 Corpus serie de experimentos con diferentes aproximacio-El corpus que hemos empleado principalmente es nes, elementos y recursos. Dichos experimentosEmotiBlog5 Kyoto extendido con una colección de han sido evaluados mediante validación cruzada.páginas Web sobre teléfonos móviles (EmotiBlogPhones). La primera parte (Kyoto) es una colección 4.1 EmotiBlog sin información semánticade entradas de blogs en inglés acerca del Protocolo En este primer paso usamos EmotiBlog Kyoto yde Kyoto, mientras que la segunda (Phones) está EmotiBlog Phones por separado, y una combina-compuesta por opiniones sobre teléfonos móviles ción de ambos (EmotiBlog Full). La Tabla 2 pre-extraídas de Amazon6. El modelo de anotación de senta las estadísticas de las distintas clasificacionesEmotiBlog contempla la anotación a nivel de do- que evaluamos. Las categorías de los diferentescumento, frase y elemento (Boldrini et al. 2010), corpus varían porque no todas ellas han sido en-distinguiéndolos entre objetivos y subjetivos. La contradas y anotadas en todos los corpus.lista completa de etiquetas así como la explicación Clasificación Muestras Categoríasde cada una de ellas está disponible en Boldrini et Objetividad 556 2al. (2009a). Para cada elemento se anotan ciertos Polaridad 202 2 EmotiBlog Kyotoatributos comunes: polaridad, grado (o intensidad) Grado 209 3 Emoción 209 5y emoción. Cabe destacar que se ha detectado un Obj+Pol 549 3alto porcentaje de coincidencias entre los dos expe- Obj+Pol+Grado 549 6rimentados anotadores encargados de etiquetar esta Objetividad 416 2 Polaridad 244 2 EmotiBlogcolección en un trabajo previo (Boldrini et al, Phones Grado 236 32009a), asegurándonos así de la precisión y fiabili- Emoción 243 4dad del etiquetado. La Tabla 1 presenta el tamaño Obj+Pol 416 3del corpus en número de frases. Obj+Pol+Grado 408 7 Objetividad 972 2 Polaridad 446 2 EmotiBlog Subjetivas Objetivas Total Grado 445 3 Full Total POS NEG Emoción 452 5EmotiBlog Kyoto 210 62 141 347 557 Obj+Pol 965 3EmotiBlog Phones 246 198 47 172 418 Obj+Pol+Grado 957 7EmotiBlog Full 456 260 188 519 975JRC 427 193 234 863 1290 Tabla 2: Número de muestras y categorías por Tabla 1: Tamaño de los corpus en frases clasificaciónComo corpus a comparar con el EmotiBlog usamos Podemos observar que clasificar la objetividad o laJRC7, un conjunto de 1590 citas extraídas automá- polaridad es más sencillo que clasificar el grado oticamente a partir de noticias y, posteriormente, la emoción debido al mayor número de categoríasanotadas las frases que expresaban sentimiento de estas dos últimas. Sin embargo, para poder eva-(Balahur et al., 2010c). JRC tiene una granularidad luar la polaridad necesitamos evaluar primero lagruesa en su etiquetado, es decir, sólo contempla objetividad, con el fin de aplicar la polaridad sólo aobjetividad y polaridad para el sentido general de las frases subjetivas (en la frases objetivas esto nocada frase. Es por eso que, para nuestro propósito tiene sentido ya que siempre la polaridad será neu-de comparar ambos corpus, utilizamos únicamente tra). La misma situación se aplica al grado: necesi-estos elementos comunes. Cabe destacar que sólo tamos determinar primero que una frase es subjetiva y además su polaridad, ya que así podre-5 mos discernir si el grado se refiere a una opinión Disponible mediante petición a los autores6 http://www.amazon.co.uk positiva o negativa. Por esta razón hemos decidido7 http://langtech.jrc.ec.europa.eu/JRC_Resources.html combinar clasificaciones, para observar si esta 181
  4. 4. Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco Clasificación word lemma stem F-measure Técnicas F-measure Técnicas F-measure Técnicas Objetividad 0.6440 tfidf, chi950 0.6425 tfidfn 0.6577 tfidfn, chi250 Polaridad 0.7116 jirsn, ig400 0.6942 tfidf, ig200 0.7197 tfidf, ig500EmotiBlog Kyoto Grado 0.5884 tfidf, ig900 0.6296 tfidf, ig350 0.6146 tfidfn, ig600 Emoción 0.4437 tfidfn, ig350 0.4665 jirsn, ig650 0.4520 jirsn, ig650 Obj+Pol 0.5914 jirsn, ig600 0.5899 tfidfn, ig750 0.6064 jirsn, ig250 Obj+Pol+Grado 0.5612 jirsn 0.5626 jirsn 0.5433 tfidf, ig700 Objetividad 0.6200 jirsn, ig900 0.6405 tfidfn, chi500 0.6368 tfidfn, ig600 Polaridad 0.7746 tfidf, ig250 0.7719 tfidfn 0.7516 tfidfn, ig500EmotiBlog Phones Grado 0.6156 tfidfn 0.6174 jirsn, ig650 0.6150 tfidf, ig650 Emoción 0.7555 jirsn, ig450 0.7828 jirsn, ig150 0.7535 tfidf, ig350 Obj+Pol 0.5287 tfidf, ig650 0.5344 tfidfn, ig900 0.5227 tfidf, ig850 Obj+Pol+Grado 0.4395 tfidf, ig700 0.4424 tfidf 0.4557 tfidf, ig600 Objetividad 0.5964 jirsn, ig150 0.6080 jirsn, chi100 0.6229 jirsn, ig350 Polaridad 0.6109 tfidfn, ig1000 0.6196 tfidf, chi100 0.6138 tfidf, chi50EmotiBlog Grado 0.5655 jirsn 0.5526 jirsn 0.5775 jirsn, ig450 Full Emoción 0.5675 jirsn, ig850 0.5712 tfidfn, ig800 0.5644 jirsn, ig800 Obj+Pol 0.5332 tfidf 0.5381 tfidf, ig700 0.5431 tfidf Obj+Pol+Grado 0.4794 tfidf, ig700 0.4903 tfidf 0.4923 jirsn Tabla 3. Mejores resultados obtenidos y técnicas utilizadasaproximación mejora los resultados en la evalua- textos (Sebastiani, 2002) y los prometedores resul-ción de la polaridad y el grado. Hemos combinado tados obtenidos en estudios previos (Boldrini et al.polaridad y objetividad (Obj+Pol), con las siguien- 2009b). La implementación utilizada ha sido la detes categorías resultantes: objetiva, positiva y ne- Weka 8con los parámetros por defecto. Debido algativa. También hemos combinado el grado con la gran número de experimentos realizados (aproxi-objetividad y la polaridad (Obj+Pol+Grado), con madamente 1 millón, debido a todas las combina-las siguiente siete categorías resultantes: objetiva, ciones de técnicas posibles) y parámetros de AApositiva baja, positiva media, positiva alta, negati- ajustados, en la Tabla 3 presentamos sólo los mejo-va baja, negativa media y negativa alta. Para este res resultados y la combinación de técnicas paraprimer paso, empleamos la clásica bolsa de pala- cada uno de ellos.bras (word). Para reducir las dimensiones de las En general, los mejores resultados han sido obteni-muestras también hemos utilizado técnicas de dos utilizando lematización o stemming. El stem-stemming (stem), lematización (lemma) y métodos ming funciona mejor cuando el número dereducción de dimensionalidad por selección de características es reducido, mientras que cuando estérminos (RDS). Para RDS hemos comparado dos mayor es más apropiado utilizar lematización. Losaproximaciones, ganancia de información (ig) y experimentos que utilizan RDS han obtenido mejo-chi square (x2), por reducir la dimensionalidad res resultados que los que no la utilizan, sin dife-sustancialmente sin perder efectividad (Yang and rencias significativas entre ig y x2. El mejor núme-Pedersen, 1997). Hemos aplicado estas técnicas número de características seleccionadas oscilacon diferentes números de características seleccio- entre 100 y 800, dependiendo del número de clasesnadas (ig50, ig100, …, ig1000). Para pesar estas y muestras de la clasificación: cuantas más haya,características hemos evaluado las técnicas más más características es necesario seleccionar. Po-comunes: pesado binario (binary), tf/idf (tfidf) y demos decir también que, en general, cualquiertf/idf normalizado (tfidfn) (Salton and Buckley, técnica de pesado funciona mejor que el pesado1988). También hemos incluido como técnica de binario, aunque los resultados son muy similarespesado la utilizada por Gómez et al. (2006) en independientemente del método utilizado.recuperación de información (RI) para comprobar También observamos que los resultados obtenidossu fiabilidad en este nuevo ámbito (jirs). En resu- con los corpus de Kyoto y Phones separadamentemen podemos decir que este último pesado es simi- nos dan mejores resultados que la unión de elloslar a tf/idf pero sin tener en cuenta la frecuencia de (Full). Este resultado era de esperar debido a lalos términos. También hemos utilizado su versión especialización de ambos corpus: al modelo de AAnormalizada (jirsn). Como método de aprendizaje es más fácil aprender sobre dominios restringidos.supervisado hemos elegido máquinas de soportevectorial (SVM) por su calidad en clasificación de 8 http://www.cs.waikato.ac.nz/ml/weka/ 182
  5. 5. Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogComo podemos deducir a partir de los experimen- caciones se combinan, mayor es la mejora. Estotos, la evaluación de las clasificaciones de objeti- ocurre porque en el caso de clasificaciones separa-vidad y polaridad es más fácil debido al bajo nú- das, el proceso de AA no tiene información acercanúmero de categorías de cada una de ellas. Los del resto de clasificaciones. Cuando las juntamos,resultados obtenidos son más altos que la clasifica- esto ya no ocurre.ción del grado con una media de mejoría de 4.9% y Combinación Precisión14.2% respectivamente. Además, una vez se ha P(Obj) ! P(Pol) 0.4352 Kyoto P(Obj+Pol) 0.6113detectado la objetividad, determinar la polaridad EB P(Obj) !P(Pol) ! P(Grado) 0.2852también es más fácil, aunque el número de mues- P(Obj+Pol+Deg) 0.4571tras para la polaridad sea un 41% más pequeño y P(Obj) ! P(Pol) 0.5154 Phones P(Obj+Pol) 0.5584ambos tengan el mismo número de categorías. La EB P(Obj) !P(Pol) ! P(Grado) 0.3316primera tarea es más compleja que la segunda, P(Obj+Pol+Deg) 0.4046porque los vectores de características son más cer- P(Obj) ! P(Pol) 0.5090 P(Obj+Pol) 0.5771 Fullcanos. Esto significa que hay más ambigüedad en EB P(Obj) !P(Pol) ! P(Grado) 0.3097la clasificación de la objetividad que en la polari- P(Obj+Pol+Deg) 0.4912dad. Términos como “malo”, “bueno”, “excelente” Tabla 4: Precisión según combinaciones de catego-u “horrible” claramente determinan la polaridad de ríaslas frases (si no se usa ni negación ni ironía) peroes más difícil encontrar este tipo de palabras para 4.2 EmotiBlog con Información Semánticadistinguir entre subjetivo u objetivo. Para poder comprobar el impacto de incluir rela-Aunque la combinación de categorías (Obj+Pol y ciones semánticas como características de aprendi-Obj+Pol+Deg) obtiene peor f-measure, esto no zaje y reducir la dimensionalidad de éstas, se hasignifica que esta aproximación no sea adecuada. realizado un agrupamiento de características segúnPara obtener las clasificaciones de polaridad y sus relaciones semánticas. En este punto, el desa-grado de la Tabla 3 se han preseleccionado pre- fío fue la desambiguación de sentidos de las pala-viamente sólo las frases subjetivas y, como hemos bras (DSP) debido a los pobres resultados que estemencionado antes, esto en una aplicación final no tipo de sistemas tradicionalmente obtienen enes trivial. En este caso sería necesario detectar competiciones internacionales (Agirre et al. 2010).previamente las frases subjetivas, posteriormente la Suponemos que seleccionar un sentido erróneopolaridad y finalmente el grado, lo que propagaría para un término introduciría ruido en la evaluaciónel error en cada clasificación. Si calculamos la y reduciría el rendimiento del sistema de AA. Peroprecisión (P), en lugar de la f-measure, de los me- si incluimos todos los sentidos de ese término, lasjores experimentos de cada categoría separadamen- técnicas de RDS podrían escoger los sentidos co-te y obtenemos la precisión final propagando los rrectos. Para conseguir este propósito, se han utili-errores multiplicando sus respectivas precisiones, zado dos recursos léxicos: WordNet (WN) yel resultado no sería tan bueno. Cabe destacar que, SentiWordNet (SWN) mencionados en las seccio-para propagar el error sólo tenemos en cuenta la nes 1 y 2. Nuestra decisión de usar estos recursosprecisión de la clase subjetiva, evitando la objetiva. se debe a que el primero tiene una gran cantidad dePor ejemplo, cuando evaluamos objetividad y pola- relaciones semánticas entre términos en inglés, y elridad usando el corpus Full, obtenemos una preci- segundo ha demostrado mejorar los resultados desión de 0,71 y 0,72 respectivamente. Sin embargo, los sistemas de MO (Abulaish et al. 2009). Estela precisión propagada sería el producto de estos último asigna a algunos de los sentidos de WN tresvalores (0,51), el cual es un 12% más bajo que puntuaciones: positividad, negatividad y objetivi-evaluar juntos Obj+Pol. Esto se hace más destaca- dad. Como SWN sólo contiene los sentidos de WNdo si evaluamos el grado dando una precisión 37% que tienen información subjetiva, queremos com-más baja que de forma separada. En la Tabla 4 se probar si expandiendo únicamente mediante esosmuestran las mejores precisiones con los tres cor- sentidos podemos mejorar los resultados. Además,pus principales. Como podemos observar, la preci- queremos añadir las puntuaciones mencionadas ensión combinando clasificaciones son entre un el sistema de AA como nuevos atributos. Por8,34% y un 68,39% mejores. Cuantas más clasifi- ejemplo, si tenemos un sentido S con una positivi- 183
  6. 6. Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco dad de 0,25 y una negatividad de 0,75, añadiríamos fico para AS que contiene información muy valio- por un lado una característica llamada S (con el sa sobre términos subjetivos. De nuevo, no parece peso dado por el método de pesado), y por otro dos haber diferencias significativas entre las distintas características más: S-negativa y S-positiva, con técnicas de pesado (exceptuando el binario, que las puntuaciones negativa y positiva respectiva- siempre da peores resultados). Es importante men- mente. Estos experimentos con recursos léxicos se cionar el hecho de que las técnicas de RDS apare- han llevado a cabo en cinco configuraciones dife- cen siempre entre los mejores resultados, con lo rentes utilizando: sólo sentidos de SWN (swn), cual parece demostrar que estos métodos son apro- sólo sentidos de WN (wn), sentidos de SWN para piados para la desambiguación. Pese a todo, en términos subjetivos y de WN para el resto trabajos futuros queremos realizar más experimen- (swn+wn), sólo sentidos de SWN añadiendo las tos para intentar afirmarlo con más rotundi- puntuaciones (swn+scores) y sentidos de SWN dad.Podemos observar que los mejores resultados para términos subjetivos añadiendo las puntuacio- incluyen recursos léxicos. Es más, podemos ver en nes y de WN para el resto (swn+wn+scores). la Tabla 5 que SWN está presente en todos los Cuando un término no se encuentra en ningún re- mejores resultados, y las puntuaciones de positivi- curso léxico, se utiliza su lema directamente. dad y negatividad aparecen en un 55% de ellos. Además, para resolver la ambigüedad, hemos op- Además, la utilización de estas puntuaciones está tado por utilizar dos técnicas: añadir todos los sen- presente en casi todos los mejores resultados para tidos y dejar que los métodos de RDS se encarguen el corpus Full. Por lo tanto, esta técnica parece ser de desambiguar (los mencionados swn, wn, mejor para los corpus que no pertenecen a un do- swn+wn, swn+scores y swn+wn+scores), pero minio específico. En nuestros próximos experi- también añadir únicamente el sentido más frecuen- mentos comprobaremos si esta tendencia continúa te para cada término (snw1, wn1, swn1+wn1, utilizando un corpus más grande y que abarque un swn1+scores y swn1+wn1+scores). En la Tabla 5 mayor número de dominios. Los experimentos nos se presentan los mejores resultados añadiendo la animan a continuar utilizando SWN en este tipo de información semántica al proceso de clasificación. tareas y encontrar nuevas formas de aprovechar la Clasificación f-measure Técnicas información subjetiva que proporciona. Objetividad 0.6647 swn+wn+scores, tfidf, chi900 4.3 Experimentos con el corpus de JRCEmotiBlog Polaridad 0.7602 swn1, tfidfn, chi550 Kyoto Grado 0.6609 swn1, jirsn, ig550 Emoción 0.4997 swn, tfidf, chi450 Finalmente, se han aplicado todas las técnicas Obj+Pol 0.5893 swn, tfidfn Obj+Pol+Gra 0.5488 swn1+wn1, tfidf mencionadas también con el corpus JRC. En la Objetividad 0.6405 swn1+wn1+scores, jirsn, ig1000 Tabla 6 presentamos un resumen con los mejores resultados de estos experimentos.EmotiBlog Polaridad 0.8093 swn+scores, tfidfn, ig550 Phones Grado 0.6306 swn1+wn1, tfidfn, ig150 Emoción 0.8133 swn+wn+scores, jirsn, ig350 Classification f-measure Techniques Obj+Pol 0.5447 swn+wn+scores, tfidfn, chi200 Objetividad 0.6022 tfidfn, ig950 Obj+Pol+Gra 0.4445 swn1, jirsn Word Polaridad 0.5163 jirsn Objetividad 0.6274 swn+wn, jirsn, chi650 Obj+Pol 0.5648 tfidfn, ig100 Objetividad 0.6049 jirsnEmotiBlog Polaridad 0.6374 swn1+scores, jirsn, chi350 Grado 0.6101 swn1+wn1+scores, tfidf, ig1000 Lemma Polaridad 0.5240 tdidfn, ig800 Full Emoción 0.5747 swn+wn+scores, jirsn, ig450 Obj+Pol 0.5697 jirs Obj+Pol 0.5493 swn+wn+scores, tfidf, chi950 Objetividad 0.6066 jirsn Obj+Pol+Gra 0.4980 swn+wn+scores, jirsn Stem Polaridad 0.5236 tfidfn, ig450 Tabla 5: Resultados con información semántica Obj+Pol 0.5672 tfidf Objetividad 0.6088 wn1, jirsn, ig650 Excepto en unos pocos casos, la información se- WN Polaridad 0.5340 wn1, tfidfn, ig800 Obj+Pol 0.5769 wn1, jirsn, ig700 mántica de WN y SWN mejora los resultados fina- Objetividad 0.6054 swn1+wn1, jirsn les. Esta mejora puede alcanzar un 7,12%. A pesar SWN+WN Polaridad 0.5258 swn+wn+scores, jirsn de que sólo hemos mostrado los mejores resulta- Obj+Pol 0.5726 swn1+scores, jirsn dos, esta tendencia se observa en el resto de expe- Tabla 6: Experimentos con JRC rimentos: las pruebas realizadas usando relaciones Podemos observar en primera instancia que los semánticas están en las primeras posiciones. Usar experimentos añadiendo información semántica, sólo WN no funciona tan bien como utilizar tam- tanto WN como SWN, obtienen mejores valores bién SWN debido a que éste es un recurso especí- que los experimentos sin ellos. En particular, usan- 184
  7. 7. Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlogdo sólo WN obtenemos mejores resultados que EmotiBlog Phones, una extensión de EmotiBlog.añadiendo además la información de SWN. Esto se Hemos procesado todas las combinaciones dedebe al hecho de que, al contrario de EmotiBlog, el TSR, tokenización y pesado de términos, llegandonúmero de frases objetivas en JRC es mayor que el a un total de 1 millón de experimentos, pero pornúmero de las subjetivas y, por lo tanto, la infor- razones de espacio nos hemos limitado a presentarmación que SWN suministra no tiene tanto impac- los resultados más relevantes. Como hemos de-to en el corpus. Mirando en todos los resultados en mostrado, el AS es una tarea extremadamentegeneral (no sólo en los mejores) podemos observar compleja y hay muchas posibilidades de mejorarlos mismos aspectos que obtuvimos con EmotiBlog los resultados obtenidos. Con respecto a la mejorasobre las técnicas de stemming, lematización y de la detección el objeto del discurso (target) nues-RDS. También apreciamos una semejanza con los tra intención es usar modelos de entrenamientoresultados de la Tabla 5 al evaluar las clasificacio- basados en secuencias de palabras (n-gramas, mo-nes de forma combinada, pues en este caso tam- delos ocultos de Markov, etc) para encontrar elbién mejoran. En general, los resultados en estos tema principal del discurso de una opinión y poderexperimentos son peores que en los realizados con hacer un estudio comparativo de las diferentesEmotiBlog, a pesar de que el corpus de JRC es más técnicas (que se usarán también para detectar losgrande. Esto es debido a que el proceso de anota- fenómenos lingüísticos basados secuencialidad,ción de JRC incluía unas reglas muy laxas para los como las negaciones, la ironía y el sarcasmo).anotadores que permitían mayores errores en el Como trabajo futuro nuestra intención es unir losetiquetado. Estas reglas provocan que frases subje- corpus (EmotiBlog y el JRC) además de otras co-tivas puedan ser etiquetadas como objetivas, lecciones disponibles para poder tener a disposi-creando ruido en los modelos de AA. Esto no ocu- ción más datos para los modelos de AA y asírre con EmotiBlog porque el proceso de anotación obtener mayor precisión sobre los elementos queha sido más cuidadoso y estricto. En la Tabla 7 tienen en común en la anotación. Cabe mencionarresumimos los mejores resultados para cada cor- que EmotiBlog contiene también textos extraídospus. de blogs en italiano y castellano, pero debido a la EB Kyoto EB Phones EB Full JRC falta de recursos en estos idiomas y para hacer un Objetividad 0.6647 0.6405 0.6274 0.6088 estudio comparativo (JRC sólo contiene textos en Polaridad 0.7602 0.8093 0.6374 0.5340 Obj+Pol 0.5893 0.5447 0.5493 0.5769 inglés), hemos decidido utilizar únicamente la Tabla 7. Mejores resultados según clasificación y parte en inglés. En trabajos futuros tenemos la corpus. intención de explotar las colecciones en italiano y castellano de EmotiBlog, además de anotar más5 Conclusiones y Trabajos Futuros textos en nuevos idiomas. En este trabajo no he- mos aprovechado la totalidad de etiquetas de gra-Es bien conocido que la importancia del AS se ha nularidad fina que proporciona EmotiBlog. Por esovisto incrementada debido a la inmensa cantidad en futuras investigaciones nos proponemos tenerde información subjetiva disponible. Esto es debi- en cuenta esta información para mejorar nuestrosdo a que es necesario explotar esta información en modelos de AA. Respecto a la fiabilidad de Emo-aplicaciones que trabajen con opiniones. Es por tiBlog para tareas de AS y su comparación con elesto que en este artículo hemos evaluado las técni- corpus JRC, hemos observado que experimentandocas existentes enfocándonos en la detección y cla- con las mismas técnicas en ambos corpus se hansificación automática de frases con información obtenido resultados muy parecidos. Este hecho nossubjetiva. Los corpus que hemos utilizado proce- muestra que el sistema de anotación y el procesoden de distintos dominios y géneros textuales y de etiquetado de EmotiBlog son válidos. En algu-esto dificulta la tarea, especialmente en el dominio nos casos los resultados obtenidos con EmotiBlogde los teléfonos móviles dónde tenemos expresio- son mejores, confirmando nuestra hipótesis de quenes de subjetividad más informales si los compa- este corpus está basado en un sistema de anotaciónramos con el resto de corpus basados en apropiado y sigue un sistema de anotación robusto.comentarios de periódicos. Para entrenar y probar Esto nos anima a continuar nuestra investigaciónnuestro sistema de AA para la detección automáti- utilizando EmotiBlog.ca de datos subjetivos hemos utilizado el corpus 185
  8. 8. Javi Fernández, Ester Boldrini, José Manuel Gómez y Patricio Martínez-Barco6 Referencias Analysis in Non-traditional Textual Genres. In Proceedings of DMIN, Las Vegas.Agirre, E., Lopez de Lacalle, O., Fellbaum, C., Balahur, A., Boldrini, E., Montoyo, A., Martínez- Hsieh, S., Tesconi, M., Monachini, M., Vossen, Barco, P. 2010a. A Unified Proposal for Fac- P., Segers, R. 2010. SemEval-2010 Task 17: toid and Opinionated Question Answering. In All-words Word Sense Disambiguation on a Proceedings of the COLING conference. Specific Domain. Boldrini E., Fernández J., Gómez J.M., Martínez-Abulaish, M., Jahiruddin, M., Doja, N. and Ah- Barco P. 2009b. Machine Learning Techniques mad, T. 2009. Feature and Opinion Mining for for Automatic Opinion Detection in Non- Customer Review Summarization. PReMI 2009, Traditional Textual Genres. In Proceedings of LNCS 5909, pp. 219–224, 2009. Springer- WOMSA 2009. Seville, Spain. Verlag Berlin Heidelberg. Chaovalit P, Zhou L. 2005. Movie Review Mining:Balahur A., and Montoyo A. 2008. Applying a a Comparison between Supervised and Unsu- Culture Dependent Emotion Triggers Database pervised Classification Approaches. In Proce- for Text Valence and Emotion Classification. In edings of HICSS-05. Proceedings of the AISB 2008 Symposium on Cui H., Mittal V., Datar M. 2006. Comparative Affective Language in Human and Machine, Experiments on Sentiment Classification for On- Aberdeen, Scotland. line Product Reviews. In Proceedings of the 21stBalahur A., Lloret E., Boldrini E., Montoyo A., National Conference on Artificial Intelligence Palomar M., Martínez-Barco P. 2009a. Summa- AAAI. rizing Threads in Blogs Using Opinion Polarity. Cerini S., Compagnoni V., Demontis A., Formen- In Proceedings of ETTS workshop. RANLP. telli M., and Gandini G. 2007. Language resour-Balahur, A., Boldrini, E., Montoyo, A., Martínez- ces and linguistic theory: Typology, second Barco, P. 2009c. Opinion and Generic Ques- language acquisition. English linguistics tion Answering systems: a performance (Forthcoming), chapter Micro-WNOp: A gold analysis. In Proceedings of ACL, 2009, Sin- standard for the evaluation of automatically gapore. compiled lexical resources for opinion mining.Balahur, A., Boldrini, E., Montoyo, A., Martínez- Franco Angeli Editore, Milano, IT. Barco, P. 2010b. Opinion Question Dave K., Lawrence S., Pennock, D. 2003. “Mining Answering: Towards a Unified Approach. In the Peanut Gallery: Opinion Extraction and Se- Proceedings of the ECAI conference. mantic Classification of Product Reviews”. InBalahur, A., Boldrini, E., Montoyo, A., Martínez- Proceedings of WWW-03. Barco 2009b. P. Cross-topic Opinion Mining Esuli A., Sebastiani F. 2006. SentiWordNet: A for Realtime Human-Computer Interaction. Publicly Available Resource for Opinion Mi- ICEIS 2009. ning. In Proceedings of the 6th InternationalBalahur Alexandra, Ralf Steinberger, Mijail Ka- Conference on Language Resources and Evalua- badjov, Vanni Zavarella, Erik van der Goot, tion, LREC 2006, Genoa, Italy. Matina Halkia, Bruno Pouliquen & Jenya Gamon M., Aue S., Corston-Oliver S., Ringger E. Belyaeva (2010c). Sentiment Analysis in the 2005. Mining Customer Opinions from Free News. In: Proceedings of the 7th International Text. Lecture Notes in Computer Science. Conference on Language Resources and Eva- Galavotti, L., Sebastiani, F., and Simi, M. 2000. luation (LREC2010), pp. 2216-2220. Valletta, Experiments on the use of feature selection and Malta, 19-21 May 2010. negative evidence in automated text categoriza-Boldrini, E., Balahur, A., Martínez-Barco, P., tion. In Proceedings of ECDL-00, 4th European Montoyo, A. 2010. EmotiBlog: a finer- Conference on Research and Advanced Techno- grained and more precise learning of subjecti- logy for Digital Libraries (Lisbon, Portugal, vity expression models. In Proceedings of 2000), 59–68. LAW IV, ACL. Gómez, J.M.; Buscaldi, Bisbal, E.; D.; Rosso P.;Boldrini, E., Balahur, A., Martínez-Barco, P., Sanchis E. QUASAR: The Question Answering Montoyo, A. 2009a: EmotiBlog: an Annota- System of the Universidad Politécnica de Va- tion Scheme for Emotion Detection and 186
  9. 9. Análisis de Sentimientos y Minería de Opiniones: el corpus EmotiBlog lencia. In Accessing Multilingual Information Strapparava C. Valitutti A. 2004. WordNet-Affect: Repositories. LNCS 2006. 439-448. an affective extension of WordNet. In Proceedi-Hatzivassiloglou V., Wiebe J. 2000. Effects of ngs ofthe 4th International Conference on Lan- adjective orientation and gradability on sentence guage Resources and Evaluation, LREC. subjectivity. In Proceedings of COLING. Turney P. 2002. Thumbs Up or Thumbs Down?Liu 2006. Web Data Mining book. Chapter 11 Semantic Orientation Applied to UnsupervisedLiu, B. (2007). Web Data Mining. Exploring Hy- Classification of Reviews. ACL 2002: 417-424. perlinks, Contents and Usage Data. Springer, Wiebe, J. (1994). Tracking point of view in narra- first edition. tive. Computational Linguistics 20 (2): 233-287.Miller, G.A. 1995. WordNet: A Lexical Database Wilson, T., Wiebe, J., Hwa, R. 2006. Recognizing for English. Communications of the ACM strong and weak opinion clauses. Computatio- Vol. 38, No. 11: 39-41 nal Intelligence 22 (2): 73-99.Mladenic, D. 1998. Feature subset selection in text Yang, J. and and Pedersen, O. 1997. A comparati- learning. In Proceedings of ECML-98, 10th ve study of feature selection in text categoriza- European Conference on Machine Learning tion. In: ICML ’97: Proceedings of the (Chemnitz, Germany, 1998), 95–100. Fourteenth International Conference on Machi-Mullen T., Collier N. 2004. Sentiment Analysis ne Learning. San Francisco, CA, USA: Morgan Using Support Vector Machines with Diverse Kaufmann Publishers Inc., pp. 412–420. Information Sources. In Proceedings of EMNLP.Ng V., Dasgupta S. and Arifin S. M. 2006. Exami- ning the Role of Linguistics Knowledge Sources in the Automatic Identification and Classifica- tion of Reviews. In the proceedings of the ACL, Sydney.Ohana, B., Tierney, B. 2009. Sentiment classifica- tion of reviews using SentiWordNet, T&T Con- ference, Dublin Institute of Technology, Dublin, Ireland, 22nd.-23rd.Pang B and Lee L. 2003 Seeing stars: Exploiting class relationships for sentiment categorizati- on with respect to rating scales. In Proceedi- ngs of the 43rd Annual Meeting of the ACL, pages 115–124.Pang B., Lee L, Vaithyanathan, S. 2002. Thumbs up? Sentiment classification using machine lear- ning techniques. In Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing.Qiu, G., Liu, B., Bu, J., Chen, C. 2006. Opinion Word Expansion and Target Extraction through Double Propagation. Association for Computa- tional LinguisticsRiloff E. and Wiebe J. 2003. Learning Extraction Patterns for Subjective Expressions. In Proce- edings of the 2003 Conference on Empirical Methods in Natural Language Processing.Salton, G. and Buckley, C. (1988). "Term Weigh- ting Approaches in Automatic Text Retrieval." In: Information Processing and Management, 24(5). 187

×