SlideShare a Scribd company logo
1 of 131
Download to read offline
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 1 / 54
Clasificación automática de la orientación semántica de
opiniones mediante características lingüísticas
Facultad de Ciencias, UNAM.
Alonso Palomino Garibay y Sofía N. Galicia-Haro
28 de Mayo de 2015
COMIA 2015 - Contenidos
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 2 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 3 / 54
Introducción - Minería de opiniones
Figura: Communications of the ACM, Vol. 56 No. 4, Paginas 82-89
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 4 / 54
Introducción - Minería de opiniones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
Introducción - Minería de opiniones
Existe una enorme cantidad de
comentarios de libre acceso en
la Web, para productos y
servicios.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
Introducción - Minería de opiniones
Existe una enorme cantidad de
comentarios de libre acceso en
la Web, para productos y
servicios.
Recurso valioso para la toma
de decisiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
Introducción - Minería de opiniones
Existe una enorme cantidad de
comentarios de libre acceso en
la Web, para productos y
servicios.
Recurso valioso para la toma
de decisiones
Monitoreo de redes sociales,
rastreo de reseñas de clientes,
encuestas, bussines analitycs.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
Introducción - Minería de opiniones
Existe una enorme cantidad de
comentarios de libre acceso en
la Web, para productos y
servicios.
Recurso valioso para la toma
de decisiones
Monitoreo de redes sociales,
rastreo de reseñas de clientes,
encuestas, bussines analitycs.
Las empresas pueden mejorar
sus ventas
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
Introducción - Minería de opiniones
Definición
Minería de opiniones:
Se refiere al estudio computacional de opiniones, sentimientos,
evaluaciones, actitudes, apreciaciones, afecciones, puntos de vista,
emociones y subjetividades expresadas en texto.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 6 / 54
Introducción - Minería de opiniones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 7 / 54
Introducción - Minería de opiniones
Subtareas dentro de la minería de opiniones:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
Introducción - Minería de opiniones
Subtareas dentro de la minería de opiniones:
• Turney (2002)
• Determinó la orientación semántica a partir de bigramas
(¿Positivo o Negativo?).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
Introducción - Minería de opiniones
Subtareas dentro de la minería de opiniones:
• Turney (2002)
• Determinó la orientación semántica a partir de bigramas
(¿Positivo o Negativo?).
• Bo Pang et al (2008):
• Identificación de opiniones, polaridad del sentimiento, resumir de
forma automática la orientación de una opinión.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
Introducción - Minería de opiniones
Subtareas dentro de la minería de opiniones:
• Turney (2002)
• Determinó la orientación semántica a partir de bigramas
(¿Positivo o Negativo?).
• Bo Pang et al (2008):
• Identificación de opiniones, polaridad del sentimiento, resumir de
forma automática la orientación de una opinión.
• Liu Bing et al (2010)
• análisis de sentimiento en oraciones de comparación, detección de
SPAM, detección de opiniones neutrales y engañosas.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 9 / 54
Corpus de opiniones
Corpus de trabajo extraído de
ciao.esa
a
Sofía N. Galicia-Haro y Alexander Gelbukh (2014).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
Corpus de opiniones
Corpus de trabajo extraído de
ciao.esa
2800 opiniones de lavadoras en
Español.
a
Sofía N. Galicia-Haro y Alexander Gelbukh (2014).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
Corpus de opiniones
Corpus de trabajo extraído de
ciao.esa
2800 opiniones de lavadoras en
Español.
Tamaño promedio por lexemas
es de 345.
a
Sofía N. Galicia-Haro y Alexander Gelbukh (2014).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
Corpus de opiniones
Corpus de trabajo extraído de
ciao.esa
2800 opiniones de lavadoras en
Español.
Tamaño promedio por lexemas
es de 345.
El numero total de lexemas de
la colección es de 845,280.
a
Sofía N. Galicia-Haro y Alexander Gelbukh (2014).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
Corpus de opiniones
Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
Corpus de opiniones
Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)
• La colección fue anotada con su lema y categoría gramatical.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
Corpus de opiniones
Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)
• La colección fue anotada con su lema y categoría gramatical.
• Se utilizaron un conjunto de etiquetas para representar la
información morfológica de las palabras.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
Corpus de opiniones
Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012)
• La colección fue anotada con su lema y categoría gramatical.
• Se utilizaron un conjunto de etiquetas para representar la
información morfológica de las palabras.
• Este conjunto de etiquetas se basa en las etiquetas propuestas
por el grupo EAGLES para la anotación morfosintáctica de
lexicones y corpus para todas las lenguas europeas.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
Corpus de opiniones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
Corpus de opiniones
A partir de la colección total de
opiniones en Español extrajimos
un subconjunto significativo de
instancias de opiniones
diferentes: 2598.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
Corpus de opiniones
A partir de la colección total de
opiniones en Español extrajimos
un subconjunto significativo de
instancias de opiniones
diferentes: 2598.
Opiniones pagadas por
fabricantes
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
Corpus de opiniones
A partir de la colección total de
opiniones en Español extrajimos
un subconjunto significativo de
instancias de opiniones
diferentes: 2598.
Opiniones pagadas por
fabricantes
Observación
No se eliminaron las opiniones que
claramente son anuncios de empresas
de mantenimiento (SPAM).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
Corpus de opiniones
La tarea para este corpus es la de predicción:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
Corpus de opiniones
La tarea para este corpus es la de predicción:
• Determinar qué tan bueno es un producto en base a la
orientación semántica de las opiniones de entrenamiento, así
como el puntaje de los usuarios.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
Corpus de opiniones
La tarea para este corpus es la de predicción:
• Determinar qué tan bueno es un producto en base a la
orientación semántica de las opiniones de entrenamiento, así
como el puntaje de los usuarios.
• El puntaje de los usuarios que corresponden a: malo (una
estrella), regular (dos estrellas), bueno (tres estrellas), muy
bueno (cuatro estrellas) o excelente (5 estrellas).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
Corpus de opiniones
La tarea para este corpus es la de predicción:
• Determinar qué tan bueno es un producto en base a la
orientación semántica de las opiniones de entrenamiento, así
como el puntaje de los usuarios.
• El puntaje de los usuarios que corresponden a: malo (una
estrella), regular (dos estrellas), bueno (tres estrellas), muy
bueno (cuatro estrellas) o excelente (5 estrellas).
• Errores gramaticales como ortográficos y de puntuación
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
Corpus de opiniones
La tarea para este corpus es la de predicción:
• Determinar qué tan bueno es un producto en base a la
orientación semántica de las opiniones de entrenamiento, así
como el puntaje de los usuarios.
• El puntaje de los usuarios que corresponden a: malo (una
estrella), regular (dos estrellas), bueno (tres estrellas), muy
bueno (cuatro estrellas) o excelente (5 estrellas).
• Errores gramaticales como ortográficos y de puntuación
• Decidimos no aplicar métodos de corrección automática para
normalizar el texto.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
Corpus de opiniones
Figura: Descripción del corpus de reseñas comerciales
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 14 / 54
Corpus de opiniones
En el área de aprendizaje automático
se ha considerado el problema del
desequilibrio de clases.
Modificación del algoritmo Sun,
Yanmin et al (2007).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
Corpus de opiniones
En el área de aprendizaje automático
se ha considerado el problema del
desequilibrio de clases.
Modificación del algoritmo Sun,
Yanmin et al (2007).
Asignación de pesos distintos a
los ejemplos de entrenamiento,
introduciendo diferentes costos
a ejemplos positivos y negativos.
Pazzani, Michael et al (1994)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
Corpus de opiniones
En el área de aprendizaje automático
se ha considerado el problema del
desequilibrio de clases.
Modificación del algoritmo Sun,
Yanmin et al (2007).
Asignación de pesos distintos a
los ejemplos de entrenamiento,
introduciendo diferentes costos
a ejemplos positivos y negativos.
Pazzani, Michael et al (1994)
Muestreo heterogéneo de datos
(e.g. bajo-muestreo,
sobre-muestreo, metodos
hibridos) Tang, Yuchun et al
(2009).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
Bigramas afirmativos
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
Bigramas afirmativos
• Turney, Peter D. (2002) determinó la orientación semántica
mediante una estrategia que consiste en:
1 Extracción de bigramas a partir de texto.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
Bigramas afirmativos
• Turney, Peter D. (2002) determinó la orientación semántica
mediante una estrategia que consiste en:
1 Extracción de bigramas a partir de texto.
2 Se toman cada bigrama para realizar una búsqueda en la Web
empleando el operador NEAR de AltaVista para encontrar cuántos
documentos tienen ese bigrama cerca de un término positivo
(excellent) y de un término negativo (poor).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
Bigramas afirmativos
• Turney, Peter D. (2002) determinó la orientación semántica
mediante una estrategia que consiste en:
1 Extracción de bigramas a partir de texto.
2 Se toman cada bigrama para realizar una búsqueda en la Web
empleando el operador NEAR de AltaVista para encontrar cuántos
documentos tienen ese bigrama cerca de un término positivo
(excellent) y de un término negativo (poor).
3 El puntaje para los dos conjuntos se realiza mediante la medida de
información mutua puntual (PMI).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
Bigramas afirmativos
• Turney, Peter D. (2002) determinó la orientación semántica
mediante una estrategia que consiste en:
1 Extracción de bigramas a partir de texto.
2 Se toman cada bigrama para realizar una búsqueda en la Web
empleando el operador NEAR de AltaVista para encontrar cuántos
documentos tienen ese bigrama cerca de un término positivo
(excellent) y de un término negativo (poor).
3 El puntaje para los dos conjuntos se realiza mediante la medida de
información mutua puntual (PMI).
• La diferencia de PMI se utiliza para determinar la orientación
semántica
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
Bigramas afirmativos
Observación
El puntaje PMI de dos palabras w1 y w2 se obtiene mediante la
probabilidad de que las dos palabras aparezcan juntas dividida por la
probabilidad de que las dos palabras aparezcan juntas dividida por las
probabilidades de cada palabra en forma individual:
PMI(w1, w2) = log
P(w1, w2)
P(w2)P(w2)
(1)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 17 / 54
Bigramas afirmativos
La orientación semántica se calculó de la siguiente forma:
Observación
SO(frase) = log
hits(Frase NEAR excellent)hits(poor)
hits(frase NEAR poor)hits(excellent)
(2)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 18 / 54
Bigramas afirmativos
La orientación semántica de
bigramas fue utilizada para
determinar la orientación
semántica de opiniones
completas.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
Bigramas afirmativos
La orientación semántica de
bigramas fue utilizada para
determinar la orientación
semántica de opiniones
completas.
• Turney tomó 410
comentarios de
epinions.com
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
Bigramas afirmativos
La orientación semántica de
bigramas fue utilizada para
determinar la orientación
semántica de opiniones
completas.
• Turney tomó 410
comentarios de
epinions.com
• Los resultados oscilaron
entre el 66 % y 84 % de
precisión.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
Bigramas afirmativos
Conclusión
Los bigramas morfosintácticos son una buena característica para
métodos no supervisados
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54
Bigramas afirmativos
Conclusión
Los bigramas morfosintácticos son una buena característica para
métodos no supervisados
• Suponemos que para métodos supervisados podrían ser
mejores.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54
Bigramas afirmativos
En este trabajo consideramos los siguientes bigramas morfosintácticos
como característica para el entrenamiento del método supervisado:
Observación
Estos bigramas morfosintáticos no corresponden a compuestos
obtenidos por un analizador sintáctico.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
Bigramas afirmativos
En este trabajo consideramos los siguientes bigramas morfosintácticos
como característica para el entrenamiento del método supervisado:
Observación
Estos bigramas morfosintáticos no corresponden a compuestos
obtenidos por un analizador sintáctico.
• Sustantivo - adjetivo
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
Bigramas afirmativos
En este trabajo consideramos los siguientes bigramas morfosintácticos
como característica para el entrenamiento del método supervisado:
Observación
Estos bigramas morfosintáticos no corresponden a compuestos
obtenidos por un analizador sintáctico.
• Sustantivo - adjetivo
• Verbo - adverbio
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
Bigramas afirmativos
En este trabajo consideramos los siguientes bigramas morfosintácticos
como característica para el entrenamiento del método supervisado:
Observación
Estos bigramas morfosintáticos no corresponden a compuestos
obtenidos por un analizador sintáctico.
• Sustantivo - adjetivo
• Verbo - adverbio
• Adverbio - adjetivo
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
Bigramas afirmativos
En este trabajo consideramos los siguientes bigramas morfosintácticos
como característica para el entrenamiento del método supervisado:
Observación
Estos bigramas morfosintáticos no corresponden a compuestos
obtenidos por un analizador sintáctico.
• Sustantivo - adjetivo
• Verbo - adverbio
• Adverbio - adjetivo
• Adjetivo - adverbio
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
Bigramas afirmativos
Mediante un conjunto de scripts a partir de la colección de opiniones,
se obtienen todas las secuencias de dos palabras cuyas categorías
gramaticales completen los patrones antes indicados (i.e. bigramas).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
Bigramas afirmativos
Mediante un conjunto de scripts a partir de la colección de opiniones,
se obtienen todas las secuencias de dos palabras cuyas categorías
gramaticales completen los patrones antes indicados (i.e. bigramas).
• En el caso sustantivo-adjetivo el programa que extrae estos
bigramas comprueba la concordancia en género y número.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
Bigramas afirmativos
Mediante un conjunto de scripts a partir de la colección de opiniones,
se obtienen todas las secuencias de dos palabras cuyas categorías
gramaticales completen los patrones antes indicados (i.e. bigramas).
• En el caso sustantivo-adjetivo el programa que extrae estos
bigramas comprueba la concordancia en género y número.
• Para todos los bigramas se extraen no solo las palabras, también
los lemas.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
Bigramas afirmativos
Mediante un conjunto de scripts a partir de la colección de opiniones,
se obtienen todas las secuencias de dos palabras cuyas categorías
gramaticales completen los patrones antes indicados (i.e. bigramas).
• En el caso sustantivo-adjetivo el programa que extrae estos
bigramas comprueba la concordancia en género y número.
• Para todos los bigramas se extraen no solo las palabras, también
los lemas.
• Esto permite agrupar diversas formas en una sola característica.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
Bigramas afirmativos
Mediante un conjunto de scripts a partir de la colección de opiniones,
se obtienen todas las secuencias de dos palabras cuyas categorías
gramaticales completen los patrones antes indicados (i.e. bigramas).
• En el caso sustantivo-adjetivo el programa que extrae estos
bigramas comprueba la concordancia en género y número.
• Para todos los bigramas se extraen no solo las palabras, también
los lemas.
• Esto permite agrupar diversas formas en una sola característica.
Ejemplo
Por ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva y
lavadoras nuevas, se agrupan en un solo bigrama para cada par.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
Bigramas afirmativos
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
Bigramas afirmativos
• Bigramas adverbio-adjetivo y adjetivo-adverbio.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
Bigramas afirmativos
• Bigramas adverbio-adjetivo y adjetivo-adverbio.
• Aunque en Español la forma adverbio-adjetivo es común también
encontramos adjetivo-adverbio
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
Bigramas afirmativos
• Bigramas adverbio-adjetivo y adjetivo-adverbio.
• Aunque en Español la forma adverbio-adjetivo es común también
encontramos adjetivo-adverbio
Ejemplo
Adjetivo-adverbio: poco lento
Adverbio-adjetivo: más eficiente
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 24 / 54
Clasificación
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
Clasificación
Modelo
Máquinas de soporte vectorial: modelos de aprendizaje supervisado
para analizar patrones, usados para clasificación y análisis de regresión.
• Gran variedad de funciones kernel.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
Clasificación
Modelo
Máquinas de soporte vectorial: modelos de aprendizaje supervisado
para analizar patrones, usados para clasificación y análisis de regresión.
• Gran variedad de funciones kernel.
• Generalizar en parecencia de muchas. características, usando
funciones de nuestro espacio de hipótesis.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
Clasificación
Modelo
Máquinas de soporte vectorial: modelos de aprendizaje supervisado
para analizar patrones, usados para clasificación y análisis de regresión.
• Gran variedad de funciones kernel.
• Generalizar en parecencia de muchas. características, usando
funciones de nuestro espacio de hipótesis.
• Uso de heurísticas como Grid Search para la optimización de
hiper parámetros.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
Clasificación
Para una tarea de clasificación es necesario separar los datos entre
conjunto de entrenamiento y conjunto de prueba:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
Clasificación
Para una tarea de clasificación es necesario separar los datos entre
conjunto de entrenamiento y conjunto de prueba:
• En nuestro caso separamos el corpus de opiniones en 70 % para
entrenamiento y 30 % para prueba.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
Clasificación
Para una tarea de clasificación es necesario separar los datos entre
conjunto de entrenamiento y conjunto de prueba:
• En nuestro caso separamos el corpus de opiniones en 70 % para
entrenamiento y 30 % para prueba.
• Cada ejemplo o instancia se asocia a una clase, categoría o
etiqueta
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
Clasificación
Para una tarea de clasificación es necesario separar los datos entre
conjunto de entrenamiento y conjunto de prueba:
• En nuestro caso separamos el corpus de opiniones en 70 % para
entrenamiento y 30 % para prueba.
• Cada ejemplo o instancia se asocia a una clase, categoría o
etiqueta
• 70 % de los datos de entrenamiento fueron etiquetados con la
clase correspondiente
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
Clasificación
Para una tarea de clasificación es necesario separar los datos entre
conjunto de entrenamiento y conjunto de prueba:
• En nuestro caso separamos el corpus de opiniones en 70 % para
entrenamiento y 30 % para prueba.
• Cada ejemplo o instancia se asocia a una clase, categoría o
etiqueta
• 70 % de los datos de entrenamiento fueron etiquetados con la
clase correspondiente
• Mientras que el 30 % de los datos no se les asignó etiqueta.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 27 / 54
Preprocesamiento de datos
Una de las ventajas de usar un lenguaje de propósito general como
Python es la gran cantidad de bibliotecas robustas para implementar
distintos métodos y manipular datos.
Figura: pandas (Python for data analysis)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 28 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 29 / 54
Sistema
Para resolver este problema de clasificación, decidimos usar un
algoritmo supervisado. La clasificación se hizo mediante SVM para el
caso multiclase:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
Sistema
Para resolver este problema de clasificación, decidimos usar un
algoritmo supervisado. La clasificación se hizo mediante SVM para el
caso multiclase:
• Fuertes bases teóricas
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
Sistema
Para resolver este problema de clasificación, decidimos usar un
algoritmo supervisado. La clasificación se hizo mediante SVM para el
caso multiclase:
• Fuertes bases teóricas
• Algoritmos de aprendizaje que tienen la capacidad de aprender
independientemente de la dimensionalidad del espacio de
características.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
Sistema
Para resolver este problema de clasificación, decidimos usar un
algoritmo supervisado. La clasificación se hizo mediante SVM para el
caso multiclase:
• Fuertes bases teóricas
• Algoritmos de aprendizaje que tienen la capacidad de aprender
independientemente de la dimensionalidad del espacio de
características.
Observación
El objetivo de las SVM es producir un modelo basado en los datos de
entrenamiento que prediga las clases o categorías de un conjunto
nuevo de instancias, mediante la generación de un hiperplano en un
espacio de dimensión infinita.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
Sistema
Las SVM funcionan para clasificar texto 1:
1
Joachims, Thorsten. Text categorization with support vector machines:
Learning with many relevant features. Springer (1998).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
Sistema
Las SVM funcionan para clasificar texto 1:
• Cuando se clasifica texto se trabaja con espacios de alta
dimensión
1
Joachims, Thorsten. Text categorization with support vector machines:
Learning with many relevant features. Springer (1998).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
Sistema
Las SVM funcionan para clasificar texto 1:
• Cuando se clasifica texto se trabaja con espacios de alta
dimensión
• Pocas características irrelevantes, representaciones vectoriales
dispersas
1
Joachims, Thorsten. Text categorization with support vector machines:
Learning with many relevant features. Springer (1998).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
Sistema
Las SVM funcionan para clasificar texto 1:
• Cuando se clasifica texto se trabaja con espacios de alta
dimensión
• Pocas características irrelevantes, representaciones vectoriales
dispersas
• Mayor parte de los problemas de clasificación de texto son
linealmente separables.
1
Joachims, Thorsten. Text categorization with support vector machines:
Learning with many relevant features. Springer (1998).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 32 / 54
Experimentos
El entrenamiento de SVM fue
realizado empleando la herramienta
scikit-learn:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
Experimentos
El entrenamiento de SVM fue
realizado empleando la herramienta
scikit-learn:
Una biblioteca de código abierto
y propósito general.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
Experimentos
El entrenamiento de SVM fue
realizado empleando la herramienta
scikit-learn:
Una biblioteca de código abierto
y propósito general.
Implementa una gran variedad
de algoritmos de aprendizaje
automático.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
Experimentos
El entrenamiento de SVM fue
realizado empleando la herramienta
scikit-learn:
Una biblioteca de código abierto
y propósito general.
Implementa una gran variedad
de algoritmos de aprendizaje
automático.
Al igual que otras bibliotecas
incorpora o envuelve a la
biblioteca de C++ LibSVM.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 34 / 54
El truco del kernel
Figura: Truco del kernel
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 35 / 54
El truco del kernel
Distintas funciones kernel:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
El truco del kernel
Distintas funciones kernel:
• RBF (Función de base radial)
k(x, y) = exp(γ||x − y||2
) (3)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
El truco del kernel
Distintas funciones kernel:
• RBF (Función de base radial)
k(x, y) = exp(γ||x − y||2
) (3)
• Kernel polinomial
k(x, y) = (αx Ty + c)d
(4)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
El truco del kernel
Distintas funciones kernel:
• RBF (Función de base radial)
k(x, y) = exp(γ||x − y||2
) (3)
• Kernel polinomial
k(x, y) = (αx Ty + c)d
(4)
• Kernel lineal
k(x, y) = x Ty + c (5)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 37 / 54
Evaluación
• Exactitud:
Calcula el subconjunto de la precisión del conjunto de etiquetas
predichas para una muestra que exactamente corresponden al
conjunto de etiquetas del conjunto de entrenamiento.
• F1-score:
Promedio balanceado entre la precisión y el recall,
• Score:
Se refiere a la media de la precisión, dados los datos y etiquetas
de prueba.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 38 / 54
Evaluación
• Recall:
Es la capacidad que tiene un estimador de encontrar todas las
muestras positivas. El recall es el radio
tp
tp+fn
donde tp es el
numero de verdaderos positivos y fn es el numero de falsos
negativos.
• Precisión:
Intuitivamente podemos decir que es la capacidad que tiene un
estimador de no etiquetar como positiva una muestra que es
negativa. El radio de precisión:
tp
tp+fp
donde tp es el numero de
verdaderos positivos y fp el numero de falsos positivos.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 39 / 54
Evaluación
• Perdida de Hamming:
En clasificación multiclase, la perdida de Hamming corresponde a
la distancia de Hamming entre el subconjunto de instancias de
entrenamiento y el subconjunto de instancias predichas.
• Similaridad de Jaccard:
Útil para comparar el conjunto de etiquetas predichas para una
muestra correspondiente a un conjunto de etiquetas en los datos
de entrenamiento.
• F-Beta Score:
Esta métrica es la media harmónica balanceada entre la precisión
y el recall, alcanzando su óptimo valor en 1 y su peor valor en 0.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 40 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 41 / 54
Grid search
Las SVM son sensibles al conjunto
de hiperparametros con las que son
entrenados.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
Grid search
Las SVM son sensibles al conjunto
de hiperparametros con las que son
entrenados.
Un estimador
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
Grid search
Las SVM son sensibles al conjunto
de hiperparametros con las que son
entrenados.
Un estimador
Un espacio de parámetros
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
Grid search
Las SVM son sensibles al conjunto
de hiperparametros con las que son
entrenados.
Un estimador
Un espacio de parámetros
Un método para buscar o
muestrear candidatos
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
Grid search
Las SVM son sensibles al conjunto
de hiperparametros con las que son
entrenados.
Un estimador
Un espacio de parámetros
Un método para buscar o
muestrear candidatos
Un esquema de validación
cruzada
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
Grid search
Observación
Una Grid search es una búsqueda exhaustiva a través de un
subconjunto del espacio de hiper-parámetros de un algoritmo de
aprendizaje.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 43 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 44 / 54
Evaluando el rendimiento base
Observación
Evaluar la tasa base de éxito puede aportar un valor mínimo que otro
estimador debe superar.(e.g. tareas de clasificación).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 45 / 54
Evaluando el rendimiento base
Para comparar el resultado usamos
un clasificador que usa estrategias
simples:
Es aleatorio.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
Evaluando el rendimiento base
Para comparar el resultado usamos
un clasificador que usa estrategias
simples:
Es aleatorio.
Siempre predice la etiqueta más
frecuente en el conjunto de
entrenamiento.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
Evaluando el rendimiento base
Para comparar el resultado usamos
un clasificador que usa estrategias
simples:
Es aleatorio.
Siempre predice la etiqueta más
frecuente en el conjunto de
entrenamiento.
Observación
Esto es equivalente a usar la
estrategia de clasificación más
frecuente que implementa la
herramienta con la que se hizo el
entrenamiento.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
Evaluando el rendimiento base
Se obtuvieron los siguientes resultados con el sistema base (i.e.
clasificación más frecuente):
• Exactitud: 0.33
• F1 score: 0.33
• Score:0.32
• Recall: 0.33
• Precisión: 0.32
• Perdida de Hamming: 0.66
• Similaridad de Jaccard: 0.33
• F-Beta score: 0.20
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 47 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 48 / 54
Resultados
Generamos distintos conjuntos de entrenamiento:
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
Resultados
Generamos distintos conjuntos de entrenamiento:
1 Sustantivo-adjetivo
• Este bigrama expresa atributos sustantivos que corresponden a
atributos de características del producto.
• Exactitud:82.86 y F-beta: 78.22
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
Resultados
Generamos distintos conjuntos de entrenamiento:
1 Sustantivo-adjetivo
• Este bigrama expresa atributos sustantivos que corresponden a
atributos de características del producto.
• Exactitud:82.86 y F-beta: 78.22
2 Sustantivo-adjetivo y verbo-adverbio
• Expresa el modo en que se realiza la acción descrita por el verbo.
• Mejoró un 10 %
• Exactitud: 92.65 y F-beta: 92.85
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
Resultados
Generamos distintos conjuntos de entrenamiento:
1 Sustantivo-adjetivo
• Este bigrama expresa atributos sustantivos que corresponden a
atributos de características del producto.
• Exactitud:82.86 y F-beta: 78.22
2 Sustantivo-adjetivo y verbo-adverbio
• Expresa el modo en que se realiza la acción descrita por el verbo.
• Mejoró un 10 %
• Exactitud: 92.65 y F-beta: 92.85
3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo
• Exactitud: 92.30 y F-beta: 93.23
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
Resultados
Generamos distintos conjuntos de entrenamiento:
1 Sustantivo-adjetivo
• Este bigrama expresa atributos sustantivos que corresponden a
atributos de características del producto.
• Exactitud:82.86 y F-beta: 78.22
2 Sustantivo-adjetivo y verbo-adverbio
• Expresa el modo en que se realiza la acción descrita por el verbo.
• Mejoró un 10 %
• Exactitud: 92.65 y F-beta: 92.85
3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo
• Exactitud: 92.30 y F-beta: 93.23
4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo y
adjetivo-adverbio
• No es una estructura lingüística muy usada en Español.
• mejor claro, super bien, perfecto desde_luego.
• Exactitud: 93.12 y F-beta: 94.07
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
Resultados
Figura: Rendimiento del sistema con distintas configuraciones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 50 / 54
Resultados
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Resultados
• Se han utilizado colecciones de 25 opiniones favorables y 25
opiniones desfavorables para lavadoras con un método no
supervisado (Vilares, David et al 2013).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Resultados
• Se han utilizado colecciones de 25 opiniones favorables y 25
opiniones desfavorables para lavadoras con un método no
supervisado (Vilares, David et al 2013).
• Precisión de 88 para opiniones negativas y 76 para opiniones
positivas.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Resultados
• Se han utilizado colecciones de 25 opiniones favorables y 25
opiniones desfavorables para lavadoras con un método no
supervisado (Vilares, David et al 2013).
• Precisión de 88 para opiniones negativas y 76 para opiniones
positivas.
• Análogamente se han usado SVM para colecciones de opiniones
de cine (Cruz Mata, F. et al 2008).
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Resultados
• Se han utilizado colecciones de 25 opiniones favorables y 25
opiniones desfavorables para lavadoras con un método no
supervisado (Vilares, David et al 2013).
• Precisión de 88 para opiniones negativas y 76 para opiniones
positivas.
• Análogamente se han usado SVM para colecciones de opiniones
de cine (Cruz Mata, F. et al 2008).
• Precisión:87.7, Recall:87.63, F1-Score:87.66
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Resultados
• Se han utilizado colecciones de 25 opiniones favorables y 25
opiniones desfavorables para lavadoras con un método no
supervisado (Vilares, David et al 2013).
• Precisión de 88 para opiniones negativas y 76 para opiniones
positivas.
• Análogamente se han usado SVM para colecciones de opiniones
de cine (Cruz Mata, F. et al 2008).
• Precisión:87.7, Recall:87.63, F1-Score:87.66
Conclusión
Estos resultados muestran que el enfoque propuesto en este trabajo se
equipara con el estado del arte de minería de opiniones en español.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
Siguiente sección
1 Introducción
Introducción
2 Materiales empleados y conocimiento lingüístico considerado
Corpus de opiniones
Clasificación
3 Aprendizaje automático
Preprocesamiento de datos
Sistema
4 Experimentos
Experimentos
El truco del kernel
Evaluación
Grid search
Evaluando el rendimiento base
5 Resultados
Resultados
6 Conclusiones
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 52 / 54
Conclusiones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
Conclusiones
• Examinamos el problema de estimar la orientación semántica
de opiniones de productos comerciales, en idioma Español.
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
Conclusiones
• Examinamos el problema de estimar la orientación semántica
de opiniones de productos comerciales, en idioma Español.
• Exploramos las características de una colección de opiniones
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
Conclusiones
• Examinamos el problema de estimar la orientación semántica
de opiniones de productos comerciales, en idioma Español.
• Exploramos las características de una colección de opiniones
• Experimentamos con el uso de bigramas de afirmación como
características de entrenamiento para un método
supervisado (Máquinas de soporte vectorial)
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
COMIA 2015
¡Gracias por su atención!
alonsop@ciencias.unam.mx
sngh@fciencias.unam.mx
Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 54 / 54

More Related Content

Recently uploaded

LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfFranyeskaMagallanes
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILeluniversocom
 
CATASTRO -tipos,importancia,ley 28294 entre otros
CATASTRO -tipos,importancia,ley 28294 entre otrosCATASTRO -tipos,importancia,ley 28294 entre otros
CATASTRO -tipos,importancia,ley 28294 entre otrosAlimarVargas
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfSesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfMarxx4
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxcandevillarruel
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfeluniversocom
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesalvarojosephyucracol
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaraymaris1914
 
Competencia el ingrediente para crecer.pdf
Competencia el ingrediente para crecer.pdfCompetencia el ingrediente para crecer.pdf
Competencia el ingrediente para crecer.pdfAlfredo Zaconeta
 
Politicas publicas un balance necesario Bolivia
Politicas publicas un balance necesario BoliviaPoliticas publicas un balance necesario Bolivia
Politicas publicas un balance necesario BoliviaAlfredo Zaconeta
 
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdfGabrielaPeraza8
 
La factura..............................!
La factura..............................!La factura..............................!
La factura..............................!AndresBarrientosSile
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
49906_TE_RETO_juegos_criminales,juego.pdf
49906_TE_RETO_juegos_criminales,juego.pdf49906_TE_RETO_juegos_criminales,juego.pdf
49906_TE_RETO_juegos_criminales,juego.pdfceliajuliacarmen29
 

Recently uploaded (20)

LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRILPREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
PREGUNTA I DE LA CONSULTA POPULAR DEL 21 DE ABRIL
 
CATASTRO -tipos,importancia,ley 28294 entre otros
CATASTRO -tipos,importancia,ley 28294 entre otrosCATASTRO -tipos,importancia,ley 28294 entre otros
CATASTRO -tipos,importancia,ley 28294 entre otros
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdfSesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
Sesion1_Ciencia_de_Datos-Introduccion a Pithon.pdf
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docx
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdfPREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
PREGUNTA A DEL REFERÉNDUM 21 DE ABRIL.pdf
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantes
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
 
Competencia el ingrediente para crecer.pdf
Competencia el ingrediente para crecer.pdfCompetencia el ingrediente para crecer.pdf
Competencia el ingrediente para crecer.pdf
 
Politicas publicas un balance necesario Bolivia
Politicas publicas un balance necesario BoliviaPoliticas publicas un balance necesario Bolivia
Politicas publicas un balance necesario Bolivia
 
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf
1INTERMEDIO-HI-T16-ONCENIO DE LEGUÍA.pdf
 
La factura..............................!
La factura..............................!La factura..............................!
La factura..............................!
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
49906_TE_RETO_juegos_criminales,juego.pdf
49906_TE_RETO_juegos_criminales,juego.pdf49906_TE_RETO_juegos_criminales,juego.pdf
49906_TE_RETO_juegos_criminales,juego.pdf
 

Featured

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...DevGAMM Conference
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationErica Santiago
 

Featured (20)

PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
Ride the Storm: Navigating Through Unstable Periods / Katerina Rudko (Belka G...
 
Barbie - Brand Strategy Presentation
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
 

Clasificación automática de la orientación semántica de opiniones mediante características lingüísticas

  • 1. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 1 / 54 Clasificación automática de la orientación semántica de opiniones mediante características lingüísticas Facultad de Ciencias, UNAM. Alonso Palomino Garibay y Sofía N. Galicia-Haro 28 de Mayo de 2015
  • 2. COMIA 2015 - Contenidos 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 2 / 54
  • 3. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 3 / 54
  • 4. Introducción - Minería de opiniones Figura: Communications of the ACM, Vol. 56 No. 4, Paginas 82-89 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 4 / 54
  • 5. Introducción - Minería de opiniones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
  • 6. Introducción - Minería de opiniones Existe una enorme cantidad de comentarios de libre acceso en la Web, para productos y servicios. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
  • 7. Introducción - Minería de opiniones Existe una enorme cantidad de comentarios de libre acceso en la Web, para productos y servicios. Recurso valioso para la toma de decisiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
  • 8. Introducción - Minería de opiniones Existe una enorme cantidad de comentarios de libre acceso en la Web, para productos y servicios. Recurso valioso para la toma de decisiones Monitoreo de redes sociales, rastreo de reseñas de clientes, encuestas, bussines analitycs. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
  • 9. Introducción - Minería de opiniones Existe una enorme cantidad de comentarios de libre acceso en la Web, para productos y servicios. Recurso valioso para la toma de decisiones Monitoreo de redes sociales, rastreo de reseñas de clientes, encuestas, bussines analitycs. Las empresas pueden mejorar sus ventas Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 5 / 54
  • 10. Introducción - Minería de opiniones Definición Minería de opiniones: Se refiere al estudio computacional de opiniones, sentimientos, evaluaciones, actitudes, apreciaciones, afecciones, puntos de vista, emociones y subjetividades expresadas en texto. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 6 / 54
  • 11. Introducción - Minería de opiniones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 7 / 54
  • 12. Introducción - Minería de opiniones Subtareas dentro de la minería de opiniones: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
  • 13. Introducción - Minería de opiniones Subtareas dentro de la minería de opiniones: • Turney (2002) • Determinó la orientación semántica a partir de bigramas (¿Positivo o Negativo?). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
  • 14. Introducción - Minería de opiniones Subtareas dentro de la minería de opiniones: • Turney (2002) • Determinó la orientación semántica a partir de bigramas (¿Positivo o Negativo?). • Bo Pang et al (2008): • Identificación de opiniones, polaridad del sentimiento, resumir de forma automática la orientación de una opinión. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
  • 15. Introducción - Minería de opiniones Subtareas dentro de la minería de opiniones: • Turney (2002) • Determinó la orientación semántica a partir de bigramas (¿Positivo o Negativo?). • Bo Pang et al (2008): • Identificación de opiniones, polaridad del sentimiento, resumir de forma automática la orientación de una opinión. • Liu Bing et al (2010) • análisis de sentimiento en oraciones de comparación, detección de SPAM, detección de opiniones neutrales y engañosas. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 8 / 54
  • 16. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 9 / 54
  • 17. Corpus de opiniones Corpus de trabajo extraído de ciao.esa a Sofía N. Galicia-Haro y Alexander Gelbukh (2014). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
  • 18. Corpus de opiniones Corpus de trabajo extraído de ciao.esa 2800 opiniones de lavadoras en Español. a Sofía N. Galicia-Haro y Alexander Gelbukh (2014). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
  • 19. Corpus de opiniones Corpus de trabajo extraído de ciao.esa 2800 opiniones de lavadoras en Español. Tamaño promedio por lexemas es de 345. a Sofía N. Galicia-Haro y Alexander Gelbukh (2014). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
  • 20. Corpus de opiniones Corpus de trabajo extraído de ciao.esa 2800 opiniones de lavadoras en Español. Tamaño promedio por lexemas es de 345. El numero total de lexemas de la colección es de 845,280. a Sofía N. Galicia-Haro y Alexander Gelbukh (2014). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 10 / 54
  • 21. Corpus de opiniones Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
  • 22. Corpus de opiniones Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012) • La colección fue anotada con su lema y categoría gramatical. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
  • 23. Corpus de opiniones Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012) • La colección fue anotada con su lema y categoría gramatical. • Se utilizaron un conjunto de etiquetas para representar la información morfológica de las palabras. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
  • 24. Corpus de opiniones Figura: Lluís Padró and Evgeny Stanilovsky. FreeLing 3.0 (2012) • La colección fue anotada con su lema y categoría gramatical. • Se utilizaron un conjunto de etiquetas para representar la información morfológica de las palabras. • Este conjunto de etiquetas se basa en las etiquetas propuestas por el grupo EAGLES para la anotación morfosintáctica de lexicones y corpus para todas las lenguas europeas. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 11 / 54
  • 25. Corpus de opiniones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
  • 26. Corpus de opiniones A partir de la colección total de opiniones en Español extrajimos un subconjunto significativo de instancias de opiniones diferentes: 2598. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
  • 27. Corpus de opiniones A partir de la colección total de opiniones en Español extrajimos un subconjunto significativo de instancias de opiniones diferentes: 2598. Opiniones pagadas por fabricantes Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
  • 28. Corpus de opiniones A partir de la colección total de opiniones en Español extrajimos un subconjunto significativo de instancias de opiniones diferentes: 2598. Opiniones pagadas por fabricantes Observación No se eliminaron las opiniones que claramente son anuncios de empresas de mantenimiento (SPAM). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 12 / 54
  • 29. Corpus de opiniones La tarea para este corpus es la de predicción: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
  • 30. Corpus de opiniones La tarea para este corpus es la de predicción: • Determinar qué tan bueno es un producto en base a la orientación semántica de las opiniones de entrenamiento, así como el puntaje de los usuarios. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
  • 31. Corpus de opiniones La tarea para este corpus es la de predicción: • Determinar qué tan bueno es un producto en base a la orientación semántica de las opiniones de entrenamiento, así como el puntaje de los usuarios. • El puntaje de los usuarios que corresponden a: malo (una estrella), regular (dos estrellas), bueno (tres estrellas), muy bueno (cuatro estrellas) o excelente (5 estrellas). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
  • 32. Corpus de opiniones La tarea para este corpus es la de predicción: • Determinar qué tan bueno es un producto en base a la orientación semántica de las opiniones de entrenamiento, así como el puntaje de los usuarios. • El puntaje de los usuarios que corresponden a: malo (una estrella), regular (dos estrellas), bueno (tres estrellas), muy bueno (cuatro estrellas) o excelente (5 estrellas). • Errores gramaticales como ortográficos y de puntuación Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
  • 33. Corpus de opiniones La tarea para este corpus es la de predicción: • Determinar qué tan bueno es un producto en base a la orientación semántica de las opiniones de entrenamiento, así como el puntaje de los usuarios. • El puntaje de los usuarios que corresponden a: malo (una estrella), regular (dos estrellas), bueno (tres estrellas), muy bueno (cuatro estrellas) o excelente (5 estrellas). • Errores gramaticales como ortográficos y de puntuación • Decidimos no aplicar métodos de corrección automática para normalizar el texto. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 13 / 54
  • 34. Corpus de opiniones Figura: Descripción del corpus de reseñas comerciales Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 14 / 54
  • 35. Corpus de opiniones En el área de aprendizaje automático se ha considerado el problema del desequilibrio de clases. Modificación del algoritmo Sun, Yanmin et al (2007). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
  • 36. Corpus de opiniones En el área de aprendizaje automático se ha considerado el problema del desequilibrio de clases. Modificación del algoritmo Sun, Yanmin et al (2007). Asignación de pesos distintos a los ejemplos de entrenamiento, introduciendo diferentes costos a ejemplos positivos y negativos. Pazzani, Michael et al (1994) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
  • 37. Corpus de opiniones En el área de aprendizaje automático se ha considerado el problema del desequilibrio de clases. Modificación del algoritmo Sun, Yanmin et al (2007). Asignación de pesos distintos a los ejemplos de entrenamiento, introduciendo diferentes costos a ejemplos positivos y negativos. Pazzani, Michael et al (1994) Muestreo heterogéneo de datos (e.g. bajo-muestreo, sobre-muestreo, metodos hibridos) Tang, Yuchun et al (2009). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 15 / 54
  • 38. Bigramas afirmativos Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
  • 39. Bigramas afirmativos • Turney, Peter D. (2002) determinó la orientación semántica mediante una estrategia que consiste en: 1 Extracción de bigramas a partir de texto. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
  • 40. Bigramas afirmativos • Turney, Peter D. (2002) determinó la orientación semántica mediante una estrategia que consiste en: 1 Extracción de bigramas a partir de texto. 2 Se toman cada bigrama para realizar una búsqueda en la Web empleando el operador NEAR de AltaVista para encontrar cuántos documentos tienen ese bigrama cerca de un término positivo (excellent) y de un término negativo (poor). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
  • 41. Bigramas afirmativos • Turney, Peter D. (2002) determinó la orientación semántica mediante una estrategia que consiste en: 1 Extracción de bigramas a partir de texto. 2 Se toman cada bigrama para realizar una búsqueda en la Web empleando el operador NEAR de AltaVista para encontrar cuántos documentos tienen ese bigrama cerca de un término positivo (excellent) y de un término negativo (poor). 3 El puntaje para los dos conjuntos se realiza mediante la medida de información mutua puntual (PMI). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
  • 42. Bigramas afirmativos • Turney, Peter D. (2002) determinó la orientación semántica mediante una estrategia que consiste en: 1 Extracción de bigramas a partir de texto. 2 Se toman cada bigrama para realizar una búsqueda en la Web empleando el operador NEAR de AltaVista para encontrar cuántos documentos tienen ese bigrama cerca de un término positivo (excellent) y de un término negativo (poor). 3 El puntaje para los dos conjuntos se realiza mediante la medida de información mutua puntual (PMI). • La diferencia de PMI se utiliza para determinar la orientación semántica Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 16 / 54
  • 43. Bigramas afirmativos Observación El puntaje PMI de dos palabras w1 y w2 se obtiene mediante la probabilidad de que las dos palabras aparezcan juntas dividida por la probabilidad de que las dos palabras aparezcan juntas dividida por las probabilidades de cada palabra en forma individual: PMI(w1, w2) = log P(w1, w2) P(w2)P(w2) (1) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 17 / 54
  • 44. Bigramas afirmativos La orientación semántica se calculó de la siguiente forma: Observación SO(frase) = log hits(Frase NEAR excellent)hits(poor) hits(frase NEAR poor)hits(excellent) (2) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 18 / 54
  • 45. Bigramas afirmativos La orientación semántica de bigramas fue utilizada para determinar la orientación semántica de opiniones completas. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
  • 46. Bigramas afirmativos La orientación semántica de bigramas fue utilizada para determinar la orientación semántica de opiniones completas. • Turney tomó 410 comentarios de epinions.com Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
  • 47. Bigramas afirmativos La orientación semántica de bigramas fue utilizada para determinar la orientación semántica de opiniones completas. • Turney tomó 410 comentarios de epinions.com • Los resultados oscilaron entre el 66 % y 84 % de precisión. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 19 / 54
  • 48. Bigramas afirmativos Conclusión Los bigramas morfosintácticos son una buena característica para métodos no supervisados Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54
  • 49. Bigramas afirmativos Conclusión Los bigramas morfosintácticos son una buena característica para métodos no supervisados • Suponemos que para métodos supervisados podrían ser mejores. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 20 / 54
  • 50. Bigramas afirmativos En este trabajo consideramos los siguientes bigramas morfosintácticos como característica para el entrenamiento del método supervisado: Observación Estos bigramas morfosintáticos no corresponden a compuestos obtenidos por un analizador sintáctico. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
  • 51. Bigramas afirmativos En este trabajo consideramos los siguientes bigramas morfosintácticos como característica para el entrenamiento del método supervisado: Observación Estos bigramas morfosintáticos no corresponden a compuestos obtenidos por un analizador sintáctico. • Sustantivo - adjetivo Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
  • 52. Bigramas afirmativos En este trabajo consideramos los siguientes bigramas morfosintácticos como característica para el entrenamiento del método supervisado: Observación Estos bigramas morfosintáticos no corresponden a compuestos obtenidos por un analizador sintáctico. • Sustantivo - adjetivo • Verbo - adverbio Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
  • 53. Bigramas afirmativos En este trabajo consideramos los siguientes bigramas morfosintácticos como característica para el entrenamiento del método supervisado: Observación Estos bigramas morfosintáticos no corresponden a compuestos obtenidos por un analizador sintáctico. • Sustantivo - adjetivo • Verbo - adverbio • Adverbio - adjetivo Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
  • 54. Bigramas afirmativos En este trabajo consideramos los siguientes bigramas morfosintácticos como característica para el entrenamiento del método supervisado: Observación Estos bigramas morfosintáticos no corresponden a compuestos obtenidos por un analizador sintáctico. • Sustantivo - adjetivo • Verbo - adverbio • Adverbio - adjetivo • Adjetivo - adverbio Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 21 / 54
  • 55. Bigramas afirmativos Mediante un conjunto de scripts a partir de la colección de opiniones, se obtienen todas las secuencias de dos palabras cuyas categorías gramaticales completen los patrones antes indicados (i.e. bigramas). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
  • 56. Bigramas afirmativos Mediante un conjunto de scripts a partir de la colección de opiniones, se obtienen todas las secuencias de dos palabras cuyas categorías gramaticales completen los patrones antes indicados (i.e. bigramas). • En el caso sustantivo-adjetivo el programa que extrae estos bigramas comprueba la concordancia en género y número. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
  • 57. Bigramas afirmativos Mediante un conjunto de scripts a partir de la colección de opiniones, se obtienen todas las secuencias de dos palabras cuyas categorías gramaticales completen los patrones antes indicados (i.e. bigramas). • En el caso sustantivo-adjetivo el programa que extrae estos bigramas comprueba la concordancia en género y número. • Para todos los bigramas se extraen no solo las palabras, también los lemas. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
  • 58. Bigramas afirmativos Mediante un conjunto de scripts a partir de la colección de opiniones, se obtienen todas las secuencias de dos palabras cuyas categorías gramaticales completen los patrones antes indicados (i.e. bigramas). • En el caso sustantivo-adjetivo el programa que extrae estos bigramas comprueba la concordancia en género y número. • Para todos los bigramas se extraen no solo las palabras, también los lemas. • Esto permite agrupar diversas formas en una sola característica. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
  • 59. Bigramas afirmativos Mediante un conjunto de scripts a partir de la colección de opiniones, se obtienen todas las secuencias de dos palabras cuyas categorías gramaticales completen los patrones antes indicados (i.e. bigramas). • En el caso sustantivo-adjetivo el programa que extrae estos bigramas comprueba la concordancia en género y número. • Para todos los bigramas se extraen no solo las palabras, también los lemas. • Esto permite agrupar diversas formas en una sola característica. Ejemplo Por ejemplo:prenda vaquera y prendas vaqueras, lavadora nueva y lavadoras nuevas, se agrupan en un solo bigrama para cada par. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 22 / 54
  • 60. Bigramas afirmativos Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
  • 61. Bigramas afirmativos • Bigramas adverbio-adjetivo y adjetivo-adverbio. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
  • 62. Bigramas afirmativos • Bigramas adverbio-adjetivo y adjetivo-adverbio. • Aunque en Español la forma adverbio-adjetivo es común también encontramos adjetivo-adverbio Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
  • 63. Bigramas afirmativos • Bigramas adverbio-adjetivo y adjetivo-adverbio. • Aunque en Español la forma adverbio-adjetivo es común también encontramos adjetivo-adverbio Ejemplo Adjetivo-adverbio: poco lento Adverbio-adjetivo: más eficiente Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 23 / 54
  • 64. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 24 / 54
  • 65. Clasificación Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
  • 66. Clasificación Modelo Máquinas de soporte vectorial: modelos de aprendizaje supervisado para analizar patrones, usados para clasificación y análisis de regresión. • Gran variedad de funciones kernel. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
  • 67. Clasificación Modelo Máquinas de soporte vectorial: modelos de aprendizaje supervisado para analizar patrones, usados para clasificación y análisis de regresión. • Gran variedad de funciones kernel. • Generalizar en parecencia de muchas. características, usando funciones de nuestro espacio de hipótesis. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
  • 68. Clasificación Modelo Máquinas de soporte vectorial: modelos de aprendizaje supervisado para analizar patrones, usados para clasificación y análisis de regresión. • Gran variedad de funciones kernel. • Generalizar en parecencia de muchas. características, usando funciones de nuestro espacio de hipótesis. • Uso de heurísticas como Grid Search para la optimización de hiper parámetros. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 25 / 54
  • 69. Clasificación Para una tarea de clasificación es necesario separar los datos entre conjunto de entrenamiento y conjunto de prueba: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
  • 70. Clasificación Para una tarea de clasificación es necesario separar los datos entre conjunto de entrenamiento y conjunto de prueba: • En nuestro caso separamos el corpus de opiniones en 70 % para entrenamiento y 30 % para prueba. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
  • 71. Clasificación Para una tarea de clasificación es necesario separar los datos entre conjunto de entrenamiento y conjunto de prueba: • En nuestro caso separamos el corpus de opiniones en 70 % para entrenamiento y 30 % para prueba. • Cada ejemplo o instancia se asocia a una clase, categoría o etiqueta Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
  • 72. Clasificación Para una tarea de clasificación es necesario separar los datos entre conjunto de entrenamiento y conjunto de prueba: • En nuestro caso separamos el corpus de opiniones en 70 % para entrenamiento y 30 % para prueba. • Cada ejemplo o instancia se asocia a una clase, categoría o etiqueta • 70 % de los datos de entrenamiento fueron etiquetados con la clase correspondiente Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
  • 73. Clasificación Para una tarea de clasificación es necesario separar los datos entre conjunto de entrenamiento y conjunto de prueba: • En nuestro caso separamos el corpus de opiniones en 70 % para entrenamiento y 30 % para prueba. • Cada ejemplo o instancia se asocia a una clase, categoría o etiqueta • 70 % de los datos de entrenamiento fueron etiquetados con la clase correspondiente • Mientras que el 30 % de los datos no se les asignó etiqueta. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 26 / 54
  • 74. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 27 / 54
  • 75. Preprocesamiento de datos Una de las ventajas de usar un lenguaje de propósito general como Python es la gran cantidad de bibliotecas robustas para implementar distintos métodos y manipular datos. Figura: pandas (Python for data analysis) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 28 / 54
  • 76. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 29 / 54
  • 77. Sistema Para resolver este problema de clasificación, decidimos usar un algoritmo supervisado. La clasificación se hizo mediante SVM para el caso multiclase: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
  • 78. Sistema Para resolver este problema de clasificación, decidimos usar un algoritmo supervisado. La clasificación se hizo mediante SVM para el caso multiclase: • Fuertes bases teóricas Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
  • 79. Sistema Para resolver este problema de clasificación, decidimos usar un algoritmo supervisado. La clasificación se hizo mediante SVM para el caso multiclase: • Fuertes bases teóricas • Algoritmos de aprendizaje que tienen la capacidad de aprender independientemente de la dimensionalidad del espacio de características. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
  • 80. Sistema Para resolver este problema de clasificación, decidimos usar un algoritmo supervisado. La clasificación se hizo mediante SVM para el caso multiclase: • Fuertes bases teóricas • Algoritmos de aprendizaje que tienen la capacidad de aprender independientemente de la dimensionalidad del espacio de características. Observación El objetivo de las SVM es producir un modelo basado en los datos de entrenamiento que prediga las clases o categorías de un conjunto nuevo de instancias, mediante la generación de un hiperplano en un espacio de dimensión infinita. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 30 / 54
  • 81. Sistema Las SVM funcionan para clasificar texto 1: 1 Joachims, Thorsten. Text categorization with support vector machines: Learning with many relevant features. Springer (1998). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
  • 82. Sistema Las SVM funcionan para clasificar texto 1: • Cuando se clasifica texto se trabaja con espacios de alta dimensión 1 Joachims, Thorsten. Text categorization with support vector machines: Learning with many relevant features. Springer (1998). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
  • 83. Sistema Las SVM funcionan para clasificar texto 1: • Cuando se clasifica texto se trabaja con espacios de alta dimensión • Pocas características irrelevantes, representaciones vectoriales dispersas 1 Joachims, Thorsten. Text categorization with support vector machines: Learning with many relevant features. Springer (1998). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
  • 84. Sistema Las SVM funcionan para clasificar texto 1: • Cuando se clasifica texto se trabaja con espacios de alta dimensión • Pocas características irrelevantes, representaciones vectoriales dispersas • Mayor parte de los problemas de clasificación de texto son linealmente separables. 1 Joachims, Thorsten. Text categorization with support vector machines: Learning with many relevant features. Springer (1998). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 31 / 54
  • 85. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 32 / 54
  • 86. Experimentos El entrenamiento de SVM fue realizado empleando la herramienta scikit-learn: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
  • 87. Experimentos El entrenamiento de SVM fue realizado empleando la herramienta scikit-learn: Una biblioteca de código abierto y propósito general. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
  • 88. Experimentos El entrenamiento de SVM fue realizado empleando la herramienta scikit-learn: Una biblioteca de código abierto y propósito general. Implementa una gran variedad de algoritmos de aprendizaje automático. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
  • 89. Experimentos El entrenamiento de SVM fue realizado empleando la herramienta scikit-learn: Una biblioteca de código abierto y propósito general. Implementa una gran variedad de algoritmos de aprendizaje automático. Al igual que otras bibliotecas incorpora o envuelve a la biblioteca de C++ LibSVM. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 33 / 54
  • 90. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 34 / 54
  • 91. El truco del kernel Figura: Truco del kernel Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 35 / 54
  • 92. El truco del kernel Distintas funciones kernel: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
  • 93. El truco del kernel Distintas funciones kernel: • RBF (Función de base radial) k(x, y) = exp(γ||x − y||2 ) (3) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
  • 94. El truco del kernel Distintas funciones kernel: • RBF (Función de base radial) k(x, y) = exp(γ||x − y||2 ) (3) • Kernel polinomial k(x, y) = (αx Ty + c)d (4) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
  • 95. El truco del kernel Distintas funciones kernel: • RBF (Función de base radial) k(x, y) = exp(γ||x − y||2 ) (3) • Kernel polinomial k(x, y) = (αx Ty + c)d (4) • Kernel lineal k(x, y) = x Ty + c (5) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 36 / 54
  • 96. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 37 / 54
  • 97. Evaluación • Exactitud: Calcula el subconjunto de la precisión del conjunto de etiquetas predichas para una muestra que exactamente corresponden al conjunto de etiquetas del conjunto de entrenamiento. • F1-score: Promedio balanceado entre la precisión y el recall, • Score: Se refiere a la media de la precisión, dados los datos y etiquetas de prueba. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 38 / 54
  • 98. Evaluación • Recall: Es la capacidad que tiene un estimador de encontrar todas las muestras positivas. El recall es el radio tp tp+fn donde tp es el numero de verdaderos positivos y fn es el numero de falsos negativos. • Precisión: Intuitivamente podemos decir que es la capacidad que tiene un estimador de no etiquetar como positiva una muestra que es negativa. El radio de precisión: tp tp+fp donde tp es el numero de verdaderos positivos y fp el numero de falsos positivos. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 39 / 54
  • 99. Evaluación • Perdida de Hamming: En clasificación multiclase, la perdida de Hamming corresponde a la distancia de Hamming entre el subconjunto de instancias de entrenamiento y el subconjunto de instancias predichas. • Similaridad de Jaccard: Útil para comparar el conjunto de etiquetas predichas para una muestra correspondiente a un conjunto de etiquetas en los datos de entrenamiento. • F-Beta Score: Esta métrica es la media harmónica balanceada entre la precisión y el recall, alcanzando su óptimo valor en 1 y su peor valor en 0. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 40 / 54
  • 100. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 41 / 54
  • 101. Grid search Las SVM son sensibles al conjunto de hiperparametros con las que son entrenados. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
  • 102. Grid search Las SVM son sensibles al conjunto de hiperparametros con las que son entrenados. Un estimador Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
  • 103. Grid search Las SVM son sensibles al conjunto de hiperparametros con las que son entrenados. Un estimador Un espacio de parámetros Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
  • 104. Grid search Las SVM son sensibles al conjunto de hiperparametros con las que son entrenados. Un estimador Un espacio de parámetros Un método para buscar o muestrear candidatos Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
  • 105. Grid search Las SVM son sensibles al conjunto de hiperparametros con las que son entrenados. Un estimador Un espacio de parámetros Un método para buscar o muestrear candidatos Un esquema de validación cruzada Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 42 / 54
  • 106. Grid search Observación Una Grid search es una búsqueda exhaustiva a través de un subconjunto del espacio de hiper-parámetros de un algoritmo de aprendizaje. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 43 / 54
  • 107. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 44 / 54
  • 108. Evaluando el rendimiento base Observación Evaluar la tasa base de éxito puede aportar un valor mínimo que otro estimador debe superar.(e.g. tareas de clasificación). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 45 / 54
  • 109. Evaluando el rendimiento base Para comparar el resultado usamos un clasificador que usa estrategias simples: Es aleatorio. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
  • 110. Evaluando el rendimiento base Para comparar el resultado usamos un clasificador que usa estrategias simples: Es aleatorio. Siempre predice la etiqueta más frecuente en el conjunto de entrenamiento. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
  • 111. Evaluando el rendimiento base Para comparar el resultado usamos un clasificador que usa estrategias simples: Es aleatorio. Siempre predice la etiqueta más frecuente en el conjunto de entrenamiento. Observación Esto es equivalente a usar la estrategia de clasificación más frecuente que implementa la herramienta con la que se hizo el entrenamiento. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 46 / 54
  • 112. Evaluando el rendimiento base Se obtuvieron los siguientes resultados con el sistema base (i.e. clasificación más frecuente): • Exactitud: 0.33 • F1 score: 0.33 • Score:0.32 • Recall: 0.33 • Precisión: 0.32 • Perdida de Hamming: 0.66 • Similaridad de Jaccard: 0.33 • F-Beta score: 0.20 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 47 / 54
  • 113. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 48 / 54
  • 114. Resultados Generamos distintos conjuntos de entrenamiento: Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
  • 115. Resultados Generamos distintos conjuntos de entrenamiento: 1 Sustantivo-adjetivo • Este bigrama expresa atributos sustantivos que corresponden a atributos de características del producto. • Exactitud:82.86 y F-beta: 78.22 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
  • 116. Resultados Generamos distintos conjuntos de entrenamiento: 1 Sustantivo-adjetivo • Este bigrama expresa atributos sustantivos que corresponden a atributos de características del producto. • Exactitud:82.86 y F-beta: 78.22 2 Sustantivo-adjetivo y verbo-adverbio • Expresa el modo en que se realiza la acción descrita por el verbo. • Mejoró un 10 % • Exactitud: 92.65 y F-beta: 92.85 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
  • 117. Resultados Generamos distintos conjuntos de entrenamiento: 1 Sustantivo-adjetivo • Este bigrama expresa atributos sustantivos que corresponden a atributos de características del producto. • Exactitud:82.86 y F-beta: 78.22 2 Sustantivo-adjetivo y verbo-adverbio • Expresa el modo en que se realiza la acción descrita por el verbo. • Mejoró un 10 % • Exactitud: 92.65 y F-beta: 92.85 3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo • Exactitud: 92.30 y F-beta: 93.23 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
  • 118. Resultados Generamos distintos conjuntos de entrenamiento: 1 Sustantivo-adjetivo • Este bigrama expresa atributos sustantivos que corresponden a atributos de características del producto. • Exactitud:82.86 y F-beta: 78.22 2 Sustantivo-adjetivo y verbo-adverbio • Expresa el modo en que se realiza la acción descrita por el verbo. • Mejoró un 10 % • Exactitud: 92.65 y F-beta: 92.85 3 Sustantivo-adjetivo, verbo-adverbio y adverbio-adjetivo • Exactitud: 92.30 y F-beta: 93.23 4 Sustantivo-adjetivo, verbo-adverbio, adverbio-adjetivo y adjetivo-adverbio • No es una estructura lingüística muy usada en Español. • mejor claro, super bien, perfecto desde_luego. • Exactitud: 93.12 y F-beta: 94.07 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 49 / 54
  • 119. Resultados Figura: Rendimiento del sistema con distintas configuraciones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 50 / 54
  • 120. Resultados Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 121. Resultados • Se han utilizado colecciones de 25 opiniones favorables y 25 opiniones desfavorables para lavadoras con un método no supervisado (Vilares, David et al 2013). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 122. Resultados • Se han utilizado colecciones de 25 opiniones favorables y 25 opiniones desfavorables para lavadoras con un método no supervisado (Vilares, David et al 2013). • Precisión de 88 para opiniones negativas y 76 para opiniones positivas. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 123. Resultados • Se han utilizado colecciones de 25 opiniones favorables y 25 opiniones desfavorables para lavadoras con un método no supervisado (Vilares, David et al 2013). • Precisión de 88 para opiniones negativas y 76 para opiniones positivas. • Análogamente se han usado SVM para colecciones de opiniones de cine (Cruz Mata, F. et al 2008). Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 124. Resultados • Se han utilizado colecciones de 25 opiniones favorables y 25 opiniones desfavorables para lavadoras con un método no supervisado (Vilares, David et al 2013). • Precisión de 88 para opiniones negativas y 76 para opiniones positivas. • Análogamente se han usado SVM para colecciones de opiniones de cine (Cruz Mata, F. et al 2008). • Precisión:87.7, Recall:87.63, F1-Score:87.66 Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 125. Resultados • Se han utilizado colecciones de 25 opiniones favorables y 25 opiniones desfavorables para lavadoras con un método no supervisado (Vilares, David et al 2013). • Precisión de 88 para opiniones negativas y 76 para opiniones positivas. • Análogamente se han usado SVM para colecciones de opiniones de cine (Cruz Mata, F. et al 2008). • Precisión:87.7, Recall:87.63, F1-Score:87.66 Conclusión Estos resultados muestran que el enfoque propuesto en este trabajo se equipara con el estado del arte de minería de opiniones en español. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 51 / 54
  • 126. Siguiente sección 1 Introducción Introducción 2 Materiales empleados y conocimiento lingüístico considerado Corpus de opiniones Clasificación 3 Aprendizaje automático Preprocesamiento de datos Sistema 4 Experimentos Experimentos El truco del kernel Evaluación Grid search Evaluando el rendimiento base 5 Resultados Resultados 6 Conclusiones Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 52 / 54
  • 127. Conclusiones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
  • 128. Conclusiones • Examinamos el problema de estimar la orientación semántica de opiniones de productos comerciales, en idioma Español. Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
  • 129. Conclusiones • Examinamos el problema de estimar la orientación semántica de opiniones de productos comerciales, en idioma Español. • Exploramos las características de una colección de opiniones Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
  • 130. Conclusiones • Examinamos el problema de estimar la orientación semántica de opiniones de productos comerciales, en idioma Español. • Exploramos las características de una colección de opiniones • Experimentamos con el uso de bigramas de afirmación como características de entrenamiento para un método supervisado (Máquinas de soporte vectorial) Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 53 / 54
  • 131. COMIA 2015 ¡Gracias por su atención! alonsop@ciencias.unam.mx sngh@fciencias.unam.mx Alonso Palomino Garibay y Sofía N. Galicia-Haro (F. Ciencias-UNAM)COMIA 2015 28 de Mayo de 2015 54 / 54