➤ O documento introduz uma metodologia para classificação de opinião usando lógica fuzzy, com três etapas principais: pré-processamento, extração de características e classificação.
➤ Foram avaliados diferentes domínios, métodos de seleção de características e sistemas de inferência fuzzy.
➤ Os resultados demonstraram que o método c4.5 teve melhor desempenho que CFS para seleção de características, e que o uso de pesos melhorou os resultados da classificação.
1. APLICAÇÃO DE UM SISTEMA FUZZY PARA
CLASSIFICAÇÃO DE OPINIÃO EM
DIFERENTES DOMÍNIOS
Matheus Cardoso de Andrade Silva
Orientador: Prof. Dr. Angelo Loula
Co-orientador: Prof Dr. Matheus Giovanni Pires
Mestrado em Ciência da Computação UFBA/UEFS
Defesa de Dissertação de Mestrado
Feira de Santana, 19/10/2015 1
3. INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ Opiniões influenciam o comportamento humano
➤ A internet e a web potencializaram essa influência
➤ Ferramentas foram criadas para expor e registrar opiniões
sobre tudo:
➤ Filmes (IMDB)
➤ Produtos (Amazon)
3
4. INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ A quantidade e a diversidade de fontes tornou-se muito
grande
➤ Opiniões são carregadas de sentimentos
➤ Ex.: É um ótimo celular e tem um acabamento muito bom, mas a
bateria é péssima
➤ Para tratar dados impreciso e vagos: Lógica Fuzzy
➤ Contudo, poucos trabalhos foram encontrados aplicando
lógica fuzzy em classificação de opinião
4
5. INTRODUÇÃO: OBJETIVO
➤ Desenvolver e avaliar uma metodologia de classificação
do sentimento geral das opiniões em documentos,
aplicando um sistema fuzzy automatizado de mineração
de opinião associado à extração e seleção de
características destes documentos.
5
6. INTRODUÇÃO
➤ Objetivos específicos:
➤ Selecionar domínios para avaliação da proposta
➤ Levantar e definir características a serem extraídas
➤ Definir e avaliar métodos de seleção de características
➤ Definir metodologia para construção do sistema fuzzy
➤ Definir métodos de raciocínio fuzzy para realizar a
classificação dos documentos
6
8. METODOLOGIA
➤ "Mineração de opinião é o campo de estudo que analisa as
opiniões, sentimentos, avaliações, atitudes e emoções de
pessoas direcionadas a entidades ou alvos, como produtos,
serviços, organizações, indivíduos, problemas, eventos,
tópicos e seus atributos” (Bing, 2012)
8
9. METODOLOGIA
➤ Em geral, se divide em três níveis de análise:
➤ Nível de análise de documento
➤ Nível de análise de sentenças
➤ Nível de analise de entidades e seus aspectos
➤ "A qualidade de voz desse telefone é muito boa"
9
11. METODOLOGIA : DEFINIÇÃO DO DOMÍNIO
➤ Bases de dados em inglês
➤ Cornell Movies Reviews 2.0 (Pang and Lee, 2004)
➤ you don't want to be like mike .
mike has been doing badly .
embarrassingly bad .
➤ Amazon Dataset (Baccianella et al., 2010)
➤ "nice camera its really nice camera i had one before and i bought second"
➤ Epinions 1 (Taboada et al., 2011)
➤ "Size: slightly longer than Canon S500 but thinner - so not so bad.
Overall the cons are not rightfully bad."
11
13. METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Tokenização
"Size: slightly longer than Canon S500 but thinner - so not so bad. Overall
the cons are not rightfully bad."
13
15. METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Definição dos n-grams
➤ Adjetivos e advérbios isolados como unigrams (e.g.
decent)
➤ Adjetivos seguidos de advérbios como bigrams
➤ Advérbios seguidos de advérbios como bigrams
➤ Adjetivos seguidos de dois advérbios como trigrams
➤ Tokenização
15
19. METODOLOGIA : TRANSFORMAÇÃO
➤ Um valor numérico é associado cada n-grams
➤ Uso de dicionários de opiniões
➤ SentiWordNet 3.0 (SWN)
19
20. METODOLOGIA : TRANSFORMAÇÃO
➤ Uso da abordagem de palavras fora de contexto (Guerrine,
2013)
➤ Polaridade final: média dos escores entre os synsets
➤ A polaridade final dos termos é um valor entre -1 e 1
20
21. METODOLOGIA : TRANSFORMAÇÃO - UNIGRAMS
➤ Unigrams são buscados em suas formas flexionadas
➤ Múltiplas ocorrências de um termo decresce sua polaridade
final
➤ Compensação do enviesamento positivo natural em 50%
[slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ,
not/RB rightfully/RB bad/JJ]
[slightly/RB longer/RB, (thinner/JJR, 0), not/RB so/RB bad/
JJ, not/RB awfully/RB bad/JJ]
21
22. METODOLOGIA : TRANSFORMAÇÃO - BIGRAMS
➤ A polaridade de bigrams e trigrams dependerá dos
modificadores
➤ A polaridade de um bigram é calculada da seguinte maneira
(Taboada et al., 2011):
➤ Pol(good) = 0,72259; Pol(very good) = 0,90323
➤ Pol(longer) = 0; Pol(slightly longer) = 0
22
27. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Extraímos características dos documentos utilizando as
polaridades dos n-grams da etapa de transformação
➤ 57 características
➤ Três tipos básicos
➤ Somatório
➤ Contagem
➤ E valores máximos
27
28. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Por exemplo:
➤ Soma (não normalizada), soma normalizada e contagem de:
➤ adjetivos positivos
➤ adjetivos negativos
➤ advérbios positivos
➤ advérbios negativos
➤ Diferença entre as somas:
➤ Positivas e negativas de adjetivos e bigrams compostos
por advérbio e adjetivo
28
30. METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Reduzir a dimensionalidade dos vetores de características
➤ Menor tempo gasto na classificação
➤ Manter ou melhorar o desempenho do classificador
➤ Dois algoritmos foram utilizados (Cintra, 2008):
➤ c4.5
➤ CFS (Consistency Feature Selection)
➤ Variar a altura da árvore de decisão do c4.5
[c1,c2,c3, … ,0.83532, … ,cn]
30
34. METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Formato do conjunto fuzzy: triangular
➤ Duas modelagens foram definidas para as variáveis de entrada
➤ B = Baixo, M = Médio, A = Alto
34
38. METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ O Método de Wang-Mendel
[c1,c2,c3, … ,0.83532, … ,cn]
+ Regra k
SE antecedentes ENTÃO consequente
Grau Rk
38
39. METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ Eliminação de regras duplicadas
➤ Eliminação de regras conflitantes
R1 : SE Antecedentes1 ENTÃO Consequente1
R2 : SE Antecedentes1 ENTÃO Consequente2
GrauR1
GrauR2
39
41. METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Clássico (MRFC)
➤ Método de Raciocínio Fuzzy Geral (MRFG)
➤ Aplicação e avaliação de uso de pesos nas regras na
classificação
41
49. RESULTADOS
➤ Para 3 e 2 conjuntos fuzzy, avaliamos:
➤ Os algoritmos de seleção de características
➤ Os métodos de raciocínio fuzzy
➤ Os pesos nas regras
➤ A quantidade dos conjuntos fuzzy na entrada
➤ As características mais selecionados entre as bases
➤ Comparamos com o SVM
➤ Eficiência das regras entre domínios diferentes
49
52. RESULTADOS: 3 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Em ambas as bases, o melhor resultado do c4.5 (com altura 1
com MRFG C/ Pesos) é maior que o CFS (com MRFG também
com pesos)
➤ Cornell
➤ c4.5: 70.05% de acurácia, 70.4% de TNR e 69.7% de TPR
em filmes.
➤ CFS: 67.1% de acurácia, 72,6% de TNR, 61,6% de TPR me
filmes
➤ Contudo, há resultados bem ruins com c4.5 em ambas as bases
➤ c4.5 c/ altura 1 e MRFC: 54.4% de acurácia na Cornell
➤ c4.5 c/ altura 1 e MRFC: 54.25% de acurácia da Amazon
52
53. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
➤ Duas características se destacaram
➤ Diferença entre as somas positiva e negativa de adjetivos e
bigrams compostos estritamente por advérbio e adjetivo
➤ Diferença entre as somas positiva e negativa de unigrams e
bigrams combinados
➤ c4.5 com altura 1 e MRFG c/ pesos em filmes utilizou
somente elas e produziu:
➤ 70,05% de acurácia; 70,4% de TNR; 69,7% de TPR
53
54. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas positiva e negativa
de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base de Cornell
54
55. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas positiva e negativa
de unigrams e bigrams" na base de filmes
55
56. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas positiva e negativa
de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base da Amazon56
57. RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
Distribuição dos valores da característica "A diferença entre as somas positiva e negativa
de unigrams e bigrams" na base da Amazon
57
58. RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ MRFG produz melhores melhores percentuais de acurácia que
o MRFC
➤ Contudo, ambos os métodos apresentam altos desvios padrão
em TPR e TNR
➤ O uso de pesos:
➤ Diminuiu bastante esses desvios
➤ Aumentou o desempenho em todos os cenários
58
59. RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ Destaque o MRFG, usando pesos e o c4.5 com altura 1:
➤ Cornell
➤ 59,2% para 70,05% de acurácia
➤ 53,8% +- 34,96% para 70,4% +- 7,11% de TNR
➤ 64,6% +- 37,08% para 69,7% +- 9,81% de TPR
➤ Amazon
➤ 60,05% para 70,85% de acurácia
➤ 44,6% +- 35,73% para 76,8% +- 4,57% de TNR
➤ 75,5% +- 34,8% para 64,9% +- 5,5% de TPR
59
62. RESULTADOS: 2 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Os pesos para 3 conjuntos mostrou que o conjunto MÉDIO
estava reduzindo o desempenho da classificação
➤ A melhoria dos resultados não foi significativa
➤ A distância dos resultados entre as bases ficou menor
➤ O CFS ainda usou 6 vezes mais características
➤ As mesmas características se destacaram
62
63. RESULTADOS: 2 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ Não há diferenças significativas entre MRFC e MRFG
➤ Em alguns casos o MRFC superou o MRFG
➤ c4.5 com altura 2 em ambas as bases
➤ A remoção do conjunto MÉDIO teve o mesmo efeito da
aplicação dos pesos
➤ A aplicação dos pesos utilizando 2 conjuntos não melhorou a
acurácia final do classificador
➤ Os resultados não foram conclusivos
63
64. RESULTADOS: AVALIAÇÃO DO USO DE REGRAS ENTRE DOMÍNIOS
➤ Epinions como base de testes
➤ Nenhuma adaptação foi feita às regras ou às características ou
aos conjuntos fuzzy
64
67. CONCLUSÃO
➤ Essa pesquisa propôs e avaliou uma metodologia de
classificação de sentimento geral de opiniões em documentos,
aplicando um sistema fuzzy automatizado de mineração de
opinião associado à extração e seleção de características destes
documentos.
67
68. CONCLUSÃO
➤ Os resultados foram promissores de até 72,4% de acurácia
numa validação cruzada de 10 folds.
➤ Talvez um dos primeiros trabalhos a aplicar a Lógica Fuzzy e o
método de Wang-Mendel em mineração de opinião
➤ O classificador gerado nessa pesquisa, classifica documentos
utilizando regras legíveis para seres humanos
68
69. CONCLUSÃO
➤ Investigação de características de documentos que podem ser
relevantes para descrever e classificar documentos
➤ Uma quantidade muito limitada de características são
suficientes para efetuar a classificação de sentimento geral
➤ Uso de pesos em regras fuzzy melhora o desempenho do
classificador
➤ Uso de somente dois conjuntos fuzzy nas gerações das regras
do SBRF tem forte impacto positivo
69
70. CONCLUSÃO: TRABALHOS FUTUROS
➤ Construir um conjunto de advérbios melhor, investigar mais a
fundo a influência destes sobre adjetivos e avaliar se
impactam nos resultados finais;
➤ Melhorar o método de detecção de negação e como lidar
melhor com esse fenômeno;
➤ Melhorar como os conjuntos fuzzy são modelados para as
variáveis de entrada das características dos documentos;
➤ Investigar mais características que possam representar e
classificar melhor os documentos;
70
71. CONCLUSÃO: TRABALHOS FUTUROS
➤ Avaliar a metodologia proposta em outras línguas, como o
português brasileiro, para verificar a influência da língua nos
resultados e conclusões;
➤ Experimentar outros tipos de técnicas de seleção de
características, para investigar a influência desses métodos na
geração de regras fuzzy;
➤ E buscar e experimentar a utilização de outros dicionários de
opinião, com o fim de verificar a influência desdes na
classificação dos documentos.
71
72. REFERÊNCIAS
➤ Liu, B. (2012)
Sentiment Analysis and opinion mining
Synthesis Lectures on Human Language Technologies, 5(1):1-167
➤ Pang, B and Lee, L. (2008)
Opinion Mining and sentiment analysis
Found. Trends Inf. Retr., 2(1-2):1-135
➤ Baccianella, S., Esuli, A., and Sebastiani, F. (2010)
Selection features for ordinal text classification
In IIR, pages 13-14
➤ Taboada, M., Brooke, J., Tofiloski, M., Voll, K., and Stede, M. (2011)
Extraction sentiment as a function of discourse structure and
topicality
Simon Fraser University School of Computing Science Technical Report
72
73. REFERÊNCIAS
➤ Fawcett, T. (2006)
An introduction of roc analysis
Pattern recognition letters, 27(8):861-874
73