Classificação de opinião usando lógica fuzzy

APLICAÇÃO DE UM SISTEMA FUZZY PARA
CLASSIFICAÇÃO DE OPINIÃO EM
DIFERENTES DOMÍNIOS
Matheus Cardoso de Andrade Silva
Orientador: Prof. Dr. Angelo Loula
Co-orientador: Prof Dr. Matheus Giovanni Pires
Mestrado em Ciência da Computação UFBA/UEFS
Defesa de Dissertação de Mestrado
Feira de Santana, 19/10/2015 1

SUMÁRIO
➤Introdução
➤Metodologia
➤Resultados
➤Referências
2

INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ Opiniões inﬂuenciam o comportamento humano
➤ A internet e a web potencializaram essa inﬂuência
➤ Ferramentas foram criadas para expor e registrar opiniões
sobre tudo:
➤ Filmes (IMDB)
➤ Produtos (Amazon)
3

INTRODUÇÃO: CONTEXTO E MOTIVAÇÃO
➤ A quantidade e a diversidade de fontes tornou-se muito
grande
➤ Opiniões são carregadas de sentimentos
➤ Ex.: É um ótimo celular e tem um acabamento muito bom, mas a
bateria é péssima
➤ Para tratar dados impreciso e vagos: Lógica Fuzzy
➤ Contudo, poucos trabalhos foram encontrados aplicando
lógica fuzzy em classiﬁcação de opinião
4

INTRODUÇÃO: OBJETIVO
➤ Desenvolver e avaliar uma metodologia de classiﬁcação
do sentimento geral das opiniões em documentos,
aplicando um sistema fuzzy automatizado de mineração
de opinião associado à extração e seleção de
características destes documentos.
5

INTRODUÇÃO
➤ Objetivos específicos:
➤ Selecionar domínios para avaliação da proposta
➤ Levantar e definir características a serem extraídas
➤ Definir e avaliar métodos de seleção de características
➤ Definir metodologia para construção do sistema fuzzy
➤ Definir métodos de raciocínio fuzzy para realizar a
classificação dos documentos
6

METODOLOGIA
➤ "Mineração de opinião é o campo de estudo que analisa as
opiniões, sentimentos, avaliações, atitudes e emoções de
pessoas direcionadas a entidades ou alvos, como produtos,
serviços, organizações, indivíduos, problemas, eventos,
tópicos e seus atributos” (Bing, 2012)
8

METODOLOGIA
➤ Em geral, se divide em três níveis de análise:
➤ Nível de análise de documento
➤ Nível de análise de sentenças
➤ Nível de analise de entidades e seus aspectos
➤ "A qualidade de voz desse telefone é muito boa"
9

METODOLOGIA : DEFINIÇÃO DO DOMÍNIO
➤ Bases de dados em inglês
➤ Cornell Movies Reviews 2.0 (Pang and Lee, 2004)
➤ you don't want to be like mike .  
mike has been doing badly . 
embarrassingly bad .
➤ Amazon Dataset (Baccianella et al., 2010)
➤ "nice camera its really nice camera i had one before and i bought second"
➤ Epinions 1 (Taboada et al., 2011)
➤ "Size: slightly longer than Canon S500 but thinner - so not so bad.
Overall the cons are not rightfully bad."
11

METODOLOGIA : PRÉ-PROCESSAMENTO
➤ Part of Speech Tagging (POS Tagging)
➤ Deﬁnição dos n-grams
➤ Tokenização
"Size: slightly longer than Canon S500 but thinner - so not so bad. Overall
the cons are not rightfully bad."
13

➤ Tokenização
“Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC
thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS
are/VBP not/RB rightfully/RB bad/JJ."
14

➤ Adjetivos e advérbios isolados como unigrams (e.g.
decent)
➤ Adjetivos seguidos de advérbios como bigrams
➤ Advérbios seguidos de advérbios como bigrams
➤ Adjetivos seguidos de dois advérbios como trigrams
➤ Tokenização
15

➤ Tokenização
“Size/NN: slightly/RB longer/RB than/IN Canon/NNP S500/NNP but/CC
thinner/JJR - so/RB not/RB so/RB bad/JJ. Overall/RB the/DT cons/NNS
are/VBP not/RB rightfully/RB bad/JJ."
16

➤ Tokenização
[slightly/RB longer/RB, thinner/JJR, not/RB so/RB bad/JJ,
not/RB rightfully/RB bad/JJ]
17

METODOLOGIA : TRANSFORMAÇÃO
➤ Um valor numérico é associado cada n-grams
➤ Uso de dicionários de opiniões
➤ SentiWordNet 3.0 (SWN)
19

➤ Uso da abordagem de palavras fora de contexto (Guerrine,
2013)
➤ Polaridade ﬁnal: média dos escores entre os synsets
➤ A polaridade ﬁnal dos termos é um valor entre -1 e 1
20

METODOLOGIA : TRANSFORMAÇÃO - UNIGRAMS
➤ Unigrams são buscados em suas formas ﬂexionadas
➤ Múltiplas ocorrências de um termo decresce sua polaridade
ﬁnal
➤ Compensação do enviesamento positivo natural em 50%
[slightly/RB longer/RB, (thinner/JJR, 0), not/RB so/RB bad/
JJ, not/RB awfully/RB bad/JJ]
21

METODOLOGIA : TRANSFORMAÇÃO - BIGRAMS
➤ A polaridade de bigrams e trigrams dependerá dos
modiﬁcadores
➤ A polaridade de um bigram é calculada da seguinte maneira
(Taboada et al., 2011):
➤ Pol(good) = 0,72259; Pol(very good) = 0,90323
➤ Pol(longer) = 0; Pol(slightly longer) = 0
22

[(slightly/RB longer/RB, 0), (thinner/JJR, 0), not/RB so/RB
bad/JJ, not/RB rightfully/RB bad/JJ]
23

➤ Negação, um caso especial
➤ Inversão
➤ Pol(bad) = -0.44006
➤ Mod(rightfully) = 15%
➤ Pol (rightfully bad) = -0.50036
➤ Trigram (not rightfully bad) = -0.50036 = 0.50036
➤ Deslocamento
➤ Trigram (not rightfully bad) = -0.50036 + 0,75 = 0,24694
24

[(slightly/RB longer/RB, 0), (thinner/JJR, 0), (not/RB so/RB
bad/JJ, 0.46491), (not/RB rightfully/RB bad/JJ, 0.37041)]
25

METODOLOGIA : EXTRAÇÃO E SELEÇÃO DE CARACTERÍSTICAS
➤ Extraímos características dos documentos utilizando as
polaridades dos n-grams da etapa de transformação
➤ 57 características
➤ Três tipos básicos
➤ Somatório
➤ Contagem
➤ E valores máximos
27

➤ Por exemplo:
➤ Soma (não normalizada), soma normalizada e contagem de:
➤ adjetivos positivos
➤ adjetivos negativos
➤ advérbios positivos
➤ advérbios negativos
➤ Diferença entre as somas:
➤ Positivas e negativas de adjetivos e bigrams compostos
por advérbio e adjetivo
28

[(slightly/RB longer/RB, 0), (thinner/JJR, 0), (not/RB so/RB
bad/JJ, 0.46491), (not/RB rightfully/RB bad/JJ, 0.37041)]
[c1,c2,c3, … ,0.83532, … ,c57]
29

➤ Reduzir a dimensionalidade dos vetores de características
➤ Menor tempo gasto na classiﬁcação
➤ Manter ou melhorar o desempenho do classiﬁcador
➤ Dois algoritmos foram utilizados (Cintra, 2008):
➤ c4.5
➤ CFS (Consistency Feature Selection)
➤ Variar a altura da árvore de decisão do c4.5
[c1,c2,c3, … ,0.83532, … ,cn]
30

METODOLOGIA: CLASSIFICAÇÃO
32

METODOLOGIA: CLASSIFICAÇÃO - MODELAGEM DAS VARIÁVEIS
➤ Eliminação dos outliers
33

➤ Formato do conjunto fuzzy: triangular
➤ Duas modelagens foram deﬁnidas para as variáveis de entrada
➤ B = Baixo, M = Médio, A = Alto
34

➤ Segunda modelagem: 2 conjuntos fuzzy na entrada
35

➤ Modelagem para as variáveis de saída
➤ N = Negativo, P = Positivo
36

37

METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ O Método de Wang-Mendel
[c1,c2,c3, … ,0.83532, … ,cn]
+ Regra k
SE antecedentes ENTÃO consequente
Grau Rk
38

METODOLOGIA: CLASSIFICAÇÃO - CONSTRUÇÃO DAS REGRAS
➤ Eliminação de regras duplicadas
➤ Eliminação de regras conﬂitantes
R1 : SE Antecedentes1 ENTÃO Consequente1
R2 : SE Antecedentes1 ENTÃO Consequente2
GrauR1
GrauR2
39

40

METODOLOGIA: CLASSIFICAÇÃO - SISTEMAS DE INFERÊNCIA
➤ Método de Raciocínio Fuzzy Clássico (MRFC)
➤ Método de Raciocínio Fuzzy Geral (MRFG)
➤ Aplicação e avaliação de uso de pesos nas regras na
classiﬁcação
41

➤ Método de Raciocínio Fuzzy Clássico (MRFC)
42

➤ Método de Raciocínio Fuzzy Clássico (MRFC) C/ Pesos
✕ Peso1
✕ Pesos
43

➤ Método de Raciocínio Fuzzy Geral (MRFG)
44

➤ Método de Raciocínio Fuzzy Geral (MRFG) C/ Pesos
✕ Peso1
Pesos ✕
45

METODOLOGIA: AVALIAÇÃO
➤ 10-folds cross validation
➤ Folds estratiﬁcados
➤ Medidas (Fawcett, 2006):
➤ Acurácia = (TP + TN) / Total
➤ TPR = TP / (TP + FN)
➤ TNR = TN / (TN + FP)
➤ Wilcoxon signed-rank
➤ Comparação com SVM (Support Vector Machine)
47

RESULTADOS
➤ Para 3 e 2 conjuntos fuzzy, avaliamos:
➤ Os algoritmos de seleção de características
➤ Os métodos de raciocínio fuzzy
➤ Os pesos nas regras
➤ A quantidade dos conjuntos fuzzy na entrada
➤ As características mais selecionados entre as bases
➤ Comparamos com o SVM
➤ Eﬁciência das regras entre domínios diferentes
49

RESULTADOS: 3 CONJUNTOS FUZZY - BASE CORNELL
50

RESULTADOS: 3 CONJUNTOS FUZZY - BASE AMAZON
51

RESULTADOS: 3 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Em ambas as bases, o melhor resultado do c4.5 (com altura 1
com MRFG C/ Pesos) é maior que o CFS (com MRFG também
com pesos)
➤ Cornell
➤ c4.5: 70.05% de acurácia, 70.4% de TNR e 69.7% de TPR
em ﬁlmes.
➤ CFS: 67.1% de acurácia, 72,6% de TNR, 61,6% de TPR me
ﬁlmes
➤ Contudo, há resultados bem ruins com c4.5 em ambas as bases
➤ c4.5 c/ altura 1 e MRFC: 54.4% de acurácia na Cornell
➤ c4.5 c/ altura 1 e MRFC: 54.25% de acurácia da Amazon
52

RESULTADOS: 3 CONJUNTOS FUZZY - CARACTERÍSTICAS
➤ Duas características se destacaram
➤ Diferença entre as somas positiva e negativa de adjetivos e
bigrams compostos estritamente por advérbio e adjetivo
➤ Diferença entre as somas positiva e negativa de unigrams e
bigrams combinados
➤ c4.5 com altura 1 e MRFG c/ pesos em ﬁlmes utilizou
somente elas e produziu:
➤ 70,05% de acurácia; 70,4% de TNR; 69,7% de TPR
53

Distribuição dos valores da característica "A diferença entre as somas positiva e negativa
de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base de Cornell
54

de unigrams e bigrams" na base de filmes
55

de adjetivos e bigrams compostos estritamente por advérbio e adjetivo" na base da Amazon56

de unigrams e bigrams" na base da Amazon
57

RESULTADOS: 3 CONJUNTOS FUZZY - SISTEMAS DE INFERÊNCIA
➤ MRFG produz melhores melhores percentuais de acurácia que
o MRFC
➤ Contudo, ambos os métodos apresentam altos desvios padrão
em TPR e TNR
➤ O uso de pesos:
➤ Diminuiu bastante esses desvios
➤ Aumentou o desempenho em todos os cenários
58

➤ Destaque o MRFG, usando pesos e o c4.5 com altura 1:
➤ Cornell
➤ 59,2% para 70,05% de acurácia
➤ 53,8% +- 34,96% para 70,4% +- 7,11% de TNR
➤ 64,6% +- 37,08% para 69,7% +- 9,81% de TPR
➤ Amazon
➤ 60,05% para 70,85% de acurácia
➤ 44,6% +- 35,73% para 76,8% +- 4,57% de TNR
➤ 75,5% +- 34,8% para 64,9% +- 5,5% de TPR
59

RESULTADOS: 2 CONJUNTOS FUZZY - BASE CORNELL
60

RESULTADOS: 2 CONJUNTOS FUZZY - BASE AMAZON
61

RESULTADOS: 2 CONJUNTOS FUZZY - MÉTODOS DE SELEÇÃO
➤ Os pesos para 3 conjuntos mostrou que o conjunto MÉDIO
estava reduzindo o desempenho da classificação
➤ A melhoria dos resultados não foi significativa
➤ A distância dos resultados entre as bases ficou menor
➤ O CFS ainda usou 6 vezes mais características
➤ As mesmas características se destacaram
62

➤ Não há diferenças significativas entre MRFC e MRFG
➤ Em alguns casos o MRFC superou o MRFG
➤ c4.5 com altura 2 em ambas as bases
➤ A remoção do conjunto MÉDIO teve o mesmo efeito da
aplicação dos pesos
➤ A aplicação dos pesos utilizando 2 conjuntos não melhorou a
acurácia final do classificador
➤ Os resultados não foram conclusivos
63

RESULTADOS: AVALIAÇÃO DO USO DE REGRAS ENTRE DOMÍNIOS
➤ Epinions como base de testes
➤ Nenhuma adaptação foi feita às regras ou às características ou
aos conjuntos fuzzy
64

RESULTADOS: COMPARAÇÃO COM SVM
Cornell
Amazon
65

CONCLUSÃO
➤ Essa pesquisa propôs e avaliou uma metodologia de
classiﬁcação de sentimento geral de opiniões em documentos,
aplicando um sistema fuzzy automatizado de mineração de
opinião associado à extração e seleção de características destes
documentos.
67

CONCLUSÃO
➤ Os resultados foram promissores de até 72,4% de acurácia
numa validação cruzada de 10 folds.
➤ Talvez um dos primeiros trabalhos a aplicar a Lógica Fuzzy e o
método de Wang-Mendel em mineração de opinião
➤ O classiﬁcador gerado nessa pesquisa, classiﬁca documentos
utilizando regras legíveis para seres humanos
68

CONCLUSÃO
➤ Investigação de características de documentos que podem ser
relevantes para descrever e classificar documentos
➤ Uma quantidade muito limitada de características são
suficientes para efetuar a classificação de sentimento geral
➤ Uso de pesos em regras fuzzy melhora o desempenho do
classificador
➤ Uso de somente dois conjuntos fuzzy nas gerações das regras
do SBRF tem forte impacto positivo
69

CONCLUSÃO: TRABALHOS FUTUROS
➤ Construir um conjunto de advérbios melhor, investigar mais a
fundo a influência destes sobre adjetivos e avaliar se
impactam nos resultados finais;
➤ Melhorar o método de detecção de negação e como lidar
melhor com esse fenômeno;
➤ Melhorar como os conjuntos fuzzy são modelados para as
variáveis de entrada das características dos documentos;
➤ Investigar mais características que possam representar e
classificar melhor os documentos;
70

CONCLUSÃO: TRABALHOS FUTUROS
➤ Avaliar a metodologia proposta em outras línguas, como o
português brasileiro, para verificar a influência da língua nos
resultados e conclusões;
➤ Experimentar outros tipos de técnicas de seleção de
características, para investigar a influência desses métodos na
geração de regras fuzzy;
➤ E buscar e experimentar a utilização de outros dicionários de
opinião, com o fim de verificar a influência desdes na
classificação dos documentos.
71

REFERÊNCIAS
➤ Liu, B. (2012) 
Sentiment Analysis and opinion mining 
Synthesis Lectures on Human Language Technologies, 5(1):1-167
➤ Pang, B and Lee, L. (2008) 
Opinion Mining and sentiment analysis 
Found. Trends Inf. Retr., 2(1-2):1-135
➤ Baccianella, S., Esuli, A., and Sebastiani, F. (2010) 
Selection features for ordinal text classiﬁcation 
In IIR, pages 13-14
➤ Taboada, M., Brooke, J., Toﬁloski, M., Voll, K., and Stede, M. (2011) 
Extraction sentiment as a function of discourse structure and
topicality 
Simon Fraser University School of Computing Science Technical Report
72

REFERÊNCIAS
➤ Fawcett, T. (2006) 
An introduction of roc analysis 
Pattern recognition letters, 27(8):861-874
73

Classificação de opinião usando lógica fuzzy

Recommended

Recommended

More Related Content

More from Matheus Cardoso

More from Matheus Cardoso (7)

Classificação de opinião usando lógica fuzzy