Dissertação para a obtenção do título de Mestre em Gestão do Conhecimento e da Tecnologia da Informação, na Universidade Católica de Brasília, em dezembro de 2012.
Extração Automática de Definições: um estudo de caso em textos legislativos
1. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Extração Automática de Definições
Um Estudo de Caso em Textos Legislativos
Augusto Herrmann Batista
Orientador: Edilson Ferneda
Co-orientador: Hércules Antonio do Prado
2. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Roteiro
Contextualização e Motivação
Problema
Objetivos
Revisão da Literatura (EI e ED)
Referencial Teórico
Metodologia
Resultados e Discussão
Conclusões e Trabalhos Futuros
Ref.: pág. 13
3. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Por que se fazer um Glossário?
Facilitar o aprendizado
Fixar conceitos
Externalizar um jargão
Evitar ambiguidades
Reduzir ruídos de comunicação
Ref.: págs. 10 a 12
4. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Contextualização e Motivação
Extração Manual
Tarefa Dispendiosa
Grande Volume de Textos
Obs.: ainda está sujeita a desacordo entre anotadores!
Ref.: págs. 10 a 12, 39 e 40
5. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Problema
Problema
”Dado um conjunto de textos em linguagem natural
em língua portuguesa, em meio eletrônico, como
extrair automaticamente um conjunto de termos e
definições originalmente apresentados de forma
não-estruturada visando a construção de um
glossário?”
Ref.: pág. 12
6. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Objetivos
Objetivo Geral
Elaborar um método de extração de definições a
partir de textos em língua portuguesa aplicando
técnicas de processamento de linguagem natural
Objetivos Específicos
Estudar técnicas existentes em ED
Selecionar, adaptar e combinar
Efetuar estudo de caso e aplicar a técnica
Ref.: pág. 12
7. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Origens na Extração de Informação (EI)
Revisões de Muslea (1999) e Sarawagi (2007)
Uso de sequências de padrões sintáticos e slots
(e.g. AutoSlog – RILOFF, 1993)
Proximidade semântica com uso do Wordnet
(MILLER, 1995)
Aprendizagem de máquina estatística
Modelos Markovianos Ocultos (HMM)
Entropia Máxima (MEMM)
Campos Aleatórios Condicionais (CRF)
Modelos Híbridos (regras + aprendizagem)
Ref.: págs. 14 a 23
8. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Problemas Relacionados à Extração de Definições
(ED)
Origem: sistemas de resposta automática a
perguntas (e.g. SAGGION, 2004)
”Quem é … ?”
”O que é um … ?”
Extração de Tesauros (e.g., CURRAN e MOENS,
2002)
Apoio à Construção de Ontologias (e.g., MALAISÉ,
2005, apud ALARCÓN et al, 2007; GANGEMI et al,
2003 apud NAVIGLI e VELARDI, 2010)
Ref.: págs. 24 a 26
9. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
Abordagens em ED
Baseadas em regras / padrões morfossintáticos
(e.g. TANEV et al, 2005)
Baseadas em aprendizagem de máquina estatística
(e.g. FAHMI e BOUMA, 2006)
Bayesiano Ingênuo
Entropia Máxima
Máquinas de Vetor de Suporte (MVS)
Algortimos Genéticos (BORG et al, 2007)
Ref.: págs. 25, 29, 30 e 35
10. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Revisão de Literatura
ED em Língua Portuguesa
Pinto e Oliveira (2004)
Corpógrafo – Textos de Medicina
Identificação manual de estruturas sintáticas comuns
Construção de expressões regulares
Del Gaudio e Branco (2007, 2009)
Textos em TI e EAD
Gramática baseada em regras
Ref.: págs. 30 a 32
11. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Definições
Genus et differentia – Aristóteles
definiendum
genus
differentia
Shaw (1922):
por etimologia
por análise (ou intensional)
por exclusão
por exemplo (ou extensional)
Ref.: págs. 47 a 49
12. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Etiquetagem Morfossintática
presente na cadeia de processamento de PLN
atribui etiquetas com o papel desempenhado pelo
segmento na frase
Tipos de etiquetadores
Expressões Regulares
Estatísticos N-Gramas
Aprendizagem baseada em transformações
(BRILL, 1993 apud BIRD et al, 2009)
Ref.: págs. 49 a 54
13. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Referencial Teórico
Máquinas de Vetor de Suporte
abordagem de aprendizagem de máquina para
problemas de classificação
classifica vetores n-dimensionais
cada dimensão representa uma característica
separador que maximiza a margem entre as
classes de vetores
Ref.: págs. 54 a 57
14. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Ref.: Figura 12, pág. 58
15. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Corpus de experimentação – Coleção Brasileira do
Direito das Telecomunicações (ARANHA e LIMA,
2009)
1.940 documentos com 6.120.832 tokens
Leis, Decretos, Resoluções, Jurisprudência
1.757 termos no glossário
2.097 definições
Ref.: págs. 59 a 60
16. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
”Problemas” no corpus
faltam alguns documentos referenciados
Ex.: ”Acessórios”, referencia a Resolução da ANATEL
nº 533, de 10/09/2009. O documento não consta no
corpus.
correções ortográficas
Ex.: no Anexo à Resolução da ANATEL nº 297, de
10/05/2002 está: ”questão específca”. No glossário,
”questão específica”.
definições omitidas
Ex.: ”contratante” e ”contratado” na Lei 8.666/1993
Ref.: págs. 60 a 62
17. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Pré-processamento
conversão de formatos
filtragem para sanear os problemas
Segmentação
por períodos
por palavras
Ref.: págs. 61 a 62
18. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Etiquetagem morfossintática
treino no corpus MAC-MORPHO (ALUÍSIO et al,
2003)
divisão de treino/testes 90%/10%
acurácia: 90,44%
Ref.: págs. 62 a 65
19. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Funções extratoras de características (FEC)
retornam um valor numérico ou binário
normalizado para a faixa [0, 1]
exemplos:
o segmento contém o verbo ”ser” seguido de um
determinante?
o segmento contém dois pontos (”:”) entre as cinco
primeiras posições?
exemplos de características negativas:
palavra não seguida por conjugação do verbo ”ser”
Ref.: págs. 65 a 66
20. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
Treino
Coleção Brasileira de Direito das
Telecomunicações (ARANHA e LIMA, 2009)
amostragem aleatória de 70% dos períodos
utilizados para treino
normalização dos valores das FEC
resposta de referência (”gold standard”)
balanceamento da quantidade de instâncias
Aplicação
30% restantes para aplicação e validaçãoRef.: págs. 67 a 69
21. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Metodologia
22. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Resultados e Discussão
Resultados
acurácia: 73,5%
precisão: 75,6%
Revocação: 69,6%
Matriz de confusão:
Predição
Correção
Negativa Positiva
Negativa 305
38,7%
89
11,3%
Positiva 120
15,2%
275
34,9%
Ref.: págs. 70 a 71
23. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Conclusões
Atingidos os objetivos geral e específicos
estudo das técnicas existentes
escolha de uma abordagem p/ construir glossário
estudo de caso
Poucos trabalhos em língua portuguesa, nenhum
aplicado a textos normativos
Primeiro passo para a construção de glossários
(revisão manual)
Ref.: pág. 72
24. Extração Automática de Definições – Estudo de Caso em Textos LegislativosExtração Automática de Definições – Estudo de Caso em Textos Legislativos
Trabalhos Futuros
Construção de corpus anotado manualmente
revisado
Aplicação em outras áreas do conhecimento
Uso de programação genética e outras, aplicadas
à língua portuguesa
Ref.: págs. 72 a 75