Processamento de Linguagem Natural
Upcoming SlideShare
Loading in...5
×
 

Processamento de Linguagem Natural

on

  • 1,718 views

 

Statistics

Views

Total Views
1,718
Slideshare-icon Views on SlideShare
1,718
Embed Views
0

Actions

Likes
1
Downloads
23
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Processamento de Linguagem Natural Processamento de Linguagem Natural Presentation Transcript

    • MESTRADO EM CIÊNCIA DA COMPUTAÇÃOUNIVERSIDADE ESTADUAL DO RIO GRANDE DO NORTE - UERN UNIVERSIDADE FEDERAL RURAL DO SEMI-ÁRIDO - UFERSAPROCESSAMENTO PROBABILÍSTICO DE LINGUAGEM Capítulo 23 Diego Grosmann e Thiago Reis
    • Agenda2  Introdução  Modelo probabilístico de linguagem  Gramática probabilística livre de contexto (GPLC)  GPLC lexicalizada  Recuperação de Informação  Problemas de PLN  Extração de Informação  Tradução automática  Estado da arte  Aplicações  Referências bibliográficas
    • Introdução3  Processamento probabilístico de linguagem tenta facilitar a localização de informações em textos escritos por seres humanos e para seres humanos;  Essa abordagem utiliza estatística e aprendizagem nos dados existentes e gera probabilidades para o uso de sentenças (modelo probabilístico).
    • Modelo Probabilístico de Linguagem4  Define a distribuição da probabilidade sobre um conjunto de cadeias;  Modelos:  Unigramas;  Bigramas;  Trigramas.
    • Modelo Probabilístico de Linguagem5  Unigramas:  Atribui probabilidade P(w) a cada palavra;  A probabilidade de uma cadeia de palavras é apenas o produto da probabilidade de cada palavra;  logical are as are confusion a may right tries agent goal the was diesel more object then information- gathering search is
    • Modelo Probabilístico de Linguagem6  Bigramas: A probabilidade de cada palavra dada a palavra anterior.  P(wi|wi -1)  planning purely diagnostic expert systems are very similar computational approach would be represented compactly using tic tac toe a predicate
    • Modelo Probabilístico de Linguagem7  N-gramas:  Considera n-1 palavras anteriores;  P(wi|wi – (n-1) ... wi – 1);  Trigramas  planning and scheduling are integrated the success of naive Bayes model is just a possible prior source by that time.
    • Modelo Probabilístico de Linguagem8  Suavização:  Conta igual a zero  Suavização soma um  (c + 1)/(N + B);  N  número de palavras;  B  bigramas possíveis;  c  contagem real;  (elimina a possibilidade de uma combinação de uma palavras nunca sair).
    • Modelo Probabilístico de Linguagem9  Suavização:  Suavização de interpolação linear  Combinação dos modelos Unigramas, Bigramas e Trigramas.  P(wi|wi – 2 wi – 1) = c3 P(wi|wi – 2 wi – 1)+ c2P(wi|wi -1)+ c1 P(w)
    • Método de avaliação Utilização de área de treinamento e área de testes.  Problemas: P(Palavras) é muito pequena, os números poderiam causar underflow. Calcular Perplexidade  Quanto mais baixa a perplexidade melhor o modelo −2 (  = 2 ) N = Numero de palavras Underflow: Erro de memoria, valor abaixo do esperado
    • Gramática probabilística livre de11 contexto (GPLC)  Utiliza os formalismos gramaticais para gerar uma árvore de probabilidades de palavras;  A probabilidade de uma cadeia, P(palavras), é apenas a probabilidade de sua árvore;  Para percorrer a árvore podemos utilizar:  Algoritmo de Viterbi;  A* (busca pelo melhor esforço).
    • GPLC lexicalizadas12  Tenta resolver o problema de contexto  P(come uma banana) e P(come uma bandana) depende de P(banana) vs P(bandana);  SV  SV SN  SV  cabeça do SV (comer)  SN  cabeça do SN (banana)  SV sintagmas verbais  SN sintagmas nominais  Sintagma é um segmento linguístico que expressa uma relação de dependência
    • Problemas no GPLC Dificuldade de se construir a GPL Problemas na atribuição de probabilidade Aprendizagem  Com arvore sintática utiliza uma regra para a combinação dos filhos  Maximização de expectativas (EM)
    • 14 Recuperação de Informação É a tarefa de encontrar informações relevantes para as necessidade de informação de um usuário;
    • Recuperação de Informação15  Características:  Uma coleção de documentos;  Uma consulta apresentada em uma linguagem de consulta;  Um conjunto de resultados;  Uma apresentação do conjunto de resultado;
    • Recuperação de Informação16  Modelo booleano de palavras chaves: O modelo é verdadeiro para a palavra em um documento se ela ocorre e falso se ela não ocorre;  Simples;  Mas, não apresenta grau de relevância;  Pouca familiaridade de usuários leigos com as excreções;  Resultados ruim (muito especifica).
    • Recuperação de Informação17  Modelagem de linguagem:  Tenta definir uma regra de ordenação dos resultados P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)  r  variável booleana aleatória que indica Relevância = verdadeiro  D  Documento  Q  Consulta
    • P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)18 Divide a quantidade de Representa as chances resultados relevantes no Probabilidade de r ser independentes da documento pela quantidade de verdadeiro dado um consulta do documento ser resultados irrelevantes documento D e uma relevante consulta Q  r  variável booleana aleatória que indica Relevância = verdadeiro A relevância do documento  D  Documento independente da consulta pode ser  Q  Consulta dada pela quantidade de links que apontam para ele como (se for um artigo) o numero de citações do periódico
    • P(r | D, Q) P( r | D)  P(r | D, Q)  P(r | D, Q) P(r | D)19  Modelo de saco de palavras  Utiliza unigrama para contar o numero de ocorrências;  Documentos com mais ocorrências individuais são mais relevantes; P(r | D, Q)   jP(Qj | D, r )  Calcula a probabilidade de uma consulta dado um documento relevante multiplicado pela probabilidade das palavras na consulta P(r | D, Q) P ( r | D)   jP(Qj | D, r )  P(r | D, Q) P(r | D)
    • Recuperação de Informação20  Refinamento de RI  Problema  Sistemasunigrama tratam todas as palavras como se fossem independentes;  poltrona, POLTRONA, poltronas, sofá, Poltrona.  Solução  Utilizar só letras maiúsculas/minúsculas;  Procurar pelo radical;  Problema: stocking (meia), Stock (estoque);  Solução: uso de dicionário;  Dicionário de sinônimos;  Problema: Modificação do significado;  Uso de corretor ortográfico e metadados.
    • Recuperação de Informação21  Apresentação do conjunto de resultados:  Até o momento só o problema de relevância foi visto a utilidade não foi avaliada;  Qual a utilidade de dois documentos iguais?  Realimentação de relevância: o usuário informa os dados relevantes;  Classificação de documentos  Formação de agrupamentos de documentos;
    • Recuperação de Informação22  Apresentação do conjunto de resultados:  Classificação de documentos  Problema de aprendizagem supervisionada  Agrupamento de documentos  Problema de aprendizagem não-supervisionada  Agrupamentos aglomerativo  Agrupamentos K-média
    • Recuperação de Informação23  Implementação de sistemas RI:  Como fazer uma pesquisa eficiente na web onde existem bilhões de documentos?  Léxico  Lista todas as palavras da coleção de documentos;  Pode armazenar o número de ocorrências;  Utiliza lista de palavras ignoráveis (o, de, ou);  Índice invertido (lista de acertos)  Lista o lugar em que cada palavra aparece (link);  Para a busca de frases ele deve guardar a localização da palavra no documento.
    • Recuperação de Informação24  Como funciona:  Fazemos uma busca no léxico para obter o endereço da lista de acertos;  Em seguida percorremos a lista de acerto de cada documento e verificamos a contagem para cada documento.
    • Recuperação de Informação25  Na prática:  750.000 documentos totalizando 2 GB;  Léxico contem 500.00 palavras 7 a 10 MB;  Indicie invertido (documento, contagem) ocupa 324MB;  O suporte a consulta de frases (e, ou, etc.) eleva o Índice Invertido a 1200 MB;  Na Web existem cerca de 3.000 vezes mais documentos;  Solução: segmentação e distribuição de copias.
    • Problemas do PLN26  Ambiguidade: uh! Eitcha Piula, Qual é a dele??! Reiou...
    • Problemas do PLN27  Ambiguidade léxica: diferentes interpretação para uma palavra;  Ex: João procurou um banco;  Ambiguidade sintática: uma sentença pode ser mapeada de diferentes formas;  Ex: O menino viu o homem de binóculo;  Ambiguidade semântica: diferentes significado para uma frase;  Ex: Pedro viu Maria passeando;  Ambiguidade anafórica: anáfora pronominal relacionada a duas os mais palavras distintas:  Ex: o ladrão entrou na casa do prefeito e tirou sua roupa;
    • 28 Extração de Informação É originalmente a tarefa de encontrar informações a partir de grandes volumes de documentos ou textos;  Documentos ou textos: estruturados ou livres;
    • Extração de Informação29  Características:  EI visa localizar e extrair de forma automática informações relevantes;  Banco de dados;  Sistemas de Extração de Informação (SEI) não realizar o entendimento completo do documento;  Objetivo: construir sistemas que encontrem e combinem informações relevantes;  EI é diferente de RI;
    • Extração de Informação30  Arquitetura:  Definidapor Grishhan (1997 apud ÁLVARES, 2007);  6 módulos presentes em SEI;  Processador léxico;  Reconhecimento de nomes;  Analisador sintático/semântico;  Padrão de extração;  Analisador de discurso;  Templates.
    • Extração de Informação31  Arquitetura:  Processador léxico:  Textodividindo em sentenças e termos;  Separação dos termos (tokenização);  Reconhecimento de nomes:  Identifica vários tipos de nomes próprios;  Analisador sintático/semântico:  Receber itens léxicos e tenta construir uma estrutura sintática;
    • Extração de Informação32  Arquitetura:  Extração de padrão:  Indução de um conjunto de regras de extração;  Análise de Discurso:  Relacionar diferentes elementos do texto;  Inclusão de algumas tarefas:  Análise de frases nominais;  Resolução de recorrência;  Templates:  Preenchimento com as informações relevantes;
    • Extração de Informação33  Arquitetura: Figura. Arquitetura. Fonte: Grishhan (1997 apud ÁLVARES, 2007)
    • Extração de Informação34  Tipos de textos:  o tipo de texto influência na escolha da técnica;  Estruturado: quando apresenta regularidade das informações;  Ex: formulário;  Semi-estrurado: alguma regularidade dos dados;  Ex: artigo;  Não-estruturado: não exibe regularidade;  Ex: páginas web;
    • 35 Tradução automática É umas das atividades que mais utiliza o conhecimento de linguística;  Necessidade de fazer a codificação da língua fonte (LF) para a língua alvo (LA);
    • Tradução automática36  Processos de TA:  Tradução bruta: obter um significado de uma sentença;  Ex: navegação na web;  Tradução de origem restrita: conteúdo dos textos é restrito;  Ex: Taum-meteo;  Tradução pré-editada: realiza uma edição prévia do conteúdo;  Ex: manuais de empresas;  Tradução literária: está além do estado da arte de TA;
    • Tradução automática37  Processos de TA:  Problema: idiomas;  A dificuldade encontrar-se no processo de análise e interpretação do enunciado da LN;  Estratégias:  Tradução baseada exclusivamente em conhecimento linguístico (LBMT);  Tradução baseada em conhecimento (KBMT);  Tradução baseada em exemplo (EBMT);
    • Tradução automática38  Sistemas de TA;  Comercias: translator pro, power translator pro;  Gratuitos: altavista, google translator;  Sistemas preliminares;  Metodologias  Sistemas transferenciais: mantém um BD com regras de tradução;  Sistemas interlíngua: representação intermediária entre LF e LA;  Sistemas diretos: tradução direta;
    • Tradução automática39  Tradução direta e indireta;  Direta: A própria LA é considerada um instrumento para a LF;  Indireta:  São desenvolvidas formas para a representação intermediária;
    • Estado da Arte40  AIML - Artificial Intelligence Markup Language  Linguagem Baseada em XML;  Desenvolvida Richard S. Wallace;  Comunidades mundial de software livre;  Foi a base pro ChatterBot Alice, Antigamente chamado de Eliza;  Interpretada em Phyton, C, C++, Entre outras Linguagens;  Padronizada pelo W3C XML;
    • Estado da Arte41  WordTree:  Ferramenta de busca para texto não-estruturado;  Analisadores de Texto baseados em palavras;  Visualização de Textos baseados em Concordância;
    • Estado da Arte42
    • Aplicações43  Chatter Bot  ALICE  Sistemas Operacionais que interpretam LN  DOSVOX e Virtual Vision  Mecanismos de Busca que utilizam PLN  PowerSet
    • Referências bibliográficas44  RUSSEL, Stuard J.; NORVIG, Peter. Artificial Intelligence: A Modern Approach. Prentice Hall, New Jersey, 2 edition, 2003.  ÁLVARES, Alberto Cáceres. Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem. 131p. Dissertação (mestrado), Universidade de São Paulo - USP, São Carlos, SP, fevereiro de 2007.