Corpora para Processamento de Linguagem Natural
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Corpora para Processamento de Linguagem Natural

on

  • 1,963 views

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

Statistics

Views

Total Views
1,963
Views on SlideShare
1,963
Embed Views
0

Actions

Likes
0
Downloads
25
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Corpora para Processamento de Linguagem Natural Presentation Transcript

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura