Corpora para Processamento de Linguagem Natural

1,350 views
1,277 views

Published on

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,350
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
27
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Corpora para Processamento de Linguagem Natural

  1. 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  2. 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  3. 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  4. 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  5. 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  6. 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  7. 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  8. 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  9. 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  10. 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  11. 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  12. 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  13. 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  14. 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  15. 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  16. 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  17. 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  18. 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  19. 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  20. 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  21. 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  22. 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  23. 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  24. 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  25. 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  26. 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura

×