Your SlideShare is downloading. ×
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natural
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Corpora para Processamento de Linguagem Natural

1,173

Published on

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
1,173
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
27
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜o Sim˜es a o ambs@di.uminho.pt 17 de Outubro de 2008 (v0.1) Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 2. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 3. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 4. Defini¸˜o de Corpus ca Corpus Corpus ´ um termo usado para representar uma colec¸˜o (finita) e ca de textos, relativos a determinado assunto. Corpora Corpora ´ o plural de Corpus. e  monolingue corpora compar´vel a multilingue paralelo Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 5. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 6. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 7. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 8. Exemplos de Corpora Monolingue Alguns exemplos de Corpora Monolingues: British National Corpus — um corpus da l´ ıngua inglesa que cont´m diferentes g´neros de texto (escrito, oral, ...), com e e mais de 100 milh˜es de palavras; o CETEMP´blico — mais de 191 milh˜es de palavras de u o segmentos de texto jornal´ ıstico recolhidos do Jornal P´blico; u CETENFolha — mais de 33 milh˜es de palavras de segmentos o de texto jornal´ ıstico recolhidos da Folha de S˜o Paulo; a Russian National Corpus — um corpus da l´ ıngua russa com mais de 147 milh˜es de palavras; o Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 9. Corpora Compar´veis a Corpora Compar´veis a Os Corpora Compar´veis s˜o conjuntos de textos em diferentes a a l´ ınguas que, embora n˜o correspondam directamente a tradu¸˜es a co literais, focam um mesmo assunto. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 10. Exemplos de Corpora Compar´veis a Qualquer conjunto de not´ıcias que se refiram a um mesmo assunto ou evento, e que estejam escritos em l´ınguas diferentes podem ser vistos como corpora compar´veis. a Outro exemplo ser´ um conjunto de artigos cient´ a ıficos sobre um mesmo micro-organismo. Estes corpora s˜o essencialmente utilizados para o estudo e a extrac¸˜o de terminologia espec´ ca ıfica da ´rea a que os corpora se a referem. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 11. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 12. Corpora Paralelos Corpora Paralelos Os Corpora Paralelos s˜o textos em duas ou mais l´ a ınguas, em que existe uma rela¸˜o de tradu¸˜o entre eles. Tipicamente s˜o ca ca a bilingues, em que uma das l´ ınguas ´ a original, e a outra a e tradu¸˜o. ca Corpora Paralelos Alinhados Habitualmente ´ usado o termo gen´rico Corpus Paralelo para e e representar os corpora paralelos alinhados ao n´ da frase. Ou ıvel seja, em que os textos foram divididos em frases e foi definida uma correspondˆncia entre os segmentos nas duas l´ e ınguas. Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 13. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 14. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 15. Exemplos de Corpora Paralelos Exemplos de Corpora Paralelos Hansards — Corpus inglˆs/francˆs com mais de um milh˜o de e e a unidades de tradu¸˜o provenientes da legisla¸˜o canadiana; ca ca COMPARA — Corpus portuguˆs/inglˆs com cerca de 97 mil e e unidades de tradu¸˜o provenientes de texto liter´rio (com ca a varia¸˜es na direc¸˜o da tradu¸˜o e no dialecto portuguˆs). co ca ca e EuroParl — Corpus multilingue com uma m´dia de um milh˜o e a de unidades de tradu¸˜o para cada par de l´ ca ıngua, provenientes da legisla¸˜o europeia; ca JRC-Acquis — Corpus multilingue com uma m´dia de um e milh˜o de unidades de tradu¸˜o para cada par de l´ a ca ıngua, provenientes da legisla¸˜o europeia; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 16. Corpora Paralelos na Rede ´ E habitual a disponibiliza¸˜o de Corpora para consulta de ca concordˆncias na Internet. a Alguns exemplos: AC/DC — Acesso a Corpora / Disponibiliza¸˜o de Corpora ca http://www.linguateca.pt/acesso/corpus.php COMPARA — Corpus Paralelo de Obras Liter´rias a http://www.linguateca.pt/COMPARA/psimples.php NATools — Natura Alignment Tools http://linguateca.di.uminho.pt/nat Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 17. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 18. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 19. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 20. Etapas T´ ıpicas na Constru¸˜o de um Corpus ca recolha dos textos a incorporar: digitaliza¸˜o e OCR de documentos; ca recolha autom´tica a partir de documentos a Caso particular: extrac¸˜o a partir da rede ca an´lise e tratamento da qualidade dos textos: a tratamentos de erros t´ıpicos de OCR; an´lise e selec¸˜o dos textos obtidos; a ca segmenta¸˜o e atomiza¸˜o dos textos: ca ca detec¸˜o de frases (cuidado com abreviaturas...) ca detec¸˜o de palavras (o que s˜o palavras?...) ca a anota¸˜o variada: ca anota¸˜o das entidades mencionadas; ca anota¸˜o das categorias morfo-sint´cticas; ca a Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 21. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 22. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 23. Adicionalmente para Corpora Paralelos alinhamento ao n´ da frase ıvel com base no comprimento das frases; com base em palavras sem tradu¸˜o; ca com base em dicion´rios bilingues; a extrac¸˜o de dicion´rios de tradu¸˜o ca a ca para cada palavra associar tradu¸˜es prov´veis; co a com base nas co-ocorrˆncias das palavras; e alinhamento ao n´ da palavra ıvel associar uma tradu¸˜o a cada ocorrˆncia de uma palavra; ca e Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 24. Aplica¸oes de Corpora c˜ Aprendizagem Autom´tica: a modelos estat´ ısticos de l´ ıngua; Extrac¸˜o de terminologia: ca detec¸˜o de palavras espec´ ca ıficas de uma ´rea; a extrac¸˜o de terminologia bilingue; ca Tradu¸˜o Autom´tica: ca a extrac¸˜o de dicion´rios bilingues; ca a extrac¸˜o de terminologia bilingue; ca extrac¸˜o de exemplos de tradu¸˜o; ca ca modelos estat´ısticos de tradu¸˜o; ca Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 25. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura
  • 26. Constru¸˜o de Corpora Monolingue ca A constru¸˜o de corpora monolingue tem como base a: ca extrac¸˜o de p´ginas da Rede com conte´do relevante ca a u pesquisas por termos chave; extrac¸˜o de algumas p´ginas obtidas; ca a extrac¸˜o do l´xico dessas p´ginas, e compara¸˜o com l´xico ca e a ca e comum; usar as palavras resultantes em novas pesquisas. Extrac¸˜o ca dessas p´ginas como constituintes do corpus. a selec¸˜o das p´ginas obtidas ca a a l´ ıngua pretendida; a percentagem de conte´do util; u ´ Alberto Sim˜es o Corpora para Processamento de Linguagem Natura

×