Geral   a linguística de corpus
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Geral a linguística de corpus

  • 2,474 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
2,474
On Slideshare
2,474
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
86
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. © 2013 Stella E. O. Tagnin Preparação de texto: Larissa Uno Barbosa / Verba Editorial Capa, Projeto gráfico e Diagramação: Patricia Tagnin / Milxtor Design Editorial Assistente editorial: Aline Naomi Sassaki Dados Internacionais de Catalogação na Publicação (CIP) (Câmara Brasileira do Livro, SP, Brasil) Tagnin, Stella E. O. O jeito que a gente diz: combinações consagradas em inglês e português / Stella E. O. Tagnin. -- Barueri, SP : DISAL, 20l3. "Com exemplos em alemão, espanhol, francês e italiano" ISBN 978-85-7844-127-2 1. Inglês - Estudo e ensino 2. Inglês - Palavras e locuções estrangeiras - Português 3. Português - Estudo e ensino 4. Português - Palavras e locuções estrangeiras - Inglês I. Título. 13-00702 CDD-41O índices para catálogo sistemático: 1. Inglês e português: Linguística comparada 410 2. Português e inglês: Linguístíca comparada 410 Todos os direitos reservados em nome de: Bantim, Canato e Guazzelli Editora Ltda. Alameda Mamoré 911 - cj, 107 Alphaville - BARUERI - SP CEP: 06454-040 Tel. / Fax: (11) 4195-2811 Visite nosso síte. www.disaleditora.com.br Televendas: (11) 3226-3111 Fax gratuito: 0800 7707 105/106 E-mail parapedidos:comercialdisal@disal.com.br Nenhuma parte desta publicação pode ser reproduzida, arquivada ou transmitida de nenhuma forma ou meio sem permissão expressa e por escrito da Editora.
  • 2. 5 A Linguística de Corpus o leitor pode imaginar como é laborioso estudar o fenômeno da con- vencionalidade se dependermos de nossa atenção para observar a recorrência de certas combinações. O que geralmente ocorre é que, ao notarmos uma combinação "que já vimos antes", não nos lembramos de onde a vimos e, provavelmente, não somos capazes de localizá-Ia novamente se quisermos, por exemplo, compilar uma lista de expressões consagradas. Assim, anotamos ape- nas essa segunda ocorrência e "torcemos" para encontrar outra para confirmar que, de fato, se trata de uma expressão consagrada. Pois bem, com o advento do computador tornou-se possível construir grandes bancos de textos e consulrá-los com ferramentas computacionais apro- priadas para detectar co-ocorrências e recorrências. A disciplina que possibilita essa investigação denomina-se Linguística de Corpus. A Linguística de Corpus (LC)3 oferece uma metodologia que veio facilitar muito a identificação das unidades convencionais da língua. Enquanto, no passado, se dependia de "notar" sua recorrência no dia a dia até nos conscien- tizarmos de que se tratava de uma unidade fixa, hoje essa conscientização é facilitada pela observação simultânea de uma grande quantidade de dados a partir de um corpus eletrônico. Para a Le, um corpus é uma coletânea de textos, necessariamente em formato eletrônico, compilados e organizados segundo critérios ditados pelo objetivo de pesquisa a que se destina. O formato eletrônico permite que esses 3 Há excelentes livros introdutórios à Linguística de Corpus. Entre eles, podemos destacar Berber Sardinha (2004) em português, e Kennedy (1998), McEnery & Wilson (2001) e Tognini-Bonelli (2001) em inglês. No Brasil, há algumas coletâneas de artigos que apresentam um panorama da pesquisa nessa área, entre elas Tagnin & Vale (2008), Viana & Tagnin (2010) e Shepherd, Berber Sardinha & Veirano Pinto (2012). Stella E.O. Tagnin 29
  • 3. Capítulo 5 textos sejam investigados e analisados automaticamente, com o uso de ferra- mentas computacionais específicas. Vejamos as principais delas. Asferramentas Concordanciador A ferramenta que melhor permite observar as estruturas convencionais recorrentes da língua produz resultados na forma de concordâncias, em que cada linha apresenta a palavra ou expressão que está sendo investigada - a pa- lavra de busca - inserida em seu contexto natural de ocorrência. Esse formato é denominado KWIC, ou seja, Key Word in Context (palavra-chave em contexto) e traz, em geral, a palavra de busca centralizada. Eis uma concordância para a palavra atenção. 1 2 3 4 5 6 7 8 9 10 11 12 13 mentevem recebendo atenção da sociedadee da c etem recebidomais atenção nosúltimos anos,d tem recebidomuita atenção nos últimos anos,d ostem merecidouma atenção bem maior, por part oduçãoparafocar a atenção do leitor no proble leitor a focar sua atenção nosaspectos mais i e ir distanciando a atenção do leitor dos resul ecentemente,grande atenção também tem sido dad etem recebidomais atenção nas pesquisasrecen bjetivo deatrair a atenção do maior númerode ência sãoofoco de atenção nodiscurso e, logo focalizaremos nossa atenção nosmétodostotalme . Focalizamosnossa atenção em quatro medidas: Concordância para atenção a partir de textos de periódicos do corpus Lácio-Ref no portal Lácio-Web (http://www.nilc.icmc.usp.br/laciowebl 4 o leitor há de notar que o contexto apresentado, na concordância acima, é truncado. Isso se deve ao tamanho do contexto pelo qual o pesquisador 4 Por razóes de espaço, optamos por apresentar aqui e nos demais exemplos uma seleção das linhas de concordância originalmente geradas pelos programas. 30 Ojeito que a gentediz
  • 4. A Linguística de Corpus optou, ou seja, 20 caracteres de cada lado da palavra de busca. Mas, no caso específico do concordanciador desse portal, o Lácio-Web, essecontexto pode ser aumentado até 60 caracteres. Como o objetivo de visualizar as expressões recorrentes não se limita apenas a estabelecer sua frequência, mas também a identificar seu contexto de uso, sua estrutura sintática, seu cotexto usual, convém trabalharmos com concordâncias mais longas. Importante também é saber como se "lê" uma concordância. Há basi- camente duas formas: uma leitura vertical e uma leitura horizontal. A leitura vertical permite detectar as recorrências, enquanto a horizontal evidencia as estruturas sintáticas. Vejamos um exemplo com sal. A concordância - abreviada para efeitos de exemplificação - permite identificar os seguintes padrões recorrentes: sal comum, sal de cozinha, sal e luz, sal grosso e sal marinho. Ingredientes: 4 colheres de sopa de sal 1colher de sopa de pimenta companhi amada do sal. Cubra-a com o restante do sal, apertando para o de seu Evangelho: . Modo mal térmico de refinamento como o sal comum. Contém84 elementostraço, d iodo a concentrado para ser diluido com sal comum nas proporçõesrecomendadas. ENTESvirada para baixosob a camada do sal. Cubra-a com o restante do sal, ap o para o de seu Evangelho:"Vocês são o sal da terra quetorna suportável. Se u sabor bém aumenta. 2. Sal de CozinhaO sal de cozinha é osal marinho, só que I. Seperderem seu sabor bém aumenta. 2. Sal de cozinha Osal de cozinhaé o sal içãi nta é: Ondeestá a igraie?Porqueo sal e luz deJesusCristo nãoestão imp oltar f erença para essas pessoas, sendo sal e luz na vida delas. Valelembrar a ão que nde profissional tem de ser como o sal e como a luz. Eantes que você perg ele é s us disse que Nóstínhamos de ser sal e luz do mundo. "Portanto, se a esc ndo e s rvas. Modo de Fazer:Misturar o sal e a pimenta. voltar f erença para e u início assadeira pequenacom metade do sal grosso. Coloquea picanha com a gor te, vamos a cm no máximo 1,800Kg lKg de sal grosso Mododefazer: Este prato de . 2. Sal de CozinhaOsal de cozinha é o sal marinho, só que nele é s us disse q nte para pys.3. Tratamento de DoençasO sal marinho, comojá dito, protegeos p ribuído do no organismo. A utilização do sal marinho traz maiores benefíciosà s para ba importância para o ser humano. O sal marinho não passa pelo processo nor ico de ação do bócio. Oiodo existente no sal marinho é biologicamente melhor ass Concordância parcial para sal gerada pelo WebCorp Stella E.O. Tagnin 31
  • 5. Capítulo 5 5 A grafia em versalete indica a forma canônica de uma palavra, ou seja, o lema, e representa todas as formas possíveis dessa palavra. No exemplo acima, corresponde a todas as formas do verbo ser. No caso de substantivos e adjetivos, corresponde ao singular e plural e aos gêneros masculino e feminino. o leitor atento deve ter observado que o lado à direita de sal foi ordenado alfabeticamente. Esse recurso, que também pode ser aplicado ao lado esquerdo, facilita ainda mais a visualização dos padrões, quer lexicais quer sintáticos. Uma vez estabelecidos esses padrões, podemos, com nova busca, verificar se, por acaso, as unidades detectadas fazem parte de uma unidade ainda maior. Na realidade é o que se verifica, principalmente, com SER5 sal e luz do mundo: irei até aos confins da terra. Queroser sal e luz do mundo Senhor,eu sei que é para servirem os seus irmãos. Queroser sal e luz do mundo. Precisa de mim? Lev - Para que Deusnos ilumine para sermos sal e luz do mundo. Rezemosao Senhor. ai, ó Maria, vossas graças para que seja sal e luz dos povos. PorCristo, nosso rtamente o pecado deles (Jo7.7;Ef 5.11 sal e luz do mundo para eles (Mt 5.13,1 da baseada no seguimento de Cristo e ser sal e luz do mundo. Ficouem todos desd Sabemosque Deusquer que o crente seja sal e luz do mundo e que o evangelho se ara adorar, proclamando, servindo, sendo sal e luz do mundo. i) Adorar é amar a s no Espírito Santo e prontos para serem sal e luz desta terra! Foilindo poder mos crianças ejovens prontos para serem sal e luz desta terra. Creioque atravé ermos a vontade de Deuse decidirmos ser sal e luz do mundo. O sal provoca sede atureza missionária e comunitária de ser sal e luz do mundo. Aqueles pastores, a Concordância parcial para sal e luz gerada pelo WebCorp Nota-se, assim, que uma pesquisa baseada em corpus pode também di- recionar novas pesquisas. Vejamos agora outro exemplo. Observando-se de cima a baixo o lado direito de uma concordância, identificamos os objetos de verbos, os adjetivos que co-ocorrem com substantivos, as regências etc. Na figura abaixo nota- mos que presente pode ser um substantivo, como em presente que dera para a namorada (linha 6), presente de Natal (linha 7), presente de férias (linha 10), ''presente original" (linha 16) epresente para o Dia da Criança (linha 18), todos com o significado de "alguma coisa oferecida a alguém". Ao estudarmos o lado esquerdo, notamos mais uma ocorrência desse mesmo substantivo: como sefosse um presente (linha 2). Também detectamos outro significado do substantivo 32 O jeito que a gente diz
  • 6. A Linguística de Corpus presente, ou seja, o de "tempo presente" (linhas 12, 14, 15, 17 e 20). Ao fa- zermos uma leitura horizontal, por outro lado, notamos que, com exceção da ocorrência na linha 20, nas outras presente ocorre, em geral, numa estrutura de coordenação com passado: questões do presente e do passado (linha 12), estudar o passado e opresente (linha 14), junta opassado e opresente (linha 15). 1 a capital goiana, essa preocupação está presente desde o maternal. No primeiro semestre 2 emplares embrulhados, como se fosse um presente, levam para casa e lêem (ou, pelo menos 3 . A interdisciplinaridade é ainda mais presente na Escola Livre Porto Cuiabá, na capita 4 Priscila Ramalho A violência está tão presente nas grandes cidades que é cada vez mais 5 sor. TAGARELICE DIDÁTICA O rádio está presente nos quatro cantos do país. A seguir, de 6 egou uma almofada em forma de coração, presente que dera para a namorada, e embalagen 7 de cada criança e ofereça aos pais como presente de Natal. Com o poema O Mosquito Escre 8 ica surge em notícias e, portanto, está presente no cotidiano. Desta vez, porém, o perió 9 se caso, diz-se que a equipe que estava presente venceu por W.O. A utilização da expres 10 mbro, sem estresse nem preocupação. Um presente de férias. Na segunda metade da revist 11 s juntas. É o tipo de conceito que está presente numa atividade em que o aluno ouve a gr 12 s oferece explicações para questões do presente e do passado permite o conhecimento de 13 isagens A cartografia deve estar sempre presente nos planos de aula porque é uma ferram 14 ricos, discutir e estudar o passado e o presente ", afirma. "Achei que esse poderia ser o 15 eresa, no Rio, trabalho junta passado e presente numa inesquecível viagem ao mundo do 16 todos tiveram a idéia agradá-Ia com um u presente original". Quinze anos fazendo parte da 17 caminhar linearmente do passado para o presente, parto da atualidade e vou em busca de 18 de aula ou surpreender com um original presente para o Dia da Criança. Para montar o fa 19 ompletamente envolvido naquilo, é estar presente - não ser um objeto da fala do outro, d 20 uro frequentemente significa déficit do presente . Por isso, falo de apenas um aspecto: n Concordância para presente gerada pelo WebCorp Além disso, essa mesma leitura horizontal revela oito instâncias de "estar presente" (linhas 1, 4, 5, 8, 9, 11, 13 e 19) em oposição a apenas uma de "ser presente" (linha 3). Essa discrepância é clara indicação de que a forma mais usual, mais convencional, é "ESTAR presente". As linhas de concordância também são úteis para revelar o que diferencia palavras quase sinônimas, como, por exemplo, big/large, small/little, calvolcareca, belo/bonito, tópicos de grande relevância para o ensino de línguas. Nesses casos, gera-se uma concordância para cada palavra e comparam-se os contextos em que são empregadas. Stella E.O. Tagnin . 33
  • 7. Capítulo5 Para os objetivos deste livro, no entanto, nos restringiremos a observar padrões recorrentes como os que discutiremos nos capítulos seguintes. Lista de Palavras Outra ferramenta importante é o gerador de Lista de Palavras que, con- forme o próprio nome já diz, lista todas as palavras de um corpus em ordem de frequência ou alfabética. Visualizar as primeiras palavras de conteúdo de um corpus ou texto já nos dá uma indicação de seu conteúdo. Vejamos a lista a seguir: Posição Palavra Frequência de 21443 2 e 10448 3 o 7668 4 a 7028 5 com 4750 6 em 4301 7 sopa 2540 8 chá 2159 9 sal 2158 10 para 2112 Primeiras ocorrências da Lista de Palavras extraída do CorTec·Culinária 6 - português As palavras gramaticais, por sua alta recorrência na língua, sempre encabe- çam as listas de frequência, razão pela qual buscamos as palavras de conteúdo para identificar o teor de um corpus ou texto. Por indicar as palavras de maior ocorrência, essas listas são muito úteis para o ensino de uma língua de especialidade, por exemplo, inglês para infor- mática, ou para a compilação de glossários técnicos. 6 Disponível em http://www.fRch.usp.br/dlm/comer/consulra_cortec.hrml 34 O'jeito que a gente diz
  • 8. A Linguística de Corpus Lista de Palavras-chave Essa lista resulta da comparação de duas Listas de Palavras, uma do corpus que se está estudando, chamado "corpus de estudo" e outra de um corpus que servirá de comparação, usualmente denominado "corpus de referência", mas também "corpus de comparação" ou "corpus de contraste". Recomenda-se que esse corpus tenha de 3 a 5 vezes o tamanho do corpus de estudo. Costuma ser composto por textos de língua geral, mas, dependendo do tipo de estudo a ser desenvolvido, essa composição pode variar. A comparação entre os dois corpora evidencia as palavras que são mais frequentes (em termos estatísticos) no corpus de estudo do que no corpus de referência. Assim, enquanto a Lista de Palavras nos dá todas as palavras de um corpus, a Lista de Palavras-chave apresentará apenas as palavras que são mais "típicas" do corpus que está sendo estudado. Vejamos o que resulta da comparação de um corpus de culinária, de aproximadamente 350.000 palavras, com um corpus de referência (de língua geral, neste caso) de pouco mais de 2 milhões de palavras: N Key word Freq. % RC.Freq.~ 2 SOPA 3.556 0,89 7 3 SAL 3.575 0,90 18 4 XíCARA 3.183 0,80 9 5 CHÁ 2.822 0,71 6 6 MANTEIGA 2.345 0,59 5 7 PREPARO 2.382 0,60 30 8 MINUTOS 2.514 0,63 152 9 INGREDIENTES 2.153 0,54 13 10 FOGO 2.159 0,54 51 11 DEIXE 2.009 0,50 14 Lista de Palavras-chave gerada pelo WordSmith Tools Notamos inicialmente que as palavras gramaticais desapareceram. Isso porque são igualmente frequentes - proporcionalmente - nos dois corpora (vide Slella E.O. Tagnin 35
  • 9. Capítulo 5 lista abaixo).A não ser que alguma dessaspalavras tenha um papel importante no corpus, nenhuma delas deverá ocorrer na Lista de Palavras-chave. 1. DE 6. PARA 11. SER 16. NÃO 2. A 7. EM 12. OS 17. É 3. E 8. DA 13. OU 18. DOS 4. O 9. QUE. 14. AS 19. NA 5. DO 10. COM 15. POR 20. SE Em seguida observamos que, de fato, todas as palavras pertencem ao vocabulário da culinária. Talvez chame a atenção o fato de sopa encabeçar a lista, mas uma concordância para essa palavra demonstrará que ela ocorre quase que exclusivamente na expressão colher de sopa. A lista fornece ainda outras informações. A coluna Freq exibe a frequência da palavra no corpus de estudo, em seguida aparece a porcentagem que essa frequência representa no corpus de culinária todo. A última coluna indica a frequência da palavra no corpus de referência. Essa ferramenta, no entanto, não costuma fazer parte dos corpora on- -line, de modo que tem de ser usada uma externa. Uma delas é o AntConc, ferramenta gratuita desenvolvida por Laurence Anthony que pode ser baixada gratuitamente da Internet". Está atualmente na versão 3.2.4. A outra, com várias funcionalidades que o AntConc não tem, é o WordSmith Tools (WST), software comercial" desenvolvido por Mike Scott, disponível no site http:// www.lexically.ner/wordsmith/, de onde pode ser baixado gratuitamente, com uso limitado de algumas funções. O programa está atualmente na versão 6.0. Essas são as ferramentas básicas para a maioria dos estudos e aplicações da Linguística de Corpus. Passemos agora aos corpora em si. Oscorpora Trataremos primeiramente dos corpora monolíngues que podem ser aces- sados on-line. Existem vários deles, a maioria para a língua inglesa. Mas já temos alguns para a língua portuguesa. 7 Ferramenta disponível em http://www.antlab.sci.waseda.ac.jp/software.html 8 O preço da licença individual é de 50 libras esterlinas. 36 O jeito que a gente diz
  • 10. A Linguística de Corpus Corpora para o português o primeiro deles foi o Lácio-Web, que pode ser acessado pelo site www. nilc.icmc.usp.br/lacioweb. O portal contém um corpus de aproximadamente 10 milhões de palavras nas seguintes áreas de conhecimento: Ciências Agrárias, Ciências Humanas, Ciências Biológicas, Ciências Sociais Aplicadas, Ciências da Saúde, Generalidades, Ciências Exatas e da Terra, Religião & Pensamento. Além do concordanciador, o Lácio-Web oferece outras ferramentas, tais como um contador de frequência (= Lista de Palavras), um gerador de n-gra- mas (= agrupamentos lexicais, denominados clusters nas ferramentas WST e AntConc) e alguns etiquetadores. Os etiquetadores, como o próprio nome diz, etiquetam um corpus, ou seja, atribuem a cada palavra uma etiqueta gramatical (substantivo, adjetivo, verbo etc.). O detalhamento dessas ferramentas foge ao escopo deste livro, mas o leitor interessado encontrará todas as explicações necessárias no próprio site, bastando para isso cadastrar-se. O segundo é o Corpus do Português (http://www.corpusdoportugues. org/), que contém 45 milhões de palavras e cobre o período de 1300 a 1900. Foi compilado por Mark Davies, da Brigham Young University, e Michael J. Ferreira, da Georgetown University", É composto de textos de vários gê- neros (acadêmico, notícias, ficção, oral) em português brasileiro e português europeu. Além de buscas por palavras ou expressões, permite pesquisas mais complexas, como por exemplo, sinônimos, categorias gramaticais e combina- çóes de palavras. A forma de fazer essas buscas, ou seja, a sintaxe a ser usada, é detalhada numa tela de "Ajuda", que aparece entre a parte superior e inferior da tela, no lado direito. Ao clicar em Ajudalinformaçãolcontactar (1), o usuário terá acesso a um grande volume de informações, a começar por uma "tour" (2) pelo site, passando por várias formas (sintaxes) de busca (3) assim como formas de aplicação do corpus. 9 Trata-se, na realidade, de um porral que disponibiliza vários corpora, a maioria para a língua inglesa, como o COCA (Corpus of Contemporary American English), que apresentaremos mais adiante, o COHA (Corpus oi Historical American English), o Time Magazine Corpus e o Corpus of.American Soap Operas, entre outros. Mas também hospeda o Corpus del Espano! (www.corpusdelespanol.org/). Stella E.O. Tagnin 37
  • 11. Capítulo 5 -~ -- ~ - - -- - -- - - ~------~---~ CORPUS DO PORTUGUÊS ACESSO,3/5 ,-----------------------------------------15.000.000 PALAVR/Sl sX!II-XX . '. ~- • ~;Qsrl<.lt!' Z'I H~ s:' s1." "n na s!t t2t' <>0;1:;- 201•• , •.••eo ·".:-;C ~..: ôllt.L 15 ORDENAR IFRiQUEllCtKlJ MÍNlMO [Elt~U'ClA:::::J ~ a:. Tela de busca do Corpus do Português Por ser um corpus com etiquetas morfossintáticas, ou seja, cada palavra do corpus recebe uma etiqueta identificando sua categoria gramatical, é possível fazer buscas por categoria gramatical. No exemplo abaixo a pesquisa foi feita para a palavra "vista" (1) como substantivo (cujo código é nn") (2) nos séculos XIX e XX (3). O resultado foram 1444 ocorrências (4), que são listadas na parte inferior da tela (5). PÂGINA: « < 1/15 > » AMOSTRA: 100 2:00 SOO 1000 ,,,to quer !'Mis se fMt4r1 DM - (D.lmilo h"it4, b6ix •• .llI!1A. peM4 11 rasPOnde c:om" Y01 baix •••). ""o. Eu j. n; muito certo ele falou eerttI - que •••coU' mais bonita de OIindlt é a.!dla do Reo:m. • ""::0 fi visu de Olinda tambér. que li 03;10 moif bOIlM de OIil'ldo é fi vim do Recife - 1'1"::0.0: Já!1I. dll O~ndo tIImbim é bon~ - bem: bonita - « bem: bonitA - «rindo)) e ectse mais borm. de OIinda é a Jti..I1A do Regt'e 1'150ton"'. nem dúvida· OIindll'" melho •••mani, dele· 11neq6do de!e é tudo I e!e 1Ó I:OJnllr.va tldo • JdIY (35) lIor dois motiyos ele disi~u Ilrimeiro 100 Tela do Cor pus do Português mostrando busca pela palavra "vista" como substantivo 38 o jeito que a gente diz
  • 12. A Linguística de Corpus Outro corpus para o português é o Corpus Brasileiro com um bilhão de palavras, que pode ser acessado diretamente em http://corpusbrasileiro.pucsp. br/xpo. Foi desenvolvido na Pontifícia Universidade Católica de São Paulo, por Tony Berber Sardinha, e engloba grande variedade de textos, por exemplo, artigos acadêmicos, narrações de futebol, textos religiosos, revistas, crônicas e muitos outros (1). Também permite buscas por categoria gramatical. Os resultados são apresentados em vários formatos. Corpus Brasileiro "~_~""-r -~~- ~.~ ~l- I t .~-------------------------------------~J CI Ct l008-2.0~O CorpltS er~sileiro - pucSP - FAPESP - TodO$ os dlYIIlítos re$!I!Nl!ldos. 11~:!: K B64 ...l,-,~--_~- Corpus Brasileiro - tela inicial A tela acima mostra uma busca pela palavra sal (2) imediatamente seguida (3) por um adjetivo (4). O número de ocorrências aparece no lado direito (5). As concordâncias podem ser visualizadas em dois formatos: simples (6) ou KWIC (7). As duas telas seguintes mostram os resultados para uma busca pela palavra casa; a primeira numa concordância simples, a segunda, no formato KWIC. 10 Também pode ser acessado via Sketch Engine (http://www.sketchengine.co.ukl). Stella E.O. Tagnin 39
  • 13. Capítulo 5 Corpus Brasileiro '- - ,- .: ~'- ~ . -: -' '. - -. - 1 [.to] um liM"ador com a esposadoente,dlamouurn sace'"00I:et:u:is:t! â sua casa .O SêlOerOOt!':começouareurpe:i'1do q..aeDeus .•. :I . [';"YCerta vez eo eStava perdOOno~. e só~Cheçer em-casá mtJto tFl"dedarrite. Ha'Iiadetxado mrl'la cta'I..ecom o 'I: 3~vistasemcertos~esdo_RiodeJa"'l«O.O§dacasa.umnCbreâbei"adaf~(oQJe.a3s,aca'lteCecom • [eb] novo se e-ceoeeem sem Uga-pa'adormt. sete-em Aperta de umacasa hJmk1e, cooe um cesa vaoatJn:le.los. Por não teer ~-~~~amos~peregt1oS-_rrías:seestavamp!~de~acasaera~Pr~a"amUmjanta",açt"~am , -.;.!!h~ tescec, e resoM esccooe-o de [!NO. porQ.jeo oc-o da casa rOO S<bi3a).dar ~m p-ecseve .••ontem, 8"q.I<I'lto clc.!.mkImc r [.10] de múslca~saípa'aabatahaclá1a,nem é receeoc em casa com ~a:::eJ"l<I'1(jedarrtar'rlooseunome.Mesmoas: • - .~ao sentIdOda-~ Certa tarde..•m}:Ydm de aa casa em r.tao.r~sctre o eecessc de toda a sua besce. Neste'rnorrimto ., (eb] ros I8adeO. aa-atrha -q;e e'l.XfltrOO uma moeda ao vtfier sua casa, [)epClSdeb lliIJto tempo na ~. e:scof'lenOOoprE 10 (.1» Oexorosmo Um homem chamou um pact"e pora fazer um exorcismo em suacasa. Fâ mttíS rum h:ii:à. e oeeoc ~ ao 11 [.tol qJsS<berE6e. -Nertum. -EQ.Ja"ltIi'VIJnamt'tlac:ãsa?·Nertumsedzla..tJmadej:ivetes.N.Jmsotaq.JeCMTeg;rl:).fànjo~ 12 [eb) Omewecorl'ldouodsc:PUoparaumpasseionaftoresta~deucasa ;mc.amrTJ:).~umaplõntaeperg.rd.QJseo 13 [.ti] ná::lJX,de"esser uma estrea ro céu, seja umalâmpaja em sua casa.AtlOr'lmO DepoIsda mate, ostt.tJCOf'lthJavtvo. emtx:tasa. 1. +[~l-·o-':.:bh:>teveumakléia: cctx:oUumCMtaZnapcrtadesuacasa .e escrever: RESPOt'DOCAO"'PER~A~ looMci:r::lAs.l l' .[.bl oos c rescetevam mu'toJX)rsua h::oestldade e cIg&lcIa-vieram atésuacasa~adza"oQJa'1toIarnent;rvam oOCOO1O::J.8eag ;'j?~ftaQ::.-a ~rn a resposta ~ o homem hes hMá dado-ref.OrTl:'!a.!Y' â casa 00 1aIr~, pa'"a OJ~enta-b pea sua sccte. - 11 . (elo] cakJde maJjEítD - qJebrcndouma~. OS vtzi"tIOSretornêl"am à casa oolavra:b" -lev.:rdopresentespa-a o moço fe-tjo. op 11 [.bl·uffi-ã:xtentecomum fI1oéumav.;daderatr~Aosarem dacasadolavfacb",d!:iamlll580Sa.MoS: "cbcrnem ~ 1'-; (••••} peqJe'"laSrachac1J"as; cada vez.qJe o homem pertOO'ia o camtt-o até sua casa • metade da ~ se pe-da. D.I<rIte cos eocs o I 2~ (;bJ mrllaca-ga,esaOã- a meteoeoa sedeqJe esoea em SU3casa. Obomemsoru,e be êsse: -QJ.ir1fO~mos,pcc fava" Corpus Brasileiro - concordância simples para casa Corpus Brasileiro : _ " ~- J ~ .!~ .• .- ~. ) - -~ t ~ ;:t- ~ =:~~~~~~==~~====~==~~=-===~~==~~~~~ CI o 2008-2010 CC'l'US 6rUI!eiro • PUCSP - fAPESP ~Tod(lf c díroito$ ~setVcdos. 1152 • e6~ Corpus Brasileiro - concordância KWIC para casa Todos esses corpora merecem ser explorados com tempo para que o leitor se familiarize com todas as possibilidades de pesquisa que oferecem. 40 o jeito que a gente diz
  • 14. A Linguística de Corpus Corpora para o inglês Para a língua inglesa há mais recursos disponíveis on-line. O BNC (British National Corpus) contém 100 milhões de palavras e foi compilado entre 1991 e 1994, com 90% de textos jornalísticos, acadêmicos, técnicos e de ficção e 10% de textos orais. Foi criado por um consórcio formado por editoras e centros universitários de pesquisa. Na versão on-line (http://www.natcorp.ox.ac.uk/) disponibiliza apenas 50 linhas de concordância no formato abaixo, mas informa o total de ocorrências (2945 neste caso). As siglas remetem à fonte da citação: Results of your search Your query was. salt Here is a random selection of 50 solutions from the 2945 found. A30 194 China's elderly leaders had salt liberally rubbed into their wounds by the Nobel Foundation, which awarded the Peace Prize to the Dalai Lama. A70 1571 Add 15ml (1 tbsp) tomato purée, stock, salt and black pepper. A70 2266 pinch each of salt, pepper and sugar. A7N 726 'A hairdresser's not worth his salt if he's not prepared to give a consultation,' he said. ABB364 They are rubbed with saltto dry cure them and then coated with a mixture of spices, including juniper, and molasses, which is mainly responsible for the black appearance of the ham. ABB 2563 Add the crumbled Shropshire blue cheese to the dip, then season to taste with salt and pepper. ABG865 Salt Lake City has become the telemarketing capital of America for mail-order firms and reservation services. AML 1344 The product used was made by boiling a quantity of hops with treacle, adding mashed potatoes and salt, then thickening the mixture with flour.' AMX 143 McDonald's McChicken Sandwich is made from boned breast meat in a light batter coating and served with a pinch of salt to taste, lettuce and mayonnaise in a toasted bun. ANK841 Yet he collected two phials of prussic acid from Bishopsgate and proceeded to Sara's cottage at Salt Hill, arriving slightly after 4pm on 1st January. Concordância parcial para salt gerada pelo BNC on-line. Ao clicar sobre a sigla, o programa disponibiliza a referência completa da citação, por exemplo: A30 [lndependent, electranic editian ot 198910071. London: Newspaper Publishing pie, 1989, Foreign material, pp. 7? 439 s-units, 9297 words. Stella E.O. Tagnin 41
  • 15. ....• Capítulo 5 experttnce.lt's /I fvtiIe III!rmrtion of resou«:es.· , Qnijne: '.Y.i.e tt>e report 1It: http://epne,ws/;:t.pfl:!M Mi,,;mi Archbishop Tbomas G. Wenski, 110 OrteQe supporter ""ho ad<nowle ••eekçaJ!ingSentorum"..neconomieliohtweignt,"/lnifldieoti4nl;h.al:he ·smgkinQl1'><l<mtoin"iIltheindillenousNehuotl14l9ualleoflheArtecs. ,u exQting,u iteowWhllve:been. 8utl don'tthink"fI shoukf .!d..u!itu IIfeilure.· I- Indeed,the smalljump in pri movement. lt is tllr more diffiOJItfor immiQrant Pbl'ents. Horrified by ettions lhe)' xic.!t iI$ u·lf·dutnJçtlye, meo)' II{ seió. , Mil")' dono" - most of them newly IIff1uellt Han -- s.tIJ they !de Trbetan Buddhism IIS fiO IIntidote w the fi) thil'lk the paopJe file ","ould attnct aro lhe mlljority: I- BUT Nhat appone.nts li.JA!lIlS Ms. MlIlibuko's WflakMS5, her fo~ its potential to 910rifJ lhe tlIlifl.o •••••gime but. more import4ntly in the sk.ten ~ th&t r",ised IIWMeness. ,. "1'11 trame ror how he hapes the pubHe io New yon.; eM lIen1SS the coufltry wiU.!!.ia him -- as someone ",110 tumed /I d~ Essaversãopermite apenas buscas simplespara usuários não licenciados. No entanto, o corpus completo pode ser acessado por meio do portal de Mark Davies: http://corpus2.byu.edu/bnc/, com a mesma interface do Corpus do Português. Mais recente e bem maior é o COCA (Corpus of Contemporary American English) (http://www.americancorpus.org)com450milhõesdepalavras.co- brindo atualmente o período de 1990 a 2012. A interface é igual à do Corpus do Português, pois também foi desenvolvido por Mark Davies, da Brigham Young University. No exemplo abaixo a busca foi feita para a palavra "view" (1)como verbo (2) e resultou em 11.387 ocorrências (3), que podem ser visualizadas, 100 de cada vez, na parte inferior da tela ao se clicar sobre a palavra "view" (4). PAGE: c c 1/115> » SAI'I?LE:l00 200 SOO 1000 Tela do COCA mostrando busca pelo verbo view e o resultado É certamente um portal que vale a pena explorar para se familiarizar com todas as possibilidades de pesquisa que oferece. Corpora para vários idiomas 42 o jeito que a gente diz Outra fonte de referência é o WebCorp (http://www.webcorp.org.uk/ live/), que utiliza a própria Web como corpus, de modo que fornece linhas de
  • 16. A Linguística de Corpus concordância em qualquer língua em que haja material na Webll . Esta é sua interface, com uma busca por attention: Search WordhstToo! UserGulde WebCorplSE Pubheations Feedb:lck _ WebCorp Uve íets you access the Web as a corpus - a large coUection of tecrs from """ich examples Df reallanguage use cen be ecracteo. More Surch: ~fol'l o Cas. Insensltive: f{f Span: !5DcharoclersB o OSearchAPI: & _fl Advanced Op1ions *;"@e 1'·11 9yusing the WebCorp tcoís you are agreeing to be bound I:rythe Terrns of Use and Privacy PoIicy. Cof,rtright@ lSQ9. 20 12 Research ano Development Unit for Eng!ish snsães. Binniflgham CI!y University. Back tc tcp WebCorp - tela inicial Os resultados aparecem no formato abaixo, por site pesquisado, o qual pode ser acessado clicando na respectiva URL: II Para corpora em outras línguas e outras informaçóes relacionadas à Linguística de Corpus consulte o site http://tiny.cc/corpora ou http://www.uow.edu.au/~dlee/CBLLinks.htm. organizado e gerenciado por David Lee, um dos pesquisadores envolvidos na construção do BNC. Stella E.O. Tagnin 43
  • 17. Capítulo 5 22) http:nwww.n.tdoctor_ço.ulddIsl!ue$lf~etsl~dhd.htm Text. Wordlist, te:x1Ihtml, IS09859_' (HTMlsource), 2005-01-01 (Bodynear'LastMrK:lifu!d') 1119: Chllctte;o'.s bealtb I Children's ~alth ~acts ÜHD (.U.enUon de.ticit. h~'ract1vit.y d~o1;derl Vritt.en by 111' 1150: chlldren :f.rOCllearninq and sO'Clal:i3inq ee.r i , AttentlO:n 4e11c::lt bypcractivlty d:i.30nter (,unI])) l!UICl 1451: d.e:t.lcit h~llCtlvltV dlsorder (.lDHDI aDd. _ttenU4ft de.tielt d.laordu: (.lDDI rezer to a raDGl! 0:1: 14Sl: r~ ot problea be~1-OW::5 a:!$oclaUd..1th poor .attentio.n apaD. ~~ -.v 1nc:111de Íl:l;Iuls1vlI!!nI!ss, re.5tlUSlIe: 1153: dl:sord.er. fhs.t are tbe 3'!j1:!pt.me5ot ltIRll? Att.eneioh d1ttlcu"ttles .I. child =t b.aVl!:~b1blte:d at 115'1: llDCIteve.r 0:1:inteUl~e. "alia ce pay C105Cattcntton to deeal1 ar ~ eeeerese errar. d.w:lnq ~n:k 1455: WClrk ar piay. Tslls to tin1sh task:s ar SWl~1n atlention 1:1 pla., eeewte tee • seeee noto to Usun to wb4t 1456: respOn:ile to social l:est-rolnt. ~iveoc:Js ot. at.t.hti"" du.ficult.les ond hyper.ct.1vit.y For 11. dl~1s 1157: aJ:e IIIUd. or beeeuee tM :!S!111~yha5 hand..led eee 4t.tcmt.ion 1aclr: at. hCllDe1n ~uch 01. -v thllt it 13 1IoOt 1158: pa:c-el1t!l IXIt tO alulóer thllt. t.be1r chile!. t:&a5en at.tent1.on dellc1t proble!o. ~ l::! cttteeted bV .1DBlI' 1J;Jout 1159: caus •• a eh11d. t.o beco.:lll!: <ko ••• y. blpa1.r1.PoQ' tbeix" at.t.ent.lon. Z:pl1ep::!y Cal!. IIIlmo ca.USII!:unusual behavlo~ aJI.Cl 1'160: that pr~=upy t.helr though= and e!.1scract t.belr at.tent.lon. Touret.t.e.'s sym1rClllle lDVOl~ ceeee reave, 1161: tb.o::!iI!:eeeve are a1ftlV3 iJoportant, IUIcl :!or t:tl1d attentlon cle:!icit prol:HeJI:I:lIthey are tlu: treaa.ll!:nt ot 1162: and 1IIIpIl1::!lvene:ls and hel~ to tocu!! • ch1lcl'. attent:1.on. Tbey eeeeee 11l!:l5::!aqgre::!::!i~. seee ee cm.>ply 1163: epres.lon, lrr1t.ab1l1ty. IUlt150Clal behav10ur anel at.tenU.on prollle:a:s. Last updat.ecl 28.05.2005 .l.ctvert.Úll!.II1I!l1t 23) httP;l/lttentionsottw~re.coml Ted, Woo:IIist. textnltmI, UTFB (Faüed). date unl<llOom 116 .•: Produets ~! NoeU1catloD. Sotc"ftlre 1tceDtlo.n! 11arm 1'165: Products .lt.tIl!:DtlOn! No.tifieatl0D Sôttva.re Attent.lon! 11arm Ilana~Dt Soft.ue aeceee tee r CC 1166: So:!t.-are 1tt.ent1ou! 11=- 1lanaqeE!ellt Satt.-are At.tent.:lon! CC .lt.tellt.101l! Sol .lttentlon! RT 5,,11.>1:10" H671 11arm !l&n&gI!.ll1l!DtSo:!tvar •• .ltteDt10Il! CC Att ••ntlon! !l1 1t.tentlon! RT Solntlons 5upport 1ttentloJ:lI 1168: ftaJUlÇfI!.llll!.J:ltSott.VftrIl!: lr.tenr.lon! CC .lr.teDt1on! 51 Attomt:lon! RT SolutloM SupJ).Ort aeeeec rce r NS J.ttent10J:l! 1"69: CC J.ttent1on! SJ. 1ttentlon! RT 501ut10= Supp"rt Attent:lo.n! N5 Attll!:.llt10n! U ..ltte.nt10n! CC 1ttent1oni :!U 1"'70: 51 .lttent1on! RT So.lut1o= l!luPpOtt Attent.1on! riS Att-ent:lon! J.l!I At.tI!.Dtion! CC J.tU!ntlon! 5A Attent1on! RT 1171: RT 501ut101>.:5 5upport .lttention! NS Attent10ni J.l!IAttent1on! cc Attent1on! 5.1 J.t~eutlOD.' RT D01rnloacb 14.72: At.tentlon! N5 1~l;ent10n! J.l!I 1ttentlonl CC AtteJ1tlo.n! 5A 1ttent1on! RT Dovnload.5 1ttent10n! No.tificat1 14.73: NS Attentionl J.lI Atten.tiol1! CC 1ttentloD! lI1 Attention! RT Downloaob 11:teDt10.11' Hoti:l:ication soturare 14.74.: ec Attelltion! 51 1t.I;=,nt.10n! RT DO'"lllol114:1Attentlo.n! Nnt1ticatlon !Ioft.-are 1ttent1on.! Alarm 1475: RT DOlfn.lotl.~ Attll!:.lltlonl Not1tieation So:!tvlU'e At.tent.:lon! l.lar= llanaQ:eJrIII!:nt50~t.llre 1tte.n.tionl CC 1476: So.:!t.-are. 1tte.ntion! AIa.rm l!e.naql!..llll!..nt50ttvlU'e &ttent:lon! CC Attl!.ntion! 51 1tUnt10n! RT ccaeece Hou.e 1117: Alarm lIane.gl!.lDl!.ut!:Iottlrare 1ttention! CC &ttent.:Lon! SJ. lttent1on! RT ceaeeee Rolne Inton.at1on .. .147.R. .Koo",.(I'••~ott. ~n1:r.Jfar.!!'__AT.tO'!""'.1n,,_·_.r:Ç._lr.r."_ot.;no'. lU_A'..tMt.tM' __Jl.."!:. .r.OJtt•••m·;.~ __J.n1·nON!'lr.1nn...T ••ehDlInmr'._ Concordância parcial para attention gerada pelo WebCorp o WebCorp também oferece buscas avançadas, como se vê abaixo, em que optamos por apenas uma linha de concordância por site e fizemos a busca para "atenção" em português: 44 o jeito que a gente diz
  • 18. A Linguística de Corpus Surch: '~ençio D Spm: 150cha:rac:lm!1 D S.archAPt. D ShowURls: D D Slte: I ~Add popular sttes: [clur] 1..IKBroadsheet Newspapers US AcademiC France. UKTah!oidNewsp2~ UKAcademlc Gemlany French~rs ltaIy Greek Newspap€rs Argentrna Japan us Newspape~ Australla Nethertands Brazíl New Zealand BSC News Canada $pain MIGpedia China UK D WordFitt.,.: D Busca avançada no WebCorp para atenção Seólrch Wordhst Tool User GUlde WebCorp LSE Pubhc.ltlons Fe edbaek IDlDi Jumptooptions Results for query "atenção" case Insensltlve, ORe resuft per web page, uslng the 81"g API 1) hnp:Uplpl.comldlrectofyinamelNaltu.n:utllll ree. Wontist,~, UTFS-(Corttent-type), 2007-06-07 (8odynear 'l.ast Modified') (TtO) - o Jornsl l1e CO==3O'II p»bUços . _. 1 ataujlo cH: .Lnc.a.tl&S Narbutas. LT-03109 VilDius. 2) http!llwww.booldng.comlhotdptfugredos..d •. vale..manso.lt.html ree, Wordlist._.lITF8 (Conrer<·'YP"I.2Il12-llt·Ot(eop,rigr< Ioo!orl 3) http://www.15mInJtlna.ujl.n3lnnOf'lHh:um31;u.zmon.sJb.>rt;a-W;lkin-ir-ol.ysonll.S~bMbosa-br.J:illskos-aistr'os4ietuvlslcam.-teism.- pa.plldyta-rugpjuclo-18-d-159.164300 ree. Wordlist, textl'html, UTF8 (HTMl source), 2012-01-01 (Co~ght footer) 04} http://WWw.booking.eorn1hot*Uptfmalapost:l.tlhtml ree, Wordlist. te:4IhtmI, VTF8 (Content-type), 2012-01-01 (Copyright footer) Concordância parcial para atenção gerada pelo WebCorp Stella E.O. Tagnin 45
  • 19. Capítulo 5 ------------ _.; Como se observa na aba superior, também essesite oferece uma variedade de informações que merecem ser consultadas, em especial Wordlist Too! e Web- Corp LSE. Esse último é o Linguist's Search Engine, que oferece três corpora em inglês para consulta mediante registro gratuito. Corpora bilíngues o primeiro corpus bilíngue para o par português-inglês foi o COMPARA (www.linguateca.pt/COMPARA). um corpus paralelo, composto por trechos de até 30% de obras literárias originalmente escritas em inglês e português, com suas respectivas traduções. As obras em inglês são das variantes americana, bri- tânica e sul-africana. As em português são provenientes do Brasil, de Portugal, deAngola e de Moçambique. O corpus produz concordâncias paralelas epermite buscas avançadas, como, por exemplo, obras de um só autor, apenas na direção original à tradução etc. Além de várias formas de Ajuda, o site também apresenta uma "aula prática" com diversos exercícios para que o usuário aprenda a usá-lo. A tela abaixo mostra o resultado de uma busca pela palavra "carioca" (1) em textos originais em português brasileiro (PB) (2), que retomou 3 concordâncias: ~-=~=::=-~,:",~=:n«:e~~~eo~êcn~~u:r:::~~&~~~~lÍn~~ ~~~~~~~~~~~F~_de~~.=:_79.Pate:letst.~~~wrsao~_~~~COMPAAA1Un Procura: carlcca Pedído de: cOllcordincla em cOlltox1o Direcçlo da pesqui$4l: De po Iwolw.-·calloca~ & _.lel(lo-"P.~l DestrijéDdoCClrpld Concordinela cSoUClIfioca. • gGllo lhe pod IlIat r decKÜ!d 10 nickNrne hun Dom CHmurro, Cor Mr GIoomy, in homaga to my feIowoman-oI-letIErs Mathadode Azsis.the 'M1:Ier tom RitI. autl'lOr aí sW&rat exte!ent books 00 lhe art and sceece of ~Ufb3lton. Ala! ponto que rtsoM i1p~lo de Dom Casmurro, em homenagem ao meu CGlega de letras Mat::loido de Assis, esento.. Qrioca, UOf de'yjflos. excelentes-t.ws sobre iI arte e pnkica ~ matt!Jlbaçio Trntom Rio. eaBfZ(1317) E 09 famos destacados da famila - o paultsta. I) C1uioCil, o ffancês. And aR lhe fSf-IIong branches afthe bmily tree - rvlalrves &om São: Paulo, RIO The French eontingem.:Io Esperamos que o COMPARA lhe tenha sido útiH peraunlj!!! comentaM" '!jp'sOn COMPARA - concordância para "carioca" 46 o jeito que a gente diz
  • 20. A linguística de Corpus A palavra de busca vem marcada em negrito (3), mas a tradução deve ser procurada no texto paralelo. Outro corpus bilíngue para o mesmo par linguístico português-inglês é o CorTrad (www.ffich.usp.br/dlm/comet/consulra_cortrad.html). parte do projeto CoMET (Corpus Mulrilíngue para Ensino e Tradução), desenvolvido na Universidade de São Paulo. O CorTrad é constituído de três subcorpora: um literário, um técnico-científico e um jornalístico. O corpus literário é composto por contos australianos e canadenses; o técnico-científico, por um livro bra- sileiro sobre culinária e o jornalístico por textos da revista Pesquisa FAPESP. Os dois últimos apresentam originais em português e traduções em inglês.12 O CorTrad caracteriza-se por, sempre que possível, apresentar várias versões de uma tradução. Assim, na tela abaixo temos uma busca pela palavra white, no corpus literário, mostrando o texto original, ao lado de uma primeira versão da tradução, seguida da tradução revisada e finalmente da tradução publicada . ..•..•... CorTrad literário contos & -UWM. Exprudo de busca: "'wbb~ 'Soe Resultado escolhido: eonconUnd. 1m cont.xto COtpUSpesquitado originais~rsSo42) ~''::' Prlm•.I,. tnldução Tradllçio ,evtAda Tradução publlcada She be; ••n to p1Ow1between lha .Erdo começou iI rondar as Entfo começou a rondar as E começou a rondar as carteiras, deaks, WlYÍnglhe w&it.lettel like lcarteiras, balanÇ«ndo li carta como carteiras, balallÇ-ando 11carta como. balançando a carta como se fosse :ft=~ta~8rlSerftd!ar 11$lhe I~:::','..:::~:e:ra nós,o: ~~:7s:~::::e:a n6s,o !~:::::::Mdapara nós, o waitll Ia nking ." Red o. wlUte, 981Çt1rnpllr.il a minha triste13, garçom, para minha tristeza, garçom, para minhil tristeza, sir?' p8.guntadinloo.ubranco. pef9Unla cinto ou branco. pergurdadinlooubr:anco, ::-_:-:-.,--._-,-_""S-,"""""=,:-'---.--,---.l- senhot?:t ! S8nhor?:t Par. minhi sUrpresil, ele pemtil:1I Pm minha sU!pf8S:a,ale permile Pm minha SU!pre$8,ele permite que o garçtlm encha sua laça de que o garyom encha ~ taça de que o garçom encha sua taça de ::=.=::::.-.- -..:-".::7.......,':=.'-. W1ho~. Ivinho branc_e. _ fAlI in wfit.. .Todadebranco. ,T*dtbtaflCO. ,Todld.br1nc:o_. _ Inthe dry, wbile, merciles$light,iI Naquela lia saca, branca e Naqutia luz seca, branca e Naquela luz seca,branca e impi.dcn,}ogo se reconhecau que impiedO$a, logo se reeonheceu que impi.dOSI, logo se recnntreceu que eu Ira um g.ro!o responsável, 8Uer:aum garoto r8sporrsável, eu Ir:a um gaIOIor8Sponsáwl, baekwan:lboy. apesar de tímido. apesar de tln'lido. Iape.5arde IIrn"ido·"'.-., __ -: , Summer had Ctlfm!'round 1il9ain:tha O verto hm; chegado tInYaI'nfInte: o..;io hiMa chegado nlMlmente: O wrfo havia chegado n(llfamenle: etemal, powde:y, whit. Alheniarl o eterno, empoeir:adoe branco o elemo, empoeitado e branco eterno, empoeinulo e braneo ver40 -." a E.O. Tagnin 47 OxTrad - concordância paralela para white _ Mais detalhes sobre a composição dos corpora podem ser obtidos no próprio site,
  • 21. Capítulo 5 o site também permite buscas por categoria gramatical. Na realidade, cada subcorpus apresenta um conjunto de funcionalidades específicas para seu conteúdo. O corpus oferece uma Ajuda bastante detalhada para facilitar os vários tipos de buscas possíveís'". O Projeto CoMET disponibiliza ainda outro corpus, o CorTec (http:// www.ffich.usp.br/dlm/comet/consulta_cortec.html). que conta com cerca de 20 corpora técnicos comparáveis em inglês e português. Corpora comparáveis são compostos de textos originais nas duas línguas, ou seja, não são traduções um do outro. O CorTec oferece três ferramentas básicas: um Gerador de Lis- tas de Palavras, isto é, uma lista de todas as palavras do corpus que está sendo investigado; um Concordanciador e um Gerador de N-gramas, ou seja, de agrupamentos de palavras. Por exemplo, uma busca pela palavra "coração" no corpus de Hipertensão Arterial em português produz a seguinte concordância: ( bglish For&ll enconuredes 205 cccc-rencí es t I Feaer- DOWNLOADdo reeut teec . CliqU$ na palavra de busca para obter um contexto expandido COlI150 carect eree 1 uxo sangüinao para. cor.ação, rins a cérebro pcd 2 a I do Iosti t;uto do eerecso . Foram selecionados 3 do no Instituto do Coraçõo. oVllliaç!o do risco 4 casso adaptativo do COTo!IÇ&O que se desenvolve 5 eúdo -de cc l égeno do coração 1-4 • Essas e Lt er-eç 6 cecs simp6:tico$ ao co r-aç ãc parece ser o mais 1 7 cençe í equêeace do coração e insuficiência cer- B 5/130 (Instituto do Coração do Hospi tal das Cli 9 ido ao Illsti tuto do Core.ç30 na 7 a semana de e 10 ais eepreeeãvee em cos-eçêc , pulmões e rins. O 11 • pulmões e rins. O ec ração pesou 400 g. cca a 12 rsal do restante do coraç30 mostrou hipertrofi 13 reee . Em eegu rde , o coraç80 foi secc í onedc ure 14 tudo radiológico do cos-açêc em pOS1Ç!Opóstero lS reesverac máxilllO do coração e o di6.- metro ure 16 tendem. l"I. e.reacer- o corecac da parede e difi- 17 lise radiológica do coração. eví denc re rera nos 16 t í.reor deenc sobre o coração do idoso. Apesar d ..lg fi"..no Tnt:.tit:uf:n ria earllciio dll fWtJSP. F.or •••", e:x CorTec - concordância para "coração" 13 A disponibilização do CorTrad na rede é um projeto conjunto COMET/NILC/Linguateca. 48 o jeito que a gente diz
  • 22. A Linguística de Corpus Todos os corpora apresentados oferecem muito mais do que foi possível demonstrar aqui, razão pela qual merecem ser explorados com vagar. Esperamos que os leitores se aventurem nessa expedição". Corpora personalizados Existe também a possibilidade de cada pesquisador construir um corpus de acordo com seu objetivo de pesquisa. O mesmo se estende ao professor que, por exemplo, deseje trabalhar determinado vocabulário especializado com seus alunos. Nesse caso, será necessário lançar mão de programas específicospara sua análise como o WordSmith Tools(WST) e o AntConc, já mencionados acima. Para construir seu próprio corpus, o pesquisador/professor deverá seguir os seguintes passos: 1. definir a área que pretende pesquisar, lembrando que, quanto mais restrita a área, mais eficaz será o corpus, pois mais específicos serão os textos. Por exemplo, construir um corpus de Medicina é praticamente inviável devido a sua enorme abrangência; mais proveitoso seria um corpus mais específico, c.omo de Insuficiência Cardíaca, Doenças Tropi- cais ou Osteoporose, por exemplo; 2. definir que gêneros comporão o corpus: artigos acadêmicos, teses e dis- sertações, reportagens, notícias, manuais, etc. É conveniente que haja um balanceamento entre os diversos tipos de textos, isto é, um número equivalente de textos ou de número de palavras; 14 Como o leitor pode observar, no lado esquerdo do site do projeto CoMET, há um item "Artigos, erc." onde poderá encontrar vários trabalhos, inclusive teses e dissertações, desenvolvidos com o auxílio da Linguística de Corpus. 3. buscar textos específicos da área, de preferência na internet por já estarem em formato eletrônico. Caso isso não seja possível em todos os casos, os textos impressos deverão ser escaneados; 4. salvar os textos em formato .txt, pois é esse o formato exigido pelos pro- gramas computacionais de análise de corpus; Stella E.O. Tagnin 49
  • 23. Capítulo 5 5. nomear cada arquivo/texto de forma que seja facilmente reconhecível. Um nome como arquivo1, arquivo'Z etc. não identifica o teor do texto. Melhor seria algo como Insuf Card1, Insuf Card2, por exemplo, ou ain- da IC]M1, IC]M2, etc., em que IC representa Insuficiência Cardíaca e ]M a fonte de onde foi tirado o texto, ou seja, o New England Journal o/ Medicine. Enfim, cada pesquisador criará a forma de nomear os arquivos que julgar mais adequada; 6. finalmente, organizar os arquivos em pastas, de acordo com os critérios que o pesquisador estabelecer: por língua, por data, por fonte de referên- cia etc, No exemplo abaixo, os textos (1) do corpus de Bone Quality (2) (Qualidade Óssea) foram organizados por língua (3): ~~~=""",,,,,,,,_••••_..o:.l~~ ~ OQ-lN-AIlO<JT'" llt....... ~ ~~ •.-!!l __ setCO]XII"IJ !!lfl_ !!lfl_"'''''''''''' fl- •••••• Olfl_ t::l:::""""",,3 t::l_ el_ !!lel"""'" !!lt::l"*" OCorReflng t:)corRetPto !ii f:)CorTec: eCOrT,ad-Prcstcxb1tia mOc~ fl """'" G<umond t:lc~~-BcwXCet ..I?""'" ~ lô ~ fEl (8 Organização de um cor pus de Qualidade Óssea Uma ferramenta que pode agilizar esse processo, desde que não seja neces- sário identificar cada arquivo individualmente, é o BootCat. Esse programa pode ser baixado da internet (http://bootcat.sslmit.unibo.it/?section=download). Para usá-lo, é preciso ter uma AppId, que pode ser obtida no Windows Azure Marketplace {http://docs.sslmit. unibo.it!doku. php?id= bootcat:help:search_ en- gine_key). Depois de obtida essa chave é só seguir as instruções no site para instalá-lo, Em seguida, veja o detalhado tutorial de como usar o programa (http://docs.sslmit.unibo.it/doku.php?id=bootcat:tutoriaIs:basic_1). Basicamente o pesquisador deve inserir algumas "sementes", ou seja, palavras típicas da área que pretende pesquisar. A partir dessas sementes, o BootCat faz várias combinações e busca sites que contenham essas combina- 50 o jeito que a gente diz
  • 24. A Linguística de Corpus ções, listando-os na tela. O pesquisador pode selecionar os sites que sejam mais adequados ou aceitar todos, conforme seu propósito. Uma vez selecio- nados ou aceitos, o BootCat constrói o corpus juntando todos os textos num só arquivo. O processo todo não leva mais do que alguns minutos. Como se vê, é extremamente conveniente quando se necessita de um corpus para uma pesquisa rápida. Caso o pesquisador deseje gravar cada texto em separado, terá de separá-Ias manualmente. Corpus de aprendizes Outro tipo de corpus útil no ensino e aprendizagem de uma língua é o chamado corpus de aprendizes, constituído de redações não corrigidas de alunos em diversos estágios de aprendizado. Comparações entre este e um corpus de falantes nativos permitem identificar vários problemas dos aprendizes, entre eles seus erros mais comuns, itens que sobreusam, subusam ou evitam, assim como os aspectos em que o aprendiz não "soa" como falante nativo, ou seja, os aspectos convencionais que ainda não domina. Sylviane Granger (1998), da Universidade de Louvain, é Coordenadora do ICLE (International Corpus of Learner English), que reúne pequenos corpora de 200.000 palavras de apren- dizes de várias nacionalidades aprendendo inglês como língua estrangeira. A construção do corpus dos aprendizes brasileiros, denominado Br-Icle, está sendo coordenada por Tony Berber Sardinha, da Pontifícia Universidade Católica. O Projeto CoMET também hospeda um corpus de aprendizes denomi- nado CoMAprend (Corpus Multilíngue de Aprendizes), que abriga trabalhos de alunos nas seguintes línguas: alemão, espanhol, francês, inglês e italiano." Como vimos, temos um bom número de corpora disponíveis on-line para pesquisas de vários tipos. Uma palavra de alerta, porém: um corpus só pode fornecer o que ele tem. Assim, seria inútil, por exemplo, buscar ocorrências para OVO no BNC, uma vez que esse corpus, como dissemos, foi fechado em 1994, bem antes da invenção dessa tecnologia. Assim, é muito importante fami- liarizar-se com o conteúdo de cada corpus para que suas buscas sejam eficazes. 15 Pesquisadores interessados em investigá-Ia ou contribuir devem entrar em contato pelo site http://www.fHch.usp.br/dlm/comee/comaprend.heml Stella E.O. Tagnin 51
  • 25. Capítulo 5 Em suma, a Linguística de Corpus está em franca expansão e o número de corpora e de ferramentas criados aumenta a cada dia. O leitor poderá obter informações atualizadas no já citado site http://tiny.cclcorpora.16 ~ Sugestão de exercícios • português: dar • alemão: geben • espanhol: dar • francês: donner 1. Usando um dos corpora on-line citados, faça uma busca para um verbo comum na língua que você pretende pesquisar e descubra alguns pa- drões em que ocorre. Lembre-se de que o WebCorp pode ser usado para qualquer língua. Eis algumas sugestões: • inglês: give • italiano: dare 52 o jeito que a gente diz 2. Faça uma busca semelhante para um substantivo, de preferência em outro corpus. Por exemplo: • português: máo • alemão: Hand • espanhol: mano • francês: main • inglês: hand • italiano: mano 3. Construa um pequeno corpus (digamos, 50.000 palavras) sobre um assun- to de seu interesse, na sua língua de estudo. Você poderá eventualmente usá-lo para realizar alguns dos exercíciospropostos nos capítulos seguintes. 16 Uma Iistagem de corpora para o alemão, espanhol, francês, inglês e italiano pode ser encontrada em Viana & Tagnin (2010), p. 363-370.