Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

e-Dictor: Histórico e perspectivas (2015)

286 views

Published on

PAIXÃO DE SOUSA, M. C. e-Dictor: Histórico e perspectivas. Comunicação ao Gallæcia: III Congresso Internacional de Linguística Histórica. Santiago de Compostela, 28 de julho 2015.

Published in: Science
  • Be the first to comment

e-Dictor: Histórico e perspectivas (2015)

  1. 1. Codex Calistinus, livro V séc. XII
  2. 2. Gallæcia Santiago de Compostela 27 a 30 de julho 2015 III Congresso Internacional de Linguística Histórica
  3. 3. Coordenação: Charlotte M.C. Galves Xavier G. Guinovart Simpósio Corpus linguísticos e gramática histórica
  4. 4. Maria Clara Paixão de Sousa Universidade de São Paulo Universidade de São Paulo dictor: histórico e perspectivas e
  5. 5. dictor: histórico e perspectivas O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos especialmente voltado ao trabalho filológico e à análise lingüística automática. Combinando um editor de XML a um etiquetador morfossintático, o software permite a geração automática de versões correspondentes a edições diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma proposta independente e inovadora está colocada para o futuro desse desenvolvimento, em ambiente de rede, e em um formato que subverte em grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma avaliação dessa nova proposta de desenvolvimento, comparando-a conceitualmente à ferramenta original, e pesando suas vantagens Resumo e
  6. 6. dictor: histórico e perspectivas O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos especialmente voltado ao trabalho filológico e à análise lingüística automática. Combinando um editor de XML a um etiquetador morfossintático, o software permite a geração automática de versões correspondentes a edições diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma proposta independente e inovadora está colocada para o futuro desse desenvolvimento, em ambiente de rede, e em um formato que subverte em grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma avaliação dessa nova proposta de desenvolvimento, comparando-a conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens Resumo e
  7. 7. O que é? edictore
  8. 8. De onde veio? O que é? edictore
  9. 9. De onde veio? Para onde vai? O que é? edictore
  10. 10. > De onde veio? Para onde vai? O que é? edictore
  11. 11. > Uma ferramenta para edição filológica eletrônica e análise linguística automática edictore
  12. 12. > O que me importa? A principal finalidade do eDictor é oferecer uma interface amigável aliada a um alto nível de controle e flexibilidade na codificação de textos eletrônicos com finalidade de pesquisa linguística. dictore
  13. 13. > É um software livre, atualmente com duas versões: edictore
  14. 14. > Versão 1.0 Beta 10 Versão Web – em teste edictor
  15. 15. Versão 1.0 Beta 10 Versão Web – em teste “O que é” “Para onde vai” edictore
  16. 16. > Versão 1.0 Beta 10 Versão Web – em teste edictore
  17. 17. > Versão 1.0 Beta 10 Disponível para windows, por download em http://edictor.net edictore
  18. 18. http://edictor.net
  19. 19. http://edictor.net
  20. 20. eDictor 1.0 Beta 10
  21. 21. eDictor 1.0 Beta 10 – Módulo Transcrição
  22. 22. eDictor 1.0 Beta 10 – Módulo "Transcrição" Aba "Transcrição"
  23. 23. eDictor 1.0 Beta 10 – Módulo Edição Aba "Edição"
  24. 24. eDictor 1.0 Beta 10 – Módulo Etiquetação Aba "Morfologia"
  25. 25. CUNHA, Luís Antonio Rosado da. Relaçãoo da entrada que fez o excellentissimo, e reverendissimo senhor D. Fr. Antonio [...].Rio de Janeiro : Na Segunda Oficina de Antonio Isidoro da Fonseca, 1747.
  26. 26. CUNHA, Luís Antonio Rosado da. Relaçãoo da entrada que fez o excellentissimo, e reverendissimo senhor D. Fr. Antonio [...].Rio de Janeiro : Na Segunda Oficina de Antonio Isidoro da Fonseca, 1747. O primeiro livro impresso no Brasil !
  27. 27. eDictor 1.0 Beta 10 – Módulo "Transcrição"
  28. 28. eDictor 1.0 Beta 10 – Módulo Edição
  29. 29. eDictor 1.0 Beta 10 – Módulo Edição
  30. 30. eDictor 1.0 Beta 10 – Configuração de preferências
  31. 31. eDictor 1.0 Beta 10 – Configuração de preferências
  32. 32. eDictor 1.0 Beta 10 – Configuração de preferências
  33. 33. eDictor 1.0 Beta 10 – Configuração de preferências
  34. 34. > eDictor 1.0 Beta 10 – Exportação de Versões
  35. 35. Apresentação Diplomática
  36. 36. Apresentação Modernizada
  37. 37. Apresentação Modernizada
  38. 38. RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ- G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID Texto anotado: P.O.S.
  39. 39. Léxico das edições
  40. 40. Por trás disso…> dictore
  41. 41. eDictor 1.0 Beta 10 – Configuração de preferências
  42. 42. A interface do eDictor simula um editor de textos normal, mas a ferramenta é em essência um anotador linguístico, que aplica uma linguagem de marcação sobre os textos > dictore
  43. 43. A interface do eDictor simula um editor de textos normal, mas a ferramenta é em essência um anotador linguístico, que aplica uma linguagem de marcação sobre os textos? dictore
  44. 44. XML t e n d e d a r k u p a n g u a g e e >
  45. 45. > XML Código-base do eDictor 1.0 Beta 10
  46. 46. >
  47. 47. > Versão 1.0 Beta 10 Usada atualmente por seis grupos de pesquisa no Brasil e em Portugal dictore
  48. 48. Corpus Anotado do Português Histórico Tycho Brahe, (Universidade Estadual de Campinas) Grupo de Pesquisas Humanidades Digitais (Universidade de São Paulo) P.S. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna (Universidade de Lisboa) Corpus Eletrônico de Documentos Históricos do Sertão, CEDOHS (Universidade Federal de Feira de Santana) Laboratório de História do Português Brasileiro (Universidade Federal do Rio de Janeiro) Memória Conquistense (Universidade Estadual do Sudoeste da Bahia)
  49. 49. Corpus Anotado do Português Histórico Tycho Brahe, (Universidade Estadual de Campinas) Grupo de Pesquisas Humanidades Digitais (Universidade de São Paulo) P.S. Arquivo Digital de Escrita Quotidiana em Portugal e Espanha na Época Moderna (Universidade de Lisboa) Corpus Eletrônico de Documentos Históricos do Sertão, CEDOHS (Universidade Federal de Feira de Santana) Laboratório de História do Português Brasileiro (Universidade Federal do Rio de Janeiro) Memória Conquistense (Universidade Estadual do Sudoeste da Bahia)
  50. 50. > Versão 1.0 Beta 10 Exemplos de aplicação dictore
  51. 51. > Versão 1.0 Beta 10 1) Preparação de textos em corpora anotados (Corpus Tycho Brahe) dictore
  52. 52. O Corpus Tycho Brahe http://www.tycho.iel.unicamp.br/corpus/index.html
  53. 53. O Corpus Tycho Brahe Exemplo de um texto em versão “original”
  54. 54. O Corpus Tycho Brahe Exemplo de um texto em versão “modernizada”
  55. 55. [ prologue (author: P.M. Gandavo)] [ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ] [g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade alguma parte do muito que se deve à ínclita fama de vosso heróico nome. [g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem, como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à menor parte de seus louvores . [g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal , determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história . [g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo : assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras , que o das armas. [g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos . [ end prologue ] O Corpus Tycho Brahe Exemplo de um texto em versão para ferramentas
  56. 56. O Corpus Tycho Brahe Exemplo de um código- base XML
  57. 57. > Versão 1.0 Beta 10 2) edição de manuscritos (LaborHistórico e CEDOHS) dictore
  58. 58. LaborHistorico Laboratório de História do Português Brasileiro Universidade Federal do Rio de Janeiro. Coord. Célia Lopes http://www.letras.ufrj.br/laborhistorico/ >
  59. 59. LaborHistorico Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral http://www.letras.ufrj.br/laborhistorico/
  60. 60. LaborHistorico Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral http://www.letras.ufrj.br/laborhistorico/
  61. 61. CEDOHS Corpus Eletrônico de Documentos Históricos do Sertão, Coord. Zenaide Carneiro http://www2.uefs.br/cedohs/ >
  62. 62. CEDOHS Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886)) http://www2.uefs.br/cedohs/
  63. 63. 64 Documentos editados com o eDictor em diferentes corpora (2005-2013) Número total de documentos: 1.398 Número de palavras: dictore
  64. 64. 65 Problemas da atual versão
  65. 65. 66 Há muitos! …vamos escolher dois: ( ) Problemas da atual versão
  66. 66. Problemas 67 1. Baixa interoperabilidade - O código XML do eDictor não segue padrões internacionais estabelecidos, desde meados dos anos 2000, para corpora eletrônicos - notadamente, o nenhuma das diferentes versões do TEI (Text Encoding Initiative). Com isso, os textos trabalhados no editor não são facilmente compartilháveis com outros corpora. Alguns grupos desenvolveram scripts para essa adaptação. Mas o ideal seria que a própria ferramenta seguisse um código-standard, ou, ao menos, oferecesse essa transição. 2. Alta dependência do código à estrutura lógica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da atual versão
  67. 67. Problemas 68 1. Baixa interoperabilidade - O código XML do eDictor não segue padrões internacionais estabelecidos, desde meados dos anos 2000, para corpora eletrônicos - notadamente, o nenhuma das diferentes versões do TEI (Text Encoding Initiative). Com isso, os textos trabalhados no editor não são facilmente compartilháveis com outros corpora. Alguns grupos desenvolveram scripts para essa adaptação. Mas o ideal seria que a própria ferramenta seguisse um código- standard, ou, ao menos, oferecesse essa transição. 2. Alta dependência do código à estrutura lógica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da estrutura sintática dos textos (que era um importante objetivo da atual versão
  68. 68. Problemas 70 Estes dois problemas principais estão estritamente ligados à história do desenvolvimento do eDictor - a trajetória entre seus objetivos iniciais e a ampliação desses objetivos sempre no sentido de absorver demandas de novos usuários. da atual versão
  69. 69. > De onde veio? Para onde vai? O que é? dictore
  70. 70. 2004-2006 Primeiras Ideias
  71. 71. http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português. Post-doc Research Project, 2004-2007. Unicamp/Fapesp.
  72. 72. > PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of Historic corpora for diverse uses. In: Proceedings of the Association for Literary and Linguistic Computing (ALLC) Annual Conference, 2004.
  73. 73. PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre Léxico, São Carlos, 2005.
  74. 74. PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis, 2005. Published in 2006 as: PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
  75. 75. PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique. Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade Complutense, setembro de 2006. Published in 2007 as: PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge Scholarly, 2007.
  76. 76. http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html Electronic Editions and Tycho Brahe Text Preparation Manual June 2006
  77. 77. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards at work: a corpus repository of Historical Portuguese texts. V International Conference on Language Resources and Evaluation (LREC), 2006.
  78. 78. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards at work: a corpus repository of Historical Portuguese texts. V International Conference on Language Resources and Evaluation (LREC), 2006.
  79. 79. I Oficina de Anotação – Projeto CorPorA. Salvador, 19-21 de abril, 2006.
  80. 80. I Oficina de Anotação – Projeto CorPorA. Salvador, 19-21 de abril, 2006.
  81. 81. 2007 Lançamento (Versão Beta 1.0 000)
  82. 82. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma ferramenta integrada para a anotação de edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007.
  83. 83. Interface do eDictor 1.0 beta 01
  84. 84. Interface do eDictor 1.0 beta 01
  85. 85. 2008-2014 Crescimento para novos usos (Versões Beta 1.0 002 a 010)
  86. 86. > Versão 1.0 Beta 10 3) edição de obras raras digitalizadas - Projeto Edições Filológicas na Brasiliana Digital, 2009-2013 dictore
  87. 87. Bibioteca Brasiliana Guita e José Mindlin, doada à Universidade de São Paulo em 2006: 40.000 obras dos séculos XVI a XXI…
  88. 88. im ag e m = “digitalizado...”
  89. 89. RELAÇAÕPA ENTRJDJ QUE FEZO EXCELI, ENTlSSIMO, E REVERENDÍSSIMO SENHORD. F RANTONIO DO DESTERRO MALHEYROAiſpoào Rio de Janeiro, em o primeiro dia defle prtzente Anno de 1747,havendo fidoſeis Annos Biſpo do B, eyno de Angola, donde por no-miacaõ de Sua Mageftade, e Bulla Pontificia, foy promovidopara ella Diocefi. COMPOSTA PELO DOUTORLÜIZ ANTONIO ROSADODA CUNHA£ fm de Fora, e Provedor dos defuntos, e au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro. RIO DE JANEIRO tía Segunda Officina de ANTONIO ISID. ORO DAĩONCECA, Anno de M. CC. XLVII. Com licenças do Senhor Bijfo, OCR “Optical Character Recognition” texto im ag e m
  90. 90. RELAÇAÕPA ENTRJDJ QUE FEZO EXCELI, ENTlSSIMO, E REVERENDÍSSIMO SENHORD. F RANTONIO DO DESTERRO MALHEYROAiſpoào Rio de Janeiro, em o primeiro dia defle prtzente Anno de 1747,havendo fidoſeis Annos Biſpo do B, eyno de Angola, donde por no- miacaõ de Sua Mageftade, e Bulla Pontificia, foy promovidopara ella Diocefi. COMPOSTA PELO DOUTORLÜIZ ANTONIO ROSADODA CUNHA£ fm de Fora, e Provedor dos defuntos, e au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro. RIO DE JANEIRO tía Segunda Officina de ANTONIO ISID. ORO DAĩONCECA, Anno de M. CC. XLVII. Com licenças do Senhor Bijfo,?
  91. 91. Relação da entrada que fez o excelentíssimo, e reverendíssimo senhor Dom Frei Antonio do Desterro Malheiro, Bispo do Rio de Janeiro, em o primeiro dia deste presente Ano de 1747 havendo sido seis Anos Bispo do Reino de Angola, donde por nomeação de Sua Majestade, e Bula Pontifícia, foi promovido para esta Diocese. Composta pelo doutor Luiz Antonio Rosado da Cunha Juiz de Fora, e Provedor dos defuntos, e ausentes, Capelas, e Residos do Rio de Janeiro. Rio de Janeiro, Na Segunda Oficina de Antonio Isidoro da Fonseca, Ano de MCCXLVII. Com licenças do Senhor Bispo. !
  92. 92. > O Projeto Edições Filológicas na Brasiliana Digital (2009-2013) criou, com o eDictor, edições corrigidas e modernizadas para algumas obras do acervo, além de um banco de dados de erros de reconhecimento automático (OCR).
  93. 93. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  94. 94. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
  95. 95. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  96. 96. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009. (Abbyy Finereader 10.0 training module)
  97. 97. Apresentação Diplomática
  98. 98. textoimagem
  99. 99. Apresentação Modernizada
  100. 100. Apresentação Modernizada
  101. 101. RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P 1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F Diocese/NPR ./. 06_Realacao,2.7/ID COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ- G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR de/P Janeiro/NPR ./. 06_Realacao,2.8/ID RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./. 06_Realacao,2.12/ID Texto anotado: P.O.S.
  102. 102. <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  103. 103. <w id="s_6#86"> <o> amiſjade</o> <e t="ocr">amiſſade</e> <e t="gra">amissade</e> <e t="mod">amizade </e> <m v="N"/> </w> PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP, 2009.
  104. 104. >
  105. 105. Interface of eDictor in 2009 – Edition Module
  106. 106. em todo esse processo de adaptação ao uso por novos projetos foi que “Edição” passou a ser uma categoria aberta, que pode ser configurada por cada grupo. > O mais importante…
  107. 107. em todo esse processo de adaptação ao uso por novos projetos foi que “Edição” passou a ser uma categoria aberta, que pode ser configurada por cada grupo. > O mais importante…
  108. 108. “Edição” passa a ser uma categoria aberta
  109. 109. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
  110. 110. First Version of eDictor’s Manual (2010)
  111. 111. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010.
  112. 112. 116 Workshop: Construction and use of large annotated corpora Unicamp, Setembro de 2013
  113. 113. Nova página, manual e interface do e-Dictor, Setembro de 2013
  114. 114. > Em resumo…
  115. 115. desde 2007 foram lançadas 10 versões ('builds') do eDictor 1.0 beta, cada uma refletindo modificações e acrescentamentos solicitados pelos novos projetos que adotaram a ferramenta. Em resumo… >
  116. 116. 2015
  117. 117. 2015 e agora?
  118. 118. > De onde veio? Para onde vai? O que é? dictore
  119. 119. > Versão 1.0 Beta 10 Versão Web – em teste edictore
  120. 120. Versão Web – em teste http://www.tycho.iel.unicamp.br/workflow/index.action
  121. 121. 125 Luiz Henrique Lima Veronesi: e-Dictor: da plataforma para a nuvem. Dissertação de Mestrado em Filologia e Língua Portuguesa, Uni
  122. 122. Versão Web – em teste
  123. 123. Versão Web – em teste
  124. 124. > XML Código-base do eDictor Web
  125. 125. > XML Código-base do eDictor Web
  126. 126. > XML Código-base do eDictor Web
  127. 127. >
  128. 128. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  129. 129. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  130. 130. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ"/> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  131. 131. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  132. 132. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  133. 133. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  134. 134. XML - Código-base do eDictor Web
  135. 135. XML - Código-base do eDictor Web
  136. 136. XML - Código-base do eDictor Web “considerar os tokens 69 a 73 como uma unidade"
  137. 137. > O que me importa? Vantagens e Problemas da nova versão web
  138. 138. Primeira vantagem 142 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto.
  139. 139. Problemas 143 (lembrando….) 1. Alta dependência do código à estrutura gráfica do texto. As categorias básicas da marcação XML do eDictor seguem uma hierarquia: seção > parágrafo > sentença > palavra, que “prende” a anotação à hierarquia do texto. Isso vem impedindo que a anotação se expanda para a anotação da estrutura sintática dos textos (que era um importante objetivo inicial, até hoje frustrado). da atual versão
  140. 140. Primeira vantagem 144 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto. Com o novo código, finalmente nos aproximamos do objetivo de incluir a anotação sintática entre as tarefas que podem ser cumpridas no interior da ferramenta. Pois, nas palavras de Veronesi (2014:52),
  141. 141. Primeira vantagem 145 1. A primeira vantagem da nova versão é “libertar” o código do eDictor de sua dependência à estrutura gráfica do texto. Com o novo código, finalmente nos aproximamos do objetivo de incluir a anotação sintática entre as tarefas que podem ser cumpridas no interior da ferramenta. Pois, nas palavras de Veronesi (2014:52), “O texto passa a ser compreendido por listas que se relacionam logicamente em função da posição linear que os tokens ocupam após o processo de tokenização”.
  142. 142. Primeira vantagem 146
  143. 143. Primeira vantagem 147 “Luiz Antonio Rosado da Cunha” <chunk/>
  144. 144. Primeira vantagem 148 “Luiz Antonio Rosado da Cunha” <chunk/> [Luiz Antonio Rosado da Cunha] Sintagma
  145. 145. Primeira vantagem 149 “Luiz Antonio Rosado da Cunha” <chunk/> [Luiz Antonio Rosado da Cunha] Sintagma
  146. 146. Primeira vantagem 150 Ilustração do esquema de anotação sintática proposto em Veronesi (2014):
  147. 147. Primeira vantagem 151 Ilustração do esquema de anotação sintática proposto em Veronesi (2014): Sintagmas “Palavras”> >
  148. 148. Primeira vantagem 152 Ilustração do esquema de anotação sintática proposto em Veronesi (2014): Sintagmas “X” > >
  149. 149. Primeira vantagem 153 Ilustração da interface para anotação sintática (versão interna para testes, ainda não publicada)
  150. 150. Primeira vantagem 154 Em resumo: Anotação fundada na estrutura gráfica Anotação fundada em
  151. 151. Segunda vantagem 155
  152. 152. Segunda vantagem 156 2. A segunda vantagem da nova versão está ligada a sua disponibilização em ambiente de nuvem. Em tese, uma ferramenta que não precisa ser “baixada” por cada usuário permite que as novas versões e melhoramentos sejam imediatamente disponíveis para todos os usuários, entre outras vantagens apontadas por Veronesi 2014.
  153. 153. Primeiro problema 157
  154. 154. Primeiro problema 158 1. O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução desse
  155. 155. Primeiro problema 159 1. O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução, em princípio, não parece complexa: seria possível implementar uma ferramenta híbrida, com versão em nuvem e local. Mas isso
  156. 156. Segundo problema 160
  157. 157. Segundo problema 161 1.O segundo problema está fortemente ligado ao primeiro. Para que o funcionamento “em nuvem” seja garantido, é preciso haver uma equipe de desenvolvedores dedicados; mesmo para se fazer uma ferramenta híbrida, com versão em nuvem e local, é necessário termos uma equipe. O fato, entretanto, é que o eDictor nunca contou com uma equipe dedicada.
  158. 158. Segundo problema 162 1.O segundo problema está fortemente ligado ao primeiro. Para que o funcionamento “em nuvem” seja garantido, é preciso haver uma equipe de desenvolvedores dedicados; mesmo para se fazer uma ferramenta híbrida, com versão em nuvem e local, é necessário termos uma equipe. O fato, entretanto, é que o eDictor nunca contou com uma equipe dedicada.
  159. 159. Possível solução 163
  160. 160. Possível solução 164 A meu ver há uma medida que pode solucionar todos os problemas do eDictor. Deveríamos abrir o código-fonte tanto da versão 1.0 como da nova-versão web, enviá-lo a um portal de desenvolvedores, transformando o eDictor em uma ferramenta de construção colaborativa, por meio do uso de plataformas do tipo CSD - Collaborative Software Development Platforms. Esta sempre foi, de fato, a vocação dessa ferramenta.
  161. 161. Possível solução 165 Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos, isso trouxe problemas para as diferentes versões. Entretanto, é também daí que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente a vocação “múltipla” dessa forma de desenvolvimento, e lançar a criança no mundo, esperando que ela construa agora seus próprios caminhos.
  162. 162. Possível solução 166 Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos, isso trouxe problemas para as diferentes versões. Entretanto, é também daí que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente a vocação “múltipla” dessa forma de desenvolvimento, e lançar a criança no mundo, esperando que ela construa agora seus próprios caminhos.
  163. 163. Desde o início, o eDictor foi construído em pequenas etapas, por diferentes pesquisadores vindos de diferentes formações, e com diferentes objetivos. Como vimos agora, isso trouxe problemas para as diferentes versões. Entretanto, é também daí, a meu ver, que vem a força da ferramenta. A proposta, agora, seria assumir definitivamente essa vocação “múltipla”, e digamos, “ bastarda” dessa forma de desenvolvimento, e
  164. 164. Obrigada!
  165. 165. Maria Clara Paixão de Sousa Universidade de São Paulo mariaclara@usp.br eDictor: histórico e perspectivas
  166. 166. PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances and perspectives”. Workshop Construction and use of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF] FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010. (Congresso). [PDF (poster)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)] PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009. (Comunicação). PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro. Resumos, 2009. [PDF (slides)] PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
  167. 167. eDictor 1.0 Beta 10 – Módulo Transcrição
  168. 168. > XML
  169. 169. XML te n d e d ar k u p a n g u ag e e >
  170. 170. XML te n d e d ar k u p a n g u ag e e >
  171. 171. XML te n d e d ar k u p a n g u ag e e >
  172. 172. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  173. 173. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  174. 174. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  175. 175. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  176. 176. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  177. 177. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ" pos="NPR"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  178. 178. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  179. 179. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  180. 180. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR" ... /> </t> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  181. 181. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"/>
  182. 182. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  183. 183. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" mod="LUIZ" pos="NPR"/> <t pos="70" value="ANTONIO"/> <t pos="71" value="ROSADO"/> <t pos="72" value="DA" exp="d@" exp="a"/> <t pos="73" value="CUNHA"/>
  184. 184. XML - Código-base do eDictor Web
  185. 185. XML - Código-base do eDictor Web <t pos="66" value="COMPOSTA"/> <t pos="67" value="PELO" /> <t pos="68" value="DOUTOR"/> <t pos="69" value="LÜIZ" > <attributes data-modernization="LUIZ" part-of-speech="NPR"/></t> <t pos="70" value="ANTONIO"> <attributes part-of-speech=“NPR"/></t> <t pos="71" value="ROSADO"> <attributes part-of-speech=“NPR"/></t> <t pos="72" value="DA" /> <t pos="73" value="CUNHA"> <attributes part-of-speech=“NPR”/></t>
  186. 186. eDictor 1.0 Beta 10 – Módulo Transcrição
  187. 187. eDictor 1.0 Beta 10 – Módulo Transcrição
  188. 188. eDictor 1.0 Beta 10 – Módulo Edição
  189. 189. eDictor 1.0 Beta 10 – Módulo Etiquetação
  190. 190. eDictor 1.0 Beta 10 – Módulo Edição
  191. 191. <page data-uid="1"> RELAÇÃO DA ENTRADA QUE FEZ O EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR DOM FREI ANTONIO DO DESTERRO MALHEYRO Bispo do Rio de Janeiro, em o primeiro dia deste presente Ano de 1747 havendo sido seis Anos Bispo do Reino de Angola, donde por nomeação de Sua Magestade, e Bula Pontifícia, foi promovido para esta Diocese. COMPOSTA PELO DOUTOR LUIZ ANTONIO ROSADO DA CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes, Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na Segunda Oficina de ANTONIO ISIDORO DA FONCECA. Ano de M. CC. XLVII. Com licenças do Senhor Bispo. </page> Versão Web – em teste

×