PAIXÃO DE SOUSA, M. C. e-Dictor: Histórico e perspectivas. Comunicação ao Gallæcia: III Congresso Internacional de Linguística Histórica. Santiago de Compostela, 28 de julho 2015.
4. Maria Clara Paixão de Sousa
Universidade de São Paulo
Universidade de São Paulo
dictor:
histórico e perspectivas
e
5. dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições
diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação
morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e
grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.
Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da
computação, o desenvolvimento da ferramenta tem sido orientado pela
demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa
et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de
Veronesi (2014), uma proposta independente e inovadora está colocada para o
futuro desse desenvolvimento, em ambiente de rede, e em um formato que
subverte em grande parte o inicialmente concebido. Nesta comunicação,
apresentaremos uma avaliação dessa nova proposta de desenvolvimento,
comparando-a conceitualmente à ferramenta original, e pesando suas vantagens
Resumo
e
6. dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições diplomáticas,
semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.
Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de
pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado
de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o
desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,
como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de
Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma
proposta independente e inovadora está colocada para o futuro desse
desenvolvimento, em ambiente de rede, e em um formato que subverte em
grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma
avaliação dessa nova proposta de desenvolvimento, comparando-a
conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens
Resumo
e
11. > Uma ferramenta para
edição filológica eletrônica
e análise linguística
automática
edictore
12. >
O que me importa?
A principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
dictore
13. > É um software livre,
atualmente com duas
versões:
edictore
25. CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
26. CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
O primeiro
livro impresso
no Brasil !
42. A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
43. A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
47. > Versão 1.0 Beta 10
Usada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
dictore
48. Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
49. Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
51. >
Versão 1.0 Beta 10
1) Preparação de textos em
corpora anotados
(Corpus Tycho Brahe)
dictore
52. O Corpus Tycho Brahe
http://www.tycho.iel.unicamp.br/corpus/index.html
53. O Corpus Tycho Brahe
Exemplo de um texto em versão “original”
54. O Corpus Tycho Brahe
Exemplo de um texto em versão “modernizada”
55. [ prologue (author: P.M. Gandavo)]
[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]
[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco
entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade
alguma parte do muito que se deve à ínclita fama de vosso heróico nome.
[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,
como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente
em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à
menor parte de seus louvores .
[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa
deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os
segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,
determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .
[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :
assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição
Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras
, que o das armas.
[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta
pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito
ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .
[ end prologue ]
O Corpus Tycho Brahe
Exemplo de um texto em versão para ferramentas
57. > Versão 1.0 Beta 10
2) edição de manuscritos
(LaborHistórico e CEDOHS)
dictore
58. LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
67. Problemas
67
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde
meados dos anos 2000, para corpora eletrônicos -
notadamente, o nenhuma das diferentes versões do TEI
(Text Encoding Initiative). Com isso, os textos trabalhados
no editor não são facilmente compartilháveis com outros
corpora. Alguns grupos desenvolveram scripts para essa
adaptação. Mas o ideal seria que a própria ferramenta
seguisse um código-standard, ou, ao menos, oferecesse essa
transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação
da atual versão
68. Problemas
68
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde meados
dos anos 2000, para corpora eletrônicos - notadamente, o
nenhuma das diferentes versões do TEI (Text Encoding
Initiative). Com isso, os textos trabalhados no editor não são
facilmente compartilháveis com outros corpora. Alguns
grupos desenvolveram scripts para essa adaptação. Mas o
ideal seria que a própria ferramenta seguisse um código-
standard, ou, ao menos, oferecesse essa transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação da
estrutura sintática dos textos (que era um importante objetivo
da atual versão
70. Problemas
70
Estes dois problemas principais estão estritamente
ligados à história do desenvolvimento do eDictor - a
trajetória entre seus objetivos iniciais e a ampliação
desses objetivos sempre no sentido de absorver
demandas de novos usuários.
da atual versão
71. > De onde veio?
Para onde vai?
O que é?
dictore
74. >
PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of
Historic corpora for diverse uses.
In: Proceedings of the Association for Literary and Linguistic
Computing (ALLC) Annual Conference, 2004.
75. PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus
Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V
Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre
Léxico, São Carlos, 2005.
76. PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de
dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,
2005.
Published in 2006 as:
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
77. PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.
Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade
Complutense, setembro de 2006.
Published in 2007 as:
PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores
Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge
Scholarly, 2007.
79. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
80. TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
81. I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
82. I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
84. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma
ferramenta integrada para a anotação de edição e classe de palavras.
VI Encontro de Lingüística de Corpus, São Paulo, 2007.
92. RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO
ROSADODA CUNHA£ fm de Fora, e
Provedor dos defuntos, e au-Z$nte$ y
Capella*, c ReJĩdos do Rio de Janeiro. RIO
DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA,
Anno de M. CC. XLVII. Com licenças do
Senhor Bijfo,
OCR
“Optical
Character
Recognition”
texto
im
ag
e
m
93. RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o primeiro
dia defle prtzente Anno de 1747,havendo fidoſeis
Annos Biſpo do B, eyno de Angola, donde por no-
miacaõ de Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA PELO
DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
94. Relação da entrada que fez o excelentíssimo, e
reverendíssimo senhor Dom Frei Antonio do
Desterro Malheiro, Bispo do Rio de Janeiro,
em o primeiro dia deste presente Ano de 1747
havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua
Majestade, e Bula Pontifícia, foi promovido
para esta Diocese. Composta pelo doutor Luiz
Antonio Rosado da Cunha Juiz de Fora, e
Provedor dos defuntos, e ausentes, Capelas, e
Residos do Rio de Janeiro. Rio de Janeiro, Na
Segunda Oficina de Antonio Isidoro da
Fonseca, Ano de MCCXLVII. Com licenças
do Senhor Bispo.
!
95. >
O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
96. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
97. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento
automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus
do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
98. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
99. PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
(Abbyy Finereader 10.0 training module)
106. <w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
107. <w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
110. em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
111. em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
113. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: VIII
Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
115. PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: Tania
Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da
linguística de corpus. Campinas: Mercado de Letras, 2010.
119. desde 2007 foram lançadas
10 versões ('builds')
do eDictor 1.0 beta,
cada uma refletindo
modificações e
acrescentamentos
solicitados pelos novos
projetos que
adotaram a ferramenta.
Em resumo…
>
140. XML - Código-base do eDictor Web
“considerar os tokens 69 a 73 como uma unidade"
141. >
O que me importa?
Vantagens e
Problemas
da nova versão web
142. Primeira vantagem
142
1. A primeira vantagem da nova
versão é “libertar” o código do
eDictor de sua dependência à
estrutura gráfica do texto.
143. Problemas
143
(lembrando….)
1. Alta dependência do código à estrutura gráfica do
texto. As categorias básicas da marcação XML do
eDictor seguem uma hierarquia: seção >
parágrafo > sentença > palavra, que “prende” a
anotação à hierarquia do texto. Isso vem
impedindo que a anotação se expanda para a
anotação da estrutura sintática dos textos (que era
um importante objetivo inicial, até hoje frustrado).
da atual versão
144. Primeira vantagem
144
1. A primeira vantagem da nova versão é “libertar” o
código do eDictor de sua dependência à estrutura
gráfica do texto.
Com o novo código, finalmente nos
aproximamos do objetivo de incluir a
anotação sintática entre as
tarefas que podem ser cumpridas no
interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
145. Primeira vantagem
145
1. A primeira vantagem da nova versão é “libertar” o código
do eDictor de sua dependência à estrutura gráfica do texto.
Com o novo código, finalmente nos aproximamos do
objetivo de incluir a anotação sintática entre as
tarefas que podem ser cumpridas no interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
“O texto passa a ser compreendido por
listas que se relacionam logicamente em
função da posição linear que os tokens
ocupam após o processo de tokenização”.
156. Segunda vantagem
156
2. A segunda vantagem da nova versão está
ligada a sua disponibilização em ambiente de
nuvem.
Em tese, uma ferramenta que não precisa ser
“baixada” por cada usuário permite que as
novas versões e melhoramentos sejam
imediatamente disponíveis para todos os
usuários, entre outras vantagens apontadas
por Veronesi 2014.
158. Primeiro problema
158
1. O primeiro problema está ligado à segunda
vantagem. Nem todos os usuários sentem-se
confortáveis com uma ferramenta que nunca
está disponível localmente - a dependência de
todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente,
passível de problemas e quedas, etc., não é
desejada pela maioria. Do outro lado, o
funcionamento “em nuvem” traz à equipe de
desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e
tornar disponível algo que forma a base das
pesquisas de muitos grupos. A solução desse
159. Primeiro problema
159
1. O primeiro problema está ligado à segunda vantagem.
Nem todos os usuários sentem-se confortáveis com uma
ferramenta que nunca está disponível localmente - a
dependência de todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente, passível de
problemas e quedas, etc., não é desejada pela maioria. Do
outro lado, o funcionamento “em nuvem” traz à equipe
de desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e tornar
disponível algo que forma a base das pesquisas de muitos
grupos. A solução, em princípio, não
parece complexa: seria possível
implementar uma ferramenta híbrida,
com versão em nuvem e local. Mas isso
161. Segundo problema
161
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
162. Segundo problema
162
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
164. Possível solução
164
A meu ver há uma medida que pode solucionar todos os
problemas do eDictor.
Deveríamos abrir o código-fonte tanto da versão 1.0 como
da nova-versão web, enviá-lo a um portal de
desenvolvedores, transformando o eDictor em uma
ferramenta de construção colaborativa, por
meio do uso de plataformas do tipo CSD -
Collaborative Software Development Platforms.
Esta sempre foi, de fato, a vocação dessa ferramenta.
165. Possível solução
165
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
166. Possível solução
166
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
167. Desde o início, o eDictor foi construído em pequenas
etapas, por diferentes pesquisadores vindos de diferentes
formações, e com diferentes objetivos.
Como vimos agora, isso trouxe problemas para as
diferentes versões.
Entretanto, é também daí, a meu ver, que vem a força da
ferramenta.
A proposta, agora, seria assumir definitivamente essa
vocação “múltipla”, e digamos, “ bastarda” dessa forma de
desenvolvimento, e
169. Maria Clara Paixão de Sousa
Universidade de São Paulo
mariaclara@usp.br
eDictor:
histórico e perspectivas
170. PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting
of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição
e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
195. <page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na
Segunda Oficina de ANTONIO ISIDORO DA FONCECA.
Ano de M. CC. XLVII. Com licenças do Senhor Bispo.
</page>
Versão Web – em teste
Editor's Notes
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
The preliminary ideas that would result in the development of eDictor in 2007 started in 2004 with a project that aimed at restructuring the text-preparation system at the Tycho Brahe Corpus.
Essentially, the idea was that the Corpus would be constituted of single-source documents that could contain all relevant annotations (textual, philological, linguistic).
This was achieved in partnership with computer scientist Thorsten Trippel, from the University of Bielefeld.
He suggested we used the XML annotation language to re-encode the Corpus, and XSLT to transform each document into different presentations of the encoded information.
PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português. Post-doc Research Project, 2004-2007. Unicamp/Fapesp.
Our central idea was to encapsulate edition interferences at the word level, i.e. for each token in the corpus – so that each element of the pair would be available to different modules of analysis.
This first idea was applied to a few pilot texts, and published as a poster at the annual conference of the ALLC in 2004
In 2005, the Corpus went through a complete re-encoding process.
The restructured Corpus was composed of XML documents that, via XSLT transformations, would render different (HTML and TXT) versions, adequate for different visualization and processing needs, as we had originally planned.
Along with the application of the new single-source system to the Corpus, new ideas started to pop up.
Some of them were carried on, some were not.
The main thing that we wanted to do back then and still have not done is...
... to integrate syntactic annotation into this same, single-source system..
Other ideas were a little more fruitful: the integration of other, less complex levels of linguistic annotation (such as items of lexicological interest); and the expansion of the system to include the possibility of critical editions, in which more than one version of the same text could be compared.
By 2006 the single-source encoding system was mature; a first manual was prepared and a more complete paper on these results was published.
Meanwhile...
... as the system was presented to a wider range of potential users outside Tycho Brahe, new challenges emerged.
The 1st annotation workshop outside the Tycho Brahe team, in 2006 in Salvador, was an important breakthrough.
It was then that we noticed that the original techniques used to annotate the XML documents (“by hand”, in E-Macs) and to transform them (by coding XSL into the system via Saxon) was not adequate for teams with a less computational, and more philological background.
After the workshop in 2006 it became clear that if we wanted more teams to use the single-source annotation system, we would have to build a software that could perform the annotation and transformation tasks in a user-friendly interface.
In other words... it was then that the idea of eDictor took shape.
eDictor beta 1.0 was developed in 2007 by Prof. Fabio N. Kepler (then a post-graduate student at IME-USP’s computer science program), and was first presented in the same year at the VI Encontro de Linguística de Corpus, at USP.
Plus... it included a morphosyntactic tagging function!
This first version of eDictor contained the core functions of the original text encoding system: an XML annotation module and the possibility of XSLT transformation exportation.
The second important aspect was that, while up to 2008 the main application of the single-source system (first manually and later with eDictor) was the restructuring of the Tycho Brahe Corpus, after 2008 the system started to be used beyond Tycho Brahe.
This was important because, as the different projects have different aims, the tool started to include new technical aspects.
>>> maior flexibilidade das categorias por causa de manuscritos e outros usos específicos: correção de OCR, marcação lexical.
For instance, in 2009 eDictor started to be used by the Brasiliana USP team.
One of the main particularities of this context was that eDictor was used as a corrector for automatic character recognition (OCR) – and new edition categories had to be created.
More importantly, researchers that used manuscript documents became interested in eDictor.
The special needs of this kind of material led to very important developments in the tool.
The first group of manuscript documents to be worked with the tool was the corpus of XIXth century letters from the PhD thesis of Zenaide Carneiro (2005) – now part of the corpus CEDOH.
The edition of this corpus in XML had been idealized at the time of the 2006 workshop in Salvador - and from the start, it brought to the development of eDictor the challenge of dealing with particular categories and edition needs of manuscripts.
One important example of developments brought by the needs of manuscript editors are the fac-simile view functionalities.
They were developed by Pablo Faria after eDictor started to be used by the team at CEDOH and by the team lead by Celia Lopes at LaborHistórico, at UFRJ.
Some of these developments were presented at the VIII Encontro de Linguística de Corpus in 2009 by Pablo Faria; this presentation would be published as a book chapter in 2010.
Two important publications were prepared during this period: a poster session at the ALC meeting of 2010, presented by P. Faria, and the chapter for the book “Caminhos da Linguística de Corpus”.
In these papers we tried to cover the backgound on eDictor’s creation, the new developments, and the challenges ahead.
The next development was….. escrever
eDictor 1.0 beta build 010 is the current version under use. The main differences in comparison to beta 001 are the additions related to fac-simile integration (in transcription module and in export functionalities) and some bug-fixing in the editions module.
But there are still bugs to be busted!
In the end of 2012, a new, web-based version of eDictor was idealized by Luiz Veronesi, and is currently under construction
O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução desse problema, em princípio, não parece complexa: seria possível implementar uma ferramenta híbrida, com versão em nuvem e local. Mas isso nos leva ao segundo problema.
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor