-
1.
Codex Calistinus,
livro V
séc. XII
-
2.
Gallæcia
Santiago de Compostela
27 a 30 de julho 2015
III Congresso Internacional de Linguística Histórica
-
3.
Coordenação:
Charlotte M.C. Galves
Xavier G. Guinovart
Simpósio
Corpus linguísticos e gramática histórica
-
4.
Maria Clara Paixão de Sousa
Universidade de São Paulo
Universidade de São Paulo
dictor:
histórico e perspectivas
e
-
5.
dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições
diplomáticas, semi-diplomáticas e modernizadas, e de versões com anotação
morfossintática. Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e
grupos de pesquisa, em diferentes universidades de diversos países da lusofonia.
Resultado de oito anos de trabalho de linguistas, filólogos e cientistas da
computação, o desenvolvimento da ferramenta tem sido orientado pela
demanda dos usuários, como atestam Paixão de Sousa (2014), Paixão de Sousa
et ali (2010) e Paixão de Sousa et ali (2007), entre outros. Entretanto, a partir de
Veronesi (2014), uma proposta independente e inovadora está colocada para o
futuro desse desenvolvimento, em ambiente de rede, e em um formato que
subverte em grande parte o inicialmente concebido. Nesta comunicação,
apresentaremos uma avaliação dessa nova proposta de desenvolvimento,
comparando-a conceitualmente à ferramenta original, e pesando suas vantagens
Resumo
e
-
6.
dictor:
histórico e perspectivas
O "e-Dictor" (Paixão de Sousa, Kepler e Faria, 2013) é um editor de textos
especialmente voltado ao trabalho filológico e à análise lingüística automática.
Combinando um editor de XML a um etiquetador morfossintático, o software
permite a geração automática de versões correspondentes a edições diplomáticas,
semi-diplomáticas e modernizadas, e de versões com anotação morfossintática.
Sua edição 1.0 beta 10 é atualmente utilizada por seis projetos e grupos de
pesquisa, em diferentes universidades de diversos países da lusofonia. Resultado
de oito anos de trabalho de linguistas, filólogos e cientistas da computação, o
desenvolvimento da ferramenta tem sido orientado pela demanda dos usuários,
como atestam Paixão de Sousa (2014), Paixão de Sousa et ali (2010) e Paixão de
Sousa et ali (2007), entre outros. Entretanto, a partir de Veronesi (2014), uma
proposta independente e inovadora está colocada para o futuro desse
desenvolvimento, em ambiente de rede, e em um formato que subverte em
grande parte o inicialmente concebido. Nesta comunicação, apresentaremos uma
avaliação dessa nova proposta de desenvolvimento, comparando-a
conceitualmente à ferramenta original, e pesando suas vantagens e desvantagens
Resumo
e
-
7.
O que é?
edictore
-
8.
De onde veio?
O que é?
edictore
-
9.
De onde veio?
Para onde vai?
O que é?
edictore
-
10.
>
De onde veio?
Para onde vai?
O que é?
edictore
-
11.
> Uma ferramenta para
edição filológica eletrônica
e análise linguística
automática
edictore
-
12.
>
O que me importa?
A principal finalidade do eDictor
é oferecer uma interface amigável
aliada a um alto nível de controle
e flexibilidade na codificação de
textos eletrônicos com finalidade
de pesquisa linguística.
dictore
-
13.
> É um software livre,
atualmente com duas
versões:
edictore
-
14.
>
Versão 1.0 Beta 10
Versão Web – em teste
edictor
-
15.
Versão 1.0 Beta 10
Versão Web – em teste
“O que é”
“Para onde vai”
edictore
-
16.
> Versão 1.0 Beta 10
Versão Web – em teste
edictore
-
17.
> Versão 1.0 Beta 10
Disponível para windows,
por download em
http://edictor.net
edictore
-
18.
http://edictor.net
-
19.
http://edictor.net
-
20.
eDictor 1.0 Beta 10
-
21.
eDictor 1.0 Beta 10 – Módulo Transcrição
-
22.
eDictor 1.0 Beta 10 – Módulo "Transcrição"
Aba "Transcrição"
-
23.
eDictor 1.0 Beta 10 – Módulo Edição
Aba "Edição"
-
24.
eDictor 1.0 Beta 10 – Módulo Etiquetação
Aba "Morfologia"
-
25.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
-
26.
CUNHA, Luís Antonio Rosado
da. Relaçãoo da entrada que fez o
excellentissimo, e reverendissimo senhor
D. Fr. Antonio [...].Rio de Janeiro :
Na Segunda Oficina de Antonio
Isidoro da Fonseca, 1747.
O primeiro
livro impresso
no Brasil !
-
27.
eDictor 1.0 Beta 10 – Módulo "Transcrição"
-
28.
eDictor 1.0 Beta 10 – Módulo Edição
-
29.
eDictor 1.0 Beta 10 – Módulo Edição
-
30.
eDictor 1.0 Beta 10 – Configuração de preferências
-
31.
eDictor 1.0 Beta 10 – Configuração de preferências
-
32.
eDictor 1.0 Beta 10 – Configuração de preferências
-
33.
eDictor 1.0 Beta 10 – Configuração de preferências
-
34.
>
eDictor 1.0 Beta 10 – Exportação de Versões
-
35.
Apresentação Diplomática
-
36.
Apresentação Modernizada
-
37.
Apresentação Modernizada
-
38.
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D
EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR
DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR
Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D
primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P
1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR
do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P
nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR
Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F
Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR
ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ
Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-
G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR
de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR
DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./.
06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
-
39.
Léxico das edições
-
40.
Por trás disso…>
dictore
-
41.
eDictor 1.0 Beta 10 – Configuração de preferências
-
42.
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos
>
dictore
-
43.
A interface do eDictor simula um
editor de textos normal, mas a
ferramenta é em essência um
anotador linguístico, que aplica
uma linguagem de marcação
sobre os textos?
dictore
-
44.
XML
t
e
n
d
e
d
a
r
k
u
p
a
n
g
u
a
g
e
e
>
-
45.
> XML
Código-base do
eDictor 1.0 Beta 10
-
46.
>
-
47.
> Versão 1.0 Beta 10
Usada atualmente por seis
grupos de pesquisa no
Brasil e em Portugal
dictore
-
48.
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
-
49.
Corpus Anotado do Português
Histórico Tycho Brahe,
(Universidade Estadual de Campinas)
Grupo de Pesquisas
Humanidades Digitais
(Universidade de São Paulo)
P.S. Arquivo Digital de Escrita Quotidiana em
Portugal e Espanha na Época Moderna
(Universidade de Lisboa)
Corpus Eletrônico de
Documentos Históricos do Sertão,
CEDOHS (Universidade Federal de Feira de Santana)
Laboratório de História do Português Brasileiro
(Universidade Federal do Rio de Janeiro)
Memória Conquistense
(Universidade Estadual do Sudoeste da Bahia)
-
50.
>
Versão 1.0 Beta 10
Exemplos de aplicação
dictore
-
51.
>
Versão 1.0 Beta 10
1) Preparação de textos em
corpora anotados
(Corpus Tycho Brahe)
dictore
-
52.
O Corpus Tycho Brahe
http://www.tycho.iel.unicamp.br/corpus/index.html
-
53.
O Corpus Tycho Brahe
Exemplo de um texto em versão “original”
-
54.
O Corpus Tycho Brahe
Exemplo de um texto em versão “modernizada”
-
55.
[ prologue (author: P.M. Gandavo)]
[ title: AO MUITO ILUSTRE SENHOR DOM LIONIS PEREIRA, Epístola de Pero de Magalhães. ]
[g_008_s_43] Neste pequeno serviço (muito ilustre senhor ) que ofereço a Vossa Mercê das primícias de meu fraco
entendimento, poderá em alguma maneira conhecer os desejos que tenho de pagar com minha possibilidade
alguma parte do muito que se deve à ínclita fama de vosso heróico nome.
[g_008_s_44] E isto assim pelo merecimento do nobilíssimo sangue e clara progênie de onde traz sua origem,
como pelos troféus das grandes vitórias , e casos bem afortunados que lhe hão sucedido nessas partes do Oriente
em que Deus o quis favorecer com tão larga mão, que não cuido ser toda minha vida bastante para satisfazer à
menor parte de seus louvores .
[g_008_s_45] E como todas estas razões me ponham em tanta obrigação , e eu entenda que outra nenhuma coisa
deve ser mais aceita a pessoas de altos ânimos que a lição das escrituras , por cujos meios se alcançam os
segredos de todas as ciências , e os homens vêm a ilustrar seus nomes e perpetuar os na terra com fama imortal ,
determinei escolher a Vossa Mercê entre os mais senhores da terra , e dedicar lhe esta breve história .
[g_008_s_46] A qual espero que folgue de ver com atenção e receber me a benignamente debaixo de seu amparo :
assim por ser coisa nova , e eu a escrever como testemunha de vista : como por saber quão particular afeição
Vossa Mercê tem às coisas do engenho , e que por esta causa lhe não será menos aceito o exercício das escrituras
, que o das armas.
[g_008_s_47] Por onde com muita razão favorecido desta confiança possa seguramente sair a luz com esta
pequena empresa e divulgar a pela terra sem nenhum receio , tendo por defensor dela a Vossa Mercê Cuja muito
ilustre pessoa nosso Senhor guarde e acrescente sua vida e estado por longos e felizes anos .
[ end prologue ]
O Corpus Tycho Brahe
Exemplo de um texto em versão para ferramentas
-
56.
O Corpus
Tycho Brahe
Exemplo de
um código-
base XML
-
57.
> Versão 1.0 Beta 10
2) edição de manuscritos
(LaborHistórico e CEDOHS)
dictore
-
58.
LaborHistorico
Laboratório de História do Português Brasileiro
Universidade Federal do Rio de Janeiro.
Coord. Célia Lopes
http://www.letras.ufrj.br/laborhistorico/
>
-
59.
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
-
60.
LaborHistorico
Corpus de cartas pessoais brasileiras – Acervo Cupertino do Amaral
http://www.letras.ufrj.br/laborhistorico/
-
61.
CEDOHS
Corpus Eletrônico de Documentos
Históricos do Sertão,
Coord. Zenaide Carneiro
http://www2.uefs.br/cedohs/
>
-
62.
CEDOHS
Acervo - Cartas particulares do Recôncavo da Bahia (1818-1886))
http://www2.uefs.br/cedohs/
-
63.
64
Documentos editados com o eDictor
em diferentes corpora
(2005-2013)
Número total de documentos:
1.398
Número de palavras:
dictore
-
64.
65
Problemas da atual versão
-
65.
66
Há muitos!
…vamos escolher dois:
( )
Problemas da atual versão
-
66.
Problemas
67
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde
meados dos anos 2000, para corpora eletrônicos -
notadamente, o nenhuma das diferentes versões do TEI
(Text Encoding Initiative). Com isso, os textos trabalhados
no editor não são facilmente compartilháveis com outros
corpora. Alguns grupos desenvolveram scripts para essa
adaptação. Mas o ideal seria que a própria ferramenta
seguisse um código-standard, ou, ao menos, oferecesse essa
transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação
da atual versão
-
67.
Problemas
68
1. Baixa interoperabilidade - O código XML do eDictor
não segue padrões internacionais estabelecidos, desde meados
dos anos 2000, para corpora eletrônicos - notadamente, o
nenhuma das diferentes versões do TEI (Text Encoding
Initiative). Com isso, os textos trabalhados no editor não são
facilmente compartilháveis com outros corpora. Alguns
grupos desenvolveram scripts para essa adaptação. Mas o
ideal seria que a própria ferramenta seguisse um código-
standard, ou, ao menos, oferecesse essa transição.
2. Alta dependência do código à estrutura lógica do
texto. As categorias básicas da marcação XML do eDictor
seguem uma hierarquia: seção > parágrafo > sentença >
palavra, que “prende” a anotação à hierarquia do texto. Isso
vem impedindo que a anotação se expanda para a anotação da
estrutura sintática dos textos (que era um importante objetivo
da atual versão
-
68.
Problemas
70
Estes dois problemas principais estão estritamente
ligados à história do desenvolvimento do eDictor - a
trajetória entre seus objetivos iniciais e a ampliação
desses objetivos sempre no sentido de absorver
demandas de novos usuários.
da atual versão
-
69.
> De onde veio?
Para onde vai?
O que é?
dictore
-
70.
2004-2006
Primeiras Ideias
-
71.
http://www.ime.usp.br/~tycho/participants/psousa/memorias/index.html
PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos
na construção de um corpus histórico do português. Post-doc Research
Project, 2004-2007. Unicamp/Fapesp.
-
72.
>
PAIXÃO DE SOUSA, M. C.; TRIPPEL, T. Single source processing of
Historic corpora for diverse uses.
In: Proceedings of the Association for Literary and Linguistic
Computing (ALLC) Annual Conference, 2004.
-
73.
PAIXÃO DE SOUSA, M. C. A Anotação da variação de grafia no Corpus
Histórico do Português Tycho Brahe: Frentes abertas para estudos do léxico. V
Encontro de Corpora: Lingüística de Corpus: a aplicabilidade nos estudos sobre
Léxico, São Carlos, 2005.
-
74.
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Mesa-redonda “Bibliotecas e bancos de
dados digitais de literatura”, II Simpósio Nacional de Literatura e Informática, Florianópolis,
2005.
Published in 2006 as:
PAIXÃO DE SOUSA, M. C. Memórias do Texto. Texto Digital (UERJ), v. 1, p. 10, 2006.
-
75.
PAIXÃO DE SOUSA, M. C. Critical Hipereditions and the new challenges for text-critique.
Seminário Internacional Literaturas: Del texto al hipertexto. Madri, Universidade
Complutense, setembro de 2006.
Published in 2007 as:
PAIXÃO DE SOUSA, M. C. Digital Text: Conceptual and methodological frontiers. In: Dolores
Romero; Amelia Sanz. (Org.). Literatures in the Digital Era: Theory and Praxis. Cambridge: Cambridge
Scholarly, 2007.
-
76.
http://www.ime.usp.br/~tycho/participants/psousa/memorias/critical_hyper/ece_Frameset.html
Electronic Editions and Tycho Brahe Text Preparation Manual
June 2006
-
77.
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
-
78.
TRIPPEL, T.; PAIXÃO DE SOUSA, M. C. Metadata and XML standards
at work: a corpus repository of Historical Portuguese texts. V International
Conference on Language Resources and Evaluation (LREC), 2006.
-
79.
I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
-
80.
I Oficina de Anotação – Projeto CorPorA.
Salvador, 19-21 de abril, 2006.
-
81.
2007
Lançamento
(Versão Beta 1.0 000)
-
82.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-dictor: uma
ferramenta integrada para a anotação de edição e classe de palavras.
VI Encontro de Lingüística de Corpus, São Paulo, 2007.
-
83.
Interface do eDictor 1.0 beta 01
-
84.
Interface do eDictor 1.0 beta 01
-
85.
2008-2014
Crescimento para novos usos
(Versões Beta 1.0 002 a 010)
-
86.
> Versão 1.0 Beta 10
3) edição de obras raras
digitalizadas
- Projeto Edições Filológicas na
Brasiliana Digital, 2009-2013
dictore
-
87.
Bibioteca Brasiliana Guita e José Mindlin, doada
à Universidade de São Paulo em 2006:
40.000 obras dos séculos XVI a XXI…
-
88.
im
ag
e
m
=
“digitalizado...”
-
89.
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E
REVERENDÍSSIMO SENHORD. F
RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o
primeiro dia defle prtzente Anno de
1747,havendo fidoſeis Annos Biſpo do B,
eyno de Angola, donde por no-miacaõ de
Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA
PELO DOUTORLÜIZ ANTONIO
ROSADODA CUNHA£ fm de Fora, e
Provedor dos defuntos, e au-Z$nte$ y
Capella*, c ReJĩdos do Rio de Janeiro. RIO
DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA,
Anno de M. CC. XLVII. Com licenças do
Senhor Bijfo,
OCR
“Optical
Character
Recognition”
texto
im
ag
e
m
-
90.
RELAÇAÕPA ENTRJDJ QUE FEZO
EXCELI, ENTlSSIMO, E REVERENDÍSSIMO
SENHORD. F RANTONIO DO DESTERRO
MALHEYROAiſpoào Rio de Janeiro, em o primeiro
dia defle prtzente Anno de 1747,havendo fidoſeis
Annos Biſpo do B, eyno de Angola, donde por no-
miacaõ de Sua Mageftade, e Bulla Pontificia, foy
promovidopara ella Diocefi. COMPOSTA PELO
DOUTORLÜIZ ANTONIO ROSADODA
CUNHA£ fm de Fora, e Provedor dos defuntos, e
au-Z$nte$ y Capella*, c ReJĩdos do Rio de Janeiro.
RIO DE JANEIRO tía Segunda Officina de
ANTONIO ISID. ORO DAĩONCECA, Anno de
M. CC. XLVII. Com licenças do Senhor Bijfo,?
-
91.
Relação da entrada que fez o excelentíssimo, e
reverendíssimo senhor Dom Frei Antonio do
Desterro Malheiro, Bispo do Rio de Janeiro,
em o primeiro dia deste presente Ano de 1747
havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua
Majestade, e Bula Pontifícia, foi promovido
para esta Diocese. Composta pelo doutor Luiz
Antonio Rosado da Cunha Juiz de Fora, e
Provedor dos defuntos, e ausentes, Capelas, e
Residos do Rio de Janeiro. Rio de Janeiro, Na
Segunda Oficina de Antonio Isidoro da
Fonseca, Ano de MCCXLVII. Com licenças
do Senhor Bispo.
!
-
92.
>
O Projeto Edições Filológicas na
Brasiliana Digital (2009-2013)
criou, com o eDictor, edições
corrigidas e modernizadas para
algumas obras do acervo, além de
um banco de dados de erros de
reconhecimento automático
(OCR).
-
93.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
-
94.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento
automático de textos antigos: Desafios e Experiências. Workshop de Linguística de Corpus
do Projeto Para a História do Português Brasileiro (PHPB), São Paulo, 2010.
-
95.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
-
96.
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
(Abbyy Finereader 10.0 training module)
-
97.
Apresentação Diplomática
-
98.
textoimagem
-
99.
Apresentação Modernizada
-
100.
Apresentação Modernizada
-
101.
RELAÇÃO/NPR DA/P+D-F ENTRADA/NPR QUE/WPRO FEZ/NPR O/D
EXCELENTÍSSIMO/NPR ,/, E/CONJ REVERENDÍSSIMO/NPR SENHOR/NPR
DOM/NPR FREI/NPR ANTONIO/NPR DO/P+D DESTERRO/NPR MALHEYRO/NPR
Bispo/NPR do/P+D Rio/NPR de/P Janeiro/NPR ,/, em/P o/D
primeiro/ADJ dia/N deste/P+D presente/ADJ-G Ano/NPR de/P
1747/NUM havendo/HV-G sido/SR-PP seis/NUM Anos/N-P Bispo/NPR
do/P+D Reino/NPR de/P Angola/NPR ,/, donde/P+WADV por/P
nomeação/N de/P Sua/PRO$-F Magestade/NPR ,/, e/CONJ Bula/NPR
Pontifícia/N ,/, foi/SR-D promovido/VB-AN para/P esta/D-F
Diocese/NPR ./. 06_Realacao,2.7/ID
COMPOSTA/NPR PELO/NPR DOUTOR/NPR LUIZ/NPR ANTONIO/NPR
ROSADO/NPR DA/P+D-F CUNHA/NPR Juíz/NPR de/P Fora/NPR ,/, e/CONJ
Provedor/NPR dos/P+D-P defuntos/ADJ-P ,/, e/CONJ ausentes/ADJ-
G-P ,/, Capelas/NPR-P ,/, e/CONJ Residos/NPR-P do/P+D Rio/NPR
de/P Janeiro/NPR ./. 06_Realacao,2.8/ID
RIO/NPR DE/P JANEIRO/ADJ 06_Realacao,2.9/ID
Na/P+D-F Segunda/ADJ-F Oficina/NPR de/P ANTONIO/NPR ISIDORO/NPR
DA/P+D-F FONCECA/NPR ./. 06_Realacao,2.10/ID
Ano/NPR de/P M./NPR CC./. XLVII./. 06_Realacao,2.11/ID
Com/P licenças/N-P do/P+D Senhor/NPR Bispo/NPR ./.
06_Realacao,2.12/ID
Texto
anotado:
P.O.S.
-
102.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
-
103.
<w id="s_6#86">
<o> amiſjade</o>
<e t="ocr">amiſſade</e>
<e t="gra">amissade</e>
<e t="mod">amizade </e>
<m v="N"/>
</w>
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros
experimentos na Brasiliana Digital . I Workshop de Linguística Computacional da USP,
2009.
-
104.
>
-
105.
Interface of eDictor in 2009 – Edition Module
-
106.
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
-
107.
em todo esse processo de
adaptação ao uso por novos
projetos foi que
“Edição” passou a ser
uma categoria aberta, que
pode ser configurada por cada
grupo.
> O mais importante…
-
108.
“Edição” passa a ser uma categoria aberta
-
109.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: VIII
Encontro de Linguística de Corpus, 2009, Rio de Janeiro. 2009.
-
110.
First Version of eDictor’s Manual (2010)
-
111.
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas
perspectivas na codificação e edição de corpora de textos históricos. In: Tania
Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto. (Org.). Caminhos da
linguística de corpus. Campinas: Mercado de Letras, 2010.
-
112.
116
Workshop:
Construction and use of large annotated corpora
Unicamp, Setembro de 2013
-
113.
Nova página, manual e interface do e-Dictor,
Setembro de 2013
-
114.
> Em resumo…
-
115.
desde 2007 foram lançadas
10 versões ('builds')
do eDictor 1.0 beta,
cada uma refletindo
modificações e
acrescentamentos
solicitados pelos novos
projetos que
adotaram a ferramenta.
Em resumo…
>
-
116.
2015
-
117.
2015
e agora?
-
118.
>
De onde veio?
Para onde vai?
O que é?
dictore
-
119.
>
Versão 1.0 Beta 10
Versão Web – em teste
edictore
-
120.
Versão Web – em teste
http://www.tycho.iel.unicamp.br/workflow/index.action
-
121.
125
Luiz Henrique Lima Veronesi:
e-Dictor: da plataforma para a nuvem.
Dissertação de Mestrado em Filologia e Língua Portuguesa, Uni
-
122.
Versão Web – em teste
-
123.
Versão Web – em teste
-
124.
> XML
Código-base do
eDictor Web
-
125.
> XML
Código-base do
eDictor Web
-
126.
> XML
Código-base do
eDictor Web
-
127.
>
-
128.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
129.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
130.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"/>
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
131.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
132.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
-
133.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
-
134.
XML - Código-base do eDictor Web
-
135.
XML - Código-base do eDictor Web
-
136.
XML - Código-base do eDictor Web
“considerar os tokens 69 a 73 como uma unidade"
-
137.
>
O que me importa?
Vantagens e
Problemas
da nova versão web
-
138.
Primeira vantagem
142
1. A primeira vantagem da nova
versão é “libertar” o código do
eDictor de sua dependência à
estrutura gráfica do texto.
-
139.
Problemas
143
(lembrando….)
1. Alta dependência do código à estrutura gráfica do
texto. As categorias básicas da marcação XML do
eDictor seguem uma hierarquia: seção >
parágrafo > sentença > palavra, que “prende” a
anotação à hierarquia do texto. Isso vem
impedindo que a anotação se expanda para a
anotação da estrutura sintática dos textos (que era
um importante objetivo inicial, até hoje frustrado).
da atual versão
-
140.
Primeira vantagem
144
1. A primeira vantagem da nova versão é “libertar” o
código do eDictor de sua dependência à estrutura
gráfica do texto.
Com o novo código, finalmente nos
aproximamos do objetivo de incluir a
anotação sintática entre as
tarefas que podem ser cumpridas no
interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
-
141.
Primeira vantagem
145
1. A primeira vantagem da nova versão é “libertar” o código
do eDictor de sua dependência à estrutura gráfica do texto.
Com o novo código, finalmente nos aproximamos do
objetivo de incluir a anotação sintática entre as
tarefas que podem ser cumpridas no interior da ferramenta.
Pois, nas palavras de Veronesi (2014:52),
“O texto passa a ser compreendido por
listas que se relacionam logicamente em
função da posição linear que os tokens
ocupam após o processo de tokenização”.
-
142.
Primeira vantagem
146
-
143.
Primeira vantagem
147
“Luiz Antonio Rosado da Cunha” <chunk/>
-
144.
Primeira vantagem
148
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
-
145.
Primeira vantagem
149
“Luiz Antonio Rosado da Cunha” <chunk/>
[Luiz Antonio Rosado da Cunha] Sintagma
-
146.
Primeira vantagem
150
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
-
147.
Primeira vantagem
151
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“Palavras”>
>
-
148.
Primeira vantagem
152
Ilustração do esquema de anotação sintática proposto em
Veronesi (2014):
Sintagmas
“X” >
>
-
149.
Primeira vantagem
153
Ilustração da interface para anotação sintática
(versão interna para testes, ainda não publicada)
-
150.
Primeira vantagem
154
Em resumo:
Anotação fundada na
estrutura gráfica
Anotação fundada em
-
151.
Segunda vantagem
155
-
152.
Segunda vantagem
156
2. A segunda vantagem da nova versão está
ligada a sua disponibilização em ambiente de
nuvem.
Em tese, uma ferramenta que não precisa ser
“baixada” por cada usuário permite que as
novas versões e melhoramentos sejam
imediatamente disponíveis para todos os
usuários, entre outras vantagens apontadas
por Veronesi 2014.
-
153.
Primeiro problema
157
-
154.
Primeiro problema
158
1. O primeiro problema está ligado à segunda
vantagem. Nem todos os usuários sentem-se
confortáveis com uma ferramenta que nunca
está disponível localmente - a dependência de
todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente,
passível de problemas e quedas, etc., não é
desejada pela maioria. Do outro lado, o
funcionamento “em nuvem” traz à equipe de
desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e
tornar disponível algo que forma a base das
pesquisas de muitos grupos. A solução desse
-
155.
Primeiro problema
159
1. O primeiro problema está ligado à segunda vantagem.
Nem todos os usuários sentem-se confortáveis com uma
ferramenta que nunca está disponível localmente - a
dependência de todo um projeto ao acesso a um servidor
remoto, muitas vezes em outro continente, passível de
problemas e quedas, etc., não é desejada pela maioria. Do
outro lado, o funcionamento “em nuvem” traz à equipe
de desenvolvedores da ferramenta uma grande
responsabilidade, pois precisam manter e tornar
disponível algo que forma a base das pesquisas de muitos
grupos. A solução, em princípio, não
parece complexa: seria possível
implementar uma ferramenta híbrida,
com versão em nuvem e local. Mas isso
-
156.
Segundo problema
160
-
157.
Segundo problema
161
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
-
158.
Segundo problema
162
1.O segundo problema está fortemente
ligado ao primeiro. Para que o
funcionamento “em nuvem” seja
garantido, é preciso haver uma equipe de
desenvolvedores dedicados; mesmo para
se fazer uma ferramenta híbrida, com
versão em nuvem e local, é necessário
termos uma equipe.
O fato, entretanto, é que o eDictor nunca
contou com uma equipe dedicada.
-
159.
Possível solução
163
-
160.
Possível solução
164
A meu ver há uma medida que pode solucionar todos os
problemas do eDictor.
Deveríamos abrir o código-fonte tanto da versão 1.0 como
da nova-versão web, enviá-lo a um portal de
desenvolvedores, transformando o eDictor em uma
ferramenta de construção colaborativa, por
meio do uso de plataformas do tipo CSD -
Collaborative Software Development Platforms.
Esta sempre foi, de fato, a vocação dessa ferramenta.
-
161.
Possível solução
165
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
-
162.
Possível solução
166
Desde o início, o eDictor foi construído em pequenas etapas,
por diferentes pesquisadores vindos de diferentes formações,
e com diferentes objetivos.
Como vimos, isso trouxe problemas para as diferentes versões.
Entretanto, é também daí que vem a força
da ferramenta.
A proposta, agora, seria assumir definitivamente a vocação
“múltipla” dessa forma de desenvolvimento, e lançar a
criança no mundo, esperando que ela construa agora seus
próprios caminhos.
-
163.
Desde o início, o eDictor foi construído em pequenas
etapas, por diferentes pesquisadores vindos de diferentes
formações, e com diferentes objetivos.
Como vimos agora, isso trouxe problemas para as
diferentes versões.
Entretanto, é também daí, a meu ver, que vem a força da
ferramenta.
A proposta, agora, seria assumir definitivamente essa
vocação “múltipla”, e digamos, “ bastarda” dessa forma de
desenvolvimento, e
-
164.
Obrigada!
-
165.
Maria Clara Paixão de Sousa
Universidade de São Paulo
mariaclara@usp.br
eDictor:
histórico e perspectivas
-
166.
PAIXÃO DE SOUSA, M. C. eDictor: a chronology. Apresentação na mesa redonda “eDictor: advances
and perspectives”. Workshop Construction and use
of large annotated corpora. Campinas, Unicamp, 09/09/2013. [Slides - Slideshare]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. E-Dictor: Novas perspectivas na codificação
e edição de corpora de textos históricos. In: Tania Shepherd; Tony Berber Sardinha; Marcia Veirano Pinto.
(Org.). Caminhos da linguística de corpus. Campinas: Mercado de Letras, 2010. [PDF]
FARIA, P. P. F.; PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. An Integrated Tool for Annotating
Historical Corpora. The Fourth Linguistic Annotation Workshop (LAW IV) at The 48th Annual Meeting
of the Association for Computational Linguistics (ALC 2010), Uppsala, 2010.
(Congresso). [PDF (poster)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. P. F. O Processamento automático de textos
antigos: Desafios e Experiências. Workshop de Linguística de Corpus do Projeto Para a História do
Português Brasileiro (PHPB), São Paulo, 2010. (Conferência). [PDF (slides)]
PAIXÃO DE SOUSA, M. C. Desafios do processamento de textos antigos: primeiros experimentos na Brasiliana
Digital. I Workshop de Linguística Computacional da USP, 2009. (Conferência). [PDF(slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. VIII Encontro de Linguística de Corpus, Rio de Janeiro, 2009.
(Comunicação).
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N.; FARIA, P. E-dictor: Novas perspectivas na codificação e
edição de corpora de textos históricos. In: VIII Encontro de Linguística de Corpus, 2009, Rio de Janeiro.
Resumos, 2009. [PDF (slides)]
PAIXÃO DE SOUSA, M. C.; KEPLER, F. N. E-Dictor: Uma ferramenta integrada para a anotação de edição
e classe de palavras. VI Encontro de Lingüística de Corpus, São Paulo, 2007. [abrir página]
-
167.
eDictor 1.0 Beta 10 – Módulo Transcrição
-
168.
> XML
-
169.
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
-
170.
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
-
171.
XML
te
n
d
e
d
ar
k
u
p
a
n
g
u
ag
e
e
>
-
172.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
173.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
174.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
175.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
176.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
-
177.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
-
178.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
179.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR" ... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
180.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"
... />
</t>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
181.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA"/>
-
182.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
-
183.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" mod="LUIZ"
pos="NPR"/>
<t pos="70" value="ANTONIO"/>
<t pos="71" value="ROSADO"/>
<t pos="72" value="DA" exp="d@" exp="a"/>
<t pos="73" value="CUNHA"/>
-
184.
XML - Código-base do eDictor Web
-
185.
XML - Código-base do eDictor Web
<t pos="66" value="COMPOSTA"/>
<t pos="67" value="PELO" />
<t pos="68" value="DOUTOR"/>
<t pos="69" value="LÜIZ" >
<attributes data-modernization="LUIZ"
part-of-speech="NPR"/></t>
<t pos="70" value="ANTONIO">
<attributes part-of-speech=“NPR"/></t>
<t pos="71" value="ROSADO">
<attributes part-of-speech=“NPR"/></t>
<t pos="72" value="DA" />
<t pos="73" value="CUNHA">
<attributes part-of-speech=“NPR”/></t>
-
186.
eDictor 1.0 Beta 10 – Módulo Transcrição
-
187.
eDictor 1.0 Beta 10 – Módulo Transcrição
-
188.
eDictor 1.0 Beta 10 – Módulo Edição
-
189.
eDictor 1.0 Beta 10 – Módulo Etiquetação
-
190.
eDictor 1.0 Beta 10 – Módulo Edição
-
191.
<page data-uid="1">
RELAÇÃO DA ENTRADA QUE FEZ O
EXCELENTÍSSIMO, E REVERENDÍSSIMO SENHOR
DOM FREI ANTONIO DO DESTERRO MALHEYRO
Bispo do Rio de Janeiro, em o primeiro dia deste presente
Ano de 1747 havendo sido seis Anos Bispo do Reino de
Angola, donde por nomeação de Sua Magestade, e Bula
Pontifícia, foi promovido para esta Diocese. COMPOSTA
PELO DOUTOR LUIZ ANTONIO ROSADO DA
CUNHA Juiz de Fora, e Provedor dos defuntos, e ausentes,
Capelas, e Residos do Rio de Janeiro. RIO DE JANEIRO Na
Segunda Oficina de ANTONIO ISIDORO DA FONCECA.
Ano de M. CC. XLVII. Com licenças do Senhor Bispo.
</page>
Versão Web – em teste
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
TECIDO! TECIDO! TECIDO!
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
https://www.dropbox.com/sh/pnxotfuab574owe/v0H5Eeux72/2010_PAIXAODESOUSA_KEPLER_FARIA_EDictor.pdf
The preliminary ideas that would result in the development of eDictor in 2007 started in 2004 with a project that aimed at restructuring the text-preparation system at the Tycho Brahe Corpus.
Essentially, the idea was that the Corpus would be constituted of single-source documents that could contain all relevant annotations (textual, philological, linguistic).
This was achieved in partnership with computer scientist Thorsten Trippel, from the University of Bielefeld.
He suggested we used the XML annotation language to re-encode the Corpus, and XSLT to transform each document into different presentations of the encoded information.
PAIXÃO DE SOUSA, M.C. Memórias do Texto: Aspectos tecnológicos na construção de um corpus histórico do português. Post-doc Research Project, 2004-2007. Unicamp/Fapesp.
Our central idea was to encapsulate edition interferences at the word level, i.e. for each token in the corpus – so that each element of the pair would be available to different modules of analysis.
This first idea was applied to a few pilot texts, and published as a poster at the annual conference of the ALLC in 2004
In 2005, the Corpus went through a complete re-encoding process.
The restructured Corpus was composed of XML documents that, via XSLT transformations, would render different (HTML and TXT) versions, adequate for different visualization and processing needs, as we had originally planned.
Along with the application of the new single-source system to the Corpus, new ideas started to pop up.
Some of them were carried on, some were not.
The main thing that we wanted to do back then and still have not done is...
... to integrate syntactic annotation into this same, single-source system..
Other ideas were a little more fruitful: the integration of other, less complex levels of linguistic annotation (such as items of lexicological interest); and the expansion of the system to include the possibility of critical editions, in which more than one version of the same text could be compared.
By 2006 the single-source encoding system was mature; a first manual was prepared and a more complete paper on these results was published.
Meanwhile...
... as the system was presented to a wider range of potential users outside Tycho Brahe, new challenges emerged.
The 1st annotation workshop outside the Tycho Brahe team, in 2006 in Salvador, was an important breakthrough.
It was then that we noticed that the original techniques used to annotate the XML documents (“by hand”, in E-Macs) and to transform them (by coding XSL into the system via Saxon) was not adequate for teams with a less computational, and more philological background.
After the workshop in 2006 it became clear that if we wanted more teams to use the single-source annotation system, we would have to build a software that could perform the annotation and transformation tasks in a user-friendly interface.
In other words... it was then that the idea of eDictor took shape.
eDictor beta 1.0 was developed in 2007 by Prof. Fabio N. Kepler (then a post-graduate student at IME-USP’s computer science program), and was first presented in the same year at the VI Encontro de Linguística de Corpus, at USP.
Plus... it included a morphosyntactic tagging function!
This first version of eDictor contained the core functions of the original text encoding system: an XML annotation module and the possibility of XSLT transformation exportation.
The second important aspect was that, while up to 2008 the main application of the single-source system (first manually and later with eDictor) was the restructuring of the Tycho Brahe Corpus, after 2008 the system started to be used beyond Tycho Brahe.
This was important because, as the different projects have different aims, the tool started to include new technical aspects.
>>> maior flexibilidade das categorias por causa de manuscritos e outros usos específicos: correção de OCR, marcação lexical.
For instance, in 2009 eDictor started to be used by the Brasiliana USP team.
One of the main particularities of this context was that eDictor was used as a corrector for automatic character recognition (OCR) – and new edition categories had to be created.
More importantly, researchers that used manuscript documents became interested in eDictor.
The special needs of this kind of material led to very important developments in the tool.
The first group of manuscript documents to be worked with the tool was the corpus of XIXth century letters from the PhD thesis of Zenaide Carneiro (2005) – now part of the corpus CEDOH.
The edition of this corpus in XML had been idealized at the time of the 2006 workshop in Salvador - and from the start, it brought to the development of eDictor the challenge of dealing with particular categories and edition needs of manuscripts.
One important example of developments brought by the needs of manuscript editors are the fac-simile view functionalities.
They were developed by Pablo Faria after eDictor started to be used by the team at CEDOH and by the team lead by Celia Lopes at LaborHistórico, at UFRJ.
Some of these developments were presented at the VIII Encontro de Linguística de Corpus in 2009 by Pablo Faria; this presentation would be published as a book chapter in 2010.
Two important publications were prepared during this period: a poster session at the ALC meeting of 2010, presented by P. Faria, and the chapter for the book “Caminhos da Linguística de Corpus”.
In these papers we tried to cover the backgound on eDictor’s creation, the new developments, and the challenges ahead.
The next development was….. escrever
eDictor 1.0 beta build 010 is the current version under use. The main differences in comparison to beta 001 are the additions related to fac-simile integration (in transcription module and in export functionalities) and some bug-fixing in the editions module.
But there are still bugs to be busted!
In the end of 2012, a new, web-based version of eDictor was idealized by Luiz Veronesi, and is currently under construction
http://www.tycho.iel.unicamp.br/redmine/projects/e-dictor/wiki
O primeiro problema está ligado à segunda vantagem. Nem todos os usuários sentem-se confortáveis com uma ferramenta que nunca está disponível localmente - a dependência de todo um projeto ao acesso a um servidor remoto, muitas vezes em outro continente, passível de problemas e quedas, etc., não é desejada pela maioria. Do outro lado, o funcionamento “em nuvem” traz à equipe de desenvolvedores da ferramenta uma grande responsabilidade, pois precisam manter e tornar disponível algo que forma a base das pesquisas de muitos grupos. A solução desse problema, em princípio, não parece complexa: seria possível implementar uma ferramenta híbrida, com versão em nuvem e local. Mas isso nos leva ao segundo problema.
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor
Humanidades Digitais e o Editor de Textos E-Dictor