Making the most of a 100-year-old dictionary

Alberto Simões
Alberto SimõesTeacher, programmer at University of Minho
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
http://dicionario-aberto.net
Tarefa 1: Criar utilizador no Dicionário-Aberto.
1. Aceder ao sítio do dicionário;
2. Usar ligação “entrar/registar”;
3. Preencher formulário “registar”;
4. Visitar caixa do correio, e esperar pelo e-mail de registo;
5. Confirmar registo no sítio do dicionário;
6. Entrar no sítio do dicionário com o utilizador criado.
Parte I
História do Dicionário Aberto
Não existência de um “dicionário livre de língua”, da
língua Portuguesa para PLN:
Disponível para acesso local;
Disponível em formato electrónico;
Disponível em formato legível por computador;
Motivação
Inexistência de mão de obra para a criação de um
dicionário de raiz;
Inexistência de editoras interessadas em
disponibilizar versões livres dos seus dicionários;
Existência de dicionários com mais de 90 anos, no
domínio público… em formato papel!
Problemas
Desafiar equipa portuguesa dos Distributed
Proofreaders do Projecto Gutenberg para transcrever
um destes dicionários;
Dicionário escolhido: Novo Diccionário da Língua
Portuguesa de Cândido de Figueiredo (1913)
Razão: digitalizado (imagens) pela Biblioteca Nacional.
Desafio
Processo demorado, por etapas, por voluntários;
Obrigado, Manuela!
Revisto por mais voluntários;
Obrigado, Rita!
Processo com mais de quatro anos!
Transcrição
Transcrição num dialecto tipo Wiki;
Adição diária de 100/200 palavras, desde início de 2007;
Sítio on-line a partir de Junho de 2007!
Palavras adicionadas disponíveis no dia seguinte!
Incorporação terminada a 2 de Março de 2010!
Incorporação
Estatísticas
Estatísticas
Formato usado simples para ser aprendido e usado
pelos voluntários;
Formato demasiado vago e ambíguo;
Transformação num formato XML rico;
Subconjunto do TEI para dicionários;
De forma completamente automática!!
Estruturação
Dicionário com grafia de 1913!
Modernização da grafia de forma semi-automática:
1. Construção de regras de conversão;
2. Validação manual!
3. Voluntários responsáveis, precisam-se.!
Modernização
Modernização
Disponível em PDF e Base de Dados SQL;
Disponível como motor de pesquisa para Firefox;
Disponível em ePub;
Disponível em StarDict;
Disponível em API RESTless:
Aplicação para iOS disponível;
Aplicação para Android e Win8 em desenvolvimento.
Outras Funcionalidades
Parte II
Interface Geral
Pesquisa Simples
Sugestões “léxicas”
Folhear o Dicionário
Palavra aleatória
Palavras “Favoritas”
Histórico Ortográfico
Parte III
Pesquisa Avançada
Pesquisa por afixos;
Ocorrências nas definições;
Relações léxico-conceptuais entre termos
introduzidos;
Resultados ordenados por relevância.
Pesquisa Avançada
Pesquisa por “prefixo”
Pesquisa por “sufixo”
Pesquisa de “infixos”
base de dados conceptuais / dicionário onomasiológico / dicionário de
produção ou codificador
(mais do que um thesaurus, que ordena palavras por sinónimos,
hiperónimos ou outras relações léxico-conceptuais)
Pesquisa Reversa
dicionário codificador:
endurecer + metal ⇒ temperar
Pesquisa Reversa
Criação de uma ontologia de forma automática
usando padrões (Hearst 1992)
Pesquisa Ontológica
Pesquisa Ontológica
Completação da Ontologia por regras matemáticas
Permite que se use informação incompleta:
Verbete A indica sinonímia com B.
Verbete B não faz qualquer referência a A…
Estrutura Ontológica
Pesquisa Ontológica
Parte IV
Exercícios
Palavras Cruzadas:
_ _ _ _ _ _ _ F E U (Vértebra; 10 letras)
E P I _ _ _ _ _ _ _ (Vértebra; 10 letras)
Procura por Afixos
Dicionário de Rimas (gráficas)
Que palavras rimam com “camafeu”?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Todos os adjectivos em -vel (como amável) podem
formar advérbios em -velmente (amavelmente)?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Um professor de Língua Portuguesa disse aos alunos que o
sufíxo "-ería" em Espanhol, é sempre "-aria" em Português.
cafeteríaES = cafetariaPT
É verdade?
Pesquisa por Afixos
Dicionários Ideológicos/Onomasiológicos:
O que acontece à “água” com o “frio”?
Quem é o “médico” dos “olhos”?
Que palavras derivam do prefixo grego “orthos”?
Pesquisa Reversa
Procurar “sargaço”.
O que difere da pesquisa reversa?
Pesquisa Ontológica
Procurar “pirilampo” na pesquisa reversa, e na
pesquisa ontológica.
Quais são as diferenças?
Pesquisa Ontológica
Que variedades de oliveiras (ou “espécie de
oliveiras”) há?
Uso da pesquisa reversa
Uso da pesquisa ontológica
Pesquisa Ontológica
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
1 of 42

Recommended

The student guide to writing better sentences in the english classroom sample by
The student guide to writing better sentences in the english classroom sampleThe student guide to writing better sentences in the english classroom sample
The student guide to writing better sentences in the english classroom samplejpinnuck
8.2K views98 slides
Dictionaries by
DictionariesDictionaries
DictionariesJohan Koren
2.8K views28 slides
LEXICOGRAPHY by
LEXICOGRAPHY LEXICOGRAPHY
LEXICOGRAPHY mimisy
8.8K views18 slides
Slang by
SlangSlang
SlangAlan Bessette
25.1K views24 slides
English picture dictionary book in PDF free for beginners children and adults by
English picture dictionary book in PDF free for beginners children and adults English picture dictionary book in PDF free for beginners children and adults
English picture dictionary book in PDF free for beginners children and adults learningenglishvocabularygrammar.com
6.4K views47 slides
Technical English by
Technical EnglishTechnical English
Technical EnglishJuan Carlos Santamaría
10.5K views19 slides

More Related Content

Similar to Making the most of a 100-year-old dictionary

DicionáRio by
DicionáRioDicionáRio
DicionáRioesteribeiroc
455 views10 slides
Apresentação Dicionário 22 by
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22esteribeiroc
632 views10 slides
Crop10 abdu by
Crop10 abduCrop10 abdu
Crop10 abducaculocaculo
293 views30 slides
Webofscience2011 by
Webofscience2011Webofscience2011
Webofscience2011Juliana Takahashi
826 views47 slides
Glossário APDSI para a Sociedade da Informação v2007 by
Glossário APDSI para a Sociedade da Informação v2007Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007Luis Borges Gouveia
2.2K views160 slides
Obras de referência by
Obras de referênciaObras de referência
Obras de referênciafbritol10
5.1K views18 slides

Similar to Making the most of a 100-year-old dictionary(8)

Apresentação Dicionário 22 by esteribeiroc
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
esteribeiroc632 views
Glossário APDSI para a Sociedade da Informação v2007 by Luis Borges Gouveia
Glossário APDSI para a Sociedade da Informação v2007Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007
Luis Borges Gouveia2.2K views
Obras de referência by fbritol10
Obras de referênciaObras de referência
Obras de referência
fbritol105.1K views
Referências bibliográficas outubro 2021 by Licinio Borges
Referências bibliográficas   outubro 2021Referências bibliográficas   outubro 2021
Referências bibliográficas outubro 2021
Licinio Borges1.2K views

More from Alberto Simões

Source Code Quality by
Source Code QualitySource Code Quality
Source Code QualityAlberto Simões
1.6K views61 slides
Language Identification: A neural network approach by
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approachAlberto Simões
2.2K views40 slides
Google Maps JS API by
Google Maps JS APIGoogle Maps JS API
Google Maps JS APIAlberto Simões
2.5K views55 slides
Dictionary Alignment by Rewrite-based Entry Translation by
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationAlberto Simões
903 views23 slides
EMLex-A5: Specialized Dictionaries by
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesAlberto Simões
2.9K views150 slides
Modelação de Dados by
Modelação de DadosModelação de Dados
Modelação de DadosAlberto Simões
5.8K views61 slides

More from Alberto Simões(20)

Language Identification: A neural network approach by Alberto Simões
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
Alberto Simões2.2K views
Dictionary Alignment by Rewrite-based Entry Translation by Alberto Simões
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
Alberto Simões903 views
EMLex-A5: Specialized Dictionaries by Alberto Simões
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
Alberto Simões2.9K views
Aula 04 - Introdução aos Diagramas de Sequência by Alberto Simões
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
Alberto Simões1.2K views
Aula 03 - Introdução aos Diagramas de Atividade by Alberto Simões
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
Alberto Simões3.8K views
Aula 02 - Engenharia de Requisitos by Alberto Simões
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
Alberto Simões1.6K views
Aula 01 - Planeamento de Sistemas de Informação by Alberto Simões
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
Alberto Simões4.4K views
Building C and C++ libraries with Perl by Alberto Simões
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
Alberto Simões1.6K views
Processing XML: a rewriting system approach by Alberto Simões
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
Alberto Simões854 views
Arquitecturas de Tradução Automática by Alberto Simões
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
Alberto Simões751 views
Extracção de Recursos para Tradução Automática by Alberto Simões
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
Alberto Simões677 views

Recently uploaded

DA - Unidade 15- DES. DE ESTRUTURAS DE CONCRETO ARMADO.pptx by
DA - Unidade 15- DES. DE ESTRUTURAS DE CONCRETO ARMADO.pptxDA - Unidade 15- DES. DE ESTRUTURAS DE CONCRETO ARMADO.pptx
DA - Unidade 15- DES. DE ESTRUTURAS DE CONCRETO ARMADO.pptxUniversidade Federal do Rio Grande - FURG
13 views34 slides
Tutorial_scopus.pdf by
Tutorial_scopus.pdfTutorial_scopus.pdf
Tutorial_scopus.pdfgabrieladoroteu093
12 views14 slides
a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car... by
a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...
a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...HelpEducacional
61 views3 slides
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold... by
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...azulassessoriaacadem3
15 views3 slides
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm. by
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.azulassessoriaacadem3
34 views2 slides
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des... by
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...azulassessoriaacadem3
18 views3 slides

Recently uploaded(20)

a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car... by HelpEducacional
a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...
a) Explique como ocorre a circulação do sangue dentro do coração (câmaras car...
HelpEducacional61 views
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold... by azulassessoriaacadem3
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...
5) Anexo do folder e da foto de distribuição do folder: Após elaborado o fold...
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm. by azulassessoriaacadem3
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.
b) Estime, com base no modelo obtido em (A), a massa de uma mulher de 160 cm.
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des... by azulassessoriaacadem3
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...
Você foi convidado a ser o Nutricionista integrante de uma equipe que vai des...
Slides Lição 11, Betel, O Verdadeiro Discípulo é uma referência no serviço cr... by LuizHenriquedeAlmeid6
Slides Lição 11, Betel, O Verdadeiro Discípulo é uma referência no serviço cr...Slides Lição 11, Betel, O Verdadeiro Discípulo é uma referência no serviço cr...
Slides Lição 11, Betel, O Verdadeiro Discípulo é uma referência no serviço cr...
2 - Você estudou as principais teorias pedagógicas para prática de educação. ... by azulassessoriaacadem3
2 - Você estudou as principais teorias pedagógicas para prática de educação. ...2 - Você estudou as principais teorias pedagógicas para prática de educação. ...
2 - Você estudou as principais teorias pedagógicas para prática de educação. ...
4. No vídeo “Cadela aprende libras para entender comando dos donos” foi apres... by IntegrareAcademy2
4. No vídeo “Cadela aprende libras para entender comando dos donos” foi apres...4. No vídeo “Cadela aprende libras para entender comando dos donos” foi apres...
4. No vídeo “Cadela aprende libras para entender comando dos donos” foi apres...
A Ciência Contábil desempenha um papel fundamental no mundo dos negócios, for... by HelpEducacional
A Ciência Contábil desempenha um papel fundamental no mundo dos negócios, for...A Ciência Contábil desempenha um papel fundamental no mundo dos negócios, for...
A Ciência Contábil desempenha um papel fundamental no mundo dos negócios, for...
HelpEducacional21 views
4- Escrever na tela os setores que alcançaram a meta. by AzulAssessoria5
4- Escrever na tela os setores que alcançaram a meta.4- Escrever na tela os setores que alcançaram a meta.
4- Escrever na tela os setores que alcançaram a meta.
AzulAssessoria511 views
Etapa 4: - Após definir a via de acesso da sonda, o enfermeiro participa dire... by azulassessoriaacadem3
Etapa 4: - Após definir a via de acesso da sonda, o enfermeiro participa dire...Etapa 4: - Após definir a via de acesso da sonda, o enfermeiro participa dire...
Etapa 4: - Após definir a via de acesso da sonda, o enfermeiro participa dire...
Com seu entendimento sobre os processos, faça como Capote sugeriu, e descreva... by azulassessoriaacadem3
Com seu entendimento sobre os processos, faça como Capote sugeriu, e descreva...Com seu entendimento sobre os processos, faça como Capote sugeriu, e descreva...
Com seu entendimento sobre os processos, faça como Capote sugeriu, e descreva...
ATIVIDADE 1 - SSOC - FUNDAMENTOS TEÓRICO-FILOSÓFICOS DO SERVIÇO SOCIAL - 54/2... by assessoriaff06
ATIVIDADE 1 - SSOC - FUNDAMENTOS TEÓRICO-FILOSÓFICOS DO SERVIÇO SOCIAL - 54/2...ATIVIDADE 1 - SSOC - FUNDAMENTOS TEÓRICO-FILOSÓFICOS DO SERVIÇO SOCIAL - 54/2...
ATIVIDADE 1 - SSOC - FUNDAMENTOS TEÓRICO-FILOSÓFICOS DO SERVIÇO SOCIAL - 54/2...
assessoriaff0611 views
Comunicação e Relações Interpessoais.ppt by IvoPereira42
Comunicação e Relações Interpessoais.pptComunicação e Relações Interpessoais.ppt
Comunicação e Relações Interpessoais.ppt
IvoPereira42125 views
Slides Lição 11, Central Gospel, Restaurem a Mesa da Família.pptx by LuizHenriquedeAlmeid6
Slides Lição 11, Central Gospel, Restaurem a Mesa da Família.pptxSlides Lição 11, Central Gospel, Restaurem a Mesa da Família.pptx
Slides Lição 11, Central Gospel, Restaurem a Mesa da Família.pptx
- Qual é a relação entre planejamento e dimensão investigativa no trabalho do... by IntegrareAcademy2
- Qual é a relação entre planejamento e dimensão investigativa no trabalho do...- Qual é a relação entre planejamento e dimensão investigativa no trabalho do...
- Qual é a relação entre planejamento e dimensão investigativa no trabalho do...
ATIVIDADE 1 - RH - PSICOLOGIA ORGANIZACIONAL - 54/2023 by IntegrareAcademy2
ATIVIDADE 1 - RH - PSICOLOGIA ORGANIZACIONAL - 54/2023ATIVIDADE 1 - RH - PSICOLOGIA ORGANIZACIONAL - 54/2023
ATIVIDADE 1 - RH - PSICOLOGIA ORGANIZACIONAL - 54/2023

Making the most of a 100-year-old dictionary

Editor's Notes

  1. transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  2. Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  3. Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  4. Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  5. Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  6. Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  7. Exemplo de pesquisa reversa com terminado por (sufixo)
  8. Caso real ! (um pouco adaptado, para não dar nas vistas)
  9. Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)