• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Making the most of a 100-year-old dictionary
 

Making the most of a 100-year-old dictionary

on

  • 391 views

A presentation about Dicionário-Aberto, the project, current status, and applications.

A presentation about Dicionário-Aberto, the project, current status, and applications.

Statistics

Views

Total Views
391
Views on SlideShare
386
Embed Views
5

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 5

https://twitter.com 5

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  • Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  • Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  • Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  • Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  • Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  • Exemplo de pesquisa reversa com terminado por (sufixo)
  • Caso real ! (um pouco adaptado, para não dar nas vistas)
  • Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)

Making the most of a 100-year-old dictionary Making the most of a 100-year-old dictionary Presentation Transcript

  • Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte
  • http://dicionario-aberto.net Tarefa 1: Criar utilizador no Dicionário-Aberto. 1. Aceder ao sítio do dicionário; 2. Usar ligação “entrar/registar”; 3. Preencher formulário “registar”; 4. Visitar caixa do correio, e esperar pelo e-mail de registo; 5. Confirmar registo no sítio do dicionário; 6. Entrar no sítio do dicionário com o utilizador criado.
  • Parte I História do Dicionário Aberto
  • Não existência de um “dicionário livre de língua”, da língua Portuguesa para PLN: Disponível para acesso local; Disponível em formato electrónico; Disponível em formato legível por computador; Motivação
  • Inexistência de mão de obra para a criação de um dicionário de raiz; Inexistência de editoras interessadas em disponibilizar versões livres dos seus dicionários; Existência de dicionários com mais de 90 anos, no domínio público… em formato papel! Problemas
  • Desafiar equipa portuguesa dos Distributed Proofreaders do Projecto Gutenberg para transcrever um destes dicionários; Dicionário escolhido: Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo (1913) Razão: digitalizado (imagens) pela Biblioteca Nacional. Desafio
  • Processo demorado, por etapas, por voluntários; Obrigado, Manuela! Revisto por mais voluntários; Obrigado, Rita! Processo com mais de quatro anos! Transcrição
  • Transcrição num dialecto tipo Wiki; Adição diária de 100/200 palavras, desde início de 2007; Sítio on-line a partir de Junho de 2007! Palavras adicionadas disponíveis no dia seguinte! Incorporação terminada a 2 de Março de 2010! Incorporação
  • Estatísticas
  • Estatísticas
  • Formato usado simples para ser aprendido e usado pelos voluntários; Formato demasiado vago e ambíguo; Transformação num formato XML rico; Subconjunto do TEI para dicionários; De forma completamente automática!! Estruturação
  • Dicionário com grafia de 1913! Modernização da grafia de forma semi-automática: 1. Construção de regras de conversão; 2. Validação manual! 3. Voluntários responsáveis, precisam-se.! Modernização
  • Modernização
  • Disponível em PDF e Base de Dados SQL; Disponível como motor de pesquisa para Firefox; Disponível em ePub; Disponível em StarDict; Disponível em API RESTless: Aplicação para iOS disponível; Aplicação para Android e Win8 em desenvolvimento. Outras Funcionalidades
  • Parte II Interface Geral
  • Pesquisa Simples
  • Sugestões “léxicas”
  • Folhear o Dicionário
  • Palavra aleatória
  • Palavras “Favoritas”
  • Histórico Ortográfico
  • Parte III Pesquisa Avançada
  • Pesquisa por afixos; Ocorrências nas definições; Relações léxico-conceptuais entre termos introduzidos; Resultados ordenados por relevância. Pesquisa Avançada
  • Pesquisa por “prefixo”
  • Pesquisa por “sufixo”
  • Pesquisa de “infixos”
  • base de dados conceptuais / dicionário onomasiológico / dicionário de produção ou codificador (mais do que um thesaurus, que ordena palavras por sinónimos, hiperónimos ou outras relações léxico-conceptuais) Pesquisa Reversa
  • dicionário codificador: endurecer + metal ⇒ temperar Pesquisa Reversa
  • Criação de uma ontologia de forma automática usando padrões (Hearst 1992) Pesquisa Ontológica
  • Pesquisa Ontológica Completação da Ontologia por regras matemáticas Permite que se use informação incompleta: Verbete A indica sinonímia com B. Verbete B não faz qualquer referência a A…
  • Estrutura Ontológica
  • Pesquisa Ontológica
  • Parte IV Exercícios
  • Palavras Cruzadas: _ _ _ _ _ _ _ F E U (Vértebra; 10 letras) E P I _ _ _ _ _ _ _ (Vértebra; 10 letras) Procura por Afixos
  • Dicionário de Rimas (gráficas) Que palavras rimam com “camafeu”? Pesquisa por Afixos
  • Estudo de Morfologia (produtividade de afixos): Todos os adjectivos em -vel (como amável) podem formar advérbios em -velmente (amavelmente)? Pesquisa por Afixos
  • Estudo de Morfologia (produtividade de afixos): Um professor de Língua Portuguesa disse aos alunos que o sufíxo "-ería" em Espanhol, é sempre "-aria" em Português. cafeteríaES = cafetariaPT É verdade? Pesquisa por Afixos
  • Dicionários Ideológicos/Onomasiológicos: O que acontece à “água” com o “frio”? Quem é o “médico” dos “olhos”? Que palavras derivam do prefixo grego “orthos”? Pesquisa Reversa
  • Procurar “sargaço”. O que difere da pesquisa reversa? Pesquisa Ontológica
  • Procurar “pirilampo” na pesquisa reversa, e na pesquisa ontológica. Quais são as diferenças? Pesquisa Ontológica
  • Que variedades de oliveiras (ou “espécie de oliveiras”) há? Uso da pesquisa reversa Uso da pesquisa ontológica Pesquisa Ontológica
  • Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte