Successfully reported this slideshow.
Your SlideShare is downloading. ×

Making the most of a 100-year-old dictionary

Ad

Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte

Ad

http://dicionario-aberto.net
Tarefa 1: Criar utilizador no Dicionário-Aberto.
1. Aceder ao sítio do dicionário;
2. Usar li...

Ad

Parte I
História do Dicionário Aberto

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 42 Ad
1 of 42 Ad
Advertisement

More Related Content

Advertisement

Making the most of a 100-year-old dictionary

  1. 1. Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte
  2. 2. http://dicionario-aberto.net Tarefa 1: Criar utilizador no Dicionário-Aberto. 1. Aceder ao sítio do dicionário; 2. Usar ligação “entrar/registar”; 3. Preencher formulário “registar”; 4. Visitar caixa do correio, e esperar pelo e-mail de registo; 5. Confirmar registo no sítio do dicionário; 6. Entrar no sítio do dicionário com o utilizador criado.
  3. 3. Parte I História do Dicionário Aberto
  4. 4. Não existência de um “dicionário livre de língua”, da língua Portuguesa para PLN: Disponível para acesso local; Disponível em formato electrónico; Disponível em formato legível por computador; Motivação
  5. 5. Inexistência de mão de obra para a criação de um dicionário de raiz; Inexistência de editoras interessadas em disponibilizar versões livres dos seus dicionários; Existência de dicionários com mais de 90 anos, no domínio público… em formato papel! Problemas
  6. 6. Desafiar equipa portuguesa dos Distributed Proofreaders do Projecto Gutenberg para transcrever um destes dicionários; Dicionário escolhido: Novo Diccionário da Língua Portuguesa de Cândido de Figueiredo (1913) Razão: digitalizado (imagens) pela Biblioteca Nacional. Desafio
  7. 7. Processo demorado, por etapas, por voluntários; Obrigado, Manuela! Revisto por mais voluntários; Obrigado, Rita! Processo com mais de quatro anos! Transcrição
  8. 8. Transcrição num dialecto tipo Wiki; Adição diária de 100/200 palavras, desde início de 2007; Sítio on-line a partir de Junho de 2007! Palavras adicionadas disponíveis no dia seguinte! Incorporação terminada a 2 de Março de 2010! Incorporação
  9. 9. Estatísticas
  10. 10. Estatísticas
  11. 11. Formato usado simples para ser aprendido e usado pelos voluntários; Formato demasiado vago e ambíguo; Transformação num formato XML rico; Subconjunto do TEI para dicionários; De forma completamente automática!! Estruturação
  12. 12. Dicionário com grafia de 1913! Modernização da grafia de forma semi-automática: 1. Construção de regras de conversão; 2. Validação manual! 3. Voluntários responsáveis, precisam-se.! Modernização
  13. 13. Modernização
  14. 14. Disponível em PDF e Base de Dados SQL; Disponível como motor de pesquisa para Firefox; Disponível em ePub; Disponível em StarDict; Disponível em API RESTless: Aplicação para iOS disponível; Aplicação para Android e Win8 em desenvolvimento. Outras Funcionalidades
  15. 15. Parte II Interface Geral
  16. 16. Pesquisa Simples
  17. 17. Sugestões “léxicas”
  18. 18. Folhear o Dicionário
  19. 19. Palavra aleatória
  20. 20. Palavras “Favoritas”
  21. 21. Histórico Ortográfico
  22. 22. Parte III Pesquisa Avançada
  23. 23. Pesquisa por afixos; Ocorrências nas definições; Relações léxico-conceptuais entre termos introduzidos; Resultados ordenados por relevância. Pesquisa Avançada
  24. 24. Pesquisa por “prefixo”
  25. 25. Pesquisa por “sufixo”
  26. 26. Pesquisa de “infixos”
  27. 27. base de dados conceptuais / dicionário onomasiológico / dicionário de produção ou codificador (mais do que um thesaurus, que ordena palavras por sinónimos, hiperónimos ou outras relações léxico-conceptuais) Pesquisa Reversa
  28. 28. dicionário codificador: endurecer + metal ⇒ temperar Pesquisa Reversa
  29. 29. Criação de uma ontologia de forma automática usando padrões (Hearst 1992) Pesquisa Ontológica
  30. 30. Pesquisa Ontológica Completação da Ontologia por regras matemáticas Permite que se use informação incompleta: Verbete A indica sinonímia com B. Verbete B não faz qualquer referência a A…
  31. 31. Estrutura Ontológica
  32. 32. Pesquisa Ontológica
  33. 33. Parte IV Exercícios
  34. 34. Palavras Cruzadas: _ _ _ _ _ _ _ F E U (Vértebra; 10 letras) E P I _ _ _ _ _ _ _ (Vértebra; 10 letras) Procura por Afixos
  35. 35. Dicionário de Rimas (gráficas) Que palavras rimam com “camafeu”? Pesquisa por Afixos
  36. 36. Estudo de Morfologia (produtividade de afixos): Todos os adjectivos em -vel (como amável) podem formar advérbios em -velmente (amavelmente)? Pesquisa por Afixos
  37. 37. Estudo de Morfologia (produtividade de afixos): Um professor de Língua Portuguesa disse aos alunos que o sufíxo "-ería" em Espanhol, é sempre "-aria" em Português. cafeteríaES = cafetariaPT É verdade? Pesquisa por Afixos
  38. 38. Dicionários Ideológicos/Onomasiológicos: O que acontece à “água” com o “frio”? Quem é o “médico” dos “olhos”? Que palavras derivam do prefixo grego “orthos”? Pesquisa Reversa
  39. 39. Procurar “sargaço”. O que difere da pesquisa reversa? Pesquisa Ontológica
  40. 40. Procurar “pirilampo” na pesquisa reversa, e na pesquisa ontológica. Quais são as diferenças? Pesquisa Ontológica
  41. 41. Que variedades de oliveiras (ou “espécie de oliveiras”) há? Uso da pesquisa reversa Uso da pesquisa ontológica Pesquisa Ontológica
  42. 42. Making the most of a 100-year-old dictionary Alberto Simões, Álvaro Iriarte

Editor's Notes

  • transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  • Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  • Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  • Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  • Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  • Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  • Exemplo de pesquisa reversa com terminado por (sufixo)
  • Caso real ! (um pouco adaptado, para não dar nas vistas)
  • Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)

×