1. Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
2. http://dicionario-aberto.net
Tarefa 1: Criar utilizador no Dicionário-Aberto.
1. Aceder ao sítio do dicionário;
2. Usar ligação “entrar/registar”;
3. Preencher formulário “registar”;
4. Visitar caixa do correio, e esperar pelo e-mail de registo;
5. Confirmar registo no sítio do dicionário;
6. Entrar no sítio do dicionário com o utilizador criado.
4. Não existência de um “dicionário livre de língua”, da
língua Portuguesa para PLN:
Disponível para acesso local;
Disponível em formato electrónico;
Disponível em formato legível por computador;
Motivação
5. Inexistência de mão de obra para a criação de um
dicionário de raiz;
Inexistência de editoras interessadas em
disponibilizar versões livres dos seus dicionários;
Existência de dicionários com mais de 90 anos, no
domínio público… em formato papel!
Problemas
6. Desafiar equipa portuguesa dos Distributed
Proofreaders do Projecto Gutenberg para transcrever
um destes dicionários;
Dicionário escolhido: Novo Diccionário da Língua
Portuguesa de Cândido de Figueiredo (1913)
Razão: digitalizado (imagens) pela Biblioteca Nacional.
Desafio
7. Processo demorado, por etapas, por voluntários;
Obrigado, Manuela!
Revisto por mais voluntários;
Obrigado, Rita!
Processo com mais de quatro anos!
Transcrição
8. Transcrição num dialecto tipo Wiki;
Adição diária de 100/200 palavras, desde início de 2007;
Sítio on-line a partir de Junho de 2007!
Palavras adicionadas disponíveis no dia seguinte!
Incorporação terminada a 2 de Março de 2010!
Incorporação
11. Formato usado simples para ser aprendido e usado
pelos voluntários;
Formato demasiado vago e ambíguo;
Transformação num formato XML rico;
Subconjunto do TEI para dicionários;
De forma completamente automática!!
Estruturação
12. Dicionário com grafia de 1913!
Modernização da grafia de forma semi-automática:
1. Construção de regras de conversão;
2. Validação manual!
3. Voluntários responsáveis, precisam-se.!
Modernização
14. Disponível em PDF e Base de Dados SQL;
Disponível como motor de pesquisa para Firefox;
Disponível em ePub;
Disponível em StarDict;
Disponível em API RESTless:
Aplicação para iOS disponível;
Aplicação para Android e Win8 em desenvolvimento.
Outras Funcionalidades
23. Pesquisa por afixos;
Ocorrências nas definições;
Relações léxico-conceptuais entre termos
introduzidos;
Resultados ordenados por relevância.
Pesquisa Avançada
27. base de dados conceptuais / dicionário onomasiológico / dicionário de
produção ou codificador
(mais do que um thesaurus, que ordena palavras por sinónimos,
hiperónimos ou outras relações léxico-conceptuais)
Pesquisa Reversa
29. Criação de uma ontologia de forma automática
usando padrões (Hearst 1992)
Pesquisa Ontológica
30. Pesquisa Ontológica
Completação da Ontologia por regras matemáticas
Permite que se use informação incompleta:
Verbete A indica sinonímia com B.
Verbete B não faz qualquer referência a A…
34. Palavras Cruzadas:
_ _ _ _ _ _ _ F E U (Vértebra; 10 letras)
E P I _ _ _ _ _ _ _ (Vértebra; 10 letras)
Procura por Afixos
35. Dicionário de Rimas (gráficas)
Que palavras rimam com “camafeu”?
Pesquisa por Afixos
36. Estudo de Morfologia (produtividade de afixos):
Todos os adjectivos em -vel (como amável) podem
formar advérbios em -velmente (amavelmente)?
Pesquisa por Afixos
37. Estudo de Morfologia (produtividade de afixos):
Um professor de Língua Portuguesa disse aos alunos que o
sufíxo "-ería" em Espanhol, é sempre "-aria" em Português.
cafeteríaES = cafetariaPT
É verdade?
Pesquisa por Afixos
40. Procurar “pirilampo” na pesquisa reversa, e na
pesquisa ontológica.
Quais são as diferenças?
Pesquisa Ontológica
41. Que variedades de oliveiras (ou “espécie de
oliveiras”) há?
Uso da pesquisa reversa
Uso da pesquisa ontológica
Pesquisa Ontológica
42. Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
Editor's Notes
transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo: HIPER que tem por tipo [ao]s? ([^;:.,]+) HIPER a que pertencem? [oa]s? ([^;:.,]+) HIPER a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
Exemplo de pesquisa reversa com terminado por (sufixo)
Caso real ! (um pouco adaptado, para não dar nas vistas)
Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)