Comparação e Mapeamento de Similaridade entre Estruturas Ontológicas (EOs) Marcirio Silveira Chaves Candidato a mestre Ver...
ROTEIRO <ul><li>Contexto </li></ul><ul><li>Questão de pesquisa </li></ul><ul><li>Objetivos </li></ul><ul><li>Enfoque Inici...
CONTEXTO <ul><li>Estruturas Ontológicas e Ontologias </li></ul><ul><li>Reuso do conhecimento </li></ul><ul><ul><li>Web  Se...
QUESTÃO DE PESQUISA <ul><li>Como mapear conceitos similares entre estruturas ontológicas diferentes? </li></ul><ul><li>Hip...
OBJETIVOS <ul><li>Aplicar a medida de similaridade “Combinação de Caracteres” a EOs da língua inglesa e portuguesa, e aval...
ENFOQUE INICIAL DO ESTUDO <ul><li>EOs da língua inglesa </li></ul><ul><ul><li>- Nível Lexical </li></ul></ul><ul><ul><ul><...
ENFOQUE INICIAL DO ESTUDO <ul><li>Similaridade </li></ul><ul><ul><li>Nível Lexical </li></ul></ul><ul><ul><ul><li>Combinaç...
HEURÍSTICAS <ul><li>Similaridade </li></ul><ul><ul><li>Nível Semântico-Estrutural </li></ul></ul><ul><ul><ul><li>Normaliza...
TRATAMENTO DE EOs DA LÍNGUA PORTUGUESA <ul><li>Senado Federal </li></ul><ul><li>Universidade de São Paulo </li></ul><ul><l...
APLICAÇÃO DA MEDIDA CC Limiar=0,75 0.67 perversoesSexuais perversaoSexual 0.70 embarcacoes embarcacao 0.62 caminhoes camin...
ALGORITMO DE  STEMMING <ul><li>Uso de algoritmos de  stemming </li></ul><ul><li>Recuperação de Informações </li></ul><ul><...
MEDIDA “SIMILARIDADE LEXICAL” onde  k  é o número de palavras do termo de menor comprimento quando os termos sendo mapeado...
MEDIDA “SIMILARIDADE LEXICAL” <ul><li>Exemplo </li></ul>
MEDIDA “SIMILARIDADE LEXICAL” <ul><li>Fase de Validação </li></ul><ul><li>Fase de Avaliação </li></ul>
FASE DE VALIDAÇÃO <ul><li>Alguns resultados da fase de validação </li></ul>0,57 0,93 arm aEstratégica are aEstrategica 0,1...
<ul><li>Heurística da Primeira Letra </li></ul>FASE DE VALIDAÇÃO
FASE DE AVALIAÇÃO <ul><li>Análise humana </li></ul><ul><li>1267 monopalavra e 1620 multipalavra </li></ul><ul><li>Termos i...
<ul><ul><li>Análise dos dados </li></ul></ul>FASE DE AVALIAÇÃO G7 Dúvida G6 G5 G4 Termos considerados não similares pelos ...
<ul><li>Análise do Grupo G1 (limiar 0,75) </li></ul><ul><ul><li>2887  similares pela medida CC  ou  pela medida SL </li></...
<ul><li>Análise do Grupo G1 </li></ul><ul><ul><li>Desses  69 ,  27  que o avaliador humano não considerou similares também...
<ul><li>Peculiaridades da Análise Humana </li></ul><ul><ul><li>b ovinocultura e ovinocultura </li></ul></ul><ul><ul><li>e ...
<ul><li>Revisão da Análise Humana </li></ul><ul><ul><li>132 ocorrências (4,5% de 2887) </li></ul></ul><ul><ul><ul><li>26 o...
<ul><li>Nível Semântico-Estrutural </li></ul><ul><ul><li>A contribuição da relação de sinonímia </li></ul></ul><ul><ul><ul...
<ul><li>Nível Semântico-Estrutural </li></ul><ul><ul><li>106 mapeamentos no total </li></ul></ul><ul><ul><ul><li>Termos co...
<ul><li>Sobre este trabalho </li></ul><ul><li>aplicação da medida CC para termos das línguas inglesa e portuguesa; </li></...
<ul><li>Limitações </li></ul><ul><li>carência de EOs da língua inglesa pertencentes ao mesmo domínio de conhecimento desen...
<ul><li>Trabalhos Futuros </li></ul><ul><li>tratamento do formato de saída do protótipo desenvolvido para mapeamento de EO...
<ul><li>Resultados obtidos </li></ul><ul><li>Chaves, M. S.; Strube de Lima, V. L. Em direção ao Mapeamento Automático entr...
Upcoming SlideShare
Loading in...5
×

defesa dissertação mestrado

3,858

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
3,858
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
31
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

defesa dissertação mestrado

  1. 1. Comparação e Mapeamento de Similaridade entre Estruturas Ontológicas (EOs) Marcirio Silveira Chaves Candidato a mestre Vera Lúcia Strube de Lima Orientadora Programa de Pós-Graduação em Ciência da Computação Faculdade de Informática Pontifícia Universidade Católica - RS
  2. 2. ROTEIRO <ul><li>Contexto </li></ul><ul><li>Questão de pesquisa </li></ul><ul><li>Objetivos </li></ul><ul><li>Enfoque Inicial do Estudo </li></ul><ul><li>Tratamento de EOs da Língua Portuguesa </li></ul><ul><li>Conclusão </li></ul>
  3. 3. CONTEXTO <ul><li>Estruturas Ontológicas e Ontologias </li></ul><ul><li>Reuso do conhecimento </li></ul><ul><ul><li>Web Semântica </li></ul></ul><ul><li>Mapeamento de EOs </li></ul><ul><ul><li>Similaridade entre termos (diferentes nuances) </li></ul></ul><ul><ul><ul><li>Medidas de Similaridade </li></ul></ul></ul><ul><ul><ul><li>Distâncias de Edição </li></ul></ul></ul><ul><ul><li>Dois níveis de similaridade </li></ul></ul><ul><li>A língua portuguesa </li></ul>
  4. 4. QUESTÃO DE PESQUISA <ul><li>Como mapear conceitos similares entre estruturas ontológicas diferentes? </li></ul><ul><li>Hipótese </li></ul><ul><ul><li>Existe um grau de similaridade entre estruturas ontológicas projetadas independentemente, que pode ser detectado, de modo a permitir um mapeamento. </li></ul></ul>
  5. 5. OBJETIVOS <ul><li>Aplicar a medida de similaridade “Combinação de Caracteres” a EOs da língua inglesa e portuguesa, e avaliar seus resultados; </li></ul><ul><li>Prover meios para facilitar o mapeamento de EOs, de forma que o mesmo não seja realizado exclusivamente de forma manual; </li></ul><ul><li>Propor, validar e avaliar uma medida de similaridade para tratar termos da língua portuguesa. </li></ul>
  6. 6. ENFOQUE INICIAL DO ESTUDO <ul><li>EOs da língua inglesa </li></ul><ul><ul><li>- Nível Lexical </li></ul></ul><ul><ul><ul><li>Distância de Edição (Levenshtein) </li></ul></ul></ul><ul><ul><ul><ul><li>- Exemplos </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>book / book let = 3 </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Masterthesis / Master s thesis = 1 </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>worker / employee = 7 </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>book / w o r k = 2 </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><li>- Não leva em consideração o comprimento da palavra </li></ul></ul></ul></ul>
  7. 7. ENFOQUE INICIAL DO ESTUDO <ul><li>Similaridade </li></ul><ul><ul><li>Nível Lexical </li></ul></ul><ul><ul><ul><li>Combinação de Caracteres (Maedche e Staab) </li></ul></ul></ul><ul><ul><ul><li>Exemplos (Limiar = 0,75) </li></ul></ul></ul><ul><ul><ul><ul><li>book / book let = 0,25 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>b o o k / work = 0,5 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>research / research er = 0,75 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Masterthesis / Master s thesis = 0,92 </li></ul></ul></ul></ul><ul><ul><ul><ul><li>worker / employee = 0 </li></ul></ul></ul></ul>
  8. 8. HEURÍSTICAS <ul><li>Similaridade </li></ul><ul><ul><li>Nível Semântico-Estrutural </li></ul></ul><ul><ul><ul><li>Normalização de Vocabulário </li></ul></ul></ul><ul><ul><ul><li>Ancestral e Descendentes </li></ul></ul></ul>
  9. 9. TRATAMENTO DE EOs DA LÍNGUA PORTUGUESA <ul><li>Senado Federal </li></ul><ul><li>Universidade de São Paulo </li></ul><ul><li>Termos formados por </li></ul><ul><ul><li>Uma palavra </li></ul></ul><ul><ul><li>Mais de uma palavra </li></ul></ul><T &quot;abolicionismo&quot;> <SN &quot;movimentoAbolicionista&quot;/> <BT &quot;escravidaoNoBrasil&quot;> <NT &quot;abolicaoDaEscravidao&quot;> <NT &quot;leiAurea&quot;> <NT &quot;leiDoSexagenario&quot;> <NT &quot;leiDoVentreLivre&quot;> <NT &quot;leiEusebioDeQueiros&quot;> </T>
  10. 10. APLICAÇÃO DA MEDIDA CC Limiar=0,75 0.67 perversoesSexuais perversaoSexual 0.70 embarcacoes embarcacao 0.62 caminhoes caminhao 0.86 mapasEspeciais datasEspeciais 0.80 dentePermanente rendaPermanente 0,78 dualidade realidade CC EO2 EO1
  11. 11. ALGORITMO DE STEMMING <ul><li>Uso de algoritmos de stemming </li></ul><ul><li>Recuperação de Informações </li></ul><ul><ul><li>Encontrar variantes morfológicas dos termos buscados </li></ul></ul><ul><ul><li>Melhorar abrangência dos resultados da busca </li></ul></ul><ul><ul><li>Reduzir tamanho dos arquivos de índices </li></ul></ul><ul><ul><li>Ex.: </li></ul></ul><ul><ul><ul><li>desenvolve </li></ul></ul></ul><ul><ul><ul><li>desenvolvida </li></ul></ul></ul><ul><ul><ul><li>desenvolvidas </li></ul></ul></ul><ul><ul><ul><li>desenvolvido </li></ul></ul></ul><ul><ul><ul><li>desenvolvidos </li></ul></ul></ul><ul><ul><ul><li>desenvolvimento </li></ul></ul></ul>desenvolv
  12. 12. MEDIDA “SIMILARIDADE LEXICAL” onde k é o número de palavras do termo de menor comprimento quando os termos sendo mapeados possuem diferente número de palavras.
  13. 13. MEDIDA “SIMILARIDADE LEXICAL” <ul><li>Exemplo </li></ul>
  14. 14. MEDIDA “SIMILARIDADE LEXICAL” <ul><li>Fase de Validação </li></ul><ul><li>Fase de Avaliação </li></ul>
  15. 15. FASE DE VALIDAÇÃO <ul><li>Alguns resultados da fase de validação </li></ul>0,57 0,93 arm aEstratégica are aEstrategica 0,13 0,81 estruturaDe Cabos estruturaDe Dados 0,47 0,80 come d iante come rc iante 0,79 0,70 embarcaç ões embarcaç ão 0,77 0,73 auto-est im a auto-est rad a 0,76 0,62 m o squito m e squita 0,65 0,86 n obreza p obreza SL CC EO-alvo EO-base
  16. 16. <ul><li>Heurística da Primeira Letra </li></ul>FASE DE VALIDAÇÃO
  17. 17. FASE DE AVALIAÇÃO <ul><li>Análise humana </li></ul><ul><li>1267 monopalavra e 1620 multipalavra </li></ul><ul><li>Termos identificados como similares pela medida CC ou pela medida SL, totalizando 2887 </li></ul><ul><li>Cada avaliador humano recebeu uma metade dos termos monopalavra e uma metade dos termos multipalavra </li></ul>
  18. 18. <ul><ul><li>Análise dos dados </li></ul></ul>FASE DE AVALIAÇÃO G7 Dúvida G6 G5 G4 Termos considerados não similares pelos humanos G3 G2 G1 Termos considerados similares pelos humanos CC<0,75 SL>=0,75 CC>=0,75 SL<0,75 CC>=0,75 SL>=0,75
  19. 19. <ul><li>Análise do Grupo G1 (limiar 0,75) </li></ul><ul><ul><li>2887 similares pela medida CC ou pela medida SL </li></ul></ul><ul><ul><li>94 termos (3,25%) similares por ambas as medidas </li></ul></ul><ul><ul><ul><li>25 (0,8%) “realmente similares” pelo analisador humano </li></ul></ul></ul><ul><ul><ul><li>69 (2,4%) similares pelas medidas CC e SL, mas não similares pelo analisador humano </li></ul></ul></ul>FASE DE AVALIAÇÃO
  20. 20. <ul><li>Análise do Grupo G1 </li></ul><ul><ul><li>Desses 69 , 27 que o avaliador humano não considerou similares também não são detectados como similares pela medida SL quando utilizada a heurística da primeira letra </li></ul></ul><ul><ul><li>42 mapeados de forma equivocada pela medida SL de acordo com o avaliador humano </li></ul></ul><ul><ul><li>Alterando o limiar para 0,8 </li></ul></ul><ul><ul><ul><li>4 permanecem sendo considerados similares pelas medidas CC e SL </li></ul></ul></ul>FASE DE AVALIAÇÃO
  21. 21. <ul><li>Peculiaridades da Análise Humana </li></ul><ul><ul><li>b ovinocultura e ovinocultura </li></ul></ul><ul><ul><li>e legibilidade e legibilidade </li></ul></ul><ul><ul><li>tituloMobiliario e titulo I mobiliario </li></ul></ul><ul><li>Revisão da Análise Humana </li></ul><ul><ul><li>se o par de termos considerado similar pelo analisador humano não é considerado similar pelo revisor; </li></ul></ul><ul><ul><li>se o par de termos considerado não similar pelo analisador humano é considerado similar pelo revisor. </li></ul></ul>FASE DE AVALIAÇÃO
  22. 22. <ul><li>Revisão da Análise Humana </li></ul><ul><ul><li>132 ocorrências (4,5% de 2887) </li></ul></ul><ul><ul><ul><li>26 ocorrências para os termos monopalavra </li></ul></ul></ul><ul><ul><ul><li>106 ocorrências para os termos multipalavra </li></ul></ul></ul>FASE DE AVALIAÇÃO comportamentoAgressivo comportamentoAfetivo equilibrioEconomico desequilibrioEconomico teocracia democracia biofisica geofisica
  23. 23. <ul><li>Nível Semântico-Estrutural </li></ul><ul><ul><li>A contribuição da relação de sinonímia </li></ul></ul><ul><ul><ul><li><T faunaSelvagem e <T animaisSelvagens </li></ul></ul></ul><ul><ul><ul><li><SN animalSelvagem </li></ul></ul></ul>FASE DE AVALIAÇÃO
  24. 24. <ul><li>Nível Semântico-Estrutural </li></ul><ul><ul><li>106 mapeamentos no total </li></ul></ul><ul><ul><ul><li>Termos com variação de número </li></ul></ul></ul><ul><ul><ul><li>Outros casos </li></ul></ul></ul><ul><ul><ul><ul><li><T feiticaria e <T bruxismo </li></ul></ul></ul></ul><ul><ul><ul><ul><li><SN bruxaria </li></ul></ul></ul></ul><ul><ul><ul><ul><li><T imprensaOperaria e <T jornalismoOperario </li></ul></ul></ul></ul><ul><ul><ul><ul><li><SN jornalOperario </li></ul></ul></ul></ul><ul><ul><ul><ul><li><T idoso e <T velhice </li></ul></ul></ul></ul><ul><ul><ul><ul><li><SN velho </li></ul></ul></ul></ul><ul><ul><ul><li>Radical de comprimento >= 7 com 1 alteração </li></ul></ul></ul><ul><ul><ul><ul><li>pro t esto e pro g esterona </li></ul></ul></ul></ul><ul><ul><ul><li>Mesmo radical com significado distinto </li></ul></ul></ul><ul><ul><ul><ul><li>coque e coqueiro </li></ul></ul></ul></ul>FASE DE AVALIAÇÃO
  25. 25. <ul><li>Sobre este trabalho </li></ul><ul><li>aplicação da medida CC para termos das línguas inglesa e portuguesa; </li></ul><ul><li>criação de heurísticas; </li></ul><ul><li>desenvolvimento de um protótipo; </li></ul><ul><li>criação, validação e avaliação da medida SL; </li></ul><ul><li>um dos primeiros esforços para tratamento de EOs da língua portuguesa; </li></ul><ul><li>produção de artigos para eventos científicos. </li></ul>CONCLUSÃO
  26. 26. <ul><li>Limitações </li></ul><ul><li>carência de EOs da língua inglesa pertencentes ao mesmo domínio de conhecimento desenvolvidas por pessoas com formações distintas; </li></ul><ul><li>carência de EOs da língua portuguesa codificadas nas linguagens de marcação semântica estudadas; </li></ul><ul><li>protótipo desenvolvido para a língua inglesa trata somente os conceitos das EOs; </li></ul><ul><li>Heurísticas mais eficientes para o tratamento do nível semântico-estrutural das EOs. </li></ul>CONCLUSÃO
  27. 27. <ul><li>Trabalhos Futuros </li></ul><ul><li>tratamento do formato de saída do protótipo desenvolvido para mapeamento de EOs da língua inglesa; </li></ul><ul><li>a utilização da medida SL em outros idiomas, tais como espanhol e inglês; </li></ul><ul><li>a aplicação da medida SL para auxiliar um sistema que utilize EOs na RI, ou ainda, diretamente no sistema de RI para verificar a similaridade entre um termo consultado e os termos contidos nos documentos; </li></ul><ul><li>área de Bancos de Dados, nossa medida de similaridade pode ser aplicada como uma primeira etapa no processo de integração de esquemas. </li></ul>CONCLUSÃO
  28. 28. <ul><li>Resultados obtidos </li></ul><ul><li>Chaves, M. S.; Strube de Lima, V. L. Em direção ao Mapeamento Automático entre Estruturas Ontológicas. IX Jornadas Iberoamericanas de Informática , Cartagena de Indias, Colômbia, 11-15 de agosto de 2003. </li></ul><ul><li>Chaves, M. S.; Strube de Lima, V. L. Similaridade entre Estruturas Ontológicas. XVI Brazilian Symposium on Computer Graphics and Image Processing - (SIBGRAPI). I Workshop em Tecnologia da Informação e Linguagem Humana (TIL) , São Paulo, Brasil, 12 de Outubro de 2003. </li></ul><ul><li>Chaves, M. S. Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003. </li></ul><ul><li>Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity among Ontological Structures . Technical Report, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa (DI-FCUL) TR-03-28, p. 15-18. Tagging and Shallow Processing of Portuguese: Workshop notes of TASHA`2003 . António Branco, Amália Mendes e Ricardo Ribeiro (Eds.) Lisboa, Portugal, 2003. </li></ul><ul><li>Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity between Portuguese Ontological Structures . In . António Branco, Amália Mendes, Ricardo Ribeiro (Eds.). Edições Colibri, Lisboa, Portugal, 2004. (No prelo) </li></ul>CONCLUSÃO
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×