Your SlideShare is downloading. ×

defesa dissertação mestrado

3,843

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
3,843
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
31
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Comparação e Mapeamento de Similaridade entre Estruturas Ontológicas (EOs) Marcirio Silveira Chaves Candidato a mestre Vera Lúcia Strube de Lima Orientadora Programa de Pós-Graduação em Ciência da Computação Faculdade de Informática Pontifícia Universidade Católica - RS
  • 2. ROTEIRO
    • Contexto
    • Questão de pesquisa
    • Objetivos
    • Enfoque Inicial do Estudo
    • Tratamento de EOs da Língua Portuguesa
    • Conclusão
  • 3. CONTEXTO
    • Estruturas Ontológicas e Ontologias
    • Reuso do conhecimento
      • Web Semântica
    • Mapeamento de EOs
      • Similaridade entre termos (diferentes nuances)
        • Medidas de Similaridade
        • Distâncias de Edição
      • Dois níveis de similaridade
    • A língua portuguesa
  • 4. QUESTÃO DE PESQUISA
    • Como mapear conceitos similares entre estruturas ontológicas diferentes?
    • Hipótese
      • Existe um grau de similaridade entre estruturas ontológicas projetadas independentemente, que pode ser detectado, de modo a permitir um mapeamento.
  • 5. OBJETIVOS
    • Aplicar a medida de similaridade “Combinação de Caracteres” a EOs da língua inglesa e portuguesa, e avaliar seus resultados;
    • Prover meios para facilitar o mapeamento de EOs, de forma que o mesmo não seja realizado exclusivamente de forma manual;
    • Propor, validar e avaliar uma medida de similaridade para tratar termos da língua portuguesa.
  • 6. ENFOQUE INICIAL DO ESTUDO
    • EOs da língua inglesa
      • - Nível Lexical
        • Distância de Edição (Levenshtein)
          • - Exemplos
            • book / book let = 3
            • Masterthesis / Master s thesis = 1
            • worker / employee = 7
            • book / w o r k = 2
          • - Não leva em consideração o comprimento da palavra
  • 7. ENFOQUE INICIAL DO ESTUDO
    • Similaridade
      • Nível Lexical
        • Combinação de Caracteres (Maedche e Staab)
        • Exemplos (Limiar = 0,75)
          • book / book let = 0,25
          • b o o k / work = 0,5
          • research / research er = 0,75
          • Masterthesis / Master s thesis = 0,92
          • worker / employee = 0
  • 8. HEURÍSTICAS
    • Similaridade
      • Nível Semântico-Estrutural
        • Normalização de Vocabulário
        • Ancestral e Descendentes
  • 9. TRATAMENTO DE EOs DA LÍNGUA PORTUGUESA
    • Senado Federal
    • Universidade de São Paulo
    • Termos formados por
      • Uma palavra
      • Mais de uma palavra
    <T &quot;abolicionismo&quot;> <SN &quot;movimentoAbolicionista&quot;/> <BT &quot;escravidaoNoBrasil&quot;> <NT &quot;abolicaoDaEscravidao&quot;> <NT &quot;leiAurea&quot;> <NT &quot;leiDoSexagenario&quot;> <NT &quot;leiDoVentreLivre&quot;> <NT &quot;leiEusebioDeQueiros&quot;> </T>
  • 10. APLICAÇÃO DA MEDIDA CC Limiar=0,75 0.67 perversoesSexuais perversaoSexual 0.70 embarcacoes embarcacao 0.62 caminhoes caminhao 0.86 mapasEspeciais datasEspeciais 0.80 dentePermanente rendaPermanente 0,78 dualidade realidade CC EO2 EO1
  • 11. ALGORITMO DE STEMMING
    • Uso de algoritmos de stemming
    • Recuperação de Informações
      • Encontrar variantes morfológicas dos termos buscados
      • Melhorar abrangência dos resultados da busca
      • Reduzir tamanho dos arquivos de índices
      • Ex.:
        • desenvolve
        • desenvolvida
        • desenvolvidas
        • desenvolvido
        • desenvolvidos
        • desenvolvimento
    desenvolv
  • 12. MEDIDA “SIMILARIDADE LEXICAL” onde k é o número de palavras do termo de menor comprimento quando os termos sendo mapeados possuem diferente número de palavras.
  • 13. MEDIDA “SIMILARIDADE LEXICAL”
    • Exemplo
  • 14. MEDIDA “SIMILARIDADE LEXICAL”
    • Fase de Validação
    • Fase de Avaliação
  • 15. FASE DE VALIDAÇÃO
    • Alguns resultados da fase de validação
    0,57 0,93 arm aEstratégica are aEstrategica 0,13 0,81 estruturaDe Cabos estruturaDe Dados 0,47 0,80 come d iante come rc iante 0,79 0,70 embarcaç ões embarcaç ão 0,77 0,73 auto-est im a auto-est rad a 0,76 0,62 m o squito m e squita 0,65 0,86 n obreza p obreza SL CC EO-alvo EO-base
  • 16.
    • Heurística da Primeira Letra
    FASE DE VALIDAÇÃO
  • 17. FASE DE AVALIAÇÃO
    • Análise humana
    • 1267 monopalavra e 1620 multipalavra
    • Termos identificados como similares pela medida CC ou pela medida SL, totalizando 2887
    • Cada avaliador humano recebeu uma metade dos termos monopalavra e uma metade dos termos multipalavra
  • 18.
      • Análise dos dados
    FASE DE AVALIAÇÃO G7 Dúvida G6 G5 G4 Termos considerados não similares pelos humanos G3 G2 G1 Termos considerados similares pelos humanos CC<0,75 SL>=0,75 CC>=0,75 SL<0,75 CC>=0,75 SL>=0,75
  • 19.
    • Análise do Grupo G1 (limiar 0,75)
      • 2887 similares pela medida CC ou pela medida SL
      • 94 termos (3,25%) similares por ambas as medidas
        • 25 (0,8%) “realmente similares” pelo analisador humano
        • 69 (2,4%) similares pelas medidas CC e SL, mas não similares pelo analisador humano
    FASE DE AVALIAÇÃO
  • 20.
    • Análise do Grupo G1
      • Desses 69 , 27 que o avaliador humano não considerou similares também não são detectados como similares pela medida SL quando utilizada a heurística da primeira letra
      • 42 mapeados de forma equivocada pela medida SL de acordo com o avaliador humano
      • Alterando o limiar para 0,8
        • 4 permanecem sendo considerados similares pelas medidas CC e SL
    FASE DE AVALIAÇÃO
  • 21.
    • Peculiaridades da Análise Humana
      • b ovinocultura e ovinocultura
      • e legibilidade e legibilidade
      • tituloMobiliario e titulo I mobiliario
    • Revisão da Análise Humana
      • se o par de termos considerado similar pelo analisador humano não é considerado similar pelo revisor;
      • se o par de termos considerado não similar pelo analisador humano é considerado similar pelo revisor.
    FASE DE AVALIAÇÃO
  • 22.
    • Revisão da Análise Humana
      • 132 ocorrências (4,5% de 2887)
        • 26 ocorrências para os termos monopalavra
        • 106 ocorrências para os termos multipalavra
    FASE DE AVALIAÇÃO comportamentoAgressivo comportamentoAfetivo equilibrioEconomico desequilibrioEconomico teocracia democracia biofisica geofisica
  • 23.
    • Nível Semântico-Estrutural
      • A contribuição da relação de sinonímia
        • <T faunaSelvagem e <T animaisSelvagens
        • <SN animalSelvagem
    FASE DE AVALIAÇÃO
  • 24.
    • Nível Semântico-Estrutural
      • 106 mapeamentos no total
        • Termos com variação de número
        • Outros casos
          • <T feiticaria e <T bruxismo
          • <SN bruxaria
          • <T imprensaOperaria e <T jornalismoOperario
          • <SN jornalOperario
          • <T idoso e <T velhice
          • <SN velho
        • Radical de comprimento >= 7 com 1 alteração
          • pro t esto e pro g esterona
        • Mesmo radical com significado distinto
          • coque e coqueiro
    FASE DE AVALIAÇÃO
  • 25.
    • Sobre este trabalho
    • aplicação da medida CC para termos das línguas inglesa e portuguesa;
    • criação de heurísticas;
    • desenvolvimento de um protótipo;
    • criação, validação e avaliação da medida SL;
    • um dos primeiros esforços para tratamento de EOs da língua portuguesa;
    • produção de artigos para eventos científicos.
    CONCLUSÃO
  • 26.
    • Limitações
    • carência de EOs da língua inglesa pertencentes ao mesmo domínio de conhecimento desenvolvidas por pessoas com formações distintas;
    • carência de EOs da língua portuguesa codificadas nas linguagens de marcação semântica estudadas;
    • protótipo desenvolvido para a língua inglesa trata somente os conceitos das EOs;
    • Heurísticas mais eficientes para o tratamento do nível semântico-estrutural das EOs.
    CONCLUSÃO
  • 27.
    • Trabalhos Futuros
    • tratamento do formato de saída do protótipo desenvolvido para mapeamento de EOs da língua inglesa;
    • a utilização da medida SL em outros idiomas, tais como espanhol e inglês;
    • a aplicação da medida SL para auxiliar um sistema que utilize EOs na RI, ou ainda, diretamente no sistema de RI para verificar a similaridade entre um termo consultado e os termos contidos nos documentos;
    • área de Bancos de Dados, nossa medida de similaridade pode ser aplicada como uma primeira etapa no processo de integração de esquemas.
    CONCLUSÃO
  • 28.
    • Resultados obtidos
    • Chaves, M. S.; Strube de Lima, V. L. Em direção ao Mapeamento Automático entre Estruturas Ontológicas. IX Jornadas Iberoamericanas de Informática , Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.
    • Chaves, M. S.; Strube de Lima, V. L. Similaridade entre Estruturas Ontológicas. XVI Brazilian Symposium on Computer Graphics and Image Processing - (SIBGRAPI). I Workshop em Tecnologia da Informação e Linguagem Humana (TIL) , São Paulo, Brasil, 12 de Outubro de 2003.
    • Chaves, M. S. Um Estudo e Apreciação sobre Algoritmos de Stemming para a Língua Portuguesa. IX Jornadas Iberoamericanas de Informática, Cartagena de Indias, Colômbia, 11-15 de agosto de 2003.
    • Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity among Ontological Structures . Technical Report, Departamento de Informática, Faculdade de Ciências da Universidade de Lisboa (DI-FCUL) TR-03-28, p. 15-18. Tagging and Shallow Processing of Portuguese: Workshop notes of TASHA`2003 . António Branco, Amália Mendes e Ricardo Ribeiro (Eds.) Lisboa, Portugal, 2003.
    • Chaves, M. S.; Strube de Lima, V. L. Looking for Similarity between Portuguese Ontological Structures . In . António Branco, Amália Mendes, Ricardo Ribeiro (Eds.). Edições Colibri, Lisboa, Portugal, 2004. (No prelo)
    CONCLUSÃO

×