Informeme - Apresentação da devesa
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Informeme - Apresentação da devesa

on

  • 838 views

 

Statistics

Views

Total Views
838
Views on SlideShare
834
Embed Views
4

Actions

Likes
0
Downloads
0
Comments
0

3 Embeds 4

http://www.linkedin.com 2
http://www.slideshare.net 1
http://www.gurusp.org 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Informeme - Apresentação da devesa Presentation Transcript

  • 1. Um Portal Web para a Organização Hierárquica de Notícias
    Dissertação de mestrado
    04/11/2009
    Hugo Lima Borges
    Orientadora: Profa. Dra. Ana Carolina Lorena
  • 2. Motivações e objetivos
    • Estudar a CHT (Categ. Hierárquica de Textos) e aplicá-lo no contexto de um portal agregador de notícias
    • 3. Uso da hierarquia facilita acesso a notícias mais específicas e pode ajudar na categorização
    • 4. Avaliar uma boa configuração para o classificador no cenário proposto
  • Classificação Hierárquica
    • Possível ganho na efetividade preditiva (depende do algoritmo)
    • 5. Decomposição do problema plano ( possível ganho de desempenho computacional)
    • 6. Usada em cenários em que é possível estruturar documentos em uma hierarquia de categorias
  • Naïve Bayes Plano x Hierárquico (20 Newsgroups)
  • 7. Etapas
    • Pré-processamento
    • 8. Representação do texto
    • 9. Redução dimensional
    • 10. Stemming e cuttof
    • 11. Seleção de atributos
    • 12. Pesagem de atributos
    • 13. Abordagem hierárquica
    • 14. Algoritmo de classificação
    • 15. Avaliação da efetividade preditiva
  • Representação do Texto
    • Bag of Words (BOW): cada palavra representa um atributo (ou termo)
    • 16. Desconsidera posição das palavras
    • 17. Pesagem dos termos: frequência, binária …
    • 18. Alternativas:
    • 19. Bigrama, trigrama (n-grama)
    • 20. Análise de Semântica Latente
    • 21. Extração de termos (ex.: agrupamento)
  • Stemming e cutoff
    • Stemming: redução da palavra para radical (palavras com significado próximo)
    • 22. Cutoff: remoção de palavras com baixa/alta frequência que não são representativas para a distinção entre classes (típico: 3 ou 5)
  • Seleção de atributos
    • Selecionar atributos mais relevantes para distinguir as classes
    • 23. Filtragem ou wrapper
    • 24. Atributos que aparecem na classe
    • 25. Atributos que não aparecem na classe
  • MultinomialNaïveBayes(MNB)
    • Algoritmo probabilístico (regra de Bayes)
    • 26. Assume independência dos termos
    • 27. Variações do algoritmo e heurísticas para contornar alguns problemas
  • MNB (2)
    • Fi – pesagem do termo i no documento dj
    • 28. Nci – ocorrências do termo i na classe c
    • 29. Nc – ocorrência de termos na classe c
    • 30. N – total de termos
    • 31. Dc– documentos pertencentes a classe c
    • 32. D – total de documentos
  • MNB (3)
    • Eficiente computacionalmente
    • 33. Implementação simples
    • 34. Fácil adição de exemplos de treinamento
    • 35. Pré-processamento é importante
    • 36. Nem sempre apresenta boa efetividade
    • 37. Necessidade de quantidade mínima de exemplos
  • Abordagem top-down
    f1_plano
    1 2
    f3_plano
    f2_plano
    1.1 1.2
    2.1 2.2
    • Mais empregada
    • 38. Fácil de implementar (algoritmos planos)
    • 39. Propagação de erros
    • 40. Escalável
    x
    Hierarquia

    2
    1
    2.1
    2.2
    1.1
    1.2
  • 41. Avaliação da efetividade preditiva
    • Precisão: % das classificações corretas feitas para a classe i
    • 42. Sensibilidade: % dos exemplos da classe i classificados corretamente
    • 43. F1: igual peso para as duas medidas
  • Avaliação da efetividade preditiva (2)
    Medida média levando em conta todas as classes:
    F1macro: mesmo peso para todos exemplos
    F1 micro: mesmo peso para todas as classes
  • 44. Medida baseada em distância
    Peso negativo para erros cometidos no primeiro nível
  • 45. Medida baseada em distância (2)
    Hierarquia

    1
    1
    2
    1
    Disθ = 2 : contribuição nula se erro ocorre no segundo nível
    Contribuição igual a -1 se erro ocorre no primeiro nível
    1
    1
    1
    1
    2.1
    2.2
    1.1
    1.2
    predita
    verdadeira
  • 46. Experimentos
    • Validação cruzada em 3 partes
    • 47. Avaliação F1micro e macro
    • 48. Conjuntos de dados da literatura
    • 49. Seleção e pesagem de atributos realizada localmente (em cada classificador na hierarq.)
    • 50. Atributos distribuídos igualmente entre classificadores
  • Conjuntos de Dados da Literatura
  • 51. Stemming (Porter 2)
    • Não houve impacto na efetividade preditiva (todos atributos)
    • 52. Impacto + com número baixo de atributos considerados (seleção de atrib.)
    • 53. Redução de 18% (20N) e 27% (R21)
    • 54. Escolha: usar stemming
    sem stemming (com stemming)
  • 55. Cutoff
    • Remoção de palavras infrequentes no conjunto de testes
    • 56. Redução superior a 60% em ambos conjuntos com n = 2
    • 57. Pouco impacto na efetividade do classificador (com n baixo)
    • 58. Escolha: cutoff mínimo (2)
  • Cutoff(2)
  • 59. Seleção de atributos
    • Técnicas de filtragem: DF, IG, Chi², OR, BNS
    • 60. Atributos são distribuídos igualmente entre as classes (Round Robin)
    • 61. Escolha: Chi² (IG)
    • 62. Melhores resultados:
    • 63. 20N : IG, OR, Chi²
    • 64. R21 : IG, Chi²
  • Seleção de atributos 20N (2)
    • macro F1
    • 65. macro F1dist.
  • Seleção de atributos R21 (3)
    • micro F1
    • 66. micro F1dist.
    • 67. macro F1
  • Pesagem de atributos
    • TF , binária, TF-IDF, e logTF-IDF
    • 68. Resultados:
    • 69. 20N: Binária, logTF-IDF
    • 70. R21: logTF-IDF, TF-IDF
    • 71. Escolha: logTF-IDF
  • Pesagem de atributos (20N)
    • micro F1
    • 72. macro F1
    • 73. macro F1dist.
  • Pesagem de atributos (R21)
    • micro F1dist.
    • 74. macro F1dist.
  • Comparação MNB x SVM
    • MNB x SVM linear (LibSVM), com pesagem, seleção de atributos
  • Arquitetura do sistema
    Navegador
    Agendador de Tarefas
    Aplicação Web
    Feeds XML
    Capturador
    Classificador
    Base de
    dados
  • 75. Capturador e fontes de notícia
    • Feeds RSS/Atom: resumo de notícias
    • 76. Foco: Jornais e portais brasileiros
    • 77. Cerca de 15 fontes
    • 78. Pré-classificação de notícias
    • 79. Conjunto de testes:
    • 80. 16 mil notícias capturadas em um mês
    • 81. Classificação manual
    • 82. Tamanho médio: 72 ±83
  • Hierarquia de notícias
    • 2 níveis ( 9 / 38 categorias ), 44 nós folha
    • 83. Desbalanceado
    • 84. Primeiro nível: Baseada em jornais / portais de notícia
    • 85. Não é necessariamente a melhor para o classificador
    • 86. Problema com notícias “sem” categoria (outros)
  • Resultados: Classificação
    • Stemming: redução de atributos de 43%
    • 87. Primeiro nível: micro F1 = 0,82
    • 88. Micro F1: 0,72
    • 89. Micro F1dist. : 0,60
    • 90. Macro F1: 0,62
    • 91. Macro F1dist. : 0,40
  • Resultados: observações (1)
    Resultados
    Primeiro nível:
    Bom desempenho:
    Esportes (0,96)
    Economia (0,85)
    Desempenho ruim:
    Ciências (0,63), Saúde (0,70) – poucos exemplos
    Cotidiano (0,73) – muitos assuntos
  • 92. Resultados: observações (2)
    Resultados
    Segundo nível :
    Educação: F1 = 0,75 ; F1dist. = 0,38
    Biologia: F1 = 0,52 ; F1dist. = 0,0
    Bolsas de valores: F1 = 0,91 ; F1dist. = 0,90
    Automobilismo F1 = 0,94 ; F1dist. = 0,94
    Categorias “Outros” : desempenho ruim em geral
  • 93. Resultado: Pré-classificação
    • 46% dos documentos de teste já classificados (corretamente) no primeiro nível
    • 94. Micro F1: 0,77 (0,72)
    • 95. Micro F1dist. : 0,58 (0,69)
    • 96. Macro F1: 0,68 (0,62)
    • 97. Macro F1dist. : 0,55 (0,39)
  • Plano x Hierárquico
    Plano
    Micro F1= 0,71 (0,01)
    Macro F1= 0,58 (0,01)
    Tempo: 9min
    Hierárquico
    Micro F1= 0,72 (0,01)
    Macro F1= 0,57 (0,01)
    Tempo: 7min30s
  • 98. Sistema Informeme
    www.informeme.com
    Interface do usuário
    Interface do administrador
  • 99. Trabalhos Futuros (CHT)
    • Melhorar a hierarquia (2 hierarquias)
    • 100. Ponto de vista do usuário
    • 101. Buscando melhor efetividade do classificador
    • 102. Métodos para “parar” a classificação no primeiro nível
    • 103. Automatizar o processo de treinamento
    • 104. Notícias completas (ao invés de resumos)
    • 105. Abordagem multirrótulos
    • 106. Hierarquias maiores, mais exemplos: RCV1
  • Trabalhos Futuros (aplicação)
    • Lidar com notícias repetidas / similares
    • 107. Classificação por região
    • 108. Recomendação de notícias
    • 109. Considerar outros tipos de fontes e dados