Your SlideShare is downloading. ×
0
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Classificação automática de notícias em português do Brasil
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Classificação automática de notícias em português do Brasil

633

Published on

Qualificação do meu mestrado realizada em 01 de julho de 2011

Qualificação do meu mestrado realizada em 01 de julho de 2011

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
633
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629
  • 2. AGENDA• Motivação• Objetivos• Reconhecimento de Entidades Nomeadas• MUC7• Aquisição e extração de conteúdo• Classificação de conteúdo• Próximos passos
  • 3. MOTIVAÇÃO• Direcionamento automático de notícias para nicho de interesse
  • 4. OBJETIVOS• Desenvolvimento de córpus público baseado em notícias esportivas• Motor de reconhecimento e classificação de entidades nomeadas
  • 5. RECONHECIMENTO DEENTIDADES NOMEADAS
  • 6. CONCEITOS• Subárea no campo de extração de informação• Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural
  • 7. DESAFIOS• Ausência de informação• Ambiguidade semântica• Exemplo: • “Pessoas fazem orações por São Paulo”
  • 8. MUC7
  • 9. INFORMAÇÕES GERAIS• Message Understanding Conference Proceedings• Financiado pela Defense Advanced Research Projects Agency• Textos jornalísticos completos• Temas: • Quedas de aviões • Lançamentos de mísseis e foguetes
  • 10. ETIQUETAS Tag Categoria Descrição de usoENAMEX LOCATION Nome político ou geográfico ORGANIZATION Entidades organizacionais PERSON Nome de pessoa ou famílaNUMEX MONEY Expressão financeira PERCENT Dados percentuaisTIMEX DATE Data completa ou parcial TIME Horário completo ou parcial
  • 11. EXEMPLO<DOC><DOCID>nyt960214.0704</DOCID><STORYID>A4479</STORYID><SLUG>BC-MURDOCH-SATELLITE-NYT</SLUG><DATE>02-14</DATE><NWORDS>0608</NWORDS><TEXT>A Chinese rocket carrying a television satellite exploded seconds after launchWednesday, dealing a potential blow to Rupert Murdoch’s ambitions to offer satelliteprogramming in Latin America. ...</TEXT><TRAILER>NYT-02-14-96 2029EST</TRAILER></DOC>
  • 12. AQUISIÇÃO E EXTRAÇÃO DE CONTEÚDO
  • 13. Inicio da decaca de 90 Googlebot HISTÓRICO• Excite em 1993• Yahoo! em 1994• Alta vista em 1995• Google em 1997
  • 14. OBJETIVOS
  • 15. OBJETIVOS
  • 16. OBJETIVOS
  • 17. RESULTADOS• Redução em 81 % de links irrelevantes • Filtro AAAA/MM/DD • Filtro baseado no header Content-Type
  • 18. CLASSIFICAÇÃODE CONTEÚDO
  • 19. DEMONSTRAÇÃO
  • 20. PREMISSAS• Mecanismo flexível e dinâmico para criação do conjunto de etiquetas• Sistema iterativo de classificação• Pontos de recuperação• Localização dos recursos de interface
  • 21. TECNOLOGIAS• HTML • Servlet• CSS • jQuery• JavaScript • log4j• JSTL • MongoDB• EL • MySQL
  • 22. DEMONSTRAÇÃO
  • 23. RESULTADOS• Ganho de 43% na classificação da notícia • Simples: 7 minutos • Rica: 4 minutos• Ganho de 99% na gerência de documentos • Simples: 100 segundos • Rica: 1 segundo
  • 24. RESULTADOS• Ganho de 54% no processo geral • Simples: 8:40 minutos • Rica: 4:01 minutos
  • 25. ETIQUETAS 1a Fase 2a Fase 3a Fase Pessoa Time Torcida Lugar EstádioOrganização Campeonato
  • 26. Uma vez que este trabalho tem como principal objetivo a classificação de entidades CLASSIFICAÇÃO ambıguas, a definicão de categorias muito genéricas poderia dificultar a operação do algoritmo.• Substantivos próprios• Apelidos (mago, gladiador)• Referências (tricolocor do Morumbi)
  • 27. PRÓXIMOS PASSOS
  • 28. CRONOGRAMA
  • 29. CLASSIFICAÇÃO DE NOTÍCIAS EM PORTUGUÊS DO BRASIL Rodrigo Constantin Ctenas Zaccara 6367629

×