• Like
  • Save
Organização e gerenciamento de conteúdos jornalísticos na Web Semântica
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Organização e gerenciamento de conteúdos jornalísticos na Web Semântica

  • 4,656 views
Published

Defesa da dissertação de mestrado em Comunicação Midiática de Iuri Lammel. …

Defesa da dissertação de mestrado em Comunicação Midiática de Iuri Lammel.

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to like this
No Downloads

Views

Total Views
4,656
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
1
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Universidade Federal de Santa Maria Centro de Ciências Sociais e Humanas Programa de Pós-Graduação em ComunicaçãoDissertação de MestradoIuri Lammel Organização e gerenciamento de conteúdos jornalísticos na Web Semântica
  • 2. Banca examinadoraDr.ª Luciana MielniczukOrientadora / UFSMDr.ª Suzana BarbosaComunicação / UFBADr. Giovani Rubert LibrelottoCiência da Computação / UFSM
  • 3. Consideraçõespreliminares■ Comunicação e Computação■ Banca mista■ O tema “Web Semântica” na Comunicação
  • 4. ProblemaQuais seriam aspotencialidades que aWeb Semântica ofereceriapara a organização e ogerenciamento dosconteúdos jornalísticos?
  • 5. ObjetivosObjetivo principalIdentificar contribuições do uso das tecnologiassemânticas na organização e gerenciamentodos produtos jornalísticos digitais
  • 6. ObjetivosObjetivos específicos ■ Identificar quais tecnologias semânticas são utilizadas nos casos selecionados ■ Compreender como elas são aplicadas ■ Identificar quais as razões do uso ■ Relacionar os dados obtidos na investigação dos casos selecionados ao atual paradigma do JDBD, para compreender as possíveis contribuições da proposta da Web Semântica à prática do jornalismo digital
  • 7. Referencial teórico■ Jornalismo de dados■ Web Semântica
  • 8. Jornalismo de dados
  • 9. Jornalismo de dadosJornalismo Digital ■ Seis características (PALACIOS, 2003) ■ Três gerações (MIELNICZUK, 2003)
  • 10. Jornalismo de dadosJornalismo Digital emBase de Dados (JDBD) ■ Quarta geração do jornalismo digital ■ Produtos jornalísticos estruturados em base de dados (BARBOSA, 2007; MACHADO, 2006) ■ Bases de dados ■ BDs como forma cultural (MANOVICH, 2001) ■ Database aesthetics
  • 11. Jornalismo de dadosCategorias do JDBD ■ dinamicidade ■ automatização ■ flexibilidade ■ inter-relacionamento/Hiperlinkagem ■ densidade informativa ■ diversidade temática ■ visualização ■ convergência
  • 12. Jornalismo de dadosData Journalism ■ Conceitos de data journalism ■ Funções do data journalist (The Guardian) ■ Visualização de dados (RODRIGUES, 2009) ■ Aplicativos jornalísticos
  • 13. Web Semântica
  • 14. Web SemânticaA atual web ■ Documentos em HTML para leitura humana ■ Processameno do computador é utilizado para formatação visual do documento ■ Processamento avançado não é aproveitado para interpretar significados dos documentos ■ HTML tem pouca semântica ■ XML tem bastante semântica, mas é arbitrária
  • 15. Web SemânticaA atual web
  • 16. Web SemânticaO que é a Web Semântica (WS) ■ Uma expansão para a atual World Wide Web ■ Proposta de Berners-Lee, Hendler e Lassila ■ A web se tornaria uma rede “mais inteligente” ■ Os computadores teriam capacidade de compreender os significados dos dados
  • 17. Web SemânticaComo funciona a WS ■ Além do documento para humanos, a WS fornece metadados para os computadores ■ Os metadados descrevem o conteúdo ■ A descrição é realizada na lógica das triplas: sujeito - predicado - objeto, que permite associar recursos a valores semânticos ■ Além dos metadados em triplas, a WS fornece as ontologias: “uma especificação explícita de uma conceituação” (GRUBER, 1993)
  • 18. Web SemânticaSolução tecnológica da W3C ■ Metadados em triplas: Resource Description Framework (RDF) BLOG X Es demolest, sinvel ipiciis Maio ea volupta tquatec tatiscipsant quo é escrito por essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Sinvel ipiciis demolest Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita com- niet maio. Nequunt moloreperem. Odi Sujeito Predicado Objeto
  • 19. Web SemânticaSolução tecnológica da W3C ■ Ontologias: Web Ontology Language (OWL) BLOG X Es demolest, sinvel ipiciis Propriedades: Nono nono nono Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Sinvel ipiciis demolest Nono nono nono Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini BLOG Y magnam, et faceptat laborum ento mag- nienisita comniet maio. Nequunt molorep- Nono nono nono Es demolest, sinvel ipiciis BLOG K Maio ea volupta tquatec tatiscipsant quo essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento magnienisita comniet maio. Es demolest, sinvel ipiciis Nequunt moloreperem. Odi doloritest od qui quistioribus autatquo vid qui derat. Maio ea volupta tquatec tatiscipsant quo Sinvel ipiciis demolest Nono nono nono essi optistissime non conse et, que com- nihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat Maio ea volupta tquatec tatiscipsant laborum ento magnienisita comniet maio. quo essi optistissime non conse et, Nequunt moloreperem. Odi doloritest od que comnihil est ea. Piet et la quodicia qui quistioribus autatquo vid qui derat. estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non Sinvel ipiciis demolest conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini Maio ea volupta tquatec tatiscipsant magnam, et faceptat laborum ento mag- quo essi optistissime non conse et, nienisita comniet maio. Nequunt molorep- que comnihil est ea. Piet et la quodicia Nono nono nono estiis quis et inveles suntini magnam, et faceptat laborum ento magissime non conse et, que comnihil est ea. Piet et la quodicia estiis quis et inveles suntini magnam, et faceptat laborum ento mag- nienisita comniet maio. Nequunt molorep- Nono nono nono Nono nono nonoClasse: blogs Classe: humanos
  • 20. Web SemânticaOutros conceitos importantes ■ Agentes inteligentes ■ Técnica de tagging, para a extração de conceitos em conteúdos não estruturados ■ Softwares de processamento de linguagem natural, para extração de conceitos em conteúdos não estruturados com
  • 21. Web SemânticaLinked Data ■ Proposta de Berners-Lee (2006) ■ É um projeto que reúne iniciativas que publicam dados nos padrões da W3C ■ Os repositórios de dados são abertos e vinculados uns aos outros (Linked Open Data)
  • 22. Web SemânticaLinked Data Maio de 2007 Setembro de 2011
  • 23. Web SemânticaLinked Data
  • 24. Procedimentosmetodológico
  • 25. Metodologia■ Pesquisa exploratória■ Estudo de caso■ Análise com as oito categorias do JDBD
  • 26. World Cup2010
  • 27. World Cup 2010Descrição do casoÉ um site jornalístico especial para abrigar todoo conteúdo jornalístico da BBC relacionado àCopa do Mundo de 2010
  • 28. World Cup 2010Descrição do caso ■ Times – Jogadores – Grupos – Partidas ■ Mais de 800 páginas publicadas de forma automatizada ■ Cada página agrega diferentes informações oriundas de diferentes locais
  • 29. World Cup 2010Tecnologias semânticas ■ Triplas em RDF ■ Repositório semântico triple store BigOWLIM ■ Ontologia própria sobre a Copa do Mundo ■ Técnica de tagging ■ Processamento de Linguagem Natural ■ SPARQL ■ Dados e metadados da Linked Data
  • 30. World Cup 2010 (OLIVER, 2010)
  • 31. World Cup 2010 (O’DONAVAN, 2010)
  • 32. World Cup 2010Dinamicidade ■ Produto altamente dinâmico ■ Não encontramos indícios de potencialização significativa em relação aos atuais produtos jornalísticos em base de dados
  • 33. World Cup 2010Automatização ■ Publicação com automatização total ■ Modificou o fluxo editorial (workflow) na criação de conteúdos e no gerenciamento do site: passa do modelo tradicional de “publicar matérias e páginas index” para “publicar conteúdos e checar se as sugestões de tags estão corretas” (O’DONAVAN, 2010)
  • 34. World Cup 2010Flexibilidade ■ Descentralização da produção ■ RDF e Linked Data tornam o sistema “incrivelmente flexível” (O’DONAVAN, 2010) ■ “O modelo de tripla RDF também facilita a modelagem ágil, enquanto que a modelagem do esquema relacional tradicional é menos flexível e também incrementa a complexidade da query” (Rayfield, 2010).
  • 35. World Cup 2010Inter-relacionamento/Hiperlinkagem ■ Potencializa com a geração automática de links, tanto para conteúdos internos quanto para conteúdos externos (Linked Data) ■ URIs únicos para os conceitos minimizam a possibilidade de ambiguidade na geração automática de links
  • 36. World Cup 2010Densidade informativa ■ A interoperabilidade potencializa a convergência de conteúdos diversificados e oriundos de sites externos (ex.: Linked Data)
  • 37. World Cup 2010Diversidade temática ■ O site trata de apenas um tema ■ ... porém, as tecnologias semânticas agregam conteúdos em diferentes formatos sobre um assunto específico (identificado por uma URI). Logo, o sistema tem potencial para agregar temas diversificados sobre um assunto identificado pela URI
  • 38. World Cup 2010Visualização ■ O site não aproveitou a dinamicidade dos dados para explorar recursos visuais mais elaborados e dinâmicos na narrativa ■ Houve gráficos simples gerados a partir de dados oriundos de fontes externas
  • 39. World Cup 2010Convergência ■ Há convergência de diferentes formatos de mídia e de gêneros (notícia, blog, estatística...) ■ As mídias são agregadas a um conceito, pois possuem tags associadas a tal conceito ■ Mais do que a convergência de mídias: as tecnologias semânticas permitiram a convergência de produções oriundas de diversas fontes da web
  • 40. BBCWildlife
  • 41. BBC WildlifeDescrição do casoÉ um site que reúne uma grande produçãode conteúdos sobre o mundo natural, maisespecificamente biológico, como animaisselvagens, plantas, fungos e seres pré-históricos
  • 42. BBC WildlifeDescrição do caso ■ Páginas únicas para: ■ espécies (e outros níveis) ■ habitats ■ comportamentos/adaptações ■ biorregiões ■ Milhares de páginas publicadas de forma automatizada ■ Cada página agrega diferentes informações oriundas de diferentes locais
  • 43. BBC WildlifeTecnologias semânticas ■ Triplas em RDF ■ Versão serializada das páginas (RDF/XML) ■ Ontologia própria sobre o mundo natural ■ Técnica de tagging (vocabulário controlado) ■ URIs baseados nos identificadores da DBpedia ■ Dados e metadados da Linked Data
  • 44. BBC Wildlife (OLIVER, 2010)
  • 45. BBC WildlifeFuncionamento ■ Termos da Wikipedia como vocabulário ■ Uso dos termos para tagging dos vídeos da BBC e de conteúdos externos ao site ■ Também há metadados oriundas de outros sites (ex.: habitats e biorregiões da WWF) ■ Páginas agregam os clipes de vídeo da BBC e os conteúdos externos através da associação das tags com a ontologia
  • 46. BBC WildlifeDinamicidade ■ Produto altamente dinâmico ■ Não encontramos indícios de potencialização significativa em relação aos atuais produtos jornalísticos em base de dados
  • 47. BBC WildlifeAutomatização ■ Automatização total na publicação de mídias, descrições e listas de links ■ Automatização baseada no modelo conceitual da ontologia Wildlife
  • 48. BBC WildlifeFlexibilidade ■ Descentralização da produção ■ Estrutura de navegação baseada na ontologia. Assim, a alteração na estrutura de navegação de milhares de páginas se torna mais flexível
  • 49. BBC WildlifeInter-relacionamento/Hiperlinkagem ■ As inferências realizadas com o inter- relacionamento baseado em ontologias permitem que o sistema origine coleções de conceitos relacionados ao assunto da página, gerados no formato de listas de links contextualizados, que funcionam como menus de navegação
  • 50. BBC WildlifeDensidade informativa ■ A interoperabilidade potencializa a convergência de conteúdos diversificados e oriundos de sites externos (ex.: Linked Data) ■ As listas contextualizadas de links aumentam a densidade informativa da matéria
  • 51. BBC WildlifeDiversidade temática ■ O site trata de apenas um tema ■ ... porém, as tecnologias semânticas agregam conteúdos em diferentes formatos sobre um assunto específico (identificado por uma URI). Logo, o sistema tem potencial para agregar temas diversificados sobre um assunto identificado pela URI ■ As listas de links levam a informações com outros temas sobre o assunto em questão
  • 52. BBC WildlifeVisualização ■ O site não aproveitou a dinamicidade dos dados para explorar recursos visuais mais elaborados e dinâmicos na narrativa ■ As páginas seguem a estética base de dados
  • 53. BBC WildlifeConvergência ■ Há convergência de diferentes formatos de mídia e de gêneros (notícia, blog, estatística...) ■ As mídias são agregadas a um conceito, pois possuem tags associadas a tal conceito ■ Mais do que a convergência de mídias: as tecnologias semânticas permitiram a convergência de produções oriundas de diversas fontes da web (Wikipedia, BBC News...)
  • 54. Resultados e conclusões
  • 55. Resultados econclusões ■ Em relação ao JDBD, há continuidades e há potencializações ■ As potencializações ocorrem, principalmente, na combinação das características do JDBD com a automatização (ontologias) ■ Defendemos uma possível ruptura: a interoperabilidade automatizada
  • 56. Resultados econclusõesInteroperabilidade automatizada ■ Permite o reaproveitamento automatizado de dados produzidos por terceiros ou por outras equipes da mesma organização ■ Diversifica as fontes de dados, o que pode enriquecer o produto em diferentes categorias, como a hiperlinkagem, a diversidade informativa e a diversidade temática
  • 57. Resultados econclusõesInteroperabilidade automatizada ■ Permite o compartilhamento de informações entre vários projetos complementares entre si, que podem formar uma base de conhecimento colaborativa (ex.: Linked Data) ■ Para que isso ocorra, é necessário que surjam  mais iniciativas que sigam a lógica da WS e que compartilhem seus dados de forma aberta
  • 58. Estudos futuros
  • 59. Estudos futurosPesquisa comparativa ■ Realizar uma comparação entre um produto que emprega tecnologias semânticas e outro que não utiliza ■ Uma oportunidade: Olimpíadas 2012
  • 60. Estudos futurosOpen Graph do Facebookcomo sistema semântico ■ Estudar o impacto que o sistema semântico da rede Facebook na organização e no gerenciamento de conteúdos informacionais ■ O Facebook utiliza a lógica das triplas com poucos verbos (curtir, ler, comentar...), mas divulgou que deverá lançar novos verbos, como cozinhar, comer, viajar e correr
  • 61. Estudos futurosAtivação da memória ■ Estudar como as tecnologias semânticas podem ativar a memória jornalística, ao reaproveitar conteúdos armazenados em arquivos e, a partir deste reaproveitamento, gerar novos produtos (ex.: caso BBC Wildlife)