Construindo uma Web de Dados           Link por Link com Software Livre,                 Esforço Distribuído e            ...
Outline     <         Dados Ligados? De que me importa?         l             Uma nova classe de aplicações na Web     <  ...
Dados ligados? Por quê?
Docs vs Tabelas: Computadores amam estrutura<    Lista de convidados para minha festa                   <                 ...
Docs vs Tabelas: estrutura permite automação     <         Agora usando uma tabela…                                       ...
Documentos na Web: multiplas buscas     <         Comprar uma pickup ou perua, não a maior, mas com altura         boa, in...
Web: Docs vs BDs, estrutura  automação7               Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEG...
O QUE SÃO DADOS LIGADOS?
Conceitos Básicos de Dados Ligados      Conjunto de boas práticas para publicação de dados      estruturados na Web, de ac...
Architecture of the classic Web              Web             Search                                                       ...
Web 2.0 APIs e Mashups                                              Não há um único espaço de dados         Mashup        ...
Web APIs cercam a Web como jardins murados Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY12           ...
Dados Ligados (Linked Data)                Estendem a Web em direção a                um espaço global de informações     ...
Conceitos Básicos: O Modelo de dados RDF                Um modelo de dados flexível, baseado em grafos                    ...
Ítens de dados são identificados por URIs                    rdf:type     pd:cygri                      foaf:Person       ...
Resolvendo URIs na Web                     rdf:type     pd:cygri                       foaf:Person        foaf:name       ...
Propriedades da Web de Dados Ligados <     Espaço distribuído global construído sobre um conjunto simples     de padrões  ...
Uma olhada na atual web de      dados ligados
DBpedia, uma peça central na Web de Dados     <         Reusar conhecimento existente na Wikipedia     Generating RDF.    ...
DBpedia: mapeamentos para homogeneidade20          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI201...
DBpedia Extraction Framework (Open Source)21           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEG...
W3C Linking Open Data Project     <         Esforço da comunidade para         l             publicar dados que já existam...
Dados Ligados na Web: Maio 2007     <         Acima de 500 milhões de triplas RDF     <         Cerca de 120.000 links RDF...
Dados Ligados na Web: Setembro 200824           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, ...
Dados Ligados na Web: Julho 2009<     Mais de 13.1 bilhões de triplas RDF<     Mais de 142 milhões de links RDF links entr...
Dados Ligados na Web: Setembro 2010                                                                      http://www4.wiwis...
QUAIS SÃO OS DESAFIOS?
Tarefas para realizar essa visão     Tarefas:     1.   Publicar dados em RDF via HTTP     2.   Criar links RDF apontando p...
Um exemplo de arquitetura baseada em Dados Ligados                                                 Aplicações             ...
Armazenagem de dados em RDF                                         http://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenc...
Publicar: Oferecer Dados em RDF via HTTP     Ferramentas plug-and-play (exemplos)     1.   D2R Server          l          ...
D2R Mapeando BDs para RDF     <         Linguagem declarativa para expressar mapeamentos entre um         dado banco relac...
Ajudinha à Homogeneidade: Reuse Termos     <         Vocabulários bem conhecidos:         l             Friend-of-a-Friend...
Puxar dados de fontes distintas: LDspider                                                                           http:/...
Aumentar a homogeneidade com dados externos     Usando dados heterogêneos que não te pertencem?     Crie mapeamentos que a...
Permita que clientes obtenham o esquema     Clientes podem fazer requisições a URIs que identificam termos do     vocabulá...
R2R Framework     <         Ferramenta para “tradução” de dados em RDF entre dois         vocabulários     <         Habil...
Linguagem de Mapeamento do R2R     <         Permite transformações complexas, usa SPARQL     <         Exemplo: tempo de ...
Compartilhe Mapeamentos                                                               Dados na Web                        ...
Crie links apontando para outras fontes     <         Mapeou o esquema? Também mapeie os valores.     <         Exemplos d...
Resolução de Silk, em três versões                                                                    Identidade          ...
Silk Example: Linking Persons            <LinkCondition>            <LinkCondition>              <Aggregate type="average"...
Silk Avaliação de Desempenho     <         Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData     <         ...
WIQA Framework     <         Permite filtragem de dados da Web usando várias políticas de         avaliação de qualidade. ...
“E a boa e velha Web de documentos?”                                                                                      ...
DBpedia Spotlight: Extração de Entidades<     Desafio:     l         Ambiguidade                                    Brazil...
DBpedia Spotlight: Extração de Entidades     <         Usa parágrafos da Wikipedia como exemplos para aprendizado de máqui...
Application Area: Social MediaInformation Overload!               Pablo N. Mendes, Construindo uma Web de Dados Link por L...
Twarql – Fluxo de Tweets filtrado por SPARQL     <         Anotar um fluxo de tweets         l             Extração de inf...
Twarql: Cenário de Brand Tracking (consulta) <     Quais concorrentes estão sendo mencionados com meu     produto?     –  ...
Twarql: Cenário de Brand Tracking (setup)     Consulta para selecionar tweets de interesse:                        Base de...
Twarql: Cenário de Brand Tracking (KB)     Consulta para selecionar tweets de interesse:                       Base de Con...
Twarql: Cenário de Brand Tracking (exec.)                                                                             Base...
Twarql: Cenário de Brand Tracking (obs.) •     Observações     –         Quando um novo concorrente “aparece” na base,    ...
http://ligadonospoliticos.com.br                                                           <                              ...
http://pt.dbpedia.org                                                                   <                                 ...
Como juntar todas essas informações?     <         Crawlers         l             Baixar informações de múltiplas fontes p...
O que muda nesse jogo?      <           No passado          BD                        Dados                  Portal       ...
Concluindo…
Lições Aprendidas (Open Source, Open Data)     <         Reuse, reuse, reuse e… além disso… reuse! (DRY)         l        ...
Resumo     <         Dados Ligados possibilitarão uma nova classe de aplicações     <         Integração de dados na Web (...
Conclusões<     A Web de Dados Ligados está crescendo rapidamente     l         Comunidades de implantação estão ativas em...
Obrigado!                pablo.mendes@fu-berlin.de                @pablomendes                http://blog.pablomendes.com ...
Upcoming SlideShare
Loading in …5
×

Dados Ligados (Linked Data) CONSEGI 2011

2,425 views

Published on

A Web é um espaço global de informações baseado na idéia de estabelecer hiperlinks entre documentos. De forma semelhante, tecnologias de Dados Ligados (Linked Data) permitem o estabelecimento de links entre registros em bancos de dados, interconectando estes bancos em um espaço global de dados. Tecnologias de Dados Ligados vem sendo adotadas por um número crescente de provedores de dados, resultando em aproximadamente 20 bilhões de ítens de dados que incluem dados sobre entidades governamentais e geográficas, pessoas, companhias, comunidades online, filmes, músicas, livros e publicações científicas. Pablo Mendes apresentou em sua palestra uma visão geral sobre infraestrutura, técnicas e software livre que abordam questões críticas que surgem em tal Web de Dados Ligados. Durante sua apresentação, ele descreveu como as pesquisas no grupo WBSG da Freie Universität Berlin vem usando conhecimento extraído da Wikipedia para semear um ecossistema de dados, software e usuários da Web de forma a habilitar integração de dados em escala global, seguindo um estilo evolucionário pay-as-you-go (link por link) que distribui esforços e acumula recompensas.

Uma das conclusões da apresentação é que se compartilharmos dados interligados - ou ainda melhor, se compartilharmos mecanismos de interligação - através da Web, poderemos dividir tanto o esforço de interligar, quanto as recompensas de se realizar consultas por sobre dados interligados.

Published in: Technology

Dados Ligados (Linked Data) CONSEGI 2011

  1. 1. Construindo uma Web de Dados Link por Link com Software Livre, Esforço Distribuído e Recompensa Acumulada Palaestra no CONSEGI 2011 13 de Maio de 2011, Brasilia, Brasil  Pablo N. Mendes Universidade Livre de Berlim AlemanhaObrigado a Christian Bizer, N. Mendes, Construindo uma Web de Dados e todo o WBSG na Brasília, 13/05/2011 Pablo Robert Isele, Anja Jentzch, Link por Link, CONSEGI2011, FU Berlin.
  2. 2. Outline < Dados Ligados? De que me importa? l Uma nova classe de aplicações na Web < O que são Dados Ligados? l Quais são os objetivos e visão? < Uma olhada na atual Web de Dados Ligados l Isso é pra valer? < Quais são os desafios? l Uma arquitetura de integração de dados na Web < Concluindo…2 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  3. 3. Dados ligados? Por quê?
  4. 4. Docs vs Tabelas: Computadores amam estrutura< Lista de convidados para minha festa < Organizando o CONSEGI? 4 4000? Quantos convidados virão? Quantos convidados virão?4 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  5. 5. Docs vs Tabelas: estrutura permite automação < Agora usando uma tabela… < Para o CONSEGI: Quantas pessoas virão?5 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  6. 6. Documentos na Web: multiplas buscas < Comprar uma pickup ou perua, não a maior, mas com altura boa, interior mais compridohttp://dig.csail.mit.edu/2010/LinkedData/Presentations/BusinessValue.pdf6 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  7. 7. Web: Docs vs BDs, estrutura  automação7 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  8. 8. O QUE SÃO DADOS LIGADOS?
  9. 9. Conceitos Básicos de Dados Ligados Conjunto de boas práticas para publicação de dados estruturados na Web, de acordo com a estrutura geral da Web. 1. Dê nome às coisas usando URIs 2. Use URIs HTTP para que outros possam requisitar mais informações sobre essas coisas. 3. Quando alguém requisitar uma URI, ofereça informação útil em RDF. 4. Inclua dados em RDF que estabeleçam links com outras URIs para que outros possam descobrir informações relacionadas. Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html, 20069 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  10. 10. Architecture of the classic Web Web Search Um único espaço global de informação Browsers Engines Pequeno conjunto de padrões simples HTTP 1. HTML como formato para documentos 2. URLs HTTP como HTML HTML HTML l IDs unívocos globais l mecanismo de requisição de dados hyper- links 3. Hiperlinks para conectar tudo A B C10 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  11. 11. Web 2.0 APIs e Mashups Não há um único espaço de dados Mashup Limitações 1. APIs tem interfaces proprietárias 2. Mashups são baseados em um Web Web Web Web conjunto fixo de fontes de dados API API API API 3. Não há hiperlinks entre ítens de dados provenientes de APIs distintas A B C D11 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  12. 12. Web APIs cercam a Web como jardins murados Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY12 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  13. 13. Dados Ligados (Linked Data) Estendem a Web em direção a um espaço global de informações 1. através do uso de RDF para publicação de dados estruturados na Web 2. através de links entre ítens de dados em fontes de dados distintas RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF link links links links A B C D E13 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  14. 14. Conceitos Básicos: O Modelo de dados RDF Um modelo de dados flexível, baseado em grafos rdf:type pd:cygri foaf:Person foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin Representação em texto (formato N3): pd:cygry rdf:type foaf:Person . pd:cygry foaf:name “Richard Cyganiak” . pd:cygry foaf:based_near dbpedia:Berlin .14 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  15. 15. Ítens de dados são identificados por URIs rdf:type pd:cygri foaf:Person foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri dbpedia:Berlin = http://dbpedia.org/resource/Berlin URIs HTTP assumem o papel de chaves primárias15 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  16. 16. Resolvendo URIs na Web rdf:type pd:cygri foaf:Person foaf:name 3.405.259 Richard Cyganiak dp:population foaf:based_near dbpedia:Berlin skos:subject dp:Cities_in_Germany O protocolo HTTP traz identificação e obtenção de dados.16 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  17. 17. Propriedades da Web de Dados Ligados < Espaço distribuído global construído sobre um conjunto simples de padrões l RDF, URIs, HTTP < Entidades são conectadas por links l criando um grafo global de dados que se estende por diversas fontes de dados e l habilita a descoberta de novas fontes < Oferece mecanismos para co-existência de dados onde l qualquer um publica dados na Web de Dados Ligados l qualquer um expressa suas opiniões sobre quaisquer dados l qualquer um usa os vocabulários/esquemas que preferirem17 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  18. 18. Uma olhada na atual web de dados ligados
  19. 19. DBpedia, uma peça central na Web de Dados < Reusar conhecimento existente na Wikipedia Generating RDF. dbpedia:Albert_Einstein foaf:name “Albert Einstein”; p:birth_place dbpedia:Ulm; p:birth_date 14-03-1879 .19 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  20. 20. DBpedia: mapeamentos para homogeneidade20 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  21. 21. DBpedia Extraction Framework (Open Source)21 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  22. 22. W3C Linking Open Data Project < Esforço da comunidade para l publicar dados que já existam com licenças abertas como dados ligados na Web l interligar coisas descritas em fontes de dados distintas22 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  23. 23. Dados Ligados na Web: Maio 2007 < Acima de 500 milhões de triplas RDF < Cerca de 120.000 links RDF entre fontes de dados23 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  24. 24. Dados Ligados na Web: Setembro 200824 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  25. 25. Dados Ligados na Web: Julho 2009< Mais de 13.1 bilhões de triplas RDF< Mais de 142 milhões de links RDF links entre fontes de dados25 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  26. 26. Dados Ligados na Web: Setembro 2010 http://www4.wiwiss.fu-berlin.de/lodcloud/state/< Acima de 24,7 bilhões de triplas RDF< Acima de 436 milhões de links RDF entre fontes de dados26 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  27. 27. QUAIS SÃO OS DESAFIOS?
  28. 28. Tarefas para realizar essa visão Tarefas: 1. Publicar dados em RDF via HTTP 2. Criar links RDF apontando para outras fontes 3. Fazer com que os dados se auto-descrevam 4. Consumir Dados Ligados <. Merchan: How to publish Linked Data? l Livro do Tom Heath e Christian Bizer http://linkeddatabook.com/ (Versão HTML é grátis!)28 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  29. 29. Um exemplo de arquitetura baseada em Dados Ligados Aplicações Acesso a Mapear Resolução de Avaliação de Dados da Web Dados Vocabularios Identidade Qualidade Integrados29 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  30. 30. Armazenagem de dados em RDF http://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark < Berlin SPARQL Benchmark BSBM V3 (February 2011) l Caso de uso de e-Commerce: Produtos oferecidos por diversas empresas e com avaliações criadas por consumidores.30 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  31. 31. Publicar: Oferecer Dados em RDF via HTTP Ferramentas plug-and-play (exemplos) 1. D2R Server l Mapeia bancos relacionais para RDF, e os expõem como dados ligados l Software Livre: GNU GPL license 2. Pubby ● Camada para expor servidores de SPARQL como dados ligados l Software Livre: Apache License V2 3. Mais ferramentas l W3C Wiki [1] [1] http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools31 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  32. 32. D2R Mapeando BDs para RDF < Linguagem declarativa para expressar mapeamentos entre um dado banco relacional e um dado esquema em RDF32 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  33. 33. Ajudinha à Homogeneidade: Reuse Termos < Vocabulários bem conhecidos: l Friend-of-a-Friend para descrição de pessoas e suas redes sociais l SIOC para descrição de forums e blogs l SKOS para representação de taxonomias de tópicos l Organization Ontology para descrever estrutura de organizações l GoodRelations para descrição de produtos e entidades de negócio l Music Ontology para artistas, álbuns, e shows l Review Vocabulary termos para representação de opiniões < Fontes conhecidas de identificadores (URIs) para objetos l LinkedGeoData e Geonames para lugares l GeneID e UniProt para identificadores na área de ciências da saúde l DBpedia para temas variados33 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  34. 34. Puxar dados de fontes distintas: LDspider http://code.google.com/p/ldspider/ < Flexível crawler para dados ligados < Crawls RDF/XML and RDFa < Software Livre: GPL License um pequeno pacote jar com um mínimo Crawl de de dependências Dados Ligados Crawling Twitter Profiles (RDFa) Round 1 2 3 Profiles 1 38 116034 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  35. 35. Aumentar a homogeneidade com dados externos Usando dados heterogêneos que não te pertencem? Crie mapeamentos que aumentam a homogeneidade. <http://xmlns.com/foaf/0.1/Person> owl:equivalentClass <http://dbpedia.org/ontology/Person> . < Mapeamentos Simples: OWL, RDFS, SKOS l owl:equivalentClass, owl:equivalentProperty, l rdfs:subClassOf, rdfs:subPropertyOf l skos:broadMatch, skos:narrowMatch35 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  36. 36. Permita que clientes obtenham o esquema Clientes podem fazer requisições a URIs que identificam termos do vocabulário de forma a obter suas definições em RDFS ou OWL Alguns dados na Web <http://richard.cyganiak.de/foaf.rdf#cygri> foaf:name "Richard Cyganiak" ; rdf:type <http://xmlns.com/foaf/0.1/Person> . Resolver termo desconhecido http://xmlns.com/foaf/0.1/Person Definição em RDFS ou OWL <http://xmlns.com/foaf/0.1/Person> rdf:type owl:Class ; rdfs:label "Person"; rdfs:subClassOf <http://xmlns.com/foaf/0.1/Agent> ; rdfs:subClassOf <http://xmlns.com/wordnet/1.6/Agent> ; owl:equivalentClass <http://dbpedia.org/ontology/Person> .36 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  37. 37. R2R Framework < Ferramenta para “tradução” de dados em RDF entre dois vocabulários < Habilita a publicação e descoberta de mapeamentos na Web < Software Livre: Apache License V2.0 Mapeamento de Esquemas37 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  38. 38. Linguagem de Mapeamento do R2R < Permite transformações complexas, usa SPARQL < Exemplo: tempo de duração – Freebase para DBpedia < fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.)38 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  39. 39. Compartilhe Mapeamentos Dados na Web Definição de um termo com link para o mapeamento Mapeamento R2R “Não dê o peixe, ensine a pescar.”39 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  40. 40. Crie links apontando para outras fontes < Mapeou o esquema? Também mapeie os valores. < Exemplos de links RDF Equivalência / resolução de identidade <http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> . Reusando URIs como valor de um atributo <http://richard.cyganiak.de/foaf.rdf#cygri> foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web> . Descrevendo URIs administrada por outros <http://example-bookshop.com/book006251587X> owl:sameAs <http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X> .40 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  41. 41. Resolução de Silk, em três versões Identidade (Homogenizando Identificadores) < Silk Single Machine l Usa multithreading, dados locais ou remotos < Silk MapReduce l Usa várias máquinas em cluster l Usa Hadoop (ex: roda na Amazon Elastic Cloud) < Silk Server l API HTTP l Compara um fluxo de dados (stream) RDF com uma base local l Compara também instâncias já vistas no fluxo l Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de dados41 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  42. 42. Silk Example: Linking Persons <LinkCondition> <LinkCondition> <Aggregate type="average"> <Aggregate type="average"> Comparar nomes <Aggregate type="max" required="true"> <Aggregate type="max" required="true"> usando a similaridade <Compare metric="jaroWinkler"> <Compare metric="jaroWinkler"> JaroWinkler <TransformInput function="lowerCase"> <TransformInput function="lowerCase"> Agregar <Input path="?a/foaf:name"/> <Input path="?a/foaf:name"/> Ignorar maiúsculas/minúsculas resultados </TransformInput> </TransformInput> <TransformInput function="lowerCase"> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> <Input path="?b/foaf:name"/> </TransformInput> </TransformInput> </Compare> </Compare> </Aggregate> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Aggregate type="max" weight="2" required="true"> Comparar homepages <Compare metric="levenshtein"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> </Compare> Comparar e-mails <Compare metric="equality"> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Compare> </Aggregate> </Aggregate> </Aggregate> </Aggregate> </LinkCondition> </LinkCondition>42 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  43. 43. Silk Avaliação de Desempenho < Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData < Workflow: l Blocking (agrupar instâncias: cidades por nome) l Matching (comparação de todos contra todos usando uma “link condition”) l Filtering (remover ligações com valores baixos de confiança) Versão do Silk Tempo (sem blocking) Tempo(com blocking) Silk Single Machine1 54 hours 155.5 min Silk MapReduce2 6.7 hours 14.4 min43 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  44. 44. WIQA Framework < Permite filtragem de dados da Web usando várias políticas de avaliação de qualidade. < Será estendido com funções de fusão de dados Avaliação de Data qualidade Fusion44 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  45. 45. “E a boa e velha Web de documentos?” Outras Ferramentas< Anotação em texto de entidades da DBpedia< Interligar documentos e dados ligados – automaticamente!< Software Livre: Apache V245 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  46. 46. DBpedia Spotlight: Extração de Entidades< Desafio: l Ambiguidade Brazil dbpedia:Brazil,_Indiana dbpedia:Brazil_national_football_team dbpedia:Brazil_(1944_film) dbpedia:Angela_Brazil (mais de 40 outros sentidos)46 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  47. 47. DBpedia Spotlight: Extração de Entidades < Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina < Atualmente somente em inglês :-( < Breve: português e espanhol :-) < Interliga documentos em texto / html com a DBpedia http://dbpedia.org/resource/Brazil47 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  48. 48. Application Area: Social MediaInformation Overload! Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  49. 49. Twarql – Fluxo de Tweets filtrado por SPARQL < Anotar um fluxo de tweets l Extração de informações: entidades, usuários, URLs, sentimentos l Geração de anotações (descrições do tweet) em RDF l Filtros expressos como consultas SPARQL Aplicações l Permite uso de uma base de conhecimentos l Entrega informações em tempo real49 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  50. 50. Twarql: Cenário de Brand Tracking (consulta) < Quais concorrentes estão sendo mencionados com meu produto? – comparando produtos com base em opiniões de redes sociais SELECT ?competitor, ?sentiment WHERE { dbpedia:IPad skos:subject ?category . ?competitor skos:subject ?category . ?tweet moat:taggedWith ?competitor . ?tweet moat:taggedWith dbpedia:IPad . ?tweet twarql:sentiment ?sentiment . }
  51. 51. Twarql: Cenário de Brand Tracking (setup) Consulta para selecionar tweets de interesse: Base de Conhecimento (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentimentmoat:taggedWith ?sentiment skos:subject dbpedia:IPad ?category skos:subject ?competitor skos:subject Modelagem: concorrentes são dois produtos na mesma categoria na DBpedia
  52. 52. Twarql: Cenário de Brand Tracking (KB) Consulta para selecionar tweets de interesse: Base de Conhecimento (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentimentmoat:taggedWith ?sentiment dbpedia:IPad ?competitor ?category skos:subject skos:subject category:Wi-Fi skos:subject category:Touchscreen O conhecimento advindo da base é trazido dinamicamente para o tweet através de anotações.
  53. 53. Twarql: Cenário de Brand Tracking (exec.) Base de Conhecimento Entrada de um fluxo de tweets: (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentimentmoat:taggedWith ?sentiment dbpedia:IPad ?competitor ?category skos:subject skos:subject category:Wi-Fi skos:subject category:Touchscreen Ação é executada se o tweet passar pelo filtro:
  54. 54. Twarql: Cenário de Brand Tracking (obs.) • Observações – Quando um novo concorrente “aparece” na base, nenhuma mudança é requerida na consulta => Evolução Automática – Encontramos produtos interessantes que não consideramos inicialmente como concorrentes do IPad (ex: IPhone) => Serendipity: surpresa boa :)
  55. 55. http://ligadonospoliticos.com.br < Projeto da UFJF ● Lucas Araújo < Baseado em Linked Data55 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  56. 56. http://pt.dbpedia.org < Pré-lançamento HOJE! ● Freie Universität Berlin < Novos Parceiros l UFJF (Juiz de Fora) Jairo F. de Souza l UFRJ (Rio de Janeiro) Maria Luiza M. Campos < < Lançamento oficial ● Julho/Agosto 2011 < Junte-se a nós!56 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  57. 57. Como juntar todas essas informações? < Crawlers l Baixar informações de múltiplas fontes para uma cache local. l Exemplo: veja a Linked Open Data cloud “cache” (http://lod.openlinksw.com/sparql) < Motores de Busca l Provem acesso integrado a informações distribuídas na Web l Sindice, Falcons, Watson < Interfaces de Exploração de Dados l Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ) l Sigma (http://sig.ma) by DERI < Aplicações de terceiros l Exemplo: Mashups l A forma mais criativa de utilizar teus dados será descoberta por outra pessoa (via Rufus Pollock no CONSEGI2011)57 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  58. 58. O que muda nesse jogo? < No passado BD Dados Portal Consumidor BD Integrados WEB BD Outro Consumidor < No futuro (agora?) Portal BD Consumidor WEB DE DADOS BD BD Outro Mashup Dados Outro Consumidor Integrados58 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  59. 59. Concluindo…
  60. 60. Lições Aprendidas (Open Source, Open Data) < Reuse, reuse, reuse e… além disso… reuse! (DRY) l Protocolos da Web, linguagens, vocabulários, identificadores, sempre que possível! < Linguagens Declarativas l Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos) < Release iterativo: libere seu software cedo l A opinião do público alvo vai guiar o desenvolvimento em direção às características mais úteis < Primeiro os alvos mais fáceis (low hanging fruit) (KISS) l Adquirir uma massa de dados primeiro, interconectar incrementalmente, encontrar dados de alta qualidade < Cativar e apoiar a comunidade l Ofereça demonstrações, documentação, apoie listas de discussão, mantenha o projeto vivo.60 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  61. 61. Resumo < Dados Ligados possibilitarão uma nova classe de aplicações < Integração de dados na Web (interlinking): novos desafios e novas oportunidades < Uma série de aplicações atacando alguns desses desafios l Publicação: D2R, Pubby l Aquisição: LDspider l Mapeamento de Esquemas: R2R l Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração de Entidades em Texto) l Avaliação de Qualidade: WIQA l Aplicações: Browsers, Twarql, Sigma < Em breve: LDIF – Linked Data Integration Framework l Aquisição, Mapeamento, Interligações, Qualidade: em um pacote! l Empacotamento Debian!61 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  62. 62. Conclusões< A Web de Dados Ligados está crescendo rapidamente l Comunidades de implantação estão ativas em vários domínios l Excedeu a massa crítica< Busca na Web está evoluindo para pergunta+resposta (QA) l Motores de busca cada vez mais se beneficiam de dados estruturados na Web< Como participar na construção de uma Web melhor? l Sem conhecimentos técnicos: compartilhe conhecimento abertamente! l Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org) l Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu!< Compartilhe dados, mas também ligações entre dados na Web!< Também compartilhe COMO ligar via mapeamentos, link specs, etc.< Cada link conta!62 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  63. 63. Obrigado! pablo.mendes@fu-berlin.de @pablomendes http://blog.pablomendes.com References l Christian Bizer, Tom Heath, Tim Berners-Lee: Linked Data – The Story So Far http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf l Linking Open Data Project Wiki http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData l 1st Workshop on Consuming Linked Data at ISWC 2010 http://people.aifb.kit.edu/aha/2010/cold/ l 3rd Linked Data on the Web Workshop at WWW 2010 http://events.linkeddata.org/ldow2010/63 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011

×