Integração de dados

902 views

Published on

Apresentação no grupo de pesquisas de banco de dados da UFPE!

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
902
On SlideShare
0
From Embeds
0
Number of Embeds
39
Actions
Shares
0
Downloads
27
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Integração de dados

  1. 1. Integração de Dados Danusa Ribeiro drbc@cin.ufpe.br
  2. 2. Porque integrar? 2
  3. 3. Porque integrar? Sist. de Suporte a Decisão Outras áreas Linguagens de Programação Inteligência Artificial Sistemas Distribuídos & Internet Sistemas de Bancos de Dados TemporalEspacial Espaço Temporal BD Multimídia BD Dimensional DW BD Distribuídos BDOO BDDOO BD Ativo BDD BDD Ativo BDOO Ativo BD de Restrições BD OO Espacial BD XML Nativo [Lóscio, 2014] 3
  4. 4. Porque integrar? • Heterogeneidade – nível físico (diferentes plataformas de hardware e software). – nível lógico (diferentes modelos de dados). – nível conceitual (diferentes esquemas e conceitos). 4
  5. 5. Porque integrar? “Integration of multiple information systems aims at combining selected systems so that they form a unified new whole and give users the illusion of interacting with one single information system.” [Patrick Ziegler and Klaus R. Dittrich, 2004] 5
  6. 6. Sistemas de Integração de Dados • Objetivo dos sistemas de integração de dados – permitir que usuários consultem simultaneamente múltiplas fontes de dados • Heterogêneas • Distribuídas • Autônomas – Manter transparentes os procedimentos de acesso, extração e integração dos dados 6
  7. 7. Sistemas de Integração de Dados • Abordagens – Virtual – Materializada 7
  8. 8. Sistemas de Integração de Dados • Virtual – Os dados são recuperados diretamente das fontes. – As consultas são enviadas diretamente às fontes de dados . – Os resultados individuais obtidos são integrados e enviados ao usuário. – Vantagem: Os dados estão sempre atualizados. – Desvantagem: Os custos de processamento das consultas e de acesso às fontes são elevados. 8
  9. 9. Sistemas de Integração de Dados • Materializada – Os dados da fontes distintas são extraídos e materializados localmente em repositórios chamados datawarehouses. – Vantagem: As consultas são realizadas sobre a base materializada. • Melhor desempenho – Desvantagem: Necessidade de manter a base materializada sempre atualizada 9
  10. 10. Arquitetura para Integração de Dados • Arquiteturas Clássicas para Integração de Dados – Esquema Global • Construção de um esquema global a partir da integração dos esquemas das fontes de dados locais. • As fontes de dados distribuídas e heterogêneas podem ser acessadas de maneira uniforme e transparente através deste esquema global. – Federada • Bancos de dados cooperantes e autônomos que participam da federação para permitir um compartilhamento parcial e controlado de seus dados. • São oferecidos múltiplos esquemas integrados, de acordo com os requisitos das aplicações – estáticos e definidos a priori 10
  11. 11. Arquitetura para Integração de Dados • Arquitetura baseada em Mediadores 11
  12. 12. Arquitetura para Integração de Dados • Arquitetura de Data Warehouse 12
  13. 13. Arquitetura para Integração de Dados • Sistemas de Gerenciamento de Dados peer-to- peer 13
  14. 14. Arquitetura para Integração de Dados • Dataspaces – Fase de inicialização rápida e de baixo custo, por meio da geração incremental e automática dos mapeamentos. – Como consequência disto, os resultados recuperados pelas consultas são imprecisos. – Isto se deve a baixa qualidade dos mapeamentos, que por muitas vezes, são obtidos de maneira automática pelas ferramentas existentes. – Não há uma definição clara do esquema de mediação ou esquema global, já que o mesmo é um sistema bastante flexível, podendo variar conforme a necessidade. 14
  15. 15. Principais Desafios • Modelagem de Dados • Definição da visão integrada • Reformulação de consultas • Construção de tradutores 15
  16. 16. Sistemas de Integração de Dados • Para que ocorra a integração de dados, devem ser definidos relacionamentos ou mapeamentos entre cada esquema fonte e o esquema de mediação. • Um mapeamento especifica como instâncias de dados de um esquema correspondem à instância de dados de outro esquema. 16
  17. 17. Abordagem para definição de Mapeamentos • Para especificar a descrição das fontes de dados: – Global-As-View (GAV) – Local-As-View (LAV) – Global-Local-as-View (GLAV) 17
  18. 18. • Global-As-View (GAV) – Cada entidade no esquema de mediação tem uma correspondência com o esquema da fonte de dado. – Neste caso a reformulação de consultas torna-se mais simples. Abordagem para definição de Mapeamentos 18
  19. 19. • Local-As-View (GAV) – Cada elemento em uma fonte local é definido como uma visão sobre o esquema de mediação. – Torna mais fácil a manutenção das fontes de dados. – O processo de decomposição de consultas é mais complexo. Abordagem para definição de Mapeamentos 19
  20. 20. Abordagem para definição de Mapeamentos Fonte de dados1 Estudante1 • 𝑚𝑎𝑡1 • 𝑛𝑜𝑚𝑒1 • 𝑐𝑢𝑟𝑠𝑜1 • 𝑛𝑜𝑡𝑎1 Fonte de dados2 Estudante1 • 𝑚𝑎𝑡2 • 𝑛𝑜𝑚𝑒2 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 Avaliação1 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 • 𝑐𝑢𝑟𝑠𝑜2 • 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2 Esquema de mediação Estudante 𝑚 • Mat 𝑚 • Nome 𝑚 • Curso 𝑚 • Nota 𝑚 • Aval_escrita 𝑚 20
  21. 21. Abordagem para definição de Mapeamentos Fonte de dados1 Estudante1 • 𝑚𝑎𝑡1 • 𝑛𝑜𝑚𝑒1 • 𝑐𝑢𝑟𝑠𝑜1 • 𝑛𝑜𝑡𝑎1 Fonte de dados2 Estudante1 • 𝑚𝑎𝑡2 • 𝑛𝑜𝑚𝑒2 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 Avaliação1 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 • 𝑐𝑢𝑟𝑠𝑜2 • 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2 Esquema de mediação Estudante 𝑚 • Mat 𝑚 • Nome 𝑚 • Curso 𝑚 • Nota 𝑚 • Aval_escrita 𝑚 Global-As-View (GAV) 21
  22. 22. Abordagem para definição de Mapeamentos Fonte de dados1 Estudante1 • 𝑚𝑎𝑡1 • 𝑛𝑜𝑚𝑒1 • 𝑐𝑢𝑟𝑠𝑜1 • 𝑛𝑜𝑡𝑎1 Fonte de dados2 Estudante1 • 𝑚𝑎𝑡2 • 𝑛𝑜𝑚𝑒2 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 Avaliação1 • 𝑐𝑜𝑑_𝑎𝑣𝑎𝑙2 • 𝑐𝑢𝑟𝑠𝑜2 • 𝑎𝑣𝑎𝑙_𝑒𝑠𝑐𝑟𝑖𝑡𝑎2 Esquema de mediação Estudante 𝑚 • Mat 𝑚 • Nome 𝑚 • Curso 𝑚 • Nota 𝑚 • Aval_escrita 𝑚 Local-As-View (GAV) 22
  23. 23. Histórico 23 Web HTTP HTML/CSS/ JavaScript Web Social Compartilhamento, Grupos, Relacionamentos, Tags... Web Semântica (visão desde 1998) Raciocinadores, Lógica, Regras... O que vem por aí? 1990-2000 2000-2010 2010-2020?
  24. 24. E com o advento da Web... Ainda é necessário integrar os dados? A Web revolucionou a forma como os dados são gerados e manipulados! 24
  25. 25. Desafios para Integração de Dados na Web • Existem algumas diferenças que precisam ser consideradas quando fontes de dados Web são integradas como: – O número de fontes de dados pode ser grande, o que dificulta os processos de integração de esquemas e resolução de conflitos. – As fontes de dados • são muito dinâmicas e assim a adição ou remoção de fontes de dados deve ser feita de maneira a minimizar o impacto na visão integrada. • são bastante heterogêneas, podendo ser desde sistemas de gerenciamento de bancos de dados até simples arquivos. • podem ser não estruturadas ou semiestruturadas e, na maioria das vezes, não fornecem informações suficientes para a integração dos esquemas. 25
  26. 26. Desafios para Integração de Dados na Web • Os dados na Web – são organizados para serem lidos ou compreendidos por humanos e não por agentes de software. – é necessário processar a semântica envolvida naquele dado, num determinado contexto. • Semântica diz respeito à atribuição de significado a elementos, dados ou expressões que precisam ser interpretados numa dada situação. – atribuir significado aos dados interligando-os com outros conjuntos de dados ou outros domínios de conhecimento, conseguindo, assim, criar uma relação de significância entre os conteúdos publicados na Internet de modo que seja perceptível tanto pelo usuário quanto pelos agentes de software. – Essa visão da Web é denominada de Web Semântica (Semantic Web) 26
  27. 27. E o que é Web Semântica? Como ela ajuda no processo de integração de dados na Web? Cenas dos próximos capítulos. Não percam!!! 27
  28. 28. Referências • [Franklin et al. 2005] Franklin, M., Halevy, A., Maier, D. From Databases to Dataspaces: A New Abstraction for Information Management. In: SIGMOD ’05: Proceedings of the 2005 ACM SIGMOD international conference on Management of data (2005) 27–33. • [Halevy 2003] Havely, A. Y., Data Integration: A Status Report. . In proceedings of BTW, 2003. • [Halevy et al. 2006a] Halevy, A., Rajaraman, A., Ordille, J.: Data integration: the teenage years. In: VLDB’06: 32nd International Conference on Very Large Data Bases, ACM (2006). • [Halevy et al. 2006b] Halevy, A., Franklin, M., Maier, D. Principles of Dataspace Systems. In: PODS ’06: Proceedings of the twenty-fifth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems, ACM (2006). • [Heath and Bizer 2011] Heath, T., Bizer, C., Linked Data: Evolving the Web into a Global Data Space (1st edition). Synthesis Lectures on the Semantic Web: Theory and Technology. Morgan & Claypool, 2011. 28
  29. 29. Referências • [Herschel and Heese 2005] Herschel, S. and Heese, R. Humboldt Discoverer: A Semantic P2P index for PDMS. In: Proc. of the International Workshop Data Integration and the Semantic Web, Porto, Portugal, 2005. • [Lóscio 2003] Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries. Ph.D. Thesis, Federal University of Pernambuco, Brazil, 2003. • [Navathe et al. 1986] Navathe, S. B., Elmasri, R. and Larson, J. (1986). Integrating user views in database design. IEEE Computer, vol. 19, no. 1. • [Madhavan et al. 2007] Madhavan, J., Cohen, S., Dong, X.L., Halevy, A.Y., Jeffery, S.R., Ko, D., Yu, C. Web-scale data integration: You can afford to pay as you go. In: Proc. of Third Biennial Conference on Innovative Data Systems Research, 2007, Asilomar, CA, USA. 29
  30. 30. Referências • [Pires 2009] Pires, C. E. S. (2009). Ontology-based Clustering in a Peer Data Management System. PhD thesis, Federal University of Pernambuco. • [Salles et al. 2007] Salles, M.A.V., Dittrich, J.P., Karakashian, S.K., Girard, O.R., Blunschi, L.: iTrails: Pay-as-you-go Information Integration in Dataspaces. In: VLDB’07: 33rd International Conference on Very Large Data Bases, ACM (2007). • [Sarma et al 2008] Sarma, A. D., Dong, X., Halevy, A. 2008. Bootstrapping pay-as-you-go data integration systems. In Proceedings of the 2008 ACM SIGMOD international conference on Management of data (SIGMOD '08). ACM, New York, NY, USA, 861-874. • [Sung et al. 2005] Sung, L. G. A., Ahmed, N., Blanco, R., Li, H, Soliman, M. A., Hadaller, D. A Survey of Data Management in Peer-to-Peer Systems. In: School of Computer Science, University of Waterloo, 2005. 30

×