Integracao dados Ontem Hoje e Sempre

  • 427 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
427
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
10
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Integração de Dados:Ontem, hoje e sempre Bernadette Farias Lóscio bfl@cin.ufpe.br
  • 2. motivação ... ... ... Distribuição Heterogeneidade Autonomia Transparência 2
  • 3. agenda Sistemas de integração de dados Evolução das soluções Arquiteturas/Abordagens Integração semântica Dataspaces/pay as you go Conclusões 3
  • 4. sistemas de integração de dados Data integration systems offer uniform access to a set of autonomous and heterogeneous data sources. Alon Halevy 4
  • 5. sistemas de integração de dados§  O número de fontes de dados pode crescer§  As fontes de dados podem ser estruturadas ou não§  Heterogeneidade em diferentes níveis <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> <....> 5
  • 6. sistemas de integração de dados integração de dados é um processo ! entender Dados, propriedades, valores, significados Metadados são fundamentais! padronizar Definir terminologia, como lidar com objetos e valores inconsistentes, definir esquema integrado especificar Configurar o mecanismo de integração executar Integrar!!! (materialização x mediação)Beauty and Beast: The Theory and Practice of Information Integration , [Hass, 2007 ] 6
  • 7. sistemas de integração de dados The integration process is iterative, and never-ending. Change is constant... Laura Haas 7
  • 8. sistemas de integração de dados The goal of data integration is to build tools that make it easier to build data integration applications, rather than completely automating the process. Alon Halevy 8
  • 9. evolução das soluções ... Dataspaces Integração de dados usando web services Sistemas baseados em ontologias Sistemas baseados em agentes Sistemas de mediação Sistemas de bancos de dados múltiplos Aplicações de banco de dados 9
  • 10. evolução das soluções/aplicações aplicação ... aplicação mediação, data warehouse, P2P,dataspace, agentes, Camada de integraçãoontologias, serviços web, informações de dados contextuaisdados governamentais, biológicos, médicos, ... dados na web... fontes de dados 10
  • 11. arquiteturas/abordagens arquitetura de mediadores[Lóscio, 1998] 11
  • 12. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 12
  • 13. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 13
  • 14. arquiteturas/abordagens reformulação de consultas - mediação[Lóscio, 1998] 14
  • 15. arquiteturas/abordagens formalizando... Um sistema de integração de dados (mediação) é uma tripla (G, S, M), onde: –  G é o esquema global –  S é o esquema fonte –  M é o mapeamento entre G e S Data Integration: A theoretical perspective , [Lenzerini, 2002] 15
  • 16. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... M ... ... ... esquema esquema esquema local local local S 16
  • 17. arquiteturas/abordagens (mapeamentos semânticos) esquema G global ... Como conceitos nas fontes correspondem a conceitos no ... esquema global? ... ... esquema esquema esquema local local local S 17
  • 18. arquiteturas/abordagens (mapeamentos semânticos) R Name Surname Age Salary S1 N SN A S2 N SN S D Geração dos mapeamentos semânticos 1 identificação de correspondências (matchings) 2 geração das expressões de mapeamento (mappings) Abordagens para definição de mapeamentos semânticos: GAV e LAV 18
  • 19. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R Name Surname Age Salary global schema S1 N SN A S2 N SN S D local schemas In this example, the GAV mapping would be: R(Name, Surname, Age, Salary) :- S1(N,SN,A), S2(N, SN, S) Q(S):- R(Name, Surname, Age, Salary), A = 40 view Q(S):- S1(N, SN,A), S2(N, SN, S, D), A = 40 unfolding 19
  • 20. arquiteturas/abordagens (mapeamentos semânticos)[Souza, 2009] R1 Name Surname Age Salary R2 Name Dept S1 N SN A S2 N SN S D In this example, the LAV mapping would be: S1(N,SN,A) :- R1(Name, Surname, Age) S2(N,SN,S,D) :- R1(Name, Surname, Salary), R2(Name, Dept) Q(Name, Surname, Age, Dept):- R1(Name, Surname, Age, Salary), R2(Name, Dept), A < 50, D = “Education”. view Q (N, SN, A) :- S1(N,SN,A), S2(N,SN,S,D) rewriting 20
  • 21. integração semântica Agrupar e combinar dados de diferentes fontes considerando uma semântica explícita 21
  • 22. integração semântica ontologias Zelia Gattai Salvador married isIn livedIn Jorge Amado Bahia wrote wrote partOf Mar Morto Brazil Tieta do Agreste partOf Ceará 22
  • 23. integração semântica (abordagens) 1 uma única ontologia ontologia global 2 múltiplas ontologias ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. al, 2001 ] 23
  • 24. integração semântica - (abordagens) 3 abordagem híbrida vocabulário compartilhado ontologia ontologia ontologia local local local Ontology-Based Integration of Information – A Survey of Existing Approaches , [ Wache et. Al, 2001 ] 24
  • 25. dataspaces/pay as you go Problem: Querying Several Sources What is the impact of global warmingQuery in Zurich? ? ? ? ?Systems DataSources Email Web DB Laptop Server Server Server “iTrails: Pay-as-you-go Information Integration in Dataspaces“, [Salles, 2007] 25
  • 26. dataspaces/pay as you go Job! Solution 1: Use a Search Engine Query global warming zurich Graph IR Search Engine System Drawback: Query semantics are not precise! TopX [VLDB05], FleXPath [SIGMOD04], XSearch [VLDB03], XRank [SIGMOD03] text, text, text, text, links links links links DataSources[Salles, 2007] Email Web DB Laptop Server Server Server 26
  • 27. dataspaces/pay as you go Solution 2: Use an Information Integration System //Temperatures/*[city = zurich ] Query . . . . Information ... Temps Cities Integration Drawback: Too much effort to provide ... System CO2 System Sunspots schema mappings![VLDB96]), GAV (e.g. [ICDE95]), LAV (e.g. GLAV [AAAI99], P2P (e.g. [SIGMOD04]) missing missing schema schema schema schema mapping mapping mapping mapping[Salles, 2007] Data Sources Email Web DB Laptop Server Server Server 27
  • 28. dataspaces/pay as you go Research Challenge: Is There an Integration Solution in-between These Two Extremes? global warming zurich //Temperatures/*[city = global warming zurich zurich ] ? . . . . . . Graph IR Dataspace ... Information Search Engine Temps Cities Integration System ... CO2 Sunspots System Pay-as-you-go full-blown text, Information schema links text, text, text, text, mappings Integration links links links links[Salles, 2007] Data Data Sources Sources Email Web DB Dataspace Vision by Laptop Franklin, Halevy, and Maier Server Server Server [SIGMOD Record 05] 28
  • 29. dataspaces/pay as you go[Halevy, 2006] 29
  • 30. dataspaces/pay as you go algumas diferenças... §  Mapeamentos semânticos e esquema de mediação serão criados automaticamente (porém, podem ser aproximados) §  Diferentes mecanismos de consulta (respostas aproximadas ou parciais) A semântica poderá ser aperfeiçoada com o tempo 30
  • 31. dataspaces/pay as you go “The vision of dataspaces has been articulated as providing various of the benefits of classical data integration, but with reduced up-front costs, combined with opportunities for incremental refinement, enabling a “pay as you go” approach.” [Hedeler 2009] Dimensions of Dataspaces 31
  • 32. dataspaces/pay as you go “This paper defines a collection of dimensions that capture both the components that a dataspace management system may contain and the lifecycle it may support.” [Hedeler 2009] Dimensions of Dataspaces 32
  • 33. dataspaces/pay as you go Motivação Dataspaces –  Custo baixo –  Integração por demanda –  Baixa qualidade (incerteza) –  Podem visar coleções de dados diversos como: arquivos pessoais, dados de empresas ou a própria web 33
  • 34. dataspaces/pay as you go Quadro de Classificação Tempo de vida de um dataspace –  Curto prazo –  Médio prazo –  Longo prazo –  Diferentes contextos, diferentes tempos de vida 34
  • 35. dataspaces/pay as you go Quadro de Classificação Ciclo de vida do dataspace –  Diferentes contextos necessitam apenas de um subconjunto do ciclo de vida conceitual Fases do ciclo de vida –  Inicialização –  Teste/avaliação –  Implantação –  Manutenção –  Uso e melhoria 35
  • 36. dataspaces/pay as you go Quadro de Classificação 36
  • 37. dataspaces/pay as you go Fase de Inicialização §  As dimensões que caracterizam a fase de inicialização de um dataspace estão relacionadas com o processo e suas entradas ou com a saída do processo §  É importante entender que... §  Matching = conjunto de correspondências §  Mapping = regras utilizadas para executar as traduções entre esquemas 37
  • 38. dataspaces/pay as you go Fase de Inicialização Identificação de fontes –  Geral ou específico –  Não-estruturado, semi-estruturado ou estruturado –  Local ou distribuído 38
  • 39. dataspaces/pay as you go Fase de Inicialização Esquema de integração (projeto e derivação) –  Manual, semi-automático ou automático –  União ou merge de esquemas –  Escopo geral ou específico –  Um score de incerteza pode ser relacionado ao esquema de integração 39
  • 40. dataspaces/pay as you go Fase de Inicialização Matchings e sua identificação –  Entre fontes locais, entre fontes locais e o esquema de integração –  Manual, semi-automático ou automático –  Incerteza (score) –  Esquema, instância ou dados de treinamento 40
  • 41. dataspaces/pay as you go Fase de Inicialização Mappings e sua identificação –  Sempre expressos entre esquemas locais e o esquema de integração –  O processo de derivação pode ser automático, semi- automático ou manual –  Um grau de incerteza pode ser acrescentado aos mapeamentos (score) –  Informações sobre instâncias, esquemas e matchings podem ser usadas na identificação de mapeamentos 41
  • 42. dataspaces/pay as you go Fase de Inicialização Recursos de dados resultantes –  Virtual, parcialmente materializada ou materializada –  Grau de incerteza (score) –  Duplicatas ou conflitos: pode coexistir ou não 42
  • 43. dataspaces/pay as you go Fase de Uso: busca/consulta Avaliação (resultados de concultas) –  Completa (comp) –  Parcial (part) Se múltiplas fontes são consultadas? –  Combinação de Resultados (Merge ou Union) Verificação de Incerteza –  Scores ou Ranking 43
  • 44. dataspaces/pay as you go Fase de Manutenção e Melhoria §  Manutenção: lida com o fato das fontes de dados serem autônomas §  Melhoria: visa aperfeiçoar os resultados de integração ao longo do tempo §  Mesmos passos da fase de inicialização com algumas adições: –  Feedback para o usuário –  Novos alinhamentos e mapeamentos, no caso de atualizaçõe, ou seja, quando as fontes são modificadas) 44
  • 45. dataspaces/pay as you go Fase: Manutenção e Melhoria Manutenção –  DSMS precisam ser capazes de lidar com a evolução das fontes de dados (adição e/ou remoção de fontes) –  DSMS deve exigir pouco ou nenhum esforço manual para responder a essas mudanças –  Benefícios: •  Reuso de tarefas de integrações já feitas –  Matchings, mapeamentos, esquemas de integração e feedback do usuário 45
  • 46. dataspaces/pay as you go Fase: Manutenção e Melhoria Melhoria §  Aquisição de feedback sobre diferentes recursos de dados •  Alinhamentos •  Mapeamentos •  Esquema de integração •  Consultas §  Uso de Feedback •  Implícito •  Explicito 46
  • 47. dataspaces/pay as you go Propostas de Dataspaces §  ALADIN §  SEMEX §  iMeMeX §  PayGo §  UDI 47
  • 48. algumas referências... §  Araújo, F.F.; Pinheiro, A. M.; Farias, K.M.; Lóscio, F. B; Oliveira, D.M. (2008) FlagelLink: A Decision Support System for Distributed Flagellar Data using Data Warehouse . In: To the 23rd Annual ACM Symposium on Applied Computing. §  Lóscio, B.F. 1998, ‘Atualização de Múltiplas Bases de Dados através de Mediadores’, M.S. thesis, Computer Science Department, University Federal of Ceará. §  Lóscio, B. F. Managing the Evolution of XML-based Mediation Queries, PhD thesis, Informatics Center- Federal University of Pernambuco, 2003. §  Breitman, K. K.; Casanova, M. A.; Truszkowski, W. (2007) Semantic Web: Concepts, Technologies and Applications. Londres: Springer, 2007, v.1. p.337. §  Guarino, N. (1998) Formal Ontology and Information Systems. In N. Guarino, (Ed.) Formal Ontology in Information Systems, pp. 3-15, IOS Press, Amsterdam, Netherlands. §  Uschold, M., Gruninger, M. (2004) Ontologies and Semantics for Seamless Connectivity. ACM SIGMOD Record Vol. 33, Issue 4. §  Noy, N. F. (2004) Semantic Integration: A Survey of Ontology-Based Approaches. In ACM SIGMOD Record Vol. 33, Issue 4: pp. 65-70. §  Wache, H., Vögele, T., Visser, U., Stuckenschmidt, H., Schuster, G., Neumann, H. and Hübner, S. (2001) Ontology-based Integration of Information - A Survey of Existing Approaches. In Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing. §  Lenzerini, M. (2002) Data Integration: A Theoretical Perspective. In Proceedings of ACM Symposium on Principles of Database Systems. §  Halevy, A. Y., Franklin, M. J., Maier, D.: Principles of dataspace systems. PODS (2006). §  Pires, C. E. S. Ontology-based clustering in a peer data management system, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. §  Souza, D. Using Semantics to enhance query reformulation in dynamic distributed enviornments, PhD thesis, Informatics Center- Federal University of Pernambuco, 2009. 48