Data integration

Proteomics Bioinformatics
WTAC
13-17 December 2010
Rafael Jimenez
rafael@ebi.ac.uk
EnCORE
presentation
Data integration

Table of contents
• Data integration
 Why do we need it?
 What is it?
 Problems and solutions
 Different approaches
 Important variables
 Tools

Why do we need data integration?

Molecular Biology Database resources
Human Genes and
Diseases
13%
Proteomics Resources
1%
Other Molecular
Biology Databases
3%
Immunological
databases
2%
Plant databases
7%
Organelle databases
2%
Human and other
Vertebrate Genomes
8%
Nucleotide Sequence
Databases
9%
RNA sequence
databases
5%
Protein sequence
databases
13%
Structure Databases
9%
,Genomics Databases
non-vertebrate
19%
Metabolic and
Signaling Pathways
9%
Nucleic Acids Research annual
Database Issue and the NAR online
Molecular Biology Database
Collection in 2009. MY Galperin, GR
Cochrane - Nucleic Acids Research,
~1440
resources
http://www.oxfordjournals.org/nar/database/c

Biological pathway resources
Other
4%
Protein-Protein
Interactions
34%
Metabolic Pathways
20%Pathway Diagrams
10%
Transcription
Factors / Gene
Regulatory Networks
15%
Protein-Compound
Interactions
11%
Protein Sequence
Focused
6%
http://www.pathguide.org
~303
resources

Why so many data sources?
• Many data types
• Many communities
• Different ways to structure data
• Control
• Reputation
• Easy publication

23.08.18 7
DB
GUI
API
WS
A AA A
DB
GUI
API
WS
DB
GUI
API
WS
DB
GUI
API
WS
DB
GUI
API
WS
A AA A
A Annotator Database
Graphical User Interface
Application programming interface
Web Services
GUI
API
WS
User
Data collection
Ideally Reality

23.08.18 8
Utility of bioinformaticsScientificimpact
Too little
bioinformatics
Too many databases
Too diverse interfaces
Tim Hubbard

23.08.18 10
Data integration
DB
GUI
API
WS
DB DB DBDB
GUI
API
WS
DB
GUI
API
WS
DB
GUI
API
WS
DB
GUI
API
WS
NO integration Integration
Database Graphical User InterfaceGUI User
Combining data residing in different sources
… providing users with a unified view of these data.

23.08.18 11
Utility of bioinformaticsScientificimpact
Too little
bioinformatics
Too many databases
Too diverse interfaces
Integration of

Problems
Many data sources
• Many sources to maintain
• New sources appearing
• Just 20% has a sustained future*
• How to find them?
Different query interfaces
data integration?
Variable results
• Formats
• Schemas
• Controlled vocabularies
• Minimum information guidelines
Redundant results
* Merali Z. et all. Databases in peril. Nature 2005.

Solutions
– Scientific and political independence of the databases
– Cross-database queries spanning domain and
organizational boundaries
– Sharing and adoption rather than reinventing
– Adoption of standards
– Coordination to avoid redundant content
– Infrastructure to avoid volatile resources
– Registries to find resources and services

Different approaches in data integration

QI
i
1
Data centralization
Curators / Annotators
Original data sources
Third party implementations
Users
Examples:
•Uniprot
•GenBank
•IntAct

….….
….....
….….
….....
….….
….....
1
Data centralization
UniProtKb
Examples:
•Uniprot
•GenBank
•IntAct

QI
i
2
Data warehousing
Users
Examples:
•Pathway Commons
•String
•Atlas

2
Data warehousing
Examples:
•Pathway Commons
•String
•Atlas

QI
i
3
Dataset integration
Users
Examples:
•Your own script
•Workflows

QTL
genomic
regions
genes
in QTL
metabolic
pathways
(KEGG)
3
Dataset integration
ESIP meeting,Santa Barbara, CA, July 2009 - P. Missier
Examples:
•Your own script
•Workflows

QI QIQI
i
4
Hyperlinks
Users
Examples:
•SRS
•Entrez

4
Hyperlinks
SRS
Examples:
•SRS
•Entrez

QI QIQI
SP SP SP
QI
S
i
5
Federated databases
Users
Examples:
•DAS
•PSICQUIC
•EnCore
•RDF

….….
….....
….….
….....
….….
….....
PSICQUIC PSICQUIC PSICQUIC
5
Federated databases
PSICQUIC
Examples:
•DAS
•PSICQUIC
•EnCore
•RDF

i
6
View integration
Users
QI QIQI
QI
Examples:
•BioZon
•TAMBIS

6
View integration
Examples:
•BioZon
•TAMBIS

Important variables in data integration

Federation
Warehousing
Databases
Datasets
Same
Different
Scope Domain Architecture
Programmatic
GUI
Interface
<xml>
…
</xml>
Data integration variables

Scope
Integration of datasets
leverage
1
2
Software
engineers
Bioinformaticians
Standardization and integration
of Databases
Biologists
& data analysis

Integrating different domains
Integration per domain
SPSPSP
Domain
Domain 1
QI
Domain 2
QI
Domain …
QI
QI
SP = Common identifiers, Controlled vocabularies, Common formats, Common schemas, Minimum information guidelines
1
2
leverage

Domain
Standards
• Standardization per domain
• Common identifiers
• Common formats
• Common schemas
• Common query interfaces

sequence databases
(INSDC)
EMBL
DDBJ
NCBI
interactions
IMEx
IntAct
BIND
DIP
MINT
…
mass spec
ProteomeXchange
PRIDE
PeptideAtlas
GPMDB
Tranche
…
Domain
Sharing infrastructures
• Multiple repositories in a particular field
Collaboration and data exchange
More data coverage
Less redundancy
Adoption of standards

Architecture
• Data warehousing
– Pull data from several resources into one resource.
– Main features:
• Data centralization
• High maintenance
• Data out of date
• Modifications (schema, format, content, …)
• Federation
– Data residing in different sources with a common standard
protocol and query system.
– Main features:
• Fresh data (original)
• Data redundancy
• Data inconsistency

Query Interface
Graphical User Interface (GUI)
leverage
1
2
Software
engineers
Bioinformaticians
Programmatic interface
• API
• WS
Biologists
<xml>
…
</xml>
Custom
workflows & analysis

Tools
• Workflow management systems
– i.e. Taverna, Pegasys, Galaxy, …
• Webservices
– Registries: Biocatalogue, DASregistry, …
• ~ 2000 services
– Projects: Biomoby, EMBOSS, DAS, PSICQUIC, EMBRACE , soaplab , ENCORE , …
– Registries: Bioportal, OLS
• ~ 200 ontologies
• ID Mapping services
– i.e. PICR, David , CRONOS , BridgeDB , Uniprot API , Ensembl API , DAS , Biomart, …
• Standard formats/schemas
– i.e. DAS, PSI-MI, MzML , BioPAX , SBML , GFF3, CellML, …
– ~ 35 guidelines
– i.e. MIAME, MIAPE , MIMIx , MIRIAM, …
– Registry: MIBBI

Workflow management systems
Taverna

Controlled vocabularies
• Ontology browser: http://www.ebi.ac.uk/ontology-lookup
Ontology Lookup Service

ID Mapping services
Logical xref
(hyperlinked)
Inactive xref
Secondary
Identifier
Active xref
(hyperlinked)
Richard Cote
Web services!
•REST
•SOAP
http://www.ebi.ac.uk/Tools/picr/
Protein Identifier Cross-Reference Service

Standard formats/schemas
BioPAX
PSI-MI 2
SBML,
CellML
Genetic
Interactions
Molecular Interactions
Pro:Pro All:All
Interaction Networks
Molecular Non-molecular
Pro:Pro TF:Gene Genetic
Regulatory Pathways
Low Detail High Detail
Database Exchange
Formats
Simulation Model
Exchange Formats
Rate
Formulas
Metabolic Pathways
Biochemical
Reactions
Small Molecules
Anatoly Sorokin

Minimum information guidelines

• PSI: Proteomics Standards Initiative
– Work group of the Human Proteome Organization
– Defines community standards for data in proteomics
• … facilitating data comparison, exchange and verification
Minimum information guidelines
47
• MIAPE: The Minimum Information About a Proteomics Experiment
• Data and metadata from proteomics experiments
• Data: results
• Metadata: data about the data
• Where the samples came from
• How the analysis were performed

Thank you!
Questions?
ProteomicsServicesTeam

Data integration

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Data integration

Similar to Data integration (20)

More from Rafael C. Jimenez

More from Rafael C. Jimenez (20)

Recently uploaded

Recently uploaded (20)

Data integration

Editor's Notes