Apprentissage pour la biologie moléculaire et l’analyse de données omiques
1. Apprentissage pour la biologie moléculaire et l’analyse de
données omiques
Nathalie Vialaneix
nathalie.vialaneix@inrae.fr
http://www.nathalievialaneix.eu
Journée scientifique d’unité
3 octobre 2022
2. This presentation covers topics of interest for...
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 2
3. Main topics related to INRAE scientific priority
INRAE2030
OS5: “Mobiliser la science des donnnées et les technologies du numérique au service
des transitions”
with various applications in OS 1.3, OS 2.2, OS 2.3, OS 3.3, OS 4.2 (adaptation of
species, sustainable farming, biomass treatment, ...)
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 3
4. Main topics related to INRAE scientific priority
INRAE2030
OS5: “Mobiliser la science des donnnées et les technologies du numérique au service
des transitions”
with various applications in OS 1.3, OS 2.2, OS 2.3, OS 3.3, OS 4.2 (adaptation of
species, sustainable farming, biomass treatment, ...)
SSD MathNum
GOS1: “Maı̂triser les méthodes pour acquérir, gérer et intégrer données et
connaissances face à la multiplication des sources d’information”
in interaction with
GOS 2: “Développer les méthodes de modélisation et d’analyse en vue de comprendre
et anticiper les trajectoires de systèmes complexes” (to be developed?)
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 3
5. A scientific activity focused on the molecular level
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 4
6. Main scientific questions
▶ Exploratory analysis: learn regulation from data, integrate multiple omics, ...
From expression data
−→
To gene network (regulatory?)
Example: SubtilNet, SUNRISE (PIA), PROBITY (ANR)
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 5
7. Main scientific questions
▶ Exploratory analysis: learn regulation from data, integrate multiple omics, ...
Example: PANORAMICS (ANR), AgroEnv (PEPR)
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 5
8. Main scientific questions
▶ Exploratory analysis: learn regulation from data, integrate multiple omics, ...
▶ Predictive biology: biomarker discovery, phenotype prediction
From data
−→
To phenotype
Example: Piglet survival, Differential analysis of chromatin conformation (HiC)
pig picture from https://dessin.fun
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 5
9. Scientific challenges
▶ very large dimensionality and big data (both scaling and statistical issues)
n ∼ {5 − 1000}
p ∼ 10{3−5}
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 6
10. Scientific challenges
▶ very large dimensionality and big data (both scaling and statistical issues)
▶ missing values and incomplete designs
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 6
11. Scientific challenges
▶ very large dimensionality and big data (both scaling and statistical issues)
▶ missing values and incomplete designs
▶ highly non Gaussian data: skewed distributions, count data, zero-inflated data, ...
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 6
12. Scientific challenges
▶ very large dimensionality and big data (both scaling and statistical issues)
▶ missing values and incomplete designs
▶ highly non Gaussian data: skewed distributions, count data, zero-inflated data, ...
▶ non Euclidean data: compositional data (metagenomics), similarity matrices
(Hi-C), spectra (metabolomics), ...
(*)
(**)
(*) image from [Dumuid et al., 2020] (**) image by courtesy of Gaëlle Lefort
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 6
13. Scientific challenges
▶ very large dimensionality and big data (both scaling and statistical issues)
▶ missing values and incomplete designs
▶ highly non Gaussian data: skewed distributions, count data, zero-inflated data, ...
▶ non Euclidean data: compositional data (metagenomics), similarity matrices
(Hi-C), spectra (metabolomics), ...
... used to capture a weak genotype (or omics) / phenotype signal.
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 6
14. Favorite methods
▶ Kernel methods
Example: Structure learning with kernel
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 7
15. Favorite methods
▶ Kernel methods
▶ Graphical models
From expression data
−→
To gene network (regulatory?)
Example: Structure learning with BN
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 7
16. Favorite methods
▶ Kernel methods
▶ Graphical models
▶ Neural networks
Example: Combining sequence and orthology information for automatic
annotation, Predict RNA modifications from sequencing data
▶ Random Forest, ...
picture from Wikimedia Commons, Cburnett
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 7
19. References
Dumuid, D., Pedišić, v., Palarea-Albaladejo, J., Martı́n-Fernández, J. A., Hron, K., and Olds, T. (2020).
Compositional data analysis in time-use epidemiology: what, why, how.
International Journal of Environmental Research and Public Health, 17(7):2220.
Journée scientifique d’unité
3 octobre 2022 / Nathalie Vialaneix
p. 9