Compte-rendu bibliographique sur les réseaux biologiques

Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
9 octobre 2009
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29

Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe

Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classiﬁcation de sommets

Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...

Sommets (ou nœuds) / en anglais : vertices, nodes

Sommets
Arêtes / en anglais : edges

3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées

Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)

Notations
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V

Notations
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E

Notations
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.

Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes

Sommaire

Les seules données connues sont les données d’expression des gènes.

Référence
Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6), pp
754-764.
Brève description : Utilisation de modèles graphiques Gaussien (réseaux
bayésiens) pour l’inférence d’un graphe à partir de données d’expression
de gènes.

Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).

gènes).
Hypothèse : X suit une loi N(µ, Σ).

gènes).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.

gènes).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.
⇒ L’utilisation des corrélations simples n’est pas une méthode valide pour
reconstruire le graphe d’interactions.

Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)

πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.

πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.
[Edwards, 1995] montre que
πij =
−ωij
√
ωiiωjj
avec (ωij) = Ω = Σ−1
.

Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.

Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.
Proposition d’un test de signiﬁcativité des corrélations partielles
sous l’hypothèse que les distributions partielles suivent une loi de
mélange :
L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π)
avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés à
partir des données (par EM ou ML maximisation), fA , loi uniforme sur
[−1, 1] ⇒ P(arrête non nulle) =
(1−η0)fA (π)
η0f0(π,κ)+(1−η0)fA (π)
.

Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).

Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).
L’article conclut par une analyse descriptive d’un sous-réseau d’environ
100 gènes autour d’un gène connu pour son implication dans le cancer du
sein (description exhaustive).

Une partie du réseau est connue ainsi que des données
supplémentaires de natures diverses
Une approximation du réseau est connue ainsi que des données
supplémentaires de natures diverses
réseaux d’interactions de protéines et réseaux métaboliques

Référence
Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).

[Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;

[Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, proﬁl
phylogénétique . . . ).

Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.

Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean

Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.

Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;

2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.

2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.
4 Kernel CCA : Les deux noyaux, K et Kp
permettent de définir deux
plongements dans des espaces euclidiens de grande dimension. On
effectue une analyse canonique à partir de ces deux espaces et on
projette le réseau dans l’espace défini par les premières composantes
de l’analyse canonique. Les liens supplémentaires sont définis par
proximités dans cet espace.

Rafﬁnements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;

Rafﬁnements
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;

Rafﬁnements
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;
Contraintes chimiques : des contraintes chimiques sont incorporées
de deux manières :
un des Kk est un réseau de réaction chimiquement possible ;
après l’apprentissage, les réactions chimiquement impossibles sont
supprimées.

Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.

Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.
L’approche pondérée et intégrée (utilisant toutes les informations
disponibles) obtient de meilleurs résultats.

[Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;

[Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, proﬁl
phylogénétique . . . ).

Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.

Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.
Pour les données supplémentaires, on utilise des noyaux similaires
à l’approche précédentes. Dans le cas d’un jeu de données, on note
P la matrice des produits scalaires associée dans l’espace image.

Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)

Modélisation
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)

Modélisation
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci

Modélisation
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.

Modélisation
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.
Q est ensuite seuillée pour obtenir le réseau.

Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).

Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).
Expérimentation sur le réseau de protéines et réseau de protéines de la
levure Saccharomyces cerevisiae. Les résultats du seuillage de Q
améliore les résultats obtenus par KCCA à la fois pour les arêtes entre
anciens et nouveaux élements mais aussi entre les nouveaux éléments
eux-mêmes (encore plus, d’ailleurs).

[Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...

Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.

Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.
La méthode utilise une approche à noyau de l’algorithme CART assorti
d’un bagging.

Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.

Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.
On utilise un algorithme CART pour apprendre la fonction
x(vi) → φ(vi)
où φ(vi) est l’image de vi dans le plongement associé au noyau K. Le
critère de division est calculé par l’utilisation des produits scalaires :
φ(vi), φ(vj) = k(i, j).

Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)

Estimation de K
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )

Estimation de K
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )
Ensemble d’arbres : Une procédure combinant (moyenne) un ensemble
d’arbres obtenus par randomisation des divisions de nœuds (non décrite)
est ﬁnalement utilisée.

Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.

Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.
Avantage supplémentaire : L’utilisation d’un arbre unique permet
d’obtenir, en sus, une classiﬁcation des éléments. Cette classiﬁcation,
représentée sur le graphe d’intéractions de protéines semble pertinente.

Sommaire

À SUIVRE ...

Edwards, D. (1995).
Introduction to Graphical Modelling.
Springer, New York.
Geurts, P., Touleimat, N., Dutreix, M., and d’Alché Buc, F. (2007).
Inferring biological networks with output kernel trees.
BMC Bioinformatics, 8(Supp. 2).
Kato, T., Tsuda, K., and Asai, K. (2005).
Selective integration of multiple biological data for supervised network inference.
Bioinformatics, 21(10) :2488–2495.
Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6) :754–764.
Yamanishi, Y., Vert, J., and Kanehisa, M. (2005).
Supervised enzyme network inference from the integration of genomic data and chemical information.
Bioinformatics, 21(Supp. 1) :i468–i477.

Compte-rendu bibliographique sur les réseaux biologiques

Recommended

Recommended

More Related Content

More from tuxette

More from tuxette (20)

Compte-rendu bibliographique sur les réseaux biologiques