Compte-rendu bibliographique sur les réseaux biologiques
1. Compte-rendu bibliographique sur les réseaux
biologiques
Nathalie Villa-Vialaneix
http ://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
9 octobre 2009
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 1 / 29
2. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
3. Vue d’ensemble des thématiques
⇒ ⇒ Compréhension
Inférence de graphes Analyse du graphe
• non supervisée • Recherche de motifs
• semi supervisée • Classification de sommets
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 2 / 29
4. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
5. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets (ou nœuds) / en anglais : vertices, nodes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
6. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
Sommets
Arêtes / en anglais : edges
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
7. Qu’est-ce qu’un graphe ?
Structure naturelle pour modéliser des phénomènes de relations entre
individus, objets ...
3
5
7
6,15
4,35
2
4
3.4
Sommets
Arêtes
éventuellement pondérées
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 3 / 29
8. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
9. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
10. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
11. Notations
Dans la suite, on notera G un graphe
de sommets V = {x1, . . . , xn} (et de taille n)
dont l’ensemble des arêtes est noté E. E est donc un sous-ensemble
de V × V
dont les arêtes sont pondérées par la matrice de poids W telle que
∀ i, j = 1, . . . , n, wii = 0, wij = wji ≥ 0, wij > 0 ⇔ (xi, xj) ∈ E
Dans un graphe non pondéré, on convient que wij ∈ {0; 1}.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 4 / 29
12. Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 5 / 29
13. Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 6 / 29
14. Inférence non supervisée
Les seules données connues sont les données d’expression des gènes.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 7 / 29
15. Référence
Schäfer, J. and Strimmer, K. (2005) An empirical Bayes approach to
inferring large-scale gene association networks. Bioinformatics, 21(6), pp
754-764.
Brève description : Utilisation de modèles graphiques Gaussien (réseaux
bayésiens) pour l’inférence d’un graphe à partir de données d’expression
de gènes.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 8 / 29
16. Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
17. Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
18. Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
19. Qu’est-ce que le modèle graphique Gaussien ?
Données : X de taille N (les individus) par G (les expressions de G
gènes).
Hypothèse : X suit une loi N(µ, Σ).
Pourquoi σij peut être élevé ? :
il existe une interaction directe entre les gènes i et j ;
il existe une interaction indirecte entre les gènes i et j ;
les gènes i et j sont régulés par un même gène.
⇒ L’utilisation des corrélations simples n’est pas une méthode valide pour
reconstruire le graphe d’interactions.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 9 / 29
20. Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
21. Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
22. Corrélations partielles
On introduit les corrélations partielles
πij := Cor(Xi
, Xj
|X−{i,j}
)
= Cor( i, j)
où i et j sont les résidus de la régression linéaire de Xi
et Xj
en X−{i,j}.
[Edwards, 1995] montre que
πij =
−ωij
√
ωiiωjj
avec (ωij) = Ω = Σ−1
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 10 / 29
23. Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
24. Apports de l’article [Schäfer and Strimmer, 2005]
Utilisation de GGM pour n petit : approche par bootstrap
1 Utilisation du pseudo-inverse de Σn
pour estimer Ω ;
2 Estimation de Σ par bootstrap puis utilisation du pseudo-inverse pour
estimater Ω ;
3 Pour chaque échantillon bootstrap, calcul de Ωb
qui est le pseudo
inverse de l’estimation de Σ avec l’échantillon bootstrap b. Estimation
de Ω par moyenne des Ωb
.
Proposition d’un test de significativité des corrélations partielles
sous l’hypothèse que les distributions partielles suivent une loi de
mélange :
L(π) ∼ η0f0(π, κ) + (1 − η0)fA (π)
avec f0 connue (loi sous l’hypothèse de nullité de π), η0 et κ estimés à
partir des données (par EM ou ML maximisation), fA , loi uniforme sur
[−1, 1] ⇒ P(arrête non nulle) =
(1−η0)fA (π)
η0f0(π,κ)+(1−η0)fA (π)
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 11 / 29
25. Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
26. Simulations
Inférence d’un grand graphe d’association de gènes connu relatif à des
données d’expression pour le cancer du sein dans le but de valider les
approches :
L’approche 1 est à utiliser quand N >> G car elle manque de
puissance sinon. Cependant, si N est grand, les deux autres
approches sont aussi performantes ;
L’approche 2 est meilleure lorsque N < G : bonne puissance dans la
zone où N est petit et moins coûteux que l’approche 3 en temps de
calcul ;
L’approche 3 est à utiliser dans les situations critiques (N << G).
L’article conclut par une analyse descriptive d’un sous-réseau d’environ
100 gènes autour d’un gène connu pour son implication dans le cancer du
sein (description exhaustive).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 12 / 29
27. Inférence supervisée
Une partie du réseau est connue ainsi que des données
supplémentaires de natures diverses
Une approximation du réseau est connue ainsi que des données
supplémentaires de natures diverses
réseaux d’interactions de protéines et réseaux métaboliques
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 13 / 29
28. Référence
Yamanishi, Y. and Vert, J.P. and Kanehisa, M. (2005) Supervised
enzyme network inference from the integration of genomic data and
chemical information. Bioinformatics, 21(Supp. 1), i468-i477.
Kato, T. and Tsuda, K. and Asai, K. (2005) Selective integration of
multiple biological data for supervised network inference.
Bioinformatics, 21(10), 2488-2495.
Geurts, P. and Touleimat, N. and Dutreix, M. and d’Alché-Buc, F.
(2007) Inferring biological networks with output kernel trees. BMC
Bioinformatics, 8(Supp. 2).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 14 / 29
29. [Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
30. [Yamanishi et al., 2005]
Données disponibles :
une partie du réseau : le réseau est connu partiellement et on
souhaite trouver des liens supplémentaires potentiels ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, profil
phylogénétique . . . ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 15 / 29
31. Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
32. Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
33. Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
34. Noyau de la chaleur
La méthode est basée sur le calcul, pour la partie du réseau connu, du
noyau de la chaleur :
Pour un graphe donné, le Laplacien est la matrice
L =
−wij si i j
di = k i wik si i = j
Le noyau de la chaleur est la matrice K = e−βL
.
Exemple : Pour le graphe de co-apparition des Misérables, le noyau de la
chaleur vu depuis Jean Valjean
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 16 / 29
35. Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
36. Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
37. Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
38. Approches proposées
Approche directe (on n’utilise que le réseau connu) : on place un
lien entre deux sommets lorsque Kij > η pour η choisi par l’utilisateur.
Approche supervisée :
1 On calcule le noyau de la chaleur pour le réseau connu, K ;
2 On calcule un noyau pour les autres variables (pour les variables
numériques, un noyau Gaussien : G(x, y) = e−γ x−y 2
, par exemple :
K1, . . . , Kp ;
3 On en déduit un noyau global pour les informations supplémentaires :
Kp
=
p
k=1
αk Kk
où les αk sont des poids à déterminer.
4 Kernel CCA : Les deux noyaux, K et Kp
permettent de définir deux
plongements dans des espaces euclidiens de grande dimension. On
effectue une analyse canonique à partir de ces deux espaces et on
projette le réseau dans l’espace défini par les premières composantes
de l’analyse canonique. Les liens supplémentaires sont définis par
proximités dans cet espace.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 17 / 29
39. Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
40. Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
41. Raffinements
Choix des poids : αk = AUC −0, 5 pour une prédiction à partir du
noyau Kp seul ;
Alternative à KCCA : minimisation d’une fonctionnelle qui a pour but
de placer les sommets déjà connectés proches les uns des autres
dans l’espace image ;
Contraintes chimiques : des contraintes chimiques sont incorporées
de deux manières :
un des Kk est un réseau de réaction chimiquement possible ;
après l’apprentissage, les réactions chimiquement impossibles sont
supprimées.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 18 / 29
42. Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
43. Bref résumé des conclusions expérimentales
Sur le réseau d’enzymes de la levure Saccharomyces cerevisiae :
Protocole expérimental : Supression des liens correspondant à 10 %
des sommets (puis validation croisée) ; Calcul des taux de bonnes
prédictions sur les arêtes reliées à ces sommets.
L’approche pondérée et intégrée (utilisant toutes les informations
disponibles) obtient de meilleurs résultats.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 19 / 29
44. [Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
45. [Kato et al., 2005]
Dans cet article, cas particulier où on a, à disposition,
une partie du réseau : le réseau est connu parfaitement pour n
enzymes ou protéines et totalement inconnu pour m nouvelles
enzymes ou protéines : on souhaite trouver les liens entre nouveaux
et anciens éléments et “intra” nouveaux éléments ;
des données supplémentaires : on dispose d’informations
supplémentaires (données d’expression de gènes, localisation, profil
phylogénétique . . . ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 20 / 29
46. Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
47. Plongement
Les données sont plongées dans un espace image dont on connait la
matrice des produits scalaires (noyau) :
Pour le réseau,
Q =
Kc Qci
QT
ci
Qii
où Kc est le noyau de la chaleur sur la partie du réseau qui est
connue et Qci, Qii sont les produits scalaires à estimer.
Pour les données supplémentaires, on utilise des noyaux similaires
à l’approche précédentes. Dans le cas d’un jeu de données, on note
P la matrice des produits scalaires associée dans l’espace image.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 21 / 29
48. Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
49. Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
50. Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
51. Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
52. Modélisation
x = (c, i) est tel que
p(x) ∼ N(0, P)
q(x) ∼ N(0, Q)
On estime la loi conjointe q(x) par
ˆq(c, i) = p(i|c)q(c)
et donc
ˆQci = KcP−1
cc Pci
ˆQii = Pii − PT
ci P−1
cc Pci + PT
ci P−1
cc KcP−1
cc Pci
Ceci correspond à la minimisation de la distance de Kullback-Leibler
entre p et q.
Q est ensuite seuillée pour obtenir le réseau.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 22 / 29
53. Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
54. Mise en œuvre pratique
Amélioration proposée dans le cas d’informations supplémentaires
multiples : utilisation d’un noyau P = k αk Pk et algorithme EM pour
l’apprentissage des (αk ).
Expérimentation sur le réseau de protéines et réseau de protéines de la
levure Saccharomyces cerevisiae. Les résultats du seuillage de Q
améliore les résultats obtenus par KCCA à la fois pour les arêtes entre
anciens et nouveaux élements mais aussi entre les nouveaux éléments
eux-mêmes (encore plus, d’ailleurs).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 23 / 29
55. [Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
56. [Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
57. [Geurts et al., 2007]
Idée principale : Apprendre le noyau de la chaleur du réseau
partiellement connu, à partir de données d’entrées qui peuvent être :
une partie du réseau
des données supplémentaires comme l’expression des gènes, la
localisation des éléments, ...
Une fois ce noyau K appris, on procède par seuillage pour obtenir un
réseau.
La méthode utilise une approche à noyau de l’algorithme CART assorti
d’un bagging.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 24 / 29
58. Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
59. Présentation de l’approche “Output Kernel Tree”
On dispose des données suivantes :
les nœuds du réseau (protéines ou enzymes) : v1, . . . , vn ;
les entrées, (x(vi)), numériques, qui correspondent aux “données
supplémentaires” ;
le noyau de la chaleur k du réseau connu qui peut être vu comme
une approximation du noyau de la chaleur K du réseau réel.
On utilise un algorithme CART pour apprendre la fonction
x(vi) → φ(vi)
où φ(vi) est l’image de vi dans le plongement associé au noyau K. Le
critère de division est calculé par l’utilisation des produits scalaires :
φ(vi), φ(vj) = k(i, j).
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 25 / 29
60. Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
61. Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
62. Estimation de K
Φ, fonction de plongement associée à K, est estimée pour chaque feuille
par :
Φ(F) =
1
|v ∈ F| v∈F
φ(v)
(moyenne des valeurs du réseau initial par le plongement)
K est ensuite estimée par
K(vi, vj) =
1
|v ∈ F(vi)||v ∈ F(vj)|
v∈F(vi), v ∈F(vj)
k(v, v )
Ensemble d’arbres : Une procédure combinant (moyenne) un ensemble
d’arbres obtenus par randomisation des divisions de nœuds (non décrite)
est finalement utilisée.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 26 / 29
63. Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
64. Expériences
Même jeu de données, même approche de validation croisée : les
résultats sont améliorés dans le cas de
principalement le réseau métabolique (c’est moins vrai pour le réseau
d’intéractions de protéines) ;
lorsque peu de types de données différentes sont disponibles.
Avantage supplémentaire : L’utilisation d’un arbre unique permet
d’obtenir, en sus, une classification des éléments. Cette classification,
représentée sur le graphe d’intéractions de protéines semble pertinente.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 27 / 29
65. Sommaire
1 Inférence de graphes
Inférence non supervisée
Inférence supervisée
2 Analyse de graphes
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 28 / 29
67. Edwards, D. (1995).
Introduction to Graphical Modelling.
Springer, New York.
Geurts, P., Touleimat, N., Dutreix, M., and d’Alché Buc, F. (2007).
Inferring biological networks with output kernel trees.
BMC Bioinformatics, 8(Supp. 2).
Kato, T., Tsuda, K., and Asai, K. (2005).
Selective integration of multiple biological data for supervised network inference.
Bioinformatics, 21(10) :2488–2495.
Schäfer, J. and Strimmer, K. (2005).
An empirical bayes approach to inferring large-scale gene association networks.
Bioinformatics, 21(6) :754–764.
Yamanishi, Y., Vert, J., and Kanehisa, M. (2005).
Supervised enzyme network inference from the integration of genomic data and chemical information.
Bioinformatics, 21(Supp. 1) :i468–i477.
BioPuces (09/10/09) Nathalie Villa Biblio. réseaux biologiques 29 / 29