3. CONTEXTE
METHODES
3
gipsa-lab
CONTEXTE
• Comment comparer les
graphes entre eux?
• Est il possible de modéliser
les graphes de connectivité
cérébrale (GCC)?
• A quel point peut-on
catégoriser les GCC?
4. CONTEXTE
METHODES
4
gipsa-lab
MODELES GENERATIFS
Illustration « Small World », Collective dynamics of
‘small-world’ networks, D. J. Watts & S. H. Strogatz
Illustration « Preferential Attachement », Choice-driven phase
transition in complex networks, P. L. Krapivsky and S. Redner
• Erdos-Renyi
• Forest Fire
• Kronecker
• Preferential Attachment
• Random k-regular
• Random Power Law
• Random Typing
• Small-World
5. COMPARAISON DE GRAPHES
• Tansformation d’un graphe vers un autre
ex : Distance d’édition
CONTEXTE
METHODES
5
gipsa-lab
MESURES
STRUCTURELLES
• Tendance des noeuds à se regrouper, distribution
des degrés, chemins entre noeuds
ex : Clustering, Plus Court Chemin
MESURES
LOCALES
(pour chaque noeud)
• Mesures locales moyennées, formation de noyaux et de
communautés
ex : Assortativité, Centralité, Modularité,Diamètre
MESURES
GLOBALES
6. ETAT DE L’ART : JANSSEN et al. 2012
Comptage de Graphlets
Nombre de
Graphlets
apprentissage du classifieur entrée du classifieur
METHODES
APPORTS
6
gipsa-lab
Ensemble
d’apprentissage
Instance de
graphe
Nombre de
Graphlets
Classifieur
Modèle de graphe
7. METHODES
APPORTS
7
gipsa-lab
ETAT DE L’ART : MOTALLEBI et al. 2013
Classifieur
de Réseaux Complexes
8. Intervalle de
confiance ~25%
METHODES
APPORTS
8
gipsa-lab
MODELISATION DES GCC
Caractérisation des GCC vers 4 modèles
(Erdos-Renyi, Preferential Attachement, Random k-regular, Small-World)
Classe Prédiction E-R P A R k-R S-W
Control Small-World 0.2502 0.2501 0.2492 0.2505
Patient Small-World 0.2502 0.2501 0.2492 0.2505
Résultat de la caractérisation avec mesures globales et classifieur SVM
9. Précision de la méthode à 50.16%, aléatoire à 50%
METHODES
APPORTS
9
gipsa-lab
IDENTIFICATION DES GCC
true Control true Patient class precision
pred. Control 13 11 54.17%
pred. Patient 7 6 46.15%
class recall 65.00% 35.29% 50.16%
Résultat de l’identification avec mesures globales et classifieur SVM
10. METHODES
APPORTS
gipsa-lab
PROBLEMATIQUE
« Les mesures globales ne sont pas
représentatives du comportement local »
Histogrammes du
coefficient de clustering
local pour 3 modèles
10
11. HISTOGRAMME NORMALISE
• Clustering Coefficient
• Characteristic Path Length
• Degrees Distribution
• Efficiency
APPORTS
RESULTATS
11
gipsa-lab
Ensemble
Histogramme des
mesures locales
d’apprentissage
Instance de
réseau
Histogrammes
normalisés moyens
Distances entre
Histogrammes
Modèle de graphe
Histogramme
normalisé
minimum des distances ou un classifieur
12. DISTANCE ENTRE HISTOGRAMMES
• Mesure de (dis)semblance bin à bin :
Battacharyya:
Chi²
Hellinger :
• Mesure de dissemblance avec conservation de la silhouette :
EarthMoverDistance : Optimisation du travail minimum qu'un cantonnier
doit fournir pour transporter un tas de terre en un autre
Match : Comparaison des histogrammes cumulés
APPORTS
RESULTATS
12
gipsa-lab
13. Performances
RESULTATS
gipsa-lab
DONNEES DE SYNTHESES
13
graphlets : 78%
mesures globales : 88% à 97.3% 6 mesures voire plus
mesures locales : 86% ou 100% 1 seule mesure
Precision
SW 100%
RPL 100%
RkR 100%
PA 100%
KG 100%
FF 100%
ER 100%
100%
Precision
SW 100%
RTG 96%
RPL 98%
PA 99%
KG 96%
FF 98%
ER 93%
97.2%
Résultat de la
classification
histogrammes mesures globales
14. GRAPHES DE CONNECTIVITES
mesures globales 63% V.S. 83%MAX histogrammes
RESULTATS
14
gipsa-lab
GLOBALES
A.N.N.
C P
C 11 9 55%
P 5 12 71%
69% 57% 63%
HISTOGRAMME
CLUSTERING
ET CHI²
C P
C 18 2 90%
P 4 13 76%
82% 87% 83%
Matrice de confusion de l’identification Control / Patient
15. RESULTATS
gipsa-lab
MODELISATION DES GCC
15
7 Clustering Degrés
ER 0,418 0,133
FF 0,207 0,074
KG 0,112 0,211
RPL 0,156 0,088
PA 0,437 0,242
RkR 0,459 0,183
SW 0,103 0,238
Distance EMD entre GCC et modèles pour deux mesures locales
16. Erdos-
Renyi
FF
RPL
RESULTATS
gipsa-lab
CLASSE MANQUANTE
16
Forest
Fire
RPL
SW
Kronecker
Graph
FF
77%SW
23%RPL
Preferential
Attachment
FF
RPL
Random
k-Regular
FF
RPL
Random
Power Law
FF
92% SW
8% PA
Small-
World
FF
RPL
Graphes de
Connectivités
FF
RPL
PA
SW
…
22. RESULTATS
gipsa-lab
PCA : INTERPRETATION
22
COMPOSANTE 2
COMPOSANTE 1
Biplot:
représentation
visuelle
K REGULAR
ERDOS RENYI
RANDOM POWER
LAW
FOREST FIRE
SMALL WORLD
COMPONENT 1
PREF ATTACHMENT
VECTEURS DES
ANCIENNES VARIABLES
23. gipsa-lab
CONCLUSION
De bonnes performances sur les graphes de synthèse
Les histogrammes locaux sont importants
Le clustering local est particulièrement intéressant
Dépendant du nombre et du choix des modèles
Les résultats sur les données réelles sont
à approfondir
Une combinaison des modèles est à envisager
Editor's Notes
Bonjour à tous
Je vais vous présenter mes travaux sur les graphes, et plus particulièrement sur la classif…erveau issue de mon stage ici au GIPSA lab
Après une rapide présentation du contexte je vais vous présenter deux méthodes usuelles issues de la littérature avant d’introduire les concepts de mesures locales et d‘histogrammes et enfin une comparaison des résultats et des performances.
Dans cette étude nous cherchons à comparer des graphes entre eux.
Vous avez ici l’exemples de Graphes de Connectivité du Cerveau avec les nœuds en noirs, et les arêtes en bleu, on les obtient par imagerie IRM sur des personnes saines agissant comme control et sur des patients atteints de troubles psychologiques ou neurologiques comme un comma. On sépare alors le cerveau en différentes régions représentées chacune par un nœud. Une arête montrant un lien fonctionnel entre deux régions.
Ces GCC constituent nos données réelles, nous allons pouvoir les comparer par la suite à des graphes de synthèses pour en définir un modèle.
VISUEL GRAPH CONNECTIVITE -> COMMENT CARACTERISER LES GRAPHES LES UNS AU AUTRES / MODELISER ELS DONNEES REELES PAR UNE (DES) METHODES GENERATIVES / CATEGORISER LES DONNEES REELLES ENTRES ELLES.
Les modèles génératifs présentent différentes manières de générer des graphes. Tous ces modèles sont simulés d’après plusieurs paramètres comme leur nombre de noeuds et d’arêtes.
Vous avez ici une autre représentation visuelle des graphes où les noeuds sont répartis sur un cercle.
Trois modèles peuvent êtres définis comme présentés ici, le modèle régulier ou tous les nœuds sont liés à leurs k plus proches voisins.
On va pouvoir ensuite reconnecter aléatoirement les arêtes avec une probabilité p jusqu’à atteindre le modèle dit Small-World
Si on continue encore on va obtenir un modèle complètement aléatoire ou modèle Erdos Renyi.
Un autre modèle initié par Barabasi est le Préférential Attachment, l’idée représentée ici est qu’il est plus probable de trouver de nouveaux amis chez les amis de mes amis que chez des personnes avec lesquelles je n’ai aucune relation. Le Préférential attachement modèlise parfaitement les réseaux sociaux ou encore le système de citation dans les articles.
Maintenant que nous avons plusieurs types de graphes nous allons chercher à les comparer.
Pour cela il existe plusieurs types de mesures
heavy tailed degree distribution, high clustering, small path length
Nous allons maintenant entrer dans le vif du sujet avec une première méthode de classification de graphes basé sur le comptage de motifs appelés GRAPHLETS
On peut voir ici les différents motifs pour 3 et 4 nœuds.
On commence par compter le nombre de graphlets d’un ensemble d’apprentissage composés d’un certain nombre de graphes pour chaque modèle étudié ont on va se servir pour créer un classifieur.
Pour chaque nouvelle instance de graphe à tester on va
Classifieur adapté au graph en entrée et on cherche une indépendance vis-à-vis du nombre de noeud
On a donc commencé par essayer de repartir les graphes de connectivites selon differents modeles generatifs pour voir s’il y en a un qui colle.
Pour cela on a utilisé les mesures globales d’une centaine de graphes pour 4 modeles generatifs comme ensemble d’apprentissage et on a ensuite passé les 37 GCC dans un classifieur SVM.
Prédiction basée sur le max pas de sens, même données autres classifieurs autres modèles.
25% partout, ces 4 modèles de synthèses avec les paramètres, ne permettent pas de caractériser les données réelles, pas adéquat, pas discriminant, le graph n’est pas reconnu Patient comme Control
Inspiration pour classifier les PATIENT/CONTROL en cross valiation/leave one out avec un classifieur SVM, on voit bien qu’on est incapable de les séparer avec mesures globales.
RESULTATS mitigés, en simulation avec graphes de synthèses seuls, comme ce qu’on voit dans la littérature, ça marche bien mais... Faiblesse des méthodes précédentes.
PBMTK -> Intérêt des mesures locales, un histogramme pour illustrer,
FORTEMENT INSPIRE DE LA DEUXIEME METHODE APPRENTISSAGE 7 modèles génératifs
Un histogramme moyen pour chaque modèle
Plus petit / apprentissage
NORMALISE / MOYENS Mesures locales, les histogrammes moyens
2 histogrammes de graphes <>
5 distances, sens physique (pas de divergence car elles nécessitent un support commun)
1 seule mesure (Clustering)
Expliquer le process + METHODE DE S. MOTALLEBI
Pourquoi pas fitter des lois ? On ne peut pas toujours au vu de la forme des histogrammes.
Pourquoi pas directement un histogramme dans le classifieur ? Pas vraiment de sens, 30 mesures, un énorme nombre d’échantillons
Regarder histo Kro/SW