Your SlideShare is downloading. ×
ToTeM : une méthode de détection de communautés adaptée à la fouille de réseaux d’information
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

ToTeM : une méthode de détection de communautés adaptée à la fouille de réseaux d’information

676
views

Published on

Slides in french about a method of detetction of communities in an information network (graph with numeric attributes on the edges) using modularity and interclass inertia. …

Slides in french about a method of detetction of communities in an information network (graph with numeric attributes on the edges) using modularity and interclass inertia.

Présentation en français ici: http://www.canalc2.tv/video.asp?idvideo=11672

Published in: Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
676
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. ToTeM : une m´ethode de d´etection de communaut´es adapt´ee `a la fouille de r´eseaux d’information DAVID COMBE C. LARGERON, E. EGYED-ZSIGMOND *, M. GERY Laboratoire Hubert Curien, Universit´e de Saint-´Etienne *LIRIS, Universit´e de Lyon 11 Avril 2013 david.combe@univ-st-etienne.fr DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 1 / 24
  • 2. Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 2 / 24
  • 3. Contexte Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 3 / 24
  • 4. Contexte Fouille de r´eseaux sociaux Web 2.0 : Myspace, Facebook, Twitter, LinkedIn, Instagram, etc Regain d’int´erˆet pour l’analyse des r´eseaux sociaux R´eseau social [Wasserman et al., 1994] ”Finite set or sets of entities and the relation or relations defined on them” R´eseau d’information [Han et al., 2011] Les entit´es et les relations sont d´ecrites par des informations : poids, ´etiquettes, attributs D´etection de communaut´es dans un graphe `a attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 4 / 24
  • 5. Formalisation du probl`eme Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 5 / 24
  • 6. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau social Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u V : l’ensemble fini des sommets de G E ⊂ V × V : l’ensemble des arˆetes de G A : matrice d’adjacence de G il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes : k∈{1,...,r} Ck = V Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r Ck = ∅, ∀k ∈ {1, . . . , r} telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es les sommets de classes diff´erentes soient peu connect´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
  • 7. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau social Etant donn´e un r´eseau social repr´esent´e par un graphe G = (V, E) o`u V : l’ensemble fini des sommets de G E ⊂ V × V : l’ensemble des arˆetes de G A : matrice d’adjacence de G il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes : k∈{1,...,r} Ck = V Ck ∩ Cl = ∅, ∀ 1 ≤ k < l ≤ r Ck = ∅, ∀k ∈ {1, . . . , r} telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es les sommets de classes diff´erentes soient peu connect´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 6 / 24
  • 8. Formalisation du probl`eme Exemple de communaut´es dans un graphe Figure : Un graphe et ses trois communaut´es DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 7 / 24
  • 9. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau d’information Graphe avec attributs [Zhou et al., 2009] Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur d’attributs il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es et soient proches en termes d’attributs les sommets de classes diff´erentes soient peu connect´es et soient diff´erents en termes d’attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
  • 10. Formalisation du probl`eme D´etection de communaut´es dans un r´eseau d’information Graphe avec attributs [Zhou et al., 2009] Etant donn´e G = (V, E) dont tout sommet est associ´e `a un vecteur d’attributs il s’agit de d´efinir une partition P = {C1, . . . , Cr} de V en r classes telle que les sommets `a l’int´erieur d’une mˆeme classe soient fortement connect´es et soient proches en termes d’attributs les sommets de classes diff´erentes soient peu connect´es et soient diff´erents en termes d’attributs DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 8 / 24
  • 11. Formalisation du probl`eme Exemple de r´eseau d’information [1] [2] [9] [11] [28] [30] [22] [24] [23] Figure : Un r´eseau d’information avec ses attributs num´eriques (non orient´e, ´eventuellement valu´e) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 9 / 24
  • 12. Formalisation du probl`eme Approches m´ethodologiques Exploitation des attributs puis des relations : enrichissement du graphe Valuation des arˆetes `a l’aide des attributs [K. Steinhaeuser et al., 2008] Ajout de sommets et d’arˆetes bas´es sur les attributs [Y.H. Zhou et al., 2009] Exploitation des relations puis des attributs Regroupement des communaut´es en fonction des attributs [Li et al., 2008] Exploitation conjointe des relations et des attributs NetScan, JointClust : K-means avec des contraintes de connexion des classes [M. Ester et al.,2006, F. Moser et al. 2007] Extension de Louvain [V.D. Blondel, J.L. Guillaume, R. Lambiotte, E. Lefevre, 2008] • Utilisation de la notion d’entopie, J.D. Cruz Gomez, C. Bothorel, F. Poulet, 2011 • Combinaison de similarit´es locales, T.A. Dang et E. Viennet, 2012 • ToTeM, Combe et al. 2013 (EGC) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 10 / 24
  • 13. La m´ethode ToTeM Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 11 / 24
  • 14. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 15. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 16. La m´ethode ToTeM Qualit´e d’une partition P Modularit´e : qualit´e de P par rapport aux liens [Newman et Girvan, 2004] Q(P) = 1 2M (i,i )∈V×V Aii − ki · ki 2M · δ(ci, ci ) (1) o`u M est la somme des poids des liens, ki est le degr´e du sommet i et δ est la fonction de Kronecker. Inertie inter-classes : qualit´e de P par rapport aux attributs IB(P) = l=1,r ml gl − g 2 (2) o`u gl est le centre de gravit´e et ml le poids de la classe Cl. Crit`ere global : CG(P) = IB(P) |P| · I(V) · Q(P) (3) o`u I(V) est l’inertie des attributs des sommets de V DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 12 / 24
  • 17. La m´ethode ToTeM Algorithme ToTeM Initialisation : chaque sommet constitue une communaut´e [1] [2] [9] [11] [28] [30] [22] [24] [23] Figure : Initialisation DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 13 / 24
  • 18. La m´ethode ToTeM Algorithme ToTeM Phase it´erative : R´ep´eter Pour tout sommet i, ins´erer i dans la communaut´e voisine qui maximise le crit`ere global jusqu’`a ce qu’un maximum local soit atteint [1] [2] [9] [11] [28] [30] [22] [24] [23] ? ? ? [1] [2] [9] [11] [28] [30] [22] [24] [23] mD=3 gD=23 mB=2 gB=10 mA=2 gA=1,5 mC=2 gC=29 mX: masse de la communauté X gX: centre de gravité de la communauté X A B D C DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 14 / 24
  • 19. La m´ethode ToTeM Algorithme ToTeM Phase de fusion Construction d’un nouveau graphe G = (V , E ) `a partir de la partition P Chaque sommet v de G correspond `a une classe C de P La valuation de l’arˆete entre deux sommets vx et vy de G est la somme des valuations entre les sommets des classes correspondantes Le vecteur d’attributs associ´e `a v est le centre de gravit´e de C Le poids du sommet est celui de la classe [1] [2] [9] [11] [28] [30] [22] [24] [23] mD=3 gD=23 mB=2 gB=10 mA=2 gA=1,5 mC=2 gC=29 mX: masse de la communauté X gX: centre de gravité de la communauté X A B D C mD=3 gD=23 MC=2 gC=29 MA=2 gA=1,5 mB=2 gB=10 A B C D DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 15 / 24
  • 20. Exp´erimentations Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 16 / 24
  • 21. Exp´erimentations Donn´ees G´en´eration `a l’aide d’un mod`ele de graphe `a attributs [Dang et al. 2012] |C1| = |C2| = |C3| = 33 NC1(10, 7) NC2(40, 7) NC3(70, 7) DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 17 / 24
  • 22. Exp´erimentations R´esultats Application de ToTeM Application de la m´ethode de Louvain Application des K-means DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 18 / 24
  • 23. Exp´erimentations R´esultats ToTeM Louvain K-means Nombre de classes 3 4 (3) Taux de biens class´es 0.9595 0.8383 0.9696 NMI 0.8612 0.7844 0.9061 Qualit´e par rapport aux liens Mod 0.6119 0.6219 0.5979 silhouette-Liens 0.4672 0.4784 0.4640 Qualit´e par rapport aux attributs Varinter 657.57 650.56 658.89 silhouette-Attributs 0.7978 0.7789 0.7998 Table : R´esultats sur le graphe DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 19 / 24
  • 24. Conclusion Plan 1 Contexte 2 Formalisation du probl`eme 3 La m´ethode ToTeM 4 Exp´erimentations 5 Conclusion DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 20 / 24
  • 25. Conclusion Contributions D´etection de communaut´es dans un graphe `a attributs `a valeurs r´eelles ToTeM : bas´e sur l’optimisation d’un crit`ere global tenant compte de la taille des classes R´esultats encourageants sur jeux artificiels Perspectives Application sur des donn´ees r´eelles Passage `a l’´echelle DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 21 / 24
  • 26. Conclusion R´ef´erences (1/2) [K. Steinhaeuser et al., 2008] Steinhaeuser, K., & Chawla, N. V. (2008). Community detection in a large real-world social network. Social Computing, Behavioral Modeling, and Prediction, 168-175. [Y.H. Zhou et al., 2009] Zhou, Y., Cheng, H., & Yu, J. X. (2009). Graph clustering based on structural/attribute similarities. Proceedings of the VLDB Endowment, 2(1), 718-729. [Li et al., 2008] Li, H., Nie, Z., Lee, W.-C. W., Giles, C. L., & Wen, J.-R. (2008). Scalable Community Discovery on Textual Data with Relations. Proceedings of the 17th ACM conference on Information and knowledge management (pp. 1203-1212). [M. Ester et al.,2006] Ester, M., Ge, R., Gao, B. J., Hu, Z., & Ben-Moshe, B. (2006). Joint Cluster Analysis of Attribute Data and Relationship Data: the Connected k-Center Problem. SIAM International Conference on Data Mining (pp. 25-46). ACM Press. DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 22 / 24
  • 27. Conclusion R´ef´erences (2/2) [F. Moser et al., 2007] Moser, F., Ge, R., & Ester, M. (2007). Joint Cluster Analysis of Attribute and Relationship Data Without A-Priori Specification of the Number of Clusters. Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining (p. 510). [V.D. Blondel et al., 2008] Blondel, V. D., Guillaume, J.-L., Lambiotte, R., & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment. [Newman et al., 2004] Newman, M., & Girvan, M. (2004). Finding and evaluating community structure in networks. Physical review E, 69(2), 1-16. [Combe et al., 2013] Combe, D., Largeron, C., Egyed-Zsigmond, E., & G´ery, M. (2013). ToTeM: une m´ethode de d´etection de communaut´es adapt´ee aux r´eseaux d’information. Extraction et gestion des connaissances (EGC 2013) (pp. 305-310). [Wasserman et al., 1994] Wasserman, S., & Faust, K. (1994). Social network analysis: Methods and applications. Cambridge University Press. DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 23 / 24
  • 28. Merci pour votre attention...des questions ? 1 1 Ce travail est partiellement soutenu par St-Etienne Metropole (http://www.agglo-st-etienne.fr/ et la r´egion Rhˆone Alpes DAVID COMBE (LaHC) Forum Web et r´eseaux sociaux 24 / 24