Détection communautaire dans des réseaux complexes à l'aide d'un algorithme génétique.
Élaboré par Mursel Tasgin et Haluk Bingol Department of Computer Engineering Bogazici University, Istanbul, Turkey
La génèse est l'étape de la création d'une population aléatoire. C'est le point de départ de notre algorithme
L'évaluation est l'analyse des individus pour analyser si une solution est disponible. Pour ceci, nous utilisons un fonction de coût, ou d'erreur, afin de définir le score d'adaptation des individus lors du processus de sélection. (une solution dispo ou non )
La sélection consiste à choisir les individus les mieux adaptés
Mélange par la reproduction des particularités des individus choisis.
La mutation consiste à altérer un gène dans un chromosome selon un facteur de mutation. (Ce facteur est la probabilité qu'une mutation soit effectuée sur un individu.)
Cryptanalyse : pour obtenir la clef privée sur des clés asymétriques.
Finance : Prédiction de l'évolution d'une action.
Planning : Obtenir le meilleur planning en fonction de dispositions.
Plan de table : Effectuer la meilleure disposition de table en fonction des affinités de chacun.
Robotique : Comportement intuitif et apprentissage.
Data Mining : Création et utilisation de règles pour obtenir de nouvelles informations.
Zachary Karate Club :
Les données du Zachary Karate Club contiennent la structure communautaire d'un club de karaté .
Le réseau est composé de 34 sommets et 78 arêtes. Nous avons exécuté notre algorithme sur ce jeu de données un certain nombre de fois. L'algorithme trouve une structure de communauté correcte à 97% - 100 %.
College Football Network
Le réseau de football universitaire est composé des matchs de football universitaire aux États-Unis, pour la Division I, au cours de l'année 2000. Les noeuds du réseau sont les équipes de football universitaire et il existe un lien entre deux équipes si elles ont joué un match. La véritable structure communautaire est constituée par les conférences auxquelles chaque équipe appartient.
Réseau de courrier électronique d’Enron
202002 Didapro 2020 Du code à la pensée informatique
Détection communautaire dans des réseaux complexe a l'aide de l'algorithme génétique
1. Présentation sur la détection communautaire
dans des réseaux complexes à l'aide d'un
algorithme génétique
Réalisé par:
Ahmed Belghith
Mohamed Idriss Mahfoudh
4. L’article choisi
Article N°12 Détection communautaire dans des
réseaux complexes à l'aide d'un algorithme
génétique.
Élaboré par Mursel Tasgin et Haluk Bingol
Department of Computer Engineering
Bogazici University, Istanbul, Turkey
4
6. Objectif
L'identification des structures communautaires
dans les réseaux complexes en spécifiant les
méthodes de détection, utiliser l'algorithme
génétique et expliquer les resultats obtenus.
6
8. L'algorithme de Girvan-Newman
Méthode agglomérative hiérarchique
Détection des communautés à l'aide
de l'optimisation extrémale
Méthodes de détection du
communautés
Inconvénients des algorithmes actuels
9. L'algorithme de Girvan-Newman
L’algorithme de Girvan-Newman, est basé sur la
centralité d'interdépendance. C’est une méthode
de division qui présente une complexité
temporelle O(e3).
L'algorithme produit une structure hiérarchique
du réseau, appelée dendrogramme.
Les communautés sont obtenues en coupant les
dendrogrammes à un certain point.
9
10. Méthode agglomérative hiérarchique
L’algorithme agglomératif traite chaque donnée
comme un cluster singleton au départ, puis
agglomère successivement des paires de clusters
jusqu’à ce que tous les clusters aient été fusionnés
en un seul cluster contenant toutes les données.
10
11. Détection des communautés à l'aide de l'optimisation extrémale
L'algorithme de l'optimisation extrémale tente
d'optimiser la modularité du réseau, en utilisant une
méthode d'intelligence artificielle de manière récursive
et divisée. Il commence par une communauté,
représentant l'ensemble du réseau et continue jusqu'au
point à partir duquel la modularité ne peut plus être
améliorée.
11
12. 12
Complexités temporelles rendent les
algorithmes inadaptés aux très grands
réseaux.
Ces algorithmes ont des structures de données
telles que des matrices et des courbes etc., qui
sont difficiles à mettre en œuvre et à utiliser
dans de très grands réseaux.
Nécessitent des connaissances préalables sur la
structure de la communauté, comme le nombre de
communautés, alors qu'il est impossible de connaître
ces valeurs dans les réseaux réels.
Inconvénients des algorithmes actuels
14. Définition
❖ L’algorithme génétique est une méthode
d’optimisation en intelligence artificielle ( souvent
pratique ) .
❖ Dans cet algorithme , les membres potentiels de la
solution doivent être représentés dans une
représentation de données appropriée. Chacun
représente une solution possible au problème et
l'algorithme essaie de trouver la solution la mieux
adaptée .
❖ Afin d'améliorer qualité de la solution, l'algorithme
utilise des opérations génétiques sur les membres
possibles de la solution pendant un nombre prédéfini
d'itérations .
14
17. Les ensembles des données présents
Réseau de courrier électronique
d’Enron
Résultats Expérimentaux
18. Les ensembles des données présents
❖ Zachary Karate Club :
Les données du Zachary Karate Club
contiennent la structure communautaire d'un
club de karaté .
Le réseau est composé de 34 sommets et 78
arêtes. Nous avons exécuté notre algorithme
sur ce jeu de données un certain nombre de
fois. L'algorithme trouve une structure de
communauté correcte à 97% - 100 %.
❖ College Football Network
Le réseau de football universitaire est
composé des matchs de football universitaire
aux États-Unis, pour la Division I, au cours de
l'année 2000. Les noeuds du réseau sont les
équipes de football universitaire et il existe un
lien entre deux équipes si elles ont joué un
match. La véritable structure communautaire
est constituée par les conférences auxquelles
chaque équipe appartient.
18
19. Réseau de courrier électronique d’Enron
❖ Enron, la société énergétique populaire, s'est effondrée à la suite de fraudes trompeuses en matière
d'investissement et d'audit.
Ils ont prétraité environ 512 000 fichiers texte pour former un ensemble de données de réseau
complexe .
Le réseau est composé de 93 526 sommets et de 344 264 arêtes. Ils ont testé leur algorithme dans
ce réseau à des fins d'évolutivité
➔ RÉSULTAT : L’algorithme était environ 40 à 50 fois plus rapide que le premier algorithme. Il
s'est exécuté en 25 minutes par rapport à 23 heures pour l'autre fois.
19