E-réputation: Cadrage théorique d'un concept complexe et polymorphe
Comportements de diffusion sur les médias sociaux à travers le prisme de la personnalité et de la neutralité
1. Comportements de diusion sur les médias sociaux à
travers le prisme de la personnalité et de la neutralité
Didier Henry
Doctorant Université des Antilles
(Guadeloupe)
didier.henry@univ-antilles.fr
Colloque Big data et visibilité en ligne
7 novembre 2017
2. Les réseaux sociaux : données massives
Les réseaux sociaux s'imposent comme l'un des moyens de communication
les plus utilisés.
Médias sociaux :
millions d'individus (célébrités, particuliers, associations, etc.),
millions de messages par jour (politique, sport, nouvelles, technologie,
etc.),
millions d'images/vidéos.
Ces échanges génèrent des quantités massives de données.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 2 / 28
3. Les réseaux sociaux : source d'information
Les messages diusés peuvent fournir des informations utiles :
détecter des situations d'urgences :
incendies,
inondations,
tremblements de terre.
prédire :
l'évolution des marchés nanciers,
les recettes générées par des lms au box-oce.
marketing :
aner la connaissance client,
cibler les utilisateurs.
Problème : Désinformation / Rumeurs.
Solution : Etudier et modéliser la propagation de l'information.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 3 / 28
4. Modèles proposés dans la littérature
Deux grandes catégories de modèles.
Centrés autour de la théorie :
modèle de contagion,
modèle de cascades indépendantes,
modèle à seuil linéaire.
Centrés autour des données :
macros modèles,
micros modèles.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 4 / 28
5. Modèles théoriques
Modèle de contagion : Utilisateur infecté dès contact avec un utilisateur
infecté. Même probabilité d'être infecté.
Modèle de cascades indépendantes : Noeud actif, a une unique chance
d'activer chacun de ses voisins directs.
Modèle à seuil linéaire : Individu activé si nombre de voisins supérieur à
un seuil. La pression sociale est déterminante pour l'activation.
Problème : modèles simpliés, ne reètent pas précisement le phénomène
de diusion.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 5 / 28
6. Limites des modèles théoriques
Solution : Prendre en compte des facteurs qui inuence la diusion.
Message
-Polarité
-Subjectivité
-Sujet
-Contenu
-Langage
-Date
-Localisation
-etc.
Réseau
Réseau
Facteurs démographiques
-Genre
-Age
-Niveau scolaire
-Profession
-Religion
-Classe sociale
-etc.
Facteurs psychosociologiques
-Centre d'intérêts
-Emotions
-Extraversion
-Humeurs
-Niveau intellectuel
-etc.
Individu 2Individu 1
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 6 / 28
7. Modèles sur les données
Les modèles centrés sur les données :
s'appuient sur des cas réels de diusion,
utilisent des paramètres susceptibles d'inuencer la diusion
Par exemple :
Le contenu du message,
Le sujet du message,
L'intérêt de l'utilisateur
Ces modèles complètent les modèles centrés sur la théorie.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 7 / 28
8. Notre approche
Utilisation réseau social Twitter :
100 millions d'utilisateurs actifs,
500 millions de messages par jour,
données publiques.
Objectifs
Proposer une méthodologie pour extraire :
le prol psychosociologique de l'utilisateur.
la polarité/subjectivité de son message.
Identier des comportements de diusion liés au prol
psychosociologique.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 8 / 28
9. 1 Méthodologie
2 Résultats
3 Conclusion et perspectives
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 9 / 28
13. Méthodologie
Extraction prol psychosociologique
Analyze Words est un outil en ligne (www.analyzewords.com) basé sur
Linguistic Inquiry and Word Count (LIWC).
-In the moment
-Analytic
-Sensory
-Plugged In
-Personable
-Arrogant/Distant
-Spacy/Valley girl
-Upbeat
-Worried
-Angry
-Depressed
Style de pensée
Style social
Style émotionnel
Analyze
Words
Ensemble
de tweets
d'un utilisateur
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 13 / 28
14. Méthodologie
Le style émotionnel
4 attributs :
Upbeat : les personnes dynamiques ou les enfants.
Worried : les personnes anxieuses ou nerveuses.
Angry : les personnes qui utilisent des mots hostiles et le mot vous.
Depressed : les personnes tristes ou mélancoliques qui utilisent
beaucoup d'autoréférences et des mots dépressifs.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 14 / 28
15. Méthodologie
Le style social
4 attributs :
Plugged In : les personnes qui postent des tweets proliques, qui
utilisent des mots sociaux et font souvent référence à leurs amis.
Personable : les personnes engagées dans le bien-être des autres, et
en paix avec l'expression de leur propre incertitude sur le monde.
Arrogant/Distant : les personnes bien élevées et intelligentes avec
une approche sans lien de dépendance à la socialisation.
Spacy/Valley girl : les personnes extraverties.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 15 / 28
16. Méthodologie
Le style de pensée
3 attributs :
In the moment : les personnes désinvoltes ou qui s'intéressent à ce
qui est sensible sur le moment.
Analytic : les personnes qui utilisent de grands mots et des phrases
amples qui incluent des styles de pensée complexes.
Sensory : les personnes qui ont tendance à faire référence à leurs
sentiments et au monde qui les entoure.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 16 / 28
18. Méthodologie
Jeux de données
Deux jeux de données contenant des messages de Twitter (récupérés
pendant 72h en 2015)
Sujet technologique : présentation par Microsoft de HoloLens
nouveau casque de réalité virtuel.
Sujet politique : élection de Syriza le parti radical gauche grec.
Pour chaque utilisateur, 4 attributs : nombre de tweets, retweets, followers,
and followees.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 18 / 28
21. Résultats
Retweets et tweets sont neutres (neutralité plus prononcée sur le sujet
politique)
80% Syriza / 70% Hololens
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
RTs Tweets
(c) HoloLens
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
RTs Tweets
(d) Syriza
Figure Distribution de la polarité des tweets et retweets
Quels utilisateurs ont postés ces messages neutres ?
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 21 / 28
22. Résultats
Les utilisateurs Spacy/Valley girl ont postés le plus de tweets neutres.
26,22%
5,44%
9,18%
59,16%
Arrogant/Distant Personable Plugged In Spacy/Valley girl
(a) Hololens
44,53%
2,62%8,48%
44,38%
Arrogant/Distant Personable Plugged In Spacy/Valley girl
(b) Syriza
Figure Distribution selon le style social de la polarité neutre des messages
Focalisons nous sur les Spacy/Valley girl...
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 22 / 28
23. Résultats
Les utilisateurs Spacy/Valley girl ont le plus de followers.
7525
2257
2838
6255
8162
2888 2876
2171
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
Spacy/Valley girl Arrogant/Distant Plugged In Personable
Hololens Syriza
Figure Nombre moyen de followers selon le style social style
La neutralité est-elle la seule responsable de cette attraction?
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 23 / 28
24. Résultats
Les utilisateurs Spacy/Valley girl sont plus personnels.
28%
34%
49%
41%
47%
59%
66%
56%
0%
10%
20%
30%
40%
50%
60%
70%
Spacy/Valley girl Arrogant/Distant Plugged In Personable
Hololens Syriza
Figure #Retweet
#tweet selon style social
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 24 / 28
25. Résultats
Résumé
P(X=retweet)= élevée
F : Followers
F
F
F
F
F
F
F
F
F
F
F
F
Spacy/Valley girl retweet
retweet
tweet
tweettweet
tweet
tweet
tweet
tweet tweet
tweet
tweet
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 25 / 28
27. Conclusion et perspectives
Conclusion
Méthodologie pour l'extraction de :
facteurs psychosociologiques
polarité et subjectivité
Certains comportements de diusion semblent connectés au prol
psychosociologique.
Perspectives
Considérer l'ensemble des facteurs démographiques et
psychosociologiques.
Utiliser d'autres jeux de données.
Proposer un modèle prédictif.
Proposer des modèles plus complets.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 27 / 28
28. Merci de votre attention !
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 28 / 28