SlideShare a Scribd company logo
1 of 28
Download to read offline
Comportements de diusion sur les médias sociaux à
travers le prisme de la personnalité et de la neutralité
Didier Henry
Doctorant Université des Antilles
(Guadeloupe)
didier.henry@univ-antilles.fr
Colloque Big data et visibilité en ligne
7 novembre 2017
Les réseaux sociaux : données massives
Les réseaux sociaux s'imposent comme l'un des moyens de communication
les plus utilisés.
Médias sociaux :
millions d'individus (célébrités, particuliers, associations, etc.),
millions de messages par jour (politique, sport, nouvelles, technologie,
etc.),
millions d'images/vidéos.
Ces échanges génèrent des quantités massives de données.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 2 / 28
Les réseaux sociaux : source d'information
Les messages diusés peuvent fournir des informations utiles :
détecter des situations d'urgences :
incendies,
inondations,
tremblements de terre.
prédire :
l'évolution des marchés nanciers,
les recettes générées par des lms au box-oce.
marketing :
aner la connaissance client,
cibler les utilisateurs.
Problème : Désinformation / Rumeurs.
Solution : Etudier et modéliser la propagation de l'information.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 3 / 28
Modèles proposés dans la littérature
Deux grandes catégories de modèles.
Centrés autour de la théorie :
modèle de contagion,
modèle de cascades indépendantes,
modèle à seuil linéaire.
Centrés autour des données :
macros modèles,
micros modèles.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 4 / 28
Modèles théoriques
Modèle de contagion : Utilisateur infecté dès contact avec un utilisateur
infecté. Même probabilité d'être infecté.
Modèle de cascades indépendantes : Noeud actif, a une unique chance
d'activer chacun de ses voisins directs.
Modèle à seuil linéaire : Individu activé si nombre de voisins supérieur à
un seuil. La pression sociale est déterminante pour l'activation.
Problème : modèles simpliés, ne reètent pas précisement le phénomène
de diusion.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 5 / 28
Limites des modèles théoriques
Solution : Prendre en compte des facteurs qui inuence la diusion.
Message
-Polarité
-Subjectivité
-Sujet
-Contenu
-Langage
-Date
-Localisation
-etc.
Réseau
Réseau
Facteurs démographiques
-Genre
-Age
-Niveau scolaire
-Profession
-Religion
-Classe sociale
-etc.
Facteurs psychosociologiques
-Centre d'intérêts
-Emotions
-Extraversion
-Humeurs
-Niveau intellectuel
-etc.
Individu 2Individu 1
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 6 / 28
Modèles sur les données
Les modèles centrés sur les données :
s'appuient sur des cas réels de diusion,
utilisent des paramètres susceptibles d'inuencer la diusion
Par exemple :
Le contenu du message,
Le sujet du message,
L'intérêt de l'utilisateur
Ces modèles complètent les modèles centrés sur la théorie.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 7 / 28
Notre approche
Utilisation réseau social Twitter :
100 millions d'utilisateurs actifs,
500 millions de messages par jour,
données publiques.
Objectifs
Proposer une méthodologie pour extraire :
le prol psychosociologique de l'utilisateur.
la polarité/subjectivité de son message.
Identier des comportements de diusion liés au prol
psychosociologique.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 8 / 28
1 Méthodologie
2 Résultats
3 Conclusion et perspectives
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 9 / 28
Plan
1 Méthodologie
2 Résultats
3 Conclusion et perspectives
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 10 / 28
Méthodologie
Tweets
Profil psychosociologique
Polarité et subjectivité
@utilisateurs attribut1 …
@individu1 … …
@individu2 … …
… … …
Données (1) Extraction (2) Regroupement (3) Extraction de
collectées des attributs des données connaissances
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 11 / 28
Méthodologie
Extraction polarité/subjectivité
TextBlob une API Python (https ://textblob.readthedocs.io).
Subjectivité
Polarité
TextBlob
API
Texte en anglais
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 12 / 28
Méthodologie
Extraction prol psychosociologique
Analyze Words est un outil en ligne (www.analyzewords.com) basé sur
Linguistic Inquiry and Word Count (LIWC).
-In the moment
-Analytic
-Sensory
-Plugged In
-Personable
-Arrogant/Distant
-Spacy/Valley girl
-Upbeat
-Worried
-Angry
-Depressed
Style de pensée
Style social
Style émotionnel
Analyze
Words
Ensemble
de tweets
d'un utilisateur
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 13 / 28
Méthodologie
Le style émotionnel
4 attributs :
Upbeat : les personnes dynamiques ou les enfants.
Worried : les personnes anxieuses ou nerveuses.
Angry : les personnes qui utilisent des mots hostiles et le mot vous.
Depressed : les personnes tristes ou mélancoliques qui utilisent
beaucoup d'autoréférences et des mots dépressifs.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 14 / 28
Méthodologie
Le style social
4 attributs :
Plugged In : les personnes qui postent des tweets proliques, qui
utilisent des mots sociaux et font souvent référence à leurs amis.
Personable : les personnes engagées dans le bien-être des autres, et
en paix avec l'expression de leur propre incertitude sur le monde.
Arrogant/Distant : les personnes bien élevées et intelligentes avec
une approche sans lien de dépendance à la socialisation.
Spacy/Valley girl : les personnes extraverties.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 15 / 28
Méthodologie
Le style de pensée
3 attributs :
In the moment : les personnes désinvoltes ou qui s'intéressent à ce
qui est sensible sur le moment.
Analytic : les personnes qui utilisent de grands mots et des phrases
amples qui incluent des styles de pensée complexes.
Sensory : les personnes qui ont tendance à faire référence à leurs
sentiments et au monde qui les entoure.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 16 / 28
Méthodologie
(a) Hillary Clinton (b) Kim Kardashian
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 17 / 28
Méthodologie
Jeux de données
Deux jeux de données contenant des messages de Twitter (récupérés
pendant 72h en 2015)
Sujet technologique : présentation par Microsoft de HoloLens
nouveau casque de réalité virtuel.
Sujet politique : élection de Syriza le parti radical gauche grec.
Pour chaque utilisateur, 4 attributs : nombre de tweets, retweets, followers,
and followees.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 18 / 28
Méthodologie
Résumé
nbRTnbTweetsnbFolloweenbFollowersStyle émotionnel Style de penséeStyle social Min MaxMoy
Attributs socialAttributs polarité/subjectivitéAttributs psychosociologique
24 attributs
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 19 / 28
Plan
1 Méthodologie
2 Résultats
3 Conclusion et perspectives
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 20 / 28
Résultats
Retweets et tweets sont neutres (neutralité plus prononcée sur le sujet
politique)
80% Syriza / 70% Hololens
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
RTs Tweets
(c) HoloLens
0,00%
10,00%
20,00%
30,00%
40,00%
50,00%
60,00%
70,00%
-1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
RTs Tweets
(d) Syriza
Figure  Distribution de la polarité des tweets et retweets
Quels utilisateurs ont postés ces messages neutres ?
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 21 / 28
Résultats
Les utilisateurs Spacy/Valley girl ont postés le plus de tweets neutres.
26,22%
5,44%
9,18%
59,16%
Arrogant/Distant Personable Plugged In Spacy/Valley girl
(a) Hololens
44,53%
2,62%8,48%
44,38%
Arrogant/Distant Personable Plugged In Spacy/Valley girl
(b) Syriza
Figure  Distribution selon le style social de la polarité neutre des messages
Focalisons nous sur les Spacy/Valley girl...
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 22 / 28
Résultats
Les utilisateurs Spacy/Valley girl ont le plus de followers.
7525
2257
2838
6255
8162
2888 2876
2171
0
1000
2000
3000
4000
5000
6000
7000
8000
9000
Spacy/Valley girl Arrogant/Distant Plugged In Personable
Hololens Syriza
Figure  Nombre moyen de followers selon le style social style
La neutralité est-elle la seule responsable de cette attraction?
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 23 / 28
Résultats
Les utilisateurs Spacy/Valley girl sont plus personnels.
28%
34%
49%
41%
47%
59%
66%
56%
0%
10%
20%
30%
40%
50%
60%
70%
Spacy/Valley girl Arrogant/Distant Plugged In Personable
Hololens Syriza
Figure  #Retweet
#tweet selon style social
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 24 / 28
Résultats
Résumé
P(X=retweet)= élevée
F : Followers
F
F
F
F
F
F
F
F
F
F
F
F
Spacy/Valley girl retweet
retweet
tweet
tweettweet
tweet
tweet
tweet
tweet tweet
tweet
tweet
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 25 / 28
Plan
1 Méthodologie
2 Résultats
3 Conclusion et perspectives
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 26 / 28
Conclusion et perspectives
Conclusion
Méthodologie pour l'extraction de :
facteurs psychosociologiques
polarité et subjectivité
Certains comportements de diusion semblent connectés au prol
psychosociologique.
Perspectives
Considérer l'ensemble des facteurs démographiques et
psychosociologiques.
Utiliser d'autres jeux de données.
Proposer un modèle prédictif.
Proposer des modèles plus complets.
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 27 / 28
Merci de votre attention !
Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 28 / 28

More Related Content

Similar to Comportements de diffusion sur les médias sociaux à travers le prisme de la personnalité et de la neutralité

Circulation et visibilité des fausses informations dans un écosystème socionu...
Circulation et visibilité des fausses informations dans un écosystème socionu...Circulation et visibilité des fausses informations dans un écosystème socionu...
Circulation et visibilité des fausses informations dans un écosystème socionu...
ComSanté
 

Similar to Comportements de diffusion sur les médias sociaux à travers le prisme de la personnalité et de la neutralité (20)

Intro1 REP2400
Intro1 REP2400 Intro1 REP2400
Intro1 REP2400
 
Propos sur les Big Data.pdf
Propos sur les Big Data.pdfPropos sur les Big Data.pdf
Propos sur les Big Data.pdf
 
Circulation et visibilité des fausses informations dans un écosystème socionu...
Circulation et visibilité des fausses informations dans un écosystème socionu...Circulation et visibilité des fausses informations dans un écosystème socionu...
Circulation et visibilité des fausses informations dans un écosystème socionu...
 
Mémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociauxMémoire de fin d'étude - La big data et les réseaux sociaux
Mémoire de fin d'étude - La big data et les réseaux sociaux
 
Big data vs small data
Big data vs small dataBig data vs small data
Big data vs small data
 
Colloque tice
Colloque ticeColloque tice
Colloque tice
 
Colloque tice
Colloque ticeColloque tice
Colloque tice
 
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP ParibasInfographie (Big?) Data - EnjoyDigitAll by BNP Paribas
Infographie (Big?) Data - EnjoyDigitAll by BNP Paribas
 
JdCHE19 - Esprit cri ti cs
JdCHE19 - Esprit cri ti csJdCHE19 - Esprit cri ti cs
JdCHE19 - Esprit cri ti cs
 
Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Introduction au web sémantique librement adaptée de Nova Spivack
Introduction au web sémantique librement adaptée de Nova SpivackIntroduction au web sémantique librement adaptée de Nova Spivack
Introduction au web sémantique librement adaptée de Nova Spivack
 
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 22013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
2013 smrf-nodexl-sna-socialmedia-fr version -130320011951-phpapp01-1 2
 
Intro1 rep2400
Intro1 rep2400 Intro1 rep2400
Intro1 rep2400
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Atelier Réseaux sociaux et Jeunes Entreprises (6 novembre 2013)
Atelier Réseaux sociaux et Jeunes Entreprises (6 novembre 2013)Atelier Réseaux sociaux et Jeunes Entreprises (6 novembre 2013)
Atelier Réseaux sociaux et Jeunes Entreprises (6 novembre 2013)
 
Atelier Réseaux sociaux et Jeunes entreprises (6 novembre 2013)
Atelier Réseaux sociaux et Jeunes entreprises (6 novembre 2013)Atelier Réseaux sociaux et Jeunes entreprises (6 novembre 2013)
Atelier Réseaux sociaux et Jeunes entreprises (6 novembre 2013)
 
Les nouveaux habits de la veille
Les nouveaux habits de la veilleLes nouveaux habits de la veille
Les nouveaux habits de la veille
 
Conférence plénière journée 30 ans absys cyborg 06072017
Conférence plénière   journée 30 ans absys cyborg 06072017Conférence plénière   journée 30 ans absys cyborg 06072017
Conférence plénière journée 30 ans absys cyborg 06072017
 
Veille informationnelle 3.1
Veille informationnelle 3.1Veille informationnelle 3.1
Veille informationnelle 3.1
 
Cyber-attaques: mise au point
Cyber-attaques: mise au pointCyber-attaques: mise au point
Cyber-attaques: mise au point
 

More from omsrp

Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
omsrp
 

More from omsrp (20)

Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017Colloque Big Data Martinique 2017
Colloque Big Data Martinique 2017
 
Les données massives, outil de gouvernance et de gestion d’un campus intellig...
Les données massives, outil de gouvernance et de gestion d’un campus intellig...Les données massives, outil de gouvernance et de gestion d’un campus intellig...
Les données massives, outil de gouvernance et de gestion d’un campus intellig...
 
Déploiement des médias sociaux et gestion du risque dans un environnement com...
Déploiement des médias sociaux et gestion du risque dans un environnement com...Déploiement des médias sociaux et gestion du risque dans un environnement com...
Déploiement des médias sociaux et gestion du risque dans un environnement com...
 
Le marketing digital des marques de mode face aux stratégies des influenceurs...
Le marketing digital des marques de mode face aux stratégies des influenceurs...Le marketing digital des marques de mode face aux stratégies des influenceurs...
Le marketing digital des marques de mode face aux stratégies des influenceurs...
 
Marques de mode, influenceurs et e-réputation: Vers une modélisation des rela...
Marques de mode, influenceurs et e-réputation: Vers une modélisation des rela...Marques de mode, influenceurs et e-réputation: Vers une modélisation des rela...
Marques de mode, influenceurs et e-réputation: Vers une modélisation des rela...
 
La mise en scène de soi dans les médias sociaux: comment trouver les e-influe...
La mise en scène de soi dans les médias sociaux: comment trouver les e-influe...La mise en scène de soi dans les médias sociaux: comment trouver les e-influe...
La mise en scène de soi dans les médias sociaux: comment trouver les e-influe...
 
Conformisme social et persuasion sur les forums en ligne: une étude empirique
Conformisme social et persuasion sur les forums en ligne: une étude empiriqueConformisme social et persuasion sur les forums en ligne: une étude empirique
Conformisme social et persuasion sur les forums en ligne: une étude empirique
 
Influence numérique et enjeux juridiques: l'atteinte à la e-réputation au Québec
Influence numérique et enjeux juridiques: l'atteinte à la e-réputation au QuébecInfluence numérique et enjeux juridiques: l'atteinte à la e-réputation au Québec
Influence numérique et enjeux juridiques: l'atteinte à la e-réputation au Québec
 
État et pratiques des relations avec les influenceurs
État et pratiques des relations avec les influenceursÉtat et pratiques des relations avec les influenceurs
État et pratiques des relations avec les influenceurs
 
Mutations des relations de presse à l'heure des médias sociaux
Mutations des relations de presse à l'heure des médias sociauxMutations des relations de presse à l'heure des médias sociaux
Mutations des relations de presse à l'heure des médias sociaux
 
Quand les excuses sont refusées. Co-construction de l'e-réputation et conditi...
Quand les excuses sont refusées. Co-construction de l'e-réputation et conditi...Quand les excuses sont refusées. Co-construction de l'e-réputation et conditi...
Quand les excuses sont refusées. Co-construction de l'e-réputation et conditi...
 
Les réseaux numériques en campagne politique. Cas pratique
Les réseaux numériques en campagne politique. Cas pratiqueLes réseaux numériques en campagne politique. Cas pratique
Les réseaux numériques en campagne politique. Cas pratique
 
La communication professionnelle sur le Web: Trajectoires et temporalités de ...
La communication professionnelle sur le Web: Trajectoires et temporalités de ...La communication professionnelle sur le Web: Trajectoires et temporalités de ...
La communication professionnelle sur le Web: Trajectoires et temporalités de ...
 
E-réputation: Cadrage théorique d'un concept complexe et polymorphe
E-réputation: Cadrage théorique d'un concept complexe et polymorpheE-réputation: Cadrage théorique d'un concept complexe et polymorphe
E-réputation: Cadrage théorique d'un concept complexe et polymorphe
 

Comportements de diffusion sur les médias sociaux à travers le prisme de la personnalité et de la neutralité

  • 1. Comportements de diusion sur les médias sociaux à travers le prisme de la personnalité et de la neutralité Didier Henry Doctorant Université des Antilles (Guadeloupe) didier.henry@univ-antilles.fr Colloque Big data et visibilité en ligne 7 novembre 2017
  • 2. Les réseaux sociaux : données massives Les réseaux sociaux s'imposent comme l'un des moyens de communication les plus utilisés. Médias sociaux : millions d'individus (célébrités, particuliers, associations, etc.), millions de messages par jour (politique, sport, nouvelles, technologie, etc.), millions d'images/vidéos. Ces échanges génèrent des quantités massives de données. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 2 / 28
  • 3. Les réseaux sociaux : source d'information Les messages diusés peuvent fournir des informations utiles : détecter des situations d'urgences : incendies, inondations, tremblements de terre. prédire : l'évolution des marchés nanciers, les recettes générées par des lms au box-oce. marketing : aner la connaissance client, cibler les utilisateurs. Problème : Désinformation / Rumeurs. Solution : Etudier et modéliser la propagation de l'information. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 3 / 28
  • 4. Modèles proposés dans la littérature Deux grandes catégories de modèles. Centrés autour de la théorie : modèle de contagion, modèle de cascades indépendantes, modèle à seuil linéaire. Centrés autour des données : macros modèles, micros modèles. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 4 / 28
  • 5. Modèles théoriques Modèle de contagion : Utilisateur infecté dès contact avec un utilisateur infecté. Même probabilité d'être infecté. Modèle de cascades indépendantes : Noeud actif, a une unique chance d'activer chacun de ses voisins directs. Modèle à seuil linéaire : Individu activé si nombre de voisins supérieur à un seuil. La pression sociale est déterminante pour l'activation. Problème : modèles simpliés, ne reètent pas précisement le phénomène de diusion. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 5 / 28
  • 6. Limites des modèles théoriques Solution : Prendre en compte des facteurs qui inuence la diusion. Message -Polarité -Subjectivité -Sujet -Contenu -Langage -Date -Localisation -etc. Réseau Réseau Facteurs démographiques -Genre -Age -Niveau scolaire -Profession -Religion -Classe sociale -etc. Facteurs psychosociologiques -Centre d'intérêts -Emotions -Extraversion -Humeurs -Niveau intellectuel -etc. Individu 2Individu 1 Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 6 / 28
  • 7. Modèles sur les données Les modèles centrés sur les données : s'appuient sur des cas réels de diusion, utilisent des paramètres susceptibles d'inuencer la diusion Par exemple : Le contenu du message, Le sujet du message, L'intérêt de l'utilisateur Ces modèles complètent les modèles centrés sur la théorie. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 7 / 28
  • 8. Notre approche Utilisation réseau social Twitter : 100 millions d'utilisateurs actifs, 500 millions de messages par jour, données publiques. Objectifs Proposer une méthodologie pour extraire : le prol psychosociologique de l'utilisateur. la polarité/subjectivité de son message. Identier des comportements de diusion liés au prol psychosociologique. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 8 / 28
  • 9. 1 Méthodologie 2 Résultats 3 Conclusion et perspectives Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 9 / 28
  • 10. Plan 1 Méthodologie 2 Résultats 3 Conclusion et perspectives Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 10 / 28
  • 11. Méthodologie Tweets Profil psychosociologique Polarité et subjectivité @utilisateurs attribut1 … @individu1 … … @individu2 … … … … … Données (1) Extraction (2) Regroupement (3) Extraction de collectées des attributs des données connaissances Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 11 / 28
  • 12. Méthodologie Extraction polarité/subjectivité TextBlob une API Python (https ://textblob.readthedocs.io). Subjectivité Polarité TextBlob API Texte en anglais Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 12 / 28
  • 13. Méthodologie Extraction prol psychosociologique Analyze Words est un outil en ligne (www.analyzewords.com) basé sur Linguistic Inquiry and Word Count (LIWC). -In the moment -Analytic -Sensory -Plugged In -Personable -Arrogant/Distant -Spacy/Valley girl -Upbeat -Worried -Angry -Depressed Style de pensée Style social Style émotionnel Analyze Words Ensemble de tweets d'un utilisateur Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 13 / 28
  • 14. Méthodologie Le style émotionnel 4 attributs : Upbeat : les personnes dynamiques ou les enfants. Worried : les personnes anxieuses ou nerveuses. Angry : les personnes qui utilisent des mots hostiles et le mot vous. Depressed : les personnes tristes ou mélancoliques qui utilisent beaucoup d'autoréférences et des mots dépressifs. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 14 / 28
  • 15. Méthodologie Le style social 4 attributs : Plugged In : les personnes qui postent des tweets proliques, qui utilisent des mots sociaux et font souvent référence à leurs amis. Personable : les personnes engagées dans le bien-être des autres, et en paix avec l'expression de leur propre incertitude sur le monde. Arrogant/Distant : les personnes bien élevées et intelligentes avec une approche sans lien de dépendance à la socialisation. Spacy/Valley girl : les personnes extraverties. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 15 / 28
  • 16. Méthodologie Le style de pensée 3 attributs : In the moment : les personnes désinvoltes ou qui s'intéressent à ce qui est sensible sur le moment. Analytic : les personnes qui utilisent de grands mots et des phrases amples qui incluent des styles de pensée complexes. Sensory : les personnes qui ont tendance à faire référence à leurs sentiments et au monde qui les entoure. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 16 / 28
  • 17. Méthodologie (a) Hillary Clinton (b) Kim Kardashian Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 17 / 28
  • 18. Méthodologie Jeux de données Deux jeux de données contenant des messages de Twitter (récupérés pendant 72h en 2015) Sujet technologique : présentation par Microsoft de HoloLens nouveau casque de réalité virtuel. Sujet politique : élection de Syriza le parti radical gauche grec. Pour chaque utilisateur, 4 attributs : nombre de tweets, retweets, followers, and followees. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 18 / 28
  • 19. Méthodologie Résumé nbRTnbTweetsnbFolloweenbFollowersStyle émotionnel Style de penséeStyle social Min MaxMoy Attributs socialAttributs polarité/subjectivitéAttributs psychosociologique 24 attributs Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 19 / 28
  • 20. Plan 1 Méthodologie 2 Résultats 3 Conclusion et perspectives Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 20 / 28
  • 21. Résultats Retweets et tweets sont neutres (neutralité plus prononcée sur le sujet politique) 80% Syriza / 70% Hololens 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 RTs Tweets (c) HoloLens 0,00% 10,00% 20,00% 30,00% 40,00% 50,00% 60,00% 70,00% -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 RTs Tweets (d) Syriza Figure Distribution de la polarité des tweets et retweets Quels utilisateurs ont postés ces messages neutres ? Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 21 / 28
  • 22. Résultats Les utilisateurs Spacy/Valley girl ont postés le plus de tweets neutres. 26,22% 5,44% 9,18% 59,16% Arrogant/Distant Personable Plugged In Spacy/Valley girl (a) Hololens 44,53% 2,62%8,48% 44,38% Arrogant/Distant Personable Plugged In Spacy/Valley girl (b) Syriza Figure Distribution selon le style social de la polarité neutre des messages Focalisons nous sur les Spacy/Valley girl... Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 22 / 28
  • 23. Résultats Les utilisateurs Spacy/Valley girl ont le plus de followers. 7525 2257 2838 6255 8162 2888 2876 2171 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 Spacy/Valley girl Arrogant/Distant Plugged In Personable Hololens Syriza Figure Nombre moyen de followers selon le style social style La neutralité est-elle la seule responsable de cette attraction? Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 23 / 28
  • 24. Résultats Les utilisateurs Spacy/Valley girl sont plus personnels. 28% 34% 49% 41% 47% 59% 66% 56% 0% 10% 20% 30% 40% 50% 60% 70% Spacy/Valley girl Arrogant/Distant Plugged In Personable Hololens Syriza Figure #Retweet #tweet selon style social Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 24 / 28
  • 25. Résultats Résumé P(X=retweet)= élevée F : Followers F F F F F F F F F F F F Spacy/Valley girl retweet retweet tweet tweettweet tweet tweet tweet tweet tweet tweet tweet Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 25 / 28
  • 26. Plan 1 Méthodologie 2 Résultats 3 Conclusion et perspectives Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 26 / 28
  • 27. Conclusion et perspectives Conclusion Méthodologie pour l'extraction de : facteurs psychosociologiques polarité et subjectivité Certains comportements de diusion semblent connectés au prol psychosociologique. Perspectives Considérer l'ensemble des facteurs démographiques et psychosociologiques. Utiliser d'autres jeux de données. Proposer un modèle prédictif. Proposer des modèles plus complets. Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 27 / 28
  • 28. Merci de votre attention ! Didier Henry (LAMIA) Colloque Big data 7 novembre 2017 28 / 28