Your SlideShare is downloading. ×
0
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Twitter: extraction, regroupement et visualisation pour la veille stratégique
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Twitter: extraction, regroupement et visualisation pour la veille stratégique

1,845

Published on

Intervention de Philippe Suignard - EDF R&D

Intervention de Philippe Suignard - EDF R&D

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,845
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
17
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Twitter : extraction, regroupement etvisualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D
  • 2. Plan de la présentation Introduction Présentation du réseau social Twitter Exemple de visualisations de tweets Expérimentation sur un corpus de tweets parlant d’EDF Conclusion et perspectives
  • 3. Introduction Contexte de veille Concurrentielle et stratégique sur l’Entreprise Recherche permanente de l’amélioration de la qualité de la relation avec les clients Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…? Twitter occupe une place intéressante réseau social très populaire en France dont le nombre d’utilisateurs a connu une augmentation récente très importante format de message court qui oblige les rédacteurs à adopter un style très synthétique tout en leur permettant d’inclure des liens vers les sources d’origine particulièrement bien adapté à la diffusion et à la propagation d’information Twitter offre un accès, relativement facile, à ses contenus Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière continue Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation… … qui présente un ensemble de méthodes et outils qui vont nous aider à analyser « ce qui se dit sur EDF »
  • 4. Le réseau social Twitter Twitter : site de micro-blogging Créé en mars 2006 par Jack Dorsey « To tweet » signifie gazouiller, pépier 1 tweet = 1 message d’au plus 140 caractères, exemple : RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués! http://goo.gl/T7VEe Les tweets sont publics: on peut voir les tweets d’une personne (éventuellement la suivre, @compte) contenant un mot clé, un hashtag (ex: #EDF) etc. peuvent être « re-tweetés (RT ….) Twitter et droit d’auteur A qui appartiennent les tweets ? Retweet : droit de courte citation s’applique ? Texte court ne peut pas être protégé mais slogans publicitaires le sont Licence TweetCC http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/ http://fr.wikipedia.org/wiki/Twitter
  • 5. Le réseau social Twitter Evolution du nombre d’utilisateurs USA (1), Brésil (2), Japon (3), …, Argentine (17), France (18), Allemagne (19), etc. Enquête de Semiocast : 500 millions de comptes. Nombre très important de création de comptes au premier semestre 2012 : 30 millions aux États-Unis. Les USA, pays n°1 dans le monde sur Twitter, représentent ainsi 27,4 % des comptes Twitter du globe, et 25,8 % des messages publics. http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US Paris 7ème ville
  • 6. Le réseau social Twitter Qui est sur Twitter ? Un peu tout le monde ! EDF, Henri Proglio, des centrales nucléaires RTE, ERDF… Gaz de France, GrDF Banques (CA, S. Générale…) La Poste Opérateurs télécoms (Orange, SFR…) Grands journaux … et bien d’autres
  • 7. CompteLe réseau social Twitter Abonnés InterfaceNombre de tweetsAbonnementsTexte du tweetListe des tweetsreçus
  • 8. Le réseau social Twitter Typologie de Tweets Texte libre Réaction à des sites Web 06/05/2012 Réaction à des émissions de Télé (http://www.tvtweet.fr)
  • 9. Le réseau social Twitter : attention à la contrefaçon ! Comment acheter des « followers » sur Twitter ? C’est la question que se sont posée deux journaux : 27 000 followers pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie de « vrais utilisateurs » comme ce que propose la société Boostic. La RATP, l’humour et twitter Le 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes : @ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. Lobjectif consistait à tester ce canal dinformation en temps réel pour létendre ensuite à lensemble des lignes en fonction de l’intérêt du public. Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait pour l’instant été créé que pour 4 lignes): Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course avec @Ligne7_RATP) » Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. » Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. » La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé un site rassemblant les tweets les plus savoureux !
  • 10. Visualisation des tweets Outil, fortement interactif, Travaux existants : VoxCivitas (1/6) d’analyse visuelle permettant de naviguer au sein d’une base de données composées de vidéos et de tweets relatifs à ces vidéos. L’application permet de visualiser les tweets au fur à mesure de la lecture de la vidéo, ou encore de naviguer dans ces tweets et de se positionner sur la vidéo au moment de l’émission du tweet. Cette application s’appuie sur les discours de B. Obama pendant la campagne électorale américaine.
  • 11. Visualisation des tweets Travaux existants : Nokia Internet Pulse (2/6) Cet outil balaie automatiquement le site de micro-bloging en fonction de mots clés particuliers, puis classe, en deux catégories, les messages relevés, ceux faisant acte de sentiments positifs, et ceux qui véhiculent plutôt un message négatif. Lensemble des données est organisé sur une plate- forme en ligne, qui met en avant un nuage de mots- clés correspondant aux commentaires des internautes
  • 12. Visualisation des tweets Travaux existants : TweetTopicExplorer (3/6) Cet outil commence par récupérer les tweets d’un compte donné et les assemble en un nuage de bulles créées à partir des mots les plus fréquents des tweets émis par ce compte.
  • 13. Visualisation des tweets Travaux existants : twitInfo (4/6) Permet d’explorer un événement, comme un discours ou une rencontre sportive, en détectant et labellisant automatiquement des pics dans le flux d’arrivée des tweets, et en proposant une interface regroupant géolocalisation, sentiments, liens populaires et tweets significatifs
  • 14. Visualisation des tweets Travaux existants : twitt3D (5/6) Récupère les tweets d’un compte donné et les affiche avec la photo de leur auteur, le tout en trois dimensions. Permet une navigation 3D dans l’ensemble de ces tweets.
  • 15. Visualisation des tweets Travaux existants : « twitter tongue »(6/6) Récupère les tweets d’une ville (New-York et Londres) à l’aide de la localisation, détecte la langue du tweet et l’affiche sur une carte. Permet de situer sur une carte les nationalités des personnes.http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
  • 16. Visualisation des tweets Travaux réalisés (1/3) Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter l’évolution des entrées des films au cours du temps. Analogie entre tweets et films : apparition puis décroissance plus ou moins rapide. Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup d’entrées et ceux restés longtemps présents au box-office. StoryFlow
  • 17. Visualisation des tweets Travaux réalisés (2/3) Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour désigner un cluster, une méta-donnée, etc.) et leur occurrence ; Classement des thèmes par ordre décroissant Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus important en haut de l’écran ; Si le thème a déjà été rencontré par le passé, on lui attribue la même couleur que précédemment, si le thème n’a pas encore été rencontré on lui attribue une nouvelle couleur. Si le thème ne se trouve pas dans la période concernée (comme A en période J sur la figure 5), on regarde si on va le retrouver ultérieurement. Si c’est le cas, alors on lui attribue la taille la plus petite qui soit et on le fait passer sous l’axe des ordonnées, ce qui permet de maintenir une continuité visuelle. Cette particularité n’existe pas dans l’algorithme d’origine. Ensuite on relie les thèmes entre deux périodes successives via des courbes de Béziers afin de produire un rendu « lissé ».
  • 18. Visualisation des tweets Travaux réalisés (3/3) En jouant sur la largeur des barres et sur leur espacement, on fait apparaître des phénomènes différents. Ainsi, sur la figure : à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur score pour une période donnée ; à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent d’avantage en évidence les évolutions d’un thème au cours du temps.
  • 19. Expérimentation sur corpus de tweets parlant d’EDF Collecte d’un corpus EDF Collecte des tweets grâce à l’API Twitter (recherche par mot clé) Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un processus de collecte permanent Pour les tweets, permet de récupérer : identifiant, auteur, texte, date et heure Pour les auteurs : identifiant, followers, image Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin 2011 23 574 tweets Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp» etc.) 8 567 tweets
  • 20. Expérimentation sur corpus de tweets parlant d’EDF :regroupement des tweets quasiment identiques Objectif : Regrouper les tweets ayant des contenus très similaires Similarité des textes des tweets Utilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf: noms précédés par «@» URLs le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué) mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis). Pour deux tweets A et B, utilisation de la distance de Jaccard améliorée Où nA = le nb. de mots dans l’ensemble du tweet A nAB = le nb. de mots communs aux deux ensembles Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
  • 21. Expérimentation sur corpus de tweets parlant d’EDF :regroupement des tweets quasiment identiques Méthode de clustering Contraintes du clustering La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t Clustering hiérarchique qui tire profit de la contrainte temporelle il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les distances entre chaque cluster et ceux des quelques jours précédents Gain de temps Etapes 1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son jour de publication) ; 2 - on fait un clustering hiérarchique des tweets d’un même jour 3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters : pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des jours précédents (j-1 jusqu’à j-t) on choisit le couple de clusters pour lequel la distance est minimale (et inférieure à d) et on fusionne les deux clusters
  • 22. Expérimentation sur corpus de tweets parlant d’EDF Corpus EDF, les Hashtags Hasthtags fréquents (par thématique): nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ; nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ; écologie : #eelv (58), #hulot (53), #renouvelable (23) ; énergie en général : #energie (50), #production (36) ; emploi : #emploi (38). Résultat du clustering Seuil distance d Seuil temps t nb. clusters 0,50 1 jour 4618 0,55 1 jour 4494 0,60 1 jour 4310 0,65 1 jour 3197 0,55 2 jours 4553 0,55 2 jours 4419 0,60 2 jours 4214 0,50 3 jours 4 494 0,55 3 jours 4 349 0,60 3 jours 4114 Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours 2853 clusters contiennent un seul tweet le plus grand cluster comprend 155 tweets
  • 23. Expérimentation sur corpus de tweets parlant d’EDF Exemple de regroupement @alexbongibault : « Avec une petite éolienne, jai baissé ma facture EDF de 40% » - http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @vodka083 : RT @lemondefr : « Avec une petite éolienne, jai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma- facture-edf-de-40_1503641_3244.html @chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec une petite éolienne, jai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @homeenergyperf : « Avec une petite éolienne, jai baissé ma facture EDF de 40% » Invités à faire part de leur expérience en matière... http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html
  • 24. Expérimentation sur corpus de tweets parlant d’EDF Autre exemple de regroupement @Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser! @Supdeco : Chantage politique sur les tarifs d’EDF @liberation_fr : Chantage politique sur les tarifs d’EDF @Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
  • 25. Expérimentation sur corpus de tweets parlant d’EDF Visualisation des clusters Cette visualisation permet de voir rapidement : Les périodes qui ont connu beaucoup de tweets ; Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs jours, contrairement à ceux qui ont une faible durée de vie.
  • 26. Expérimentation sur corpus de tweets parlant d’EDF Visualisation des hashtags Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
  • 27. Expérimentation sur corpus de tweets parlant d’EDF Un outil permettant de naviguer dans les tweets Recherche par mot clé, date, semaine, mois, RT Visualisation sous la forme de courbe Nuage de mots clé
  • 28. Conclusion et perspectives Chaine de traitement s’appuyant sur Twitter À l’état de prototype Récupération des données, filtrage, regroupement et visualisation Plusieurs pistes d’améliorations envisagées : la phase dite de regroupement, qui consiste à regrouper des contenus très proches produit une liste de « clusters » trop grande. Il faudra sans doute opérer un deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces groupes étant plus thématiques que les premiers ; un module de détection de sentiments et d’opinions pourrait être intégré dans la chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters » positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce. Evaluation d’un point de vue métier Ce travail devra être testé d’un point de vue métier, cest-à-dire par ou avec les personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut être intéressant et complémentaire avec les outils et pratiques existants. Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite dans cet article.
  • 29. Twitter : extraction, regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D MerciV.S.S.T.2012 : 24 - 25 mai, Ajaccio

×