SlideShare a Scribd company logo
1 of 29
Download to read offline
Twitter : extraction, regroupement et
visualisation pour la veille stratégique
     Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
                         EDF R&D
Plan de la présentation




 Introduction
 Présentation du réseau social Twitter
 Exemple de visualisations de tweets
 Expérimentation sur un corpus de tweets parlant d’EDF
 Conclusion et perspectives
Introduction
 Contexte de veille
  Concurrentielle et stratégique sur l’Entreprise
  Recherche permanente de l’amélioration de la qualité de la relation avec les clients
  Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…?
 Twitter occupe une place intéressante
  réseau social très populaire en France dont le nombre d’utilisateurs a connu une
  augmentation récente très importante
  format de message court qui oblige les rédacteurs à adopter un style très synthétique
  tout en leur permettant d’inclure des liens vers les sources d’origine
  particulièrement bien adapté à la diffusion et à la propagation d’information
  Twitter offre un accès, relativement facile, à ses contenus
  Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière
  continue
  Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur
  C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation…
  … qui présente un ensemble de méthodes et outils qui vont nous aider à analyser
  « ce qui se dit sur EDF »
Le réseau social Twitter

  Twitter : site de micro-blogging
   Créé en mars 2006 par Jack Dorsey
   « To tweet » signifie gazouiller, pépier
   1 tweet = 1 message d’au plus 140 caractères, exemple :
     RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués!
     http://goo.gl/T7VEe

   Les tweets sont publics: on peut voir les tweets
     d’une personne (éventuellement la suivre, @compte)
     contenant un mot clé, un hashtag (ex: #EDF) etc.
     peuvent être « re-tweetés (RT ….)

  Twitter et droit d’auteur
   A qui appartiennent les tweets ?
   Retweet : droit de courte citation s’applique ?
   Texte court ne peut pas être protégé mais slogans publicitaires le sont
   Licence TweetCC
   http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/
   http://fr.wikipedia.org/wiki/Twitter
Le réseau social Twitter
 Evolution du nombre d’utilisateurs
   USA (1), Brésil (2), Japon (3), …,
   Argentine (17), France (18),
   Allemagne (19), etc.
   Enquête de Semiocast : 500 millions de comptes.
   Nombre très important de création de comptes
   au premier semestre 2012 : 30 millions aux
   États-Unis. Les USA, pays n°1 dans le monde sur
   Twitter, représentent ainsi 27,4 % des comptes
   Twitter du globe, et 25,8 % des messages publics.

   http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US
   Paris 7ème ville
Le réseau social Twitter

 Qui est sur Twitter ?
 Un peu tout le monde !
   EDF, Henri Proglio, des centrales nucléaires
   RTE, ERDF…
   Gaz de France, GrDF
   Banques (CA, S. Générale…)
   La Poste
   Opérateurs télécoms (Orange, SFR…)
   Grands journaux
   … et bien d’autres
Compte
Le réseau social Twitter   Abonnés


    Interface
Nombre de tweets


Abonnements

Texte du tweet


Liste des tweets
reçus
Le réseau social Twitter
 Typologie de Tweets




      Texte libre                                  Réaction à des sites Web



               06/05/2012




                    Réaction à des émissions de Télé (http://www.tvtweet.fr)
Le réseau social Twitter : attention à la contrefaçon !

  Comment acheter des « followers » sur Twitter ?
   C’est la question que se sont posée deux journaux : 27 000 followers
   pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est
   pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de
   gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie
   de « vrais utilisateurs » comme ce que propose la société Boostic.
  La RATP, l’humour et twitter
   Le 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes :
   @ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif
   consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à
   l'ensemble des lignes en fonction de l’intérêt du public.
   Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant
   des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait
   pour l’instant été créé que pour 4 lignes):
    Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course
    avec @Ligne7_RATP) »
    Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. »
    Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. »
   La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé
   un site rassemblant les tweets les plus savoureux !
Visualisation des tweets
                                        Outil, fortement interactif,
 Travaux existants : VoxCivitas (1/6)   d’analyse visuelle
                                        permettant de naviguer au
                                        sein d’une base de
                                        données composées de
                                        vidéos et de tweets relatifs
                                        à ces vidéos. L’application
                                        permet de visualiser les
                                        tweets au fur à mesure de
                                        la lecture de la vidéo, ou
                                        encore de naviguer dans
                                        ces tweets et de se
                                        positionner sur la vidéo au
                                        moment de l’émission du
                                        tweet. Cette application
                                        s’appuie sur les discours de
                                        B. Obama pendant la
                                        campagne électorale
                                        américaine.
Visualisation des tweets
 Travaux existants : Nokia Internet Pulse (2/6)
                                        Cet outil balaie
                                        automatiquement le site de
                                        micro-bloging en fonction
                                        de mots clés particuliers,
                                        puis classe, en deux
                                        catégories, les messages
                                        relevés, ceux faisant acte
                                        de sentiments positifs, et
                                        ceux qui véhiculent plutôt
                                        un message négatif.
                                        L'ensemble des données
                                        est organisé sur une plate-
                                        forme en ligne, qui met en
                                        avant un nuage de mots-
                                        clés correspondant aux
                                        commentaires des
                                        internautes
Visualisation des tweets
 Travaux existants : TweetTopicExplorer (3/6)




                                      Cet outil commence par
                                      récupérer les tweets d’un
                                      compte donné et les
                                      assemble en un nuage de
                                      bulles créées à partir des
                                      mots les plus fréquents des
                                      tweets émis par ce
                                      compte.
Visualisation des tweets
 Travaux existants : twitInfo (4/6)

                                      Permet d’explorer un
                                      événement, comme un
                                      discours ou une rencontre
                                      sportive, en détectant et
                                      labellisant
                                      automatiquement des pics
                                      dans le flux d’arrivée des
                                      tweets, et en proposant une
                                      interface regroupant
                                      géolocalisation, sentiments,
                                      liens populaires et tweets
                                      significatifs
Visualisation des tweets
 Travaux existants : twitt3D (5/6)



                                     Récupère les tweets d’un
                                     compte donné et les affiche
                                     avec la photo de leur
                                     auteur, le tout en trois
                                     dimensions. Permet une
                                     navigation 3D dans
                                     l’ensemble de ces tweets.
Visualisation des tweets
  Travaux existants : « twitter tongue »(6/6)



                                                                        Récupère les tweets d’une
                                                                        ville (New-York et Londres)
                                                                        à l’aide de la localisation,
                                                                        détecte la langue du tweet
                                                                        et l’affiche sur une carte.
                                                                        Permet de situer sur une
                                                                        carte les nationalités des
                                                                        personnes.




http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
Visualisation des tweets
 Travaux réalisés (1/3)
  Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter
  l’évolution des entrées des films au cours du temps.
  Analogie entre tweets et films : apparition puis décroissance plus ou moins
  rapide.
  Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup
  d’entrées et ceux restés longtemps présents au box-office.




                                                           StoryFlow
Visualisation des tweets
 Travaux réalisés (2/3)
  Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour
  désigner un cluster, une méta-donnée, etc.) et leur occurrence ;
  Classement des thèmes par ordre décroissant
  Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus
  important en haut de l’écran ;
  Si le thème a déjà été rencontré par le passé, on lui
  attribue la même couleur que précédemment, si le thème
  n’a pas encore été rencontré on lui attribue une nouvelle
  couleur.
  Si le thème ne se trouve pas dans la période concernée
  (comme A en période J sur la figure 5), on regarde si on
  va le retrouver ultérieurement. Si c’est le cas, alors on lui
  attribue la taille la plus petite qui soit et on le fait passer
  sous l’axe des ordonnées, ce qui permet de maintenir une
  continuité visuelle. Cette particularité n’existe pas dans
  l’algorithme d’origine.
  Ensuite on relie les thèmes entre deux périodes
  successives via des courbes de Béziers afin de produire
  un rendu « lissé ».
Visualisation des tweets
 Travaux réalisés (3/3)
  En jouant sur la largeur des barres et sur leur espacement, on fait apparaître
  des phénomènes différents. Ainsi, sur la figure :
   à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur
   score pour une période donnée ;
   à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent
   d’avantage en évidence les évolutions d’un thème au cours du temps.
Expérimentation sur corpus de tweets parlant d’EDF

  Collecte d’un corpus EDF
   Collecte des tweets grâce à l’API Twitter (recherche par mot clé)
   Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un
   processus de collecte permanent
   Pour les tweets, permet de récupérer :
      identifiant, auteur, texte, date et heure
   Pour les auteurs :
      identifiant, followers, image
   Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin
   2011
                                         23 574 tweets

   Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant
   une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp»
   etc.)

                                          8 567 tweets
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques

 Objectif : Regrouper les tweets ayant des contenus très similaires
 Similarité des textes des tweets
   Utilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf:
    noms précédés par «@»
    URLs
    le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué)
    mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis).


 Pour deux tweets A et B, utilisation de la distance de
 Jaccard améliorée

    Où nA = le nb. de mots dans l’ensemble du tweet A
     nAB = le nb. de mots communs aux deux ensembles


    Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et
    dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
Expérimentation sur corpus de tweets parlant d’EDF :
regroupement des tweets quasiment identiques
  Méthode de clustering
   Contraintes du clustering
    La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d
    L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t


   Clustering hiérarchique qui tire profit de la contrainte temporelle
    il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les
    distances entre chaque cluster et ceux des quelques jours précédents
    Gain de temps

  Etapes
   1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son
   jour de publication) ;
   2 - on fait un clustering hiérarchique des tweets d’un même jour
   3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters :

   pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des
   jours précédents (j-1 jusqu’à j-t)
   on choisit le couple de clusters pour lequel la distance est minimale (et inférieure
   à d) et on fusionne les deux clusters
Expérimentation sur corpus de tweets parlant d’EDF
  Corpus EDF, les Hashtags
   Hasthtags fréquents (par thématique):
    nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ;
    nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ;
    écologie : #eelv (58), #hulot (53), #renouvelable (23) ;
    énergie en général : #energie (50), #production (36) ;
    emploi : #emploi (38).

  Résultat du clustering
            Seuil distance d                 Seuil temps t                   nb. clusters
                    0,50                           1 jour                         4618
                    0,55                           1 jour                         4494
                    0,60                           1 jour                         4310
                    0,65                           1 jour                         3197
                    0,55                           2 jours                        4553
                    0,55                           2 jours                        4419
                    0,60                           2 jours                        4214
                    0,50                           3 jours                        4 494
                    0,55                           3 jours                        4 349
                    0,60                           3 jours                        4114

   Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours
    2853 clusters contiennent un seul tweet
    le plus grand cluster comprend 155 tweets
Expérimentation sur corpus de tweets parlant d’EDF

  Exemple de regroupement
   @alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » -
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html


   @vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF
   de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-
   facture-edf-de-40_1503641_3244.html


   @chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec
   une petite éolienne, j'ai baissé ma facture EDF de 40% »
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html


   @homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% »
   Invités à faire part de leur expérience en matière...
   http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf-
   de-40_1503641_3244.html
Expérimentation sur corpus de tweets parlant d’EDF

  Autre exemple de regroupement
   @Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser!

   @Supdeco : Chantage politique sur les tarifs d’EDF

   @liberation_fr : Chantage politique sur les tarifs d’EDF

   @Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
Expérimentation sur corpus de tweets parlant d’EDF
 Visualisation des clusters




  Cette visualisation permet de voir rapidement :
     Les périodes qui ont connu beaucoup de tweets ;
     Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe
     Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs
     jours, contrairement à ceux qui ont une faible durée de vie.
Expérimentation sur corpus de tweets parlant d’EDF
 Visualisation des hashtags




  Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
Expérimentation sur corpus de tweets parlant d’EDF
 Un outil permettant de naviguer dans les tweets
    Recherche par mot clé, date, semaine, mois, RT
    Visualisation sous la forme de courbe
    Nuage de mots clé
Conclusion et perspectives

 Chaine de traitement s’appuyant sur Twitter
  À l’état de prototype
  Récupération des données, filtrage, regroupement et visualisation
  Plusieurs pistes d’améliorations envisagées :
      la phase dite de regroupement, qui consiste à regrouper des contenus très proches
      produit une liste de « clusters » trop grande. Il faudra sans doute opérer un
      deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces
      groupes étant plus thématiques que les premiers ;
      un module de détection de sentiments et d’opinions pourrait être intégré dans la
      chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters »
      positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce.
 Evaluation d’un point de vue métier
  Ce travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les
  personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut
  être intéressant et complémentaire avec les outils et pratiques existants.
  Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite
  dans cet article.
Twitter : extraction, regroupement et visualisation
               pour la veille stratégique

                             Alina STOICA, Philippe SUIGNARD, Lambert PEPIN
                                                 EDF R&D




                                             Merci



V.S.S.T.'2012 : 24 - 25 mai, Ajaccio

More Related Content

What's hot

Twitter: Je m'approprie
Twitter: Je m'approprieTwitter: Je m'approprie
Twitter: Je m'approprierecitpi
 
Twitter : C'est 140 caratères et pis c'est tout
Twitter : C'est 140 caratères et pis c'est toutTwitter : C'est 140 caratères et pis c'est tout
Twitter : C'est 140 caratères et pis c'est toutChristophe Batier
 
Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012CITIZEN ACT
 
Fondamentaux du journalisme web 2014 - partie 3
Fondamentaux du journalisme web 2014 - partie 3Fondamentaux du journalisme web 2014 - partie 3
Fondamentaux du journalisme web 2014 - partie 3Gwendal Perrin
 
Fondamentaux du journalisme web 2014 - partie 1
Fondamentaux du journalisme web 2014 - partie 1Fondamentaux du journalisme web 2014 - partie 1
Fondamentaux du journalisme web 2014 - partie 1Gwendal Perrin
 
Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Gwendal Perrin
 
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...Thibault Chevalier (@Chevalier_Th)
 
Social Média
Social MédiaSocial Média
Social MédiaLudi Dls
 
Twitter et le microblogging
Twitter et le microbloggingTwitter et le microblogging
Twitter et le microbloggingHugues Aubin
 
Twitter, le microblogging et la conjugaison des temps
Twitter, le microblogging et la conjugaison des tempsTwitter, le microblogging et la conjugaison des temps
Twitter, le microblogging et la conjugaison des tempsHugues Aubin
 
Twitter pour@LesMarraines
Twitter pour@LesMarrainesTwitter pour@LesMarraines
Twitter pour@LesMarrainesAgnès Laurent
 

What's hot (12)

Twitter: Je m'approprie
Twitter: Je m'approprieTwitter: Je m'approprie
Twitter: Je m'approprie
 
Twitter : C'est 140 caratères et pis c'est tout
Twitter : C'est 140 caratères et pis c'est toutTwitter : C'est 140 caratères et pis c'est tout
Twitter : C'est 140 caratères et pis c'est tout
 
Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012
 
Fondamentaux du journalisme web 2014 - partie 3
Fondamentaux du journalisme web 2014 - partie 3Fondamentaux du journalisme web 2014 - partie 3
Fondamentaux du journalisme web 2014 - partie 3
 
Fondamentaux du journalisme web 2014 - partie 1
Fondamentaux du journalisme web 2014 - partie 1Fondamentaux du journalisme web 2014 - partie 1
Fondamentaux du journalisme web 2014 - partie 1
 
Phenomene_Twitter_3
Phenomene_Twitter_3Phenomene_Twitter_3
Phenomene_Twitter_3
 
Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2Fondamentaux du journalisme web 2014 - partie 2
Fondamentaux du journalisme web 2014 - partie 2
 
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...
[Formation] - Commencer à utiliser Twitter et développer la visibilité de vot...
 
Social Média
Social MédiaSocial Média
Social Média
 
Twitter et le microblogging
Twitter et le microbloggingTwitter et le microblogging
Twitter et le microblogging
 
Twitter, le microblogging et la conjugaison des temps
Twitter, le microblogging et la conjugaison des tempsTwitter, le microblogging et la conjugaison des temps
Twitter, le microblogging et la conjugaison des temps
 
Twitter pour@LesMarraines
Twitter pour@LesMarrainesTwitter pour@LesMarraines
Twitter pour@LesMarraines
 

Viewers also liked

BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14
BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14
BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14Balistik Art
 
Référencement Local (SEO Local) - Queduweb 2016
Référencement Local (SEO Local) - Queduweb 2016Référencement Local (SEO Local) - Queduweb 2016
Référencement Local (SEO Local) - Queduweb 2016Victor Lerat
 
Article le monde_02_2013
Article le monde_02_2013Article le monde_02_2013
Article le monde_02_2013mehzali
 
Presentación ejecutiva
Presentación ejecutivaPresentación ejecutiva
Presentación ejecutivaLina Rouge
 
Presentación1sebasdtoam
Presentación1sebasdtoamPresentación1sebasdtoam
Presentación1sebasdtoamloslaboriosos
 
Copia de prepara la carga 1(1) correccion.
Copia de prepara la carga 1(1) correccion.Copia de prepara la carga 1(1) correccion.
Copia de prepara la carga 1(1) correccion.An Hurtado
 
Football impact presentation 2013
Football impact presentation 2013Football impact presentation 2013
Football impact presentation 2013austyn07
 
Dossier de presse pfi 2013
Dossier de presse pfi 2013Dossier de presse pfi 2013
Dossier de presse pfi 2013austyn07
 
Cartographie, mise en scène de l’information et aide à la décision: quelques ...
Cartographie, mise en scène de l’information et aide à la décision: quelques ...Cartographie, mise en scène de l’information et aide à la décision: quelques ...
Cartographie, mise en scène de l’information et aide à la décision: quelques ...ForumTelmi
 
Ejercicios abstractos idardo
Ejercicios abstractos idardoEjercicios abstractos idardo
Ejercicios abstractos idardoloslaboriosos
 
Offdays tuto all-FR
Offdays tuto all-FROffdays tuto all-FR
Offdays tuto all-FRAzinao
 
Le carcajou
Le carcajouLe carcajou
Le carcajoudrew832
 
50012 lectura 2
50012 lectura 250012 lectura 2
50012 lectura 21andrea1
 
Le carcajou
Le carcajouLe carcajou
Le carcajoudrew832
 
Taller De Repaso 2011
Taller De Repaso 2011Taller De Repaso 2011
Taller De Repaso 2011An Hurtado
 
Plaquette animation multimédia oct janv 2013/2014
Plaquette animation multimédia oct janv 2013/2014Plaquette animation multimédia oct janv 2013/2014
Plaquette animation multimédia oct janv 2013/2014Pij Cantonstflorent
 
Les premières propositions de mon projet pour Lyon
Les premières propositions de mon projet pour LyonLes premières propositions de mon projet pour Lyon
Les premières propositions de mon projet pour LyonGeorges Fenech
 
Gestion Ambiental
Gestion AmbientalGestion Ambiental
Gestion AmbientalRonalpinho
 

Viewers also liked (20)

BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14
BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14
BLSTK Replay n°79 > La revue luxe et digitale du 20.03 au 26.03.14
 
Référencement Local (SEO Local) - Queduweb 2016
Référencement Local (SEO Local) - Queduweb 2016Référencement Local (SEO Local) - Queduweb 2016
Référencement Local (SEO Local) - Queduweb 2016
 
Article le monde_02_2013
Article le monde_02_2013Article le monde_02_2013
Article le monde_02_2013
 
Presentación ejecutiva
Presentación ejecutivaPresentación ejecutiva
Presentación ejecutiva
 
Presentación1sebasdtoam
Presentación1sebasdtoamPresentación1sebasdtoam
Presentación1sebasdtoam
 
Copia de prepara la carga 1(1) correccion.
Copia de prepara la carga 1(1) correccion.Copia de prepara la carga 1(1) correccion.
Copia de prepara la carga 1(1) correccion.
 
Citroen Select
Citroen SelectCitroen Select
Citroen Select
 
Football impact presentation 2013
Football impact presentation 2013Football impact presentation 2013
Football impact presentation 2013
 
Dossier de presse pfi 2013
Dossier de presse pfi 2013Dossier de presse pfi 2013
Dossier de presse pfi 2013
 
Cartographie, mise en scène de l’information et aide à la décision: quelques ...
Cartographie, mise en scène de l’information et aide à la décision: quelques ...Cartographie, mise en scène de l’information et aide à la décision: quelques ...
Cartographie, mise en scène de l’information et aide à la décision: quelques ...
 
Ejercicios abstractos idardo
Ejercicios abstractos idardoEjercicios abstractos idardo
Ejercicios abstractos idardo
 
Offdays tuto all-FR
Offdays tuto all-FROffdays tuto all-FR
Offdays tuto all-FR
 
Le carcajou
Le carcajouLe carcajou
Le carcajou
 
Excel[1] 2 12
Excel[1] 2 12Excel[1] 2 12
Excel[1] 2 12
 
50012 lectura 2
50012 lectura 250012 lectura 2
50012 lectura 2
 
Le carcajou
Le carcajouLe carcajou
Le carcajou
 
Taller De Repaso 2011
Taller De Repaso 2011Taller De Repaso 2011
Taller De Repaso 2011
 
Plaquette animation multimédia oct janv 2013/2014
Plaquette animation multimédia oct janv 2013/2014Plaquette animation multimédia oct janv 2013/2014
Plaquette animation multimédia oct janv 2013/2014
 
Les premières propositions de mon projet pour Lyon
Les premières propositions de mon projet pour LyonLes premières propositions de mon projet pour Lyon
Les premières propositions de mon projet pour Lyon
 
Gestion Ambiental
Gestion AmbientalGestion Ambiental
Gestion Ambiental
 

Similar to Twitter: extraction, regroupement et visualisation pour la veille stratégique

RTS - Twitter - Mode d'emploi
RTS - Twitter - Mode d'emploiRTS - Twitter - Mode d'emploi
RTS - Twitter - Mode d'emploiYan Luong
 
Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...URFIST de Paris
 
Twitter mode d'emploi - le média de l'instantané
Twitter mode d'emploi - le média de l'instantanéTwitter mode d'emploi - le média de l'instantané
Twitter mode d'emploi - le média de l'instantanéArdesi Midi-Pyrénées
 
Introduction à Twitter
Introduction à TwitterIntroduction à Twitter
Introduction à TwitterAymeric
 
Guide de formation Twitter
Guide de formation TwitterGuide de formation Twitter
Guide de formation TwitterCOVAGE
 
Espace Numérique Professionnel - Twitter, comment ça marche ?
Espace Numérique Professionnel - Twitter, comment ça marche ?Espace Numérique Professionnel - Twitter, comment ça marche ?
Espace Numérique Professionnel - Twitter, comment ça marche ?CCI Yonne
 
Tutoriel Twitter
Tutoriel TwitterTutoriel Twitter
Tutoriel Twitterclairette5
 
Tutoriel Twitter
Tutoriel Twitter Tutoriel Twitter
Tutoriel Twitter Annegrai
 
Veille avec-twitter e-chomienne_iufm-2011
Veille avec-twitter e-chomienne_iufm-2011Veille avec-twitter e-chomienne_iufm-2011
Veille avec-twitter e-chomienne_iufm-2011Elise Chomienne
 
Initiation aux réseaux sociaux
Initiation aux réseaux sociauxInitiation aux réseaux sociaux
Initiation aux réseaux sociauxJustin Yarga
 
Présentation twitter
Présentation twitterPrésentation twitter
Présentation twittercdioustal
 
Twitter comme outil académique
Twitter comme outil académiqueTwitter comme outil académique
Twitter comme outil académiqueURFIST de Paris
 
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212Valerie_Verdier
 
Epn Camp Table 8
Epn Camp Table 8Epn Camp Table 8
Epn Camp Table 8CoRAIA
 
Analyse de l'utilisation de Twitter pendant les COP
Analyse de l'utilisation de Twitter pendant les COPAnalyse de l'utilisation de Twitter pendant les COP
Analyse de l'utilisation de Twitter pendant les COPDépoues Vivian
 
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?Eric Mettout
 
Twitter Micro Blogging
Twitter  Micro  BloggingTwitter  Micro  Blogging
Twitter Micro Bloggingmmti2008
 
MuséoApéro - Musée+Twitter
MuséoApéro - Musée+TwitterMuséoApéro - Musée+Twitter
MuséoApéro - Musée+TwitterDRUBAY Diane
 
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...Selima Sellami
 

Similar to Twitter: extraction, regroupement et visualisation pour la veille stratégique (20)

RTS - Twitter - Mode d'emploi
RTS - Twitter - Mode d'emploiRTS - Twitter - Mode d'emploi
RTS - Twitter - Mode d'emploi
 
Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...Twitter : un outil de veille et de communication professionnelle (version 10/...
Twitter : un outil de veille et de communication professionnelle (version 10/...
 
Twitter mode d'emploi - le média de l'instantané
Twitter mode d'emploi - le média de l'instantanéTwitter mode d'emploi - le média de l'instantané
Twitter mode d'emploi - le média de l'instantané
 
Diaporama twitter
Diaporama twitterDiaporama twitter
Diaporama twitter
 
Introduction à Twitter
Introduction à TwitterIntroduction à Twitter
Introduction à Twitter
 
Guide de formation Twitter
Guide de formation TwitterGuide de formation Twitter
Guide de formation Twitter
 
Espace Numérique Professionnel - Twitter, comment ça marche ?
Espace Numérique Professionnel - Twitter, comment ça marche ?Espace Numérique Professionnel - Twitter, comment ça marche ?
Espace Numérique Professionnel - Twitter, comment ça marche ?
 
Tutoriel Twitter
Tutoriel TwitterTutoriel Twitter
Tutoriel Twitter
 
Tutoriel Twitter
Tutoriel Twitter Tutoriel Twitter
Tutoriel Twitter
 
Veille avec-twitter e-chomienne_iufm-2011
Veille avec-twitter e-chomienne_iufm-2011Veille avec-twitter e-chomienne_iufm-2011
Veille avec-twitter e-chomienne_iufm-2011
 
Initiation aux réseaux sociaux
Initiation aux réseaux sociauxInitiation aux réseaux sociaux
Initiation aux réseaux sociaux
 
Présentation twitter
Présentation twitterPrésentation twitter
Présentation twitter
 
Twitter comme outil académique
Twitter comme outil académiqueTwitter comme outil académique
Twitter comme outil académique
 
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212
Twitter_OutilVeilleEtCom_LabardeMarie-Claude_1212
 
Epn Camp Table 8
Epn Camp Table 8Epn Camp Table 8
Epn Camp Table 8
 
Analyse de l'utilisation de Twitter pendant les COP
Analyse de l'utilisation de Twitter pendant les COPAnalyse de l'utilisation de Twitter pendant les COP
Analyse de l'utilisation de Twitter pendant les COP
 
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?
Blogs, réseaux sociaux, commentaires... la communauté, pourquoi faire?
 
Twitter Micro Blogging
Twitter  Micro  BloggingTwitter  Micro  Blogging
Twitter Micro Blogging
 
MuséoApéro - Musée+Twitter
MuséoApéro - Musée+TwitterMuséoApéro - Musée+Twitter
MuséoApéro - Musée+Twitter
 
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...
1 prsentation-twitter-27-05-2014-final-slide-share-141126140638-conversion-ga...
 

More from ForumTelmi

fresque du forum TELMI 2013
fresque du forum TELMI 2013fresque du forum TELMI 2013
fresque du forum TELMI 2013ForumTelmi
 
La création d'outils visuels pour la transmission de contenus juridiques
La création d'outils visuels pour la transmission de contenus juridiquesLa création d'outils visuels pour la transmission de contenus juridiques
La création d'outils visuels pour la transmission de contenus juridiquesForumTelmi
 
BBC cube: une méthode visuelle d'aide à la décision
BBC cube: une méthode visuelle d'aide à la décisionBBC cube: une méthode visuelle d'aide à la décision
BBC cube: une méthode visuelle d'aide à la décisionForumTelmi
 
La cartographie dans le processus de veille: rôle, place, fonctionnement
La cartographie dans le processus de veille: rôle, place, fonctionnementLa cartographie dans le processus de veille: rôle, place, fonctionnement
La cartographie dans le processus de veille: rôle, place, fonctionnementForumTelmi
 
La cartographie de l’information: une nouvelle vision de la concurrence et du...
La cartographie de l’information: une nouvelle vision de la concurrence et du...La cartographie de l’information: une nouvelle vision de la concurrence et du...
La cartographie de l’information: une nouvelle vision de la concurrence et du...ForumTelmi
 
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...ForumTelmi
 
Visualisation d'Information et pratiques collaboratives
Visualisation d'Information et pratiques collaborativesVisualisation d'Information et pratiques collaboratives
Visualisation d'Information et pratiques collaborativesForumTelmi
 
Approches et méthodes en visualisation de l'information: la cartographie du Web
Approches et méthodes en visualisation de l'information: la cartographie du WebApproches et méthodes en visualisation de l'information: la cartographie du Web
Approches et méthodes en visualisation de l'information: la cartographie du WebForumTelmi
 

More from ForumTelmi (8)

fresque du forum TELMI 2013
fresque du forum TELMI 2013fresque du forum TELMI 2013
fresque du forum TELMI 2013
 
La création d'outils visuels pour la transmission de contenus juridiques
La création d'outils visuels pour la transmission de contenus juridiquesLa création d'outils visuels pour la transmission de contenus juridiques
La création d'outils visuels pour la transmission de contenus juridiques
 
BBC cube: une méthode visuelle d'aide à la décision
BBC cube: une méthode visuelle d'aide à la décisionBBC cube: une méthode visuelle d'aide à la décision
BBC cube: une méthode visuelle d'aide à la décision
 
La cartographie dans le processus de veille: rôle, place, fonctionnement
La cartographie dans le processus de veille: rôle, place, fonctionnementLa cartographie dans le processus de veille: rôle, place, fonctionnement
La cartographie dans le processus de veille: rôle, place, fonctionnement
 
La cartographie de l’information: une nouvelle vision de la concurrence et du...
La cartographie de l’information: une nouvelle vision de la concurrence et du...La cartographie de l’information: une nouvelle vision de la concurrence et du...
La cartographie de l’information: une nouvelle vision de la concurrence et du...
 
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...
Orbit IP Business Intelligence: analyse cartographique brevets appliquée à la...
 
Visualisation d'Information et pratiques collaboratives
Visualisation d'Information et pratiques collaborativesVisualisation d'Information et pratiques collaboratives
Visualisation d'Information et pratiques collaboratives
 
Approches et méthodes en visualisation de l'information: la cartographie du Web
Approches et méthodes en visualisation de l'information: la cartographie du WebApproches et méthodes en visualisation de l'information: la cartographie du Web
Approches et méthodes en visualisation de l'information: la cartographie du Web
 

Twitter: extraction, regroupement et visualisation pour la veille stratégique

  • 1. Twitter : extraction, regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D
  • 2. Plan de la présentation Introduction Présentation du réseau social Twitter Exemple de visualisations de tweets Expérimentation sur un corpus de tweets parlant d’EDF Conclusion et perspectives
  • 3. Introduction Contexte de veille Concurrentielle et stratégique sur l’Entreprise Recherche permanente de l’amélioration de la qualité de la relation avec les clients Que dit-on d’EDF dans la presse, sur Internet, blogs, forum, réseaux sociaux…? Twitter occupe une place intéressante réseau social très populaire en France dont le nombre d’utilisateurs a connu une augmentation récente très importante format de message court qui oblige les rédacteurs à adopter un style très synthétique tout en leur permettant d’inclure des liens vers les sources d’origine particulièrement bien adapté à la diffusion et à la propagation d’information Twitter offre un accès, relativement facile, à ses contenus Twitter constitue un support idéal pour contribuer à la veille qu’EDF réalise de manière continue Mais pour être efficace, cette veille doit être outillée afin de faciliter le travail du veilleur C’est cette phase d’outillage que nous décrivons dans la suite de cette présentation… … qui présente un ensemble de méthodes et outils qui vont nous aider à analyser « ce qui se dit sur EDF »
  • 4. Le réseau social Twitter Twitter : site de micro-blogging Créé en mars 2006 par Jack Dorsey « To tweet » signifie gazouiller, pépier 1 tweet = 1 message d’au plus 140 caractères, exemple : RT @MoreNicolas: Le compteur #Linky , son fonctionnement et ses avantages expliqués! http://goo.gl/T7VEe Les tweets sont publics: on peut voir les tweets d’une personne (éventuellement la suivre, @compte) contenant un mot clé, un hashtag (ex: #EDF) etc. peuvent être « re-tweetés (RT ….) Twitter et droit d’auteur A qui appartiennent les tweets ? Retweet : droit de courte citation s’applique ? Texte court ne peut pas être protégé mais slogans publicitaires le sont Licence TweetCC http://scinfolex.wordpress.com/2009/06/27/twitter-et-le-droit-dauteur-des-relations-complexes/ http://fr.wikipedia.org/wiki/Twitter
  • 5. Le réseau social Twitter Evolution du nombre d’utilisateurs USA (1), Brésil (2), Japon (3), …, Argentine (17), France (18), Allemagne (19), etc. Enquête de Semiocast : 500 millions de comptes. Nombre très important de création de comptes au premier semestre 2012 : 30 millions aux États-Unis. Les USA, pays n°1 dans le monde sur Twitter, représentent ainsi 27,4 % des comptes Twitter du globe, et 25,8 % des messages publics. http://semiocast.com/publications/2012_07_30_Twitter_reaches_half_a_billion_accounts_140m_in_the_US Paris 7ème ville
  • 6. Le réseau social Twitter Qui est sur Twitter ? Un peu tout le monde ! EDF, Henri Proglio, des centrales nucléaires RTE, ERDF… Gaz de France, GrDF Banques (CA, S. Générale…) La Poste Opérateurs télécoms (Orange, SFR…) Grands journaux … et bien d’autres
  • 7. Compte Le réseau social Twitter Abonnés Interface Nombre de tweets Abonnements Texte du tweet Liste des tweets reçus
  • 8. Le réseau social Twitter Typologie de Tweets Texte libre Réaction à des sites Web 06/05/2012 Réaction à des émissions de Télé (http://www.tvtweet.fr)
  • 9. Le réseau social Twitter : attention à la contrefaçon ! Comment acheter des « followers » sur Twitter ? C’est la question que se sont posée deux journaux : 27 000 followers pour 202 dollars d’un côté et 50 000 followers pour 33 € de l’autre ! En fait l’offre est pléthorique et planétaire, elle va de 0,15 c€ par follower pour des offres « bas de gamme », jusqu’à 0,2 € par followers pour des offres ayant pignon sur rue avec garantie de « vrais utilisateurs » comme ce que propose la société Boostic. La RATP, l’humour et twitter Le 05/09/2012, la RATP a ouvert un compte Twitter pour quatre de ses lignes : @ligne1_RATP, @Ligne4_RATP, @Ligne12_RATP et @Ligne13_RATP. L'objectif consistait à tester ce canal d'information en temps réel pour l'étendre ensuite à l'ensemble des lignes en fonction de l’intérêt du public. Le lendemain, des internautes se sont amusés à subtiliser l’identité du service en créant des comptes aux noms de la plupart des lignes de la RATP (puisque le service n’avait pour l’instant été créé que pour 4 lignes): Ligne14_RATP : « Attention, ce métro ne prend plus de voyageurs ! (Je dois être léger pour la course avec @Ligne7_RATP) » Ligne7_RATP : « Je passe et repasse par Maison Blanche. Je n’ai toujours pas vu le président Obama. » Ligne7_RATP : « J’ai entamé les démarches pour que le Pont Neuf soit renommé le Pont Sept. » La RATP a ensuite réagi et récupéré la propriété des « faux » comptes. Puis elle a créé un site rassemblant les tweets les plus savoureux !
  • 10. Visualisation des tweets Outil, fortement interactif, Travaux existants : VoxCivitas (1/6) d’analyse visuelle permettant de naviguer au sein d’une base de données composées de vidéos et de tweets relatifs à ces vidéos. L’application permet de visualiser les tweets au fur à mesure de la lecture de la vidéo, ou encore de naviguer dans ces tweets et de se positionner sur la vidéo au moment de l’émission du tweet. Cette application s’appuie sur les discours de B. Obama pendant la campagne électorale américaine.
  • 11. Visualisation des tweets Travaux existants : Nokia Internet Pulse (2/6) Cet outil balaie automatiquement le site de micro-bloging en fonction de mots clés particuliers, puis classe, en deux catégories, les messages relevés, ceux faisant acte de sentiments positifs, et ceux qui véhiculent plutôt un message négatif. L'ensemble des données est organisé sur une plate- forme en ligne, qui met en avant un nuage de mots- clés correspondant aux commentaires des internautes
  • 12. Visualisation des tweets Travaux existants : TweetTopicExplorer (3/6) Cet outil commence par récupérer les tweets d’un compte donné et les assemble en un nuage de bulles créées à partir des mots les plus fréquents des tweets émis par ce compte.
  • 13. Visualisation des tweets Travaux existants : twitInfo (4/6) Permet d’explorer un événement, comme un discours ou une rencontre sportive, en détectant et labellisant automatiquement des pics dans le flux d’arrivée des tweets, et en proposant une interface regroupant géolocalisation, sentiments, liens populaires et tweets significatifs
  • 14. Visualisation des tweets Travaux existants : twitt3D (5/6) Récupère les tweets d’un compte donné et les affiche avec la photo de leur auteur, le tout en trois dimensions. Permet une navigation 3D dans l’ensemble de ces tweets.
  • 15. Visualisation des tweets Travaux existants : « twitter tongue »(6/6) Récupère les tweets d’une ville (New-York et Londres) à l’aide de la localisation, détecte la langue du tweet et l’affiche sur une carte. Permet de situer sur une carte les nationalités des personnes. http://infosthetics.com/archives/2013/02/new_york_london_mapped_according_to_the_languages_that_are_tweeted.html
  • 16. Visualisation des tweets Travaux réalisés (1/3) Inspirés de « StoryFlow » et « StreamGraph », notamment fait pour représenter l’évolution des entrées des films au cours du temps. Analogie entre tweets et films : apparition puis décroissance plus ou moins rapide. Avantage : mettent en évidence les thèmes ou films ayant réalisés beaucoup d’entrées et ceux restés longtemps présents au box-office. StoryFlow
  • 17. Visualisation des tweets Travaux réalisés (2/3) Pour chaque période (ici le jour), calcul de la liste des thèmes (terme générique pour désigner un cluster, une méta-donnée, etc.) et leur occurrence ; Classement des thèmes par ordre décroissant Affichage de chaque thème proportionnellement à son occurrence, en plaçant le plus important en haut de l’écran ; Si le thème a déjà été rencontré par le passé, on lui attribue la même couleur que précédemment, si le thème n’a pas encore été rencontré on lui attribue une nouvelle couleur. Si le thème ne se trouve pas dans la période concernée (comme A en période J sur la figure 5), on regarde si on va le retrouver ultérieurement. Si c’est le cas, alors on lui attribue la taille la plus petite qui soit et on le fait passer sous l’axe des ordonnées, ce qui permet de maintenir une continuité visuelle. Cette particularité n’existe pas dans l’algorithme d’origine. Ensuite on relie les thèmes entre deux périodes successives via des courbes de Béziers afin de produire un rendu « lissé ».
  • 18. Visualisation des tweets Travaux réalisés (3/3) En jouant sur la largeur des barres et sur leur espacement, on fait apparaître des phénomènes différents. Ainsi, sur la figure : à gauche, un faible espacement inter-barre met d’avantage en évidence les thèmes et leur score pour une période donnée ; à droite, un espacement inter-barre plus important et une taille de barre plus petite mettent d’avantage en évidence les évolutions d’un thème au cours du temps.
  • 19. Expérimentation sur corpus de tweets parlant d’EDF Collecte d’un corpus EDF Collecte des tweets grâce à l’API Twitter (recherche par mot clé) Twitter permet uniquement de rechercher les tweets récents (3 à 6 jours), d’où un processus de collecte permanent Pour les tweets, permet de récupérer : identifiant, auteur, texte, date et heure Pour les auteurs : identifiant, followers, image Collecte des tweets contenant « EDF » publiés entre le 3 mars 2011 et le 25 juin 2011 23 574 tweets Elimination de tweets parlant de sport (EDF = « Equipe de France » !) en utilisant une liste de mots liés au sport (« entraineur », « match », « football », «Deschamp» etc.) 8 567 tweets
  • 20. Expérimentation sur corpus de tweets parlant d’EDF : regroupement des tweets quasiment identiques Objectif : Regrouper les tweets ayant des contenus très similaires Similarité des textes des tweets Utilisation de l’ensemble de mots d’un tweet = tous les mots du tweet sauf: noms précédés par «@» URLs le mot final, s’il est suivi par « … » et il n’y a pas d’espace entre le mot et « … » (mot tronqué) mots « blancs » (« y », « en », « à », « et » et les articles définis et indéfinis). Pour deux tweets A et B, utilisation de la distance de Jaccard améliorée Où nA = le nb. de mots dans l’ensemble du tweet A nAB = le nb. de mots communs aux deux ensembles Remarque: dist(A,B) = 0 si les ensembles des mots sont identiques (à l’ordre des mots près) et dist(A,B) = 1 si les deux ensembles n’ont aucun mot en commun
  • 21. Expérimentation sur corpus de tweets parlant d’EDF : regroupement des tweets quasiment identiques Méthode de clustering Contraintes du clustering La distance de Jaccard améliorée entre deux tweets d’un même cluster est au plus d L’écart de temps maximal entre deux tweets consécutifs d’un même cluster est au plus t Clustering hiérarchique qui tire profit de la contrainte temporelle il n’est pas nécessaire d’évaluer à chaque étape les distances entre tous les clusters, mais seulement les distances entre chaque cluster et ceux des quelques jours précédents Gain de temps Etapes 1- chaque tweet est attribué à un cluster (qui ne contient que lui) et à un jour (son jour de publication) ; 2 - on fait un clustering hiérarchique des tweets d’un même jour 3 - on répète jusqu’à ce qu’on ne puisse plus fusionner des clusters : pour chaque jour j, on calcule la distance entre les clusters du jour j et ceux des jours précédents (j-1 jusqu’à j-t) on choisit le couple de clusters pour lequel la distance est minimale (et inférieure à d) et on fusionne les deux clusters
  • 22. Expérimentation sur corpus de tweets parlant d’EDF Corpus EDF, les Hashtags Hasthtags fréquents (par thématique): nucléaire : #nucleaire (384), #areva (165), #fukushima(208), #tepco (41) ; nouveau compteur déployé dans la région lyonnaise : #erdf (64), #linky (63), #lyon (22) ; écologie : #eelv (58), #hulot (53), #renouvelable (23) ; énergie en général : #energie (50), #production (36) ; emploi : #emploi (38). Résultat du clustering Seuil distance d Seuil temps t nb. clusters 0,50 1 jour 4618 0,55 1 jour 4494 0,60 1 jour 4310 0,65 1 jour 3197 0,55 2 jours 4553 0,55 2 jours 4419 0,60 2 jours 4214 0,50 3 jours 4 494 0,55 3 jours 4 349 0,60 3 jours 4114 Nous utilisons les 4114 clusters obtenus pour d=0,6 et t=3 jours 2853 clusters contiennent un seul tweet le plus grand cluster comprend 155 tweets
  • 23. Expérimentation sur corpus de tweets parlant d’EDF Exemple de regroupement @alexbongibault : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » - http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @vodka083 : RT @lemondefr : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma- facture-edf-de-40_1503641_3244.html @chikkitita : Adoptons tous une éolienne RT @lemondefr [TEMOIGNAGES] « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html @homeenergyperf : « Avec une petite éolienne, j'ai baissé ma facture EDF de 40% » Invités à faire part de leur expérience en matière... http://www.lemonde.fr/planete/article/2011/04/06/avec-une-petite-eolienne-j-ai-baisse-ma-facture-edf- de-40_1503641_3244.html
  • 24. Expérimentation sur corpus de tweets parlant d’EDF Autre exemple de regroupement @Francetweets : Chantage politique sur les tarifs d’EDF: Il fallait oser! @Supdeco : Chantage politique sur les tarifs d’EDF @liberation_fr : Chantage politique sur les tarifs d’EDF @Dgcourriel : RT @liberation_fr: Chantage politique sur les tarifs d’EDF
  • 25. Expérimentation sur corpus de tweets parlant d’EDF Visualisation des clusters Cette visualisation permet de voir rapidement : Les périodes qui ont connu beaucoup de tweets ; Les clusters importants en volume caractérisés par des barres de couleur en haut de la courbe Les clusters récurrents, dont la durée de vie peut-être plus ou moins longue et s’étalent sur plusieurs jours, contrairement à ceux qui ont une faible durée de vie.
  • 26. Expérimentation sur corpus de tweets parlant d’EDF Visualisation des hashtags Cette visualisation permet de voir rapidement la distribution des hashtags dans le corpus
  • 27. Expérimentation sur corpus de tweets parlant d’EDF Un outil permettant de naviguer dans les tweets Recherche par mot clé, date, semaine, mois, RT Visualisation sous la forme de courbe Nuage de mots clé
  • 28. Conclusion et perspectives Chaine de traitement s’appuyant sur Twitter À l’état de prototype Récupération des données, filtrage, regroupement et visualisation Plusieurs pistes d’améliorations envisagées : la phase dite de regroupement, qui consiste à regrouper des contenus très proches produit une liste de « clusters » trop grande. Il faudra sans doute opérer un deuxième niveau de « clustering » pour obtenir des groupes de « clusters », ces groupes étant plus thématiques que les premiers ; un module de détection de sentiments et d’opinions pourrait être intégré dans la chaine de traitements. Il permettrait de rechercher ou visualiser les « clusters » positifs ou négatifs. Pour cela nous nous appuierons sur des outils du commerce. Evaluation d’un point de vue métier Ce travail devra être testé d’un point de vue métier, c'est-à-dire par ou avec les personnes concernées par la veille, ceci afin de voir dans quelle mesure un tel outil peut être intéressant et complémentaire avec les outils et pratiques existants. Cette confrontation permettra aussi de faire évoluer la chaine de traitements décrite dans cet article.
  • 29. Twitter : extraction, regroupement et visualisation pour la veille stratégique Alina STOICA, Philippe SUIGNARD, Lambert PEPIN EDF R&D Merci V.S.S.T.'2012 : 24 - 25 mai, Ajaccio