Livre Blanc Big Data : fin ou renouveau du Marketing ?

2,228 views

Published on

Published in: Marketing
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,228
On SlideShare
0
From Embeds
0
Number of Embeds
110
Actions
Shares
0
Downloads
117
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Livre Blanc Big Data : fin ou renouveau du Marketing ?

  1. 1. BBiigg DDaattaa :: ffiinn oouu rreennoouuvveeaauu dduu mmaarrkkeettiinngg
  2. 2. Adetem / Aproged 1 Sommaire INTRODUCTION 2 I BIG DATA : CES DONNEES CHANGENT-ELLES LA DONNE ? 5 - Du web 1.0 au web 3.0, l’écueil d’une vision auto-centrée 6 - Intégrer le client dans les projets Big Data 10 II COMMENT MESURER LA FIABILITE DES SOURCES ? 11 - On résume souvent le Big Data par les « 4V » 12 - La gouvernance comme moteur de la valeur et de la qualité des données 13 - Une matière première à identifier et surtout à développer 14 - Créer de la donnée dans son organisation 14 - Se fournir auprès des entreprises spécialisées 14 - La donnée en tant que produit économique 15 III BIG DATA ET SENTIMENT ANALYSIS : QUELS USAGES POUR QUELLES PROBLEMATIQUES ? 16 - Big data et sentiment analysis 17 - Veut-on une analyse globale ou détaillée du message ? 19 - Le champ de l'étude est-il mono-source ou multi-sources ? 20 - Le champ de l'étude couvre t-il des entités homogènes ou non ? 21 - Vise-t-on un système entièrement automatique ou seulement une assistance ? 21 - Quelles technologies pour quels cas d'usage ? 22 - Les cas favorables, et ceux qui sont problématiques 22 IV BIG DATA ET TEMPS REEL : DES TECHNOLOGIES A ADAPTER ? 23 - Des données temps réel complexes 24 - Des problématiques temps réel 25 - Des technologies traditionnelles inadaptées 26 - Une approche technologique pour le temps réel 26 - Illustration : améliorer la Relation Client en temps réel 27 V COMMENT UTILISER LES CAPACITÉS DU BIG DATA ET L’APPROCHE ANALYTIQUE POUR CONTRIBUER À TRANSFORMER LE MARKETING ? 30 - Utiliser les capacités du Big Data et l’approche analytique pour contribuer à transformer le marketing 31 - Se préparer aux challenges du Big Data 32 - Adresser les impératifs clefs du marketing 33 - Redéfinir les fonctions marketing traditionnelles 34 - Améliorer l’efficacité du marketing avec l’analyse prédictive et prescriptive des comportements 35 - Améliorer la valeur délivrée au client à chaque interaction avec une pertinence temps réel 36 - Comment débuter la transformation 37 VI LE BIG DATA : « LA TENTATION DE LA CLANDESTINITE ? » 38 - Le Big Data : « La tentation de la clandestinité ? » 39 VII LE BIG DATA, NERF DE LA GUERRE DES GRANDES PLATEFORMES SOCIALES ? 42 - Le Big Data, nerf de la guerre des grandes plateformes sociales ? 43 - Qu’entend-on par « Big Data »? 44 - Les médias sociaux, acteurs originels du Big Data 44 - Tout réside dans l’exécution 45 - Le Big Data à la base des revenus des médias sociaux 46 - Du Big Data à la Big Intelligence ? 48 VIII LE BIG DATA PEUT-IL RENDRE VOS CLIENTS PLUS FIDÈLES ? 49 - Retour aux sources du « Big Data » 50 - Des outils et des hommes … 51 - Avant d’être « Big Data » votre base doit être « Quality Data » ! 52 - Alors comment approcher votre projet Big Data? 53 - Alors rêvons un peu ! 53 IX MARKETING, LOCALISATION ET BIG DATA : GÉOMARKETING OU BIG BROTHER ? 54 - Marketing, localisation et Big Data : géomarketing ou Big Brother ? 55 - Historique : les trois temps du géomarketing 56 - Trois bonnes pratiques pour le géomarketing à l’ère du Big Data 58 TRIBUNE DE PASCAL BUFFARD - CIGREF 60 - Big Data : entre opportunité et menace pour les entreprises 61 - Créer de l’information à forte valeur ajoutée 62 CONCLUSION 64
  3. 3. Adetem / Aproged 2 INTRODUCTION
  4. 4. Adetem / Aproged 3 Tel un coup de semonce, le mot Big Data retentit dans le ciel des entreprises. Eldorado pour certains, fardeau pour d'autres, les réalités sont aussi variables que les conditions dans lesquelles le Big Data est considéré. Selon une étude de Gartner, le Directeur marketing passera en 2017 plus de temps à traiter des questions d’informatisation que … le Directeur des systèmes d’information. Peu importe que cette prévision soit vraiment étayée ou non, elle montre en tout cas les profondes transformations que le Big Data va provoquer dans le monde du marketing. Un nouveau livre blanc, en collaboration entre l’Aproged et l’Adetem, dans la lignée du précédent sur la e-Réputation en B2B, propose la réflexion de nos deux associations sur ces sujets. A travers son titre volontairement provocateur et polémique, c’est la réalité de ces changements qui sont abordés : d’une logique verticale, l’entreprise poussant ses messages vers les consommateurs, on passe à une logique horizontale, l’entreprise observant les messages que les consommateurs échangent entre eux, pour en tirer analyses et décisions d’action, intervenant elle-même, le cas échéant, dans ces conversations. Au fil des contributions, les auteurs de ce livre blanc vous livrent leur propre vision fondée sur une pratique déjà éprouvée. Éprouvée car ce phénomène n'est pas une nouveauté. Les données existent depuis longtemps. C'est l'accélération de leur production et le phénomène d'accumulation récent qui leurs donnent cette importance récente, sans compter la médiatisation assurée par les vendeurs de solutions et a presse. Les raisons de cette production accélérée sont nombreuses : le cloud computing, les progrès des technologies informatiques du stockage, de la recherche et de l'analyse des grands volumes de données, les échanges et recommandations sur les réseaux sociaux, les objets connectés et l'intérêt d’en savoir toujours plus sur ses clients. Seulement voilà, la proportion moyenne des données potentiellement utiles mais effectivement exploitées dans nos entreprises ne dépasse pas les 1%. (étude IDC Digital Universe, EMC, Décembre 2012) Derrière cette « massification » se cache donc un process subtil, interne à l'entreprise qui l'amène à s'interroger et à revisiter au besoin son organisation. Telle l'eau qui nous alimente, la donnée est vitale pour l'entreprise, en devenant un facteur clé dans son processus de décision et par conséquence de production. Ce fameux 1% n'est peut-être pas le signe d'un manque d'expertise pour déceler la bonne information mais plutôt l’acuité à faire remonter, synthétiser et analyser le 1% de données le plus pertinent et exploitable d’un point de vue stratégique. La maitrise du Big Data suppose la combinaison de plusieurs facteurs : des outils technologiques, sans quoi rien n'est possible, mais aussi et peut-être surtout, une question de travail et d’organisation. La donnée prenant de plus en plus de valeur, elle devient un facteur plus que stratégique dans le développement d’une entreprise. Au travers de leur contribution, nos auteurs nous apprennent que l’enjeu du Big Data se relève collectivement. Non, ce n’est pas la fin du marketing. C’est le début d’une ère plus transversale dans les organisations, d’un décloisonnement impératif entre la finance, la production, le commercial et le marketing (…). C'est aussi le début d'un dialogue nouveau entre ces directions opérationnelles des entreprises et leurs directions informatiques.
  5. 5. Adetem / Aproged 4 C’est enfin un intérêt nouveau à porter à son client dans le cadre d’une relation respectueuse de sa vie privée et de ses intérêts, en évitant de l'espionner à son insu, mais plutôt en l'écoutant en favorisant un dialogue d'un genre nouveau. Le Big Data, ce n'est pas la fin du marketing, mais c'est certainement l’opportunité d’un marketing en profonde évolution. Bernard Normier Jean Marc Goachet Vice-Président de l'APROGED Co-Président du Club marketing 2.0 Adetem et membre du CA "Valorisation des contenus"
  6. 6. Adetem / Aproged 5 I BIG DATA : CES DONNEES CHANGENT-ELLES LA DONNE ? Internet des objets, recherche sémantique, personnalisation… les limites techniques disparaissent peu à peu au profit de services qui relevaient, il y encore peu, de la science-fiction. Dans ce web du futur, l’internaute ne cherche plus l’information, elle vient à lui grâce à des procédés de plus en plus prédictifs et fondés pour une part sur les technologies Big Data. Fascinées par les possibilités en matière de ciblage comportemental qu’offrent ces nouvelles technologies, les entreprises rêvent à de nouveaux moyens de conquête et d’influence de masse. Au risque d’en oublier l’essentiel en perdant de vue … le client lui-même. DU WEB 1.0 AU WEB 3.0, L’ÉCUEIL D’UNE VISION AUTO- CENTRÉE 7 INTEGRER LE CLIENT DANS LES PROJETS BIG DATA 10
  7. 7. Adetem / Aproged 6 Du web 1.0 au web 3.0, l’écueil d’une vision auto-centrée Caroline FAILLET, co-dirigeante de Bolero Web Intelligence Même récente, l’histoire du web illustre hélas une certaine constance des entreprises à oublier la vision client. De manière caricaturale à des fins pédagogiques, commençons par résumer le web en trois phases : Le Web 1, celui des sites et des moteurs de recherche Le Web 2, celui des outils d’expression et de mise en relation Le Web 3, celui des données. Ainsi à l’ère 1.0, durant les années 2000, les entreprises concevaient-elles, ce que l’on a appelé péjorativement par la suite, des sites « vitrine », c’est-à-dire l’équivalent de plaquettes en ligne non orientées utilisateurs. De même, à l’égard des moteurs de recherche, il est saisissant de se remémorer que ces mêmes entreprises mesuraient (et mesurent encore souvent) alors leurs performances sur des mots clés qu’elles-mêmes choisissaient au lieu de mesurer leurs positions sur des requêtes réellement saisies par les internautes – clients potentiels. Faut-il voir dans ces paradoxes l’expression d’un quelconque amateurisme du débutant ? Cela n’est pas si sûr car l’histoire a tendance à se répéter… En effet, avec l’avènement des média et réseaux sociaux – l’ère 2.0 du web, nombre d’entreprises ont exploité ces espaces de dialogue comme des nouveaux canaux de communication, telles des colonisateurs envahissant des terres inconnues, ignorants de leurs lois et de leurs rituels, si avides qu’ils étaient de convertir des indigènes. Ces entreprises ont alors ouvert des blogs, des pages Facebook, des comptes Twitter vantant les mérites de leurs actions et de leurs produits, tout en attaquant en justice les internautes qui détournaient leur nom ou leur logo. Depuis l’époque du web 1.0, leur acculturation à ces nouveaux espaces et communautés n’a que peu évolué puisque beaucoup mesurent aujourd’hui encore leur performance dans le web social à l’aune de leur capacité à fédérer des internautes autour de leur nom (followers, fans et autre Klout scoring). Le risque de cette vision autocentrée, plus de 15 ans après l’émergence du web Grand Public, est de passer une troisième fois à côté de l’internaute. Avec les moteurs de recherche puis avec le web social, l’internaute a en effet enrichi son parcours en ligne de multiples formes de réponses qui couvrent de mieux en mieux son besoin. Et pendant ce temps, l’entreprise à la vision auto-centrée met toute ses ressources à créer des parcours artificiels vers son écosystème web, faute d’avoir pu se mettre au diapason du comportement de ses cibles. Au regard de ce bref historique, arguons que toutes les leçons sur le manque de connaissance client ne vont pas être tirées pour le niveau 3.0 du web…
  8. 8. Adetem / Aproged 7 Sans vouloir jouer les prophètes pour certains ou les oiseaux de mauvaise augure pour d’autres, relevons trois erreurs susceptibles de faire passer, une nouvelle fois, l’entreprise à côté de son client. Erreur n°1 : des volumes de données insuffisants pour en tirer des enseignements sur le client Qu’implique ce web 3.0 ? En préambule, il faut être conscient qu’incrémenter des versions du web n’est qu’une approche simpliste pour matérialiser des ruptures technologiques et marketing dans l’évolution du web. Sur ce point, d’aucuns s’accordent sur le fait que le web 3.0, est d’abord le passage d’un web de documents à un web de données. Ce ne sont plus seulement les pages web qui peuvent être liées entre elles mais les données stockées. Il est aujourd’hui techniquement possible d’imaginer un site Internet dont le contenu s’actualiserait automatiquement en fonction de ce que l’internaute a acheté précédemment, des requêtes Google du moment, de l’importance des « like » sur un contenu de la page Facebook associée ou encore du nombre de partages d’un tweet de l’entreprise. Au-delà de la prouesse technique, la complexité d’un tel site repose sur l’édiction de règles qui consistent à associer un contenu pertinent à une action donnée ou à une succession d’actions de l’internaute. C’est précisément l’objet du marketing prédictif qui vient construire des modèles permettant d’anticiper des comportements futurs de prospects ou de clients en fonction de leurs actions passées. L’avènement du web social où l’individu est incité à évaluer, commenter, partager, aimer, se localiser, recommander – de manière générale à interagir avec un contenu – offre une matière en or aux chercheurs du comportement, au travers de milliards de nouvelles données comportementales. Grâce aux technologies Big Data, qui permettent de collecter et de traiter ces données en temps réel, il serait logique de déduire que l’analyse prédictive a de beaux jours devant elle. C’est pourtant davantage un sujet pour les fournisseurs de solutions qu’un projet d’envergure pour les dirigeants des entreprises françaises. En effet, si 44 % des décideurs interrogés placent l’exploitation et l’utilisation des données dans les trois premiers enjeux liés à la gestion de leurs informations décisionnelles, seulement 14% des managers, d’après la même étude1 , positionnent le Big Data dans les trois premiers enjeux de la gestion de l’information. Ainsi, ces derniers préfèrent-ils capitaliser sur les données internes à l’entreprise avant de collecter des données en masse des réseaux sociaux. Signe de sagesse des managers, qui ne succombent pas aux sirènes des éditeurs de la « nouvelle vague » Big Data ? Oui et non… Oui, si c’est pour faire l’inventaire des données internes avant de s’ouvrir au mirifique potentiel de l’externe. Non, si c’est pour passer d’un projet Big Data à un projet « Small Data » qui annihile de fait toute velléité d’analyse prédictive puisque, en général, l’on ne disposera pas de suffisamment de données pour modéliser des comportements. Une première erreur consiste donc à croire que l’on lance un projet Big Data là où l’on 1 Etude Markess International. De l’information à la prise de décision : nouveaux modes d’accès et d’analyses pour la performance du business (France, 2012-2014).
  9. 9. Adetem / Aproged 8 remanie de facto de simples data. Comme pour M. Jourdain, l’effet d’annonce ne ferait que souligner une indigente connaissance client. Erreur n°2 : des données centrées sur l’interne plus que sur le besoin client S’affranchir de données en provenance des media sociaux et se recentrer sur les données internes pose aussi la question de la pertinence de ces données pour le client. Issues du logiciel de relation clients et des bases de données produits, souvent partielles et fragmentées en silos, reflets des procédures maison ou des modes et normes de fabrication, ces données internes sont souvent stériles pour l’interprétation comportementale. Prenons l’exemple d’un fabricant d’isolants pour le bâtiment. Les données en base concernant ses produits comprennent par exemple : la norme NF, le DTU auquel ils se conforment, la conductivité thermique, l’élongation à la rupture ou encore la résistance à la vapeur d’eau. Des données essentiellement techniques et règlementaires. L’observation des discussions d’internautes dans les réseaux sociaux montre pourtant que les critères de décision en matière d’isolation pour leur habitat portent plutôt sur : le type de paroi (mur, sol, ..), le label que cet isolant permet d’obtenir (bâtiment basse consommation, maison à très haute qualité environnementale…) ou encore sur le profil de projet (construction, rénovation). Autant de données qui traduisent le besoin client et qui ne figurent pas dans les bases de cet industriel, l’empêchant d’envisager tout projet de ciblage élaboré comme le laissent entrevoir les solutions Big Data. A l’inverse, le distributeur de ces mêmes produits isolants, qui dispose d’un site Internet ouvert aux interactions sociales (avis, évaluations du produit, partages sur les réseaux sociaux…) aura, quant à lui, rajouté au sein de ses fiches produits, ces couches d’information nécessaires au choix du prospect : paroi, label, projet…. Le distributeur a donc complété les données communiquées par le fabricant d’isolants par des informations favorisant le choix du prospect et ce même distributeur s’assure par ailleurs d’une collecte en continu de nouvelles données comportementales qui viendront enrichir sa vision client. On voit là l’impérieuse nécessité pour les entreprises de ne pas rester centrées sur leurs données internes, trop peu orientées utilisateurs. Certaines expérimentent l’ouverture au travers de projets Open Data, terrains de métissage des données et où vision entreprise et vision utilisateur s’apprivoisent en douceur. Au contact des développeurs informatiques, les entreprises touchent du doigt le besoin client et révisent leurs convictions. SNCF Transilien a pu par exemple s’étonner, lors de son premier « Hackathon » (journée dédiée à l’ouverture des données Transilien pour imaginer les applications attendues des clients), que les projets plébiscités par les usagers étaient bien ancrés dans leur quotidien pratique. Des projets relativement éloignés des applications ludiques que SNCF Tansilien avaient pourtant conjecturé ! Malheureusement ces démarches d’« open innovation » restent encore souvent des initiatives isolées, qui ne sont guère généralisées, voire sont de simples opérations de communication, empêchant là encore la vision utilisateur d’infuser à l’échelle de l’entreprise toute entière.
  10. 10. Adetem / Aproged 9 Erreur n°3 : des données incompatibles avec la nécessité d’émerger sur le parcours digital Le web 3.0 c’est aussi, dans un futur proche, le web sémantique qui consacre l’apparition de techniques permettant d’interpréter et de donner du sens à ces données. La sémantique ne s’appuiera pas cette fois sur des algorithmes de ciblage mais sur des ontologies qui consistent à représenter la connaissance et à apprendre aux ordinateurs à travailler pour nous. Et le résultat est à rapprocher du marketing prédictif : de plus en plus, c’est la donnée qui vient à l’internaute plus qu’il ne la cherche. Du ciblage comportemental fondé sur les Big Data à l’avènement de la sémantique, nous pouvons supputer que le web 3.0 inaugure une ère d’un renouveau du parcours client à travers les données. Le flou règne encore sur la manière dont les entreprises vont s’approprier ces langages, le travail sur les ontologies étant fastidieux et dirigé encore par le monde académique. Il est toutefois certain que les acteurs majeurs du web vont accélérer la prise en compte de cette structuration des données. Ainsi, Google synthétise déjà l’information qu’il recueille de différents sites (encyclopédique, météo, bourse, hôtels…), compare les prix, donne des scores d’appréciation, le tout depuis sa page de résultats : or cette donnée est bien multi-sources, enrichie de la coopération des machines. Facebook, quant à lui, met en confiance avec « Facebook Connect », suggère, recommande selon le profil de l’internaute : la donnée est ciblée voire personnalisée, pour être au plus près du besoin de l’individu. Reprenons le cas de notre fabricant d’isolant et de son revendeur. Il est probable que le distributeur ne va pas se contenter d’afficher les données pertinentes sur son seul site web. Pour augmenter sa visibilité et sa captation de prospects, il va sans doute chercher à les faire émerger depuis la page de résultats de Google, grâce aux fonctions sémantiques qui proposent une synthèse des informations clés : les avis, le prix, la performance du produit, la facilité d’utilisation… Il en ressort que, marginalisé sur le parcours client, le fabricant d’isolant ne peut rester référent sur ses propres données et que, prisonnier du distributeur, il n’a plus d’emprise sur l’acte d’achat du prospect. Nous conclurons de ces trois natures d’erreurs qu’il ne suffit pas d’avoir des données, encore faut-il qu’elles soient d’une part en quantité suffisante, d’autre part pertinentes pour le client et enfin susceptibles d’émerger dans un web où la concurrence sémantique s’avère la plus dangereuse. Dans cette course aux armements subséquente à l’évolution naturelle du web, comment l’entreprise doit-elle évoluer ?
  11. 11. Adetem / Aproged 10 Intégrer le client dans les projets Big Data La démarche proposée ici est inspirée de la méthode Bolero Web Intelligence®. C’est en prenant comme point de départ l’effet recherché – les comportements que l’on veut susciter de la part du client –, à partir d’une situation donnée – le comportement actuel du client –, que le reste, des applications aux data en passant par les technologies, va logiquement découler. Le tout pouvant être résumé par la loi du PCD, les trois étapes clés : Parcours > Contenus > Data. Le parcours digital Le premier enjeu sera de comprendre comment les prospects vont choisir, acheter et parler des produits demain via le digital. Pour cela, il s’agit de ne pas raisonner outils, ni même usages génériques mais parcours digital, en s’ouvrant à la connaissance et à la compréhension des séquences de comportements en ligne des différents profils de clients. Le fait est que les chefs de projet « Big Data » dans l’entreprise sont rarement des experts des moteurs de recherche et des réseaux sociaux, et que cette méconnaissance sur la valorisation des données auprès du prospect/client risque de leur faire défaut, conduisant l’entreprise, comme à l’occasion du web 1.0 et du web 2.0, à aborder les Big Data de manière auto-centrée. Nous en connaissons maintenant l’issue : l’entreprise sera condamnée à laisser le champ libre à ses concurrents réels et sémantiques et à devoir occuper les espaces publicitaires pour exister et promouvoir des chemins artificiels vers son écosystème web. Contenus et services La connaissance de ce parcours digital va offrir à l’entreprise la possibilité d’imaginer les nouveaux points de contact avec ses cibles qui permettront à la marque non seulement d’émerger mais aussi de proposer au bon endroit, au bon moment, à la bonne cible, les contenus les plus pertinents, les services les plus innovants, les applications les plus fidélisantes. En outre, parce qu’elle reprend l’emprise sur le parcours d’achat, elle reste la source d’information référente sur ses propres données. La domination du distributeur sur le fabricant est loin d’être une fatalité sur Internet ! Data et technologies C’est une fois la stratégie de contenus et de services élaborée, qu’il devient pertinent de se pencher sur les données de l’entreprise pour vérifier qu’elles sont compatibles et suffisantes pour la mise en œuvre de cette stratégie. Il conviendra alors d’inventorier les données disponibles et si besoin d’accepter l’ouverture (open Data, open innovation, données du web social…). Enfin, l’entreprise pourra étudier l’opportunité d’utiliser des technologies (sémantiques, analyse prédictive…) qui vont faciliter la mise en valeur de ces données sur les parcours clients. De ce parcours digital renouvelé par les données résulte une information « augmentée » qui démultiplie pour l’utilisateur les occasions de se passer de la source d’information originale – l’entreprise. Cette dernière est de ce fait mise en danger sur l’exploitation de ses propres données. L’ère des Big Data et du web sémantique présente alors un nouvel enjeu d’adaptation pour les entreprises dont la clé repose, encore et toujours, sur la connaissance client et dont la menace réside, encore et toujours, sur une vision trop autocentrée. Des écueils facilement surmontables, tout est question de méthode et de bon sens !
  12. 12. Adetem / Aproged 11 II COMMENT MESURER LA FIABILITE DES SOURCES ? Le BigData, ou « volume massif de données », fait référence à l'explosion du volume des données dans l'entreprise depuis l’avènement du numérique et des nouveaux moyens technologiques mis en œuvre pour les exploiter. Surnommé le « nouveau pétrole » par le Forum économique mondial, le BigData peut améliorer la prise de décision, raccourcir les délais et augmenter les profits. Toutefois, il présente également un certain nombre de risques non négligeables, proportionnels au volume (quantitatif et qualitatif) de données traitées. Des risques qui peuvent aller de la fuite de données à la violation de la vie privée, en passant par des problèmes de conformité. LES « 4 V » 12 LA GOUVERNANCE COMME MOTEUR DE LA VALEUR ET DE LA QUALITE DES DONNEES 13 UNE MATIERE PREMIERE A IDENTIFIER ET SURTOUT A DEVELOPPER 14 CREER DE LA DONNEE DANS SON ORGANISATION 14 SE FOURNIR AUPRES DES ENTREPRISES SPECIALISEES 14 LA DONNEE EN TANT QUE PRODUIT ECONOMIQUE 15
  13. 13. Adetem / Aproged 12 On résume souvent le Big Data par les « 4V » Isabelle Saladin, Perceptive Software On résume souvent le BigData par les « 4 V » : - Le Volume : la masse de données numériques est passée de 480 milliards de gigaoctets en 2008 à 2800 milliards en 2012 et continue à croître de façon exponentielle, le volume de données produites chaque année dans le monde devrait être multiplié par 44 d’ici 2020, - La Variété : la part des données numériques non structurées stockées sur la Toile augmente significativement, texte, photo, vidéo…, - La Vélocité : le développement de nouveaux usages fondés sur l’immédiateté de l’information (micro-conversations, réseaux sociaux…) demande une nouvelle puissance du traitement des données, - La Valeur : la qualité des données gérées et traitées doit également être pointue, aussi bien en termes de pertinence que de fiabilité. Mais face à cette croissance de volume, de variété et de vélocité, les entreprises ont besoin d’une solution capable d’assurer la sécurité et la pérennité des données dans un environnement informatique complexe. En effet, si récolter des informations sur ces clients et partenaires est nécessaire, les stocker et les traiter correctement pour en extraire des informations stratégiques est indispensable. Et cette démarche doit être d’autant plus anticipée et prévue dans un contexte de BigData, où toutes les précautions à prendre autour des données sont accrues par le volume. Il faut une réelle réflexion en amont sur le contenu des bases de données pour éviter de croiser des informations non pertinentes et vouloir maitriser finement l’ensemble des données brutes, issues de sources diverses, qui par définition sont non structurées, de format divers, variables, …
  14. 14. Adetem / Aproged 13 La gouvernance comme moteur de la valeur et de la qualité des données Le BigData permet aux entreprises de consulter, de regrouper et d’analyser des quantités de données en constante augmentation (pages Web, habitudes de navigation, signaux de capteurs, emplacement géographique de Smartphones, informations génomiques, etc...). S’il représente une formidable occasion de faire de l’information le principal moteur de création de valeur, le BigData peut aussi être source de risques non négligeables pour l’entreprise si cette dernière ne l’encadre pas de politiques et de principes exhaustifs.À ce titre, un référentiel de gouvernance est nécessaire pour se faire des pratiques d’utilisation du BigData, un allié sûr, afin de créer de la valeur et conduire aux bonnes décisions Gouverner : Le premier challenge du BigData consiste à appliquer les méthodes de gouvernance aux données prioritaires pour le métier. Décrire l’information - Cette tâche permet d’analyser la structure d’une source, et de définir les modes d’exploitation de cette donnée en fonction de sa finalité (métier) ou de son potentiel, afin de l’utiliser à bon escient. Ce potentiel est complexe à appréhender, puisque souvent la valeur est révélée en couplant plusieurs types d’informations entre elles. Il est donc important d’évaluer ce potentiel au regard des autres sources à disposition. Organiser l’information (sujet, auteur, source, année, mots clés et concepts métiers associés…) Dans le contexte BigData, ce type de traitement est rendu complexe sur les sources externes, car souvent pauvres en méta données. Il faut donc en extraire le sens pour créer à la volée les métadonnées pertinentes. Définir la qualité et la fiabilité : Point clé des systèmes décisionnels et de la construction de référentiels, la qualité des sources BigData impacte directement l’exploitabilité de l’information et la lourdeur des traitements de « nettoyage » associés. La fiabilité pouvant s’avérer encore plus problématique, il est nécessaire d’évaluer le taux de fiabilité d’une information, afin d’optimiser son utilisation. Optimiser la sécurité : Il ne s’agit pas de traiter des problématiques de cryptage, anonymisation ou encore stabilité des systèmes, mais de l’aspect organisationnel du BigData. La valeur étant créée par le croisement de différentes sources ou silos informationnels, comment gérer le « pouvoir » des utilisateurs ayant accès à l’ensemble des informations de l’entreprise ? S’adapter au cadre réglementaire : Les réglementations autour de l’utilisation et de la conservation des données, sont nombreuses et en pleine évolution concernant les BigData. De nouvelles réglementations Européennes sont attendues en 2013. Pour faire face au risque juridique, il est utile de se doter d’outils et de fonctions permettant de tracer l’utilisation des données et leur finalité ainsi que de fonctions de « droit à l’oubli » Définir le cycle de vie : Etant donnée la volumétrie de données dans le BigData, on peut s’intéresser à des phénomènes court terme (Real Time Data), comme à des phénomènes sur plusieurs décennies (Long Data). Comme tout stocker indéfiniment serait trop lourd, il faut par conséquent mettre en œuvre une stratégie de réduction de la donnée, où seules les données ayant une valeur définie sont conservées.
  15. 15. Adetem / Aproged 14 Une matière première à identifier et surtout à développer Cette « matière première », constituée des données du « data déluge », échappe encore beaucoup aux organisations. En effet, les stratégies pour localiser ces volumes de données, les extraire et en produire de nouvelles n’ont pas encore été clairement identifiées. En d’autres termes, quelles sont les données utiles pour mon organisation ? Sont-elles disponibles à domicile ou dois-je me les procurer ? On a bien souvent tendance à souligner l’intérêt que représente l’utilisation de données déjà présentes dans les organisations : sociales, transactionnelles, mobilité, etc… Pourtant l’un des grands enjeux à l’étude actuellement concerne l’acquisition de nouvelles données, soit au sein de l’organisation, soit à l’extérieur de celle-ci. Créer de la donnée dans son organisation Produire de la donnée au sein de sa propre organisation revient ainsi à mettre en place des outils ciblés de suivi sur les activités et les leviers qui semblent fournir une information stratégique pour l’organisation : il n’est pas de BigData sans reporting organisé sur les indications que représentent les logs, les données textuelles issues du web, les données de géolocalisation… La prise de conscience tardive sur ces enjeux explique ainsi le relatif déséquilibre observé actuellement dans les BigData, encore souvent très homogènes, structurés et transactionnels. Leur qualification en « BigData » relève davantage d’un effet volume que de la réelle diversité des données. Il est donc primordial pour les organisations, qu’il s’agisse de PME ou de grands comptes, de se pencher sur la question des outils de tracking et de reporting pour exploiter plus systématiquement les données qualitatives issues de sources variées. Se fournir auprès des entreprises spécialisées Les entreprises peuvent également acquérir des données externes, déjà traitées et identifiées par des sociétés spécialisées qui organisent le relevé d’informations et s’assurent de la fiabilité des données. Qu’il s’agisse de grands data markets spécialisés de sites internet agrégeant des quantités volumineuses de données (comparateurs de prix, moteurs de recherche…) ou d‘acteurs de l’Open Data, ces fournisseurs sont de plus en plus sollicités, précisément parce que les données qu’ils transmettent sont déjà identifiées et proviennent de sphères de recherche particulièrement larges capables de remonter des informations généralistes pas forcément à portée de main de toute entreprise spécialisée. La question qui est posée alors est celle du prix accordé à chaque donnée BigData. Sur ce point, il est difficile d’avoir des informations précises et une grille de lecture normée, dans un marché, là encore, en pleine structuration.
  16. 16. Adetem / Aproged 15 La donnée en tant que produit économique Cette réflexion sur le prix accordé à chaque donnée conduit nécessairement à la question de la valeur de la donnée : quelle valeur économique la donnée initiale ou traitée recèle-t- elle formellement ? C’est tout l’enjeu entourant le produit fini, la donnée traitée et utilisable pour l’entreprise. Quelle utilité économique représente-t-elle pour l’entreprise et comment la quantifier ? Plusieurs pistes sont ouvertes, qu’on pourrait résumer sous ces quatre indicateurs de performance économique : une amélioration du chiffre d’affaires grâce au ciblage marketing une réduction des coûts grâce à une optimisation des plannings et une diminution des erreurs un développement vers des activités innovantes à forte valeur ajoutée - ou encore des gains de parts de marché liées à l’avantage concurrentiel d’être le premier détenteur de ces données stratégiques Le V de Valeur semble avoir dépassé les 3 autres V. D’une réflexion technologique, le BigData serait donc passé à une préoccupation économique, renforcée par le besoin d’optimisation des coûts.
  17. 17. Adetem / Aproged 16 III BIG DATA ET SENTIMENT ANALYSIS : QUELS USAGES POUR QUELLES PROBLEMATIQUES ? BIG DATA ET SENTIMENT ANALYSIS 17 VEUT-ON UNE ANALYSE GLOBALE OU DÉTAILLÉE DU MESSAGE ? 19 LE CHAMP DE L'ÉTUDE EST-IL MONO-SOURCE OU MULTI- SOURCES ? 19 LE CHAMP DE L'ÉTUDE COUVRE T-IL DES ENTITÉS HOMOGÈNES OU NON ? 21 VISE-T-ON UN SYSTÈME ENTIÈREMENT AUTOMATIQUE OU SEULEMENT UNE ASSISTANCE ? 21 QUELLES TECHNOLOGIES POUR QUELS CAS D'USAGE ? 22 LES CAS FAVORABLES, ET CEUX QUI SONT PROBLÉMATIQUES22
  18. 18. Adetem / Aproged 17 Big data et sentiment analysis Bernard Normier, consultant en text-mining et sentiment analysis Comme dans les systèmes d'information classiques, il y a deux sortes de big data, selon que les données sont structurées ou non. Les premières sont partout: toutes sortes de données numériques venant de capteurs de plus en plus nombreux et divers, ou de méta- données structurées associées des documents textuels, audio ou vidéo. Le traitement de ces données, s'il pose de sérieux problèmes techniques du fait de leur volume, à la fois en stock et en flux, et de leur hétérogénéité, ce pose cependant pas de problème conceptuel majeur au niveau de leur compréhension unitaire. Chaque donnée, prise individuellement, est claire et parfaitement compréhensible. C'est la possibilité d'une interprétation de la masse, de son évolution dans le temps, des tendances qu'on peut en dégager, qui constitue l'apport majeur des technologies du big data. Il en va autrement pour les données non structurées. La problématique est alors sensiblement plus délicate puisque se pose déjà la question de la compréhension de chaque donnée individuelle, avant même d'envisager une interprétation de la masse. L'interprétation de l'information textuelle, qu'elle le soit le soit "nativement" ou qu'elle résulte d'une transformation de parole en texte ("speech to text") est déjà un enjeu majeur. On ne parlera pas ici de l'interprétation de données non structurées complexes comme le repérage d'émotions dans des photos de visages, ou de la communication gestuelle dans une vidéo, ou encore de la prosodie dans un enregistrement audio, sujets sur lesquels des progrès technologiques constants sont réalisés et commencent à donner lieu à des applications opérationnelles. Restons donc sur l'interprétation des textes. Ils représentent la plus grande partie du "big data": tweets, blogs, réseaux sociaux, presse, etc... Leur recueil est devenu un métier en
  19. 19. Adetem / Aproged 18 soi: une société comme GNIP, par exemple, annonce récolter 3 milliards de messages par jour... en constante augmentation. La difficulté est donc d'abord d'identifier, parmi cette masse considérable de messages dont la grande majorité n'a aucun intérêt, quels sont ceux qui peuvent être intéressants pour telle ou telle étude ou entreprise, et ensuite d'en interpréter le contenu pour en tirer des analyses utiles d'un point de vue marketing, notamment pour apprécier la satisfaction et les attentes des clients. La première tâche est à peu près résolue avec les systèmes de veille, qui sont capables de recueillir les messages émanant de tous types de sources à partir de formules booléennes de mots clés, puis de les organiser par différentes méthodes de filtrage et de catégorisation. La deuxième tâche, visant à "interpréter" le contenu pose un problème nouveau. Les techniques classiques du "big data" ne peuvent pas s'appliquer puisque des textes ne sont pas des "data". Il faut d'abord extraire des données depuis le texte, en utilisant des technologies venant d'un autre domaine, celui de l' IE pour "Information Extraction". On définit souvent la tâche de l'IE comme l'opération consistant à remplir une base de données structurées à partir de textes: identifier des "entités nommées" (en gros des noms propres), des thématiques, des relations entre elles. Ces informations extraites peuvent être factuelles (Le plat du jour est à 12 euros) ou subjectives (Le plat du jour est trop cher). L'exploitation de ces données subjectives constitue une aubaine pour le marketing, et pour toute une série d'activités qui ont intérêt à surveiller l'évolution des opinions. Sans doute n'est-il pas très utile de faire de complexes systèmes d'interprétation des textes pour récupérer des données factuelles que l'on pourrait trouver déjà formatées ailleurs. Mais pour tout ce qui du domaine des avis, recommandations, émotions, rumeurs, une analyse des textes peut apporter énormément d'informations utiles. C'est le domaine de l' "opinion mining" ou "sentiment analysis", deux termes anglophones quasiment synonymes dans ce contexte. Le sujet est polémique. Il est difficile de se faire une opinion sur ce que peut apporter, en pratique, le "sentiment analysis" quand on regarde les nombreux articles, commentaires, posts, qui donnent des avis tranchés qui vont de "çà marche très bien" à "çà ne sert à rien" , en passant par "faut voir, çà peut être utile si un expert humain révise les analyses"... , en laissant d'une manière générale le sentiment que cela ne fonctionne pas suffisamment bien pour être utilisable. Il faut faire la part des choses, et bien différencier les cas d'utilisation. Il en est où cela sera très utile, d'autres où cela sera inutilisable. Malheureusement ces différents cas ne sont généralement pas différenciés dans la plupart des plateformes, ce qui conduit souvent à des résultats plus que fantaisistes qui discréditent la technologie, renforçant l'idée que "çà ne marche pas". Quel est l'objectif d'un système de sentiment analysis ? Collecter, repérer, analyser des opinions. Donc quelle définition formelle pour une opinion ? L'approche la plus souvent retenue est celle de Bing Liu, donnée dans son livre "Sentiment Analysis and Opinion Mining" (Morgan and Claypool 2012), qui définit une opinion comme un quintuplet formé de:
  20. 20. Adetem / Aproged 19 Une opinion est un quintuplet (ei, aij, sijkl, hk, tt) , dans lequel : e représente une « entité » a représente un « aspect » s représente un « sentiment » sur un aspect de l’entité h représente l’auteur de l’opinion (« holder ») t représente le moment (« time ») où est exprimée l’opinion. On utilise souvent d'autres mots en français pour désigner ces mêmes notions ("objet" pour "entité", "facette" ou "critère" pour "aspect" ), mais on peut garder ici la terminologie directement traduite de l'anglais. Par exemple, dans l’avis exprimé par Dupont le 9 octobre 2012 « l’ hôtel X est très décevant. Les chambres sont sombres et petites. Mais mes enfants ont trouvé que le petit déjeuner était bon », on identifie trois opinions distinctes : e=hôtel X, a=0, s=négatif : décevant, h = Dupont, t = 9 oct 12 e=hôtel X, a=chambre, s=négatif : petit, h=toto77, t = 9 oct 12 e=hôtel X, a= petit déjeuner, s=positif : bon, h= enfants de toto, t = 9 oct 12 Cette définition a le mérite d’être simple, même si on pourrait bien sûr complexifier le modèle dans plusieurs directions, mais tenons nous en là pour le moment. Ce cadre permet de distinguer déjà plusieurs cas de figure et plusieurs types d’analyse. Veut-on une analyse globale ou détaillée du message ? En fait, beaucoup de systèmes simplifient grandement le problème, et proposent une analyse globale, en affectant une tonalité à l’ensemble du message, sans chercher à identifier les entités, et encore moins leurs aspects. Si le message ne parle que d’une seule entité, le résultat peut être acceptable. Mais si le message porte sur plusieurs entités, le résultat est généralement inexploitable. Par exemple, que veut dire le calcul d’une tonalité unique sur un message comme « J’ai été très mal reçu par mon agence à la banque X et j’ai décidé de les quitter pour Y » qui a de bonnes chances d’être analysé comme globalement négatif ? surtout si l’objet de l’étude est Y… Admettons que la phrase est particulièrement difficile à comprendre et prenons plutôt « « J’ai été très mal reçu par mon agence à la banque X et j’ai décidé de les quitter pour Y qui est bien plus agréable ». Avec une analyse grossière, sans repérer les entités, il est probable que les tonalités s’annulent et que la note globale soit « indéterminé » ou « neutre » selon les conventions du logiciel. C’est déjà mieux, au moins il n’y a pas de contresens total. Une analyse détaillée est donc préférable en théorie, mais on tombe alors sur d’autres problèmes. Par ailleurs, on notera au passage que la notion de note globale est difficile à calculer, y compris dans le cas d'analyse détaillée, parce que l'on ne connait pas, a priori, les pondérations que l'utilisateur donnerait à chaque aspect. On peut très bien trouver un message critiquant sévèrement un produit sur plusieurs aspects, mais lui attribuant finalement une note globale positive.
  21. 21. Adetem / Aproged 20 Le champ de l'étude est-il mono-source ou multi-sources ? Plus grand sera le nombre de sources et plus il sera difficile d’agréger des données de plus en plus hétérogènes, et dont la fiabilité sera de moins en moins évidente. La façon d’exprimer le facteur S (sentiment), par exemple, peut être très différente d'une source à l'autre: des notes numériques sur des échelles elles-mêmes variables, l'attribution d'un nombre d'étoiles, des smileys qui sont eux-mêmes très variables selon les librairies utilisées, des "likes", du texte libre, etc. Par ailleurs les différents aspects des entités observées pourront varier d’une source à l’autre, complexifiant encore les analyses, comme dans les deux exemples ci-dessous, venant de deux sites d’avis sur des hôtels. Un avis pris sur tripadvisor : et un avis pris sur easyvoyage : Alors, pourquoi se compliquer la vie en allant chercher dans plusieurs sources pour une même entité ? Il y a plusieurs réponses : la plupart du temps le nombre d’avis sur un site
  22. 22. Adetem / Aproged 21 donné pour une entité particulière est relativement modeste, on veut donc élargir le corpus de messages en allant sur plusieurs sources. Et d’autre part, on a plus de chances d’avoir un échantillon plus représentatif de la population d'utilisateurs si l’on va sur plusieurs sources. Le champ de l'étude couvre t-il des entités homogènes ou non ? Si le corpus de messages est homogène, en ne couvrant qu’ un seul type d’entité, ou un nombre limité et connus de types d’entités, on peut définir les facteurs A (aspects) qui sont intéressants à suivre. Par exemple pour un hôtel on pourra suivre des critères comme ceux montrés dans l’exemple ci-dessus. Mais si l’on doit suivre plusieurs types d’entités, les choses se compliquent. Prenons l’exemple suivant, « je reviens de vacances. J’avais choisi une formule location de voiture + hôtel. Çà s’est bien passé dans l’ensemble. Pas eu de problème avec la voiture, même si le prix était élevé. Mais hôtel X très décevant. Le garage était trop exigu pour ma voiture. Les chambres étaient sombres et petites. Mais mes enfants ont trouvé que le petit déjeuner était bon » L’entité « location de voiture » pourrait être décrite par des aspects comme le prix, l’assurance, le kilométrage, etc. Certains aspects pourront être communs à plusieurs entités, comme le prix dans l’exemple ci-dessus, et il faut alors que l’analyseur soit capable de construire correctement les associations « entités / aspects ». Cet exemple reste simple, mais le traitement peut devenir très complexe si l’on se trouve dans un projet ouvert, avec des entités très diverses, voire même inconnues au départ de la veille, et qu’il devient impossible d’avoir un modèle des aspects attendus par entité. Il faut alors un analyseur suffisamment fin pour qu’il repère de lui-même les aspects pertinents dans le texte. Vise-t-on un système entièrement automatique ou seulement une assistance ? Ces deux situations sont évidemment complètement différentes. Si l’on veut une assistance, le système d’analyse faisant des propositions qui sont ensuite révisées par un analyste, son efficacité va bien sûr dépendre de son niveau de qualité d’analyse, mais aussi, et sans doute surtout, d’autres critères comme l’ergonomie de l’interface de révision et les capacités d’apprentissage, ou du moins de répercussion d’une révision à l’ensemble de messages similaires. Pour prendre un exemple simple, réviser la tonalité d’un tweet devrait réviser celle de ses retweets à l’identique. Si les conditions d’utilisation du système ne permettent pas de révision, et si l’on doit accepter et analyser des messages textuels, il faut alors être bien conscient du niveau de qualité obtenu, ne serait-ce que pour prendre des précautions adéquates vis a vis des utilisateurs. On se demande parfois, quand on regarde certains systèmes, si leurs auteurs ont vraiment fait ces évaluations.
  23. 23. Adetem / Aproged 22 Quelles technologies pour quels cas d'usage ? On sait que plusieurs types de technologies sont envisageables pour analyser les tonalités de ce type de message. La "technologie" (?) la plus simple, est "tout à la main": le logiciel se contente de donner la possibilité de marquer par un tag les messages dans les catégories positif, négatif, neutre et indéterminé. (Certains fournisseurs ne manquant pas d'aplomb indiquant même proposer un système de "sentiment analysis" avec ce type de solution...). La deuxième famille de solution est basée sur l'apprentissage. Très à la mode parce que facile à mettre en œuvre, cette méthode peut donner des résultats satisfaisants dans certains cas, quand le volume de données d'apprentissage est important. D'où l'intérêt de méthodes combinant apprentissage et "crowd sourcing" les utilisateurs construisant eux-mêmes le corpus d'apprentissage. Mais en tout état de cause, ces méthodes restent approximatives et ne peuvent pas rentrer dans le détail d'analyse que seules des méthodes basées sur des analyses linguistiques peuvent atteindre. L'inconvénient étant alors que l'adaptation au domaine peut être une tâche relativement lourde. Les cas favorables, et ceux qui sont problématiques On le voit, la qualité du résultat d’un système de « sentiment analysis » va donc dépendre de plusieurs caractéristiques du projet. On en a cité quelques une ici, mais il en est bien d’autres. Si l' on veut surveiller un domaine vaste, généraliste, que l’on ne sait pas bien ce qu’on cherche, que l'on veut aller sur un grand nombre de sources hétérogènes, et qu'on n'a pas la possibilité de révision manuelle, alors les critiques de ceux qui ont des doutes risquent d’être justifiées. Mieux vaut sans doute attendre quelques années que la technologie progresse. Mais si le projet ne porte que sur quelques types d’entités bien identifiés, que l’on analyse quelques sources de messages relativement homogènes, comme par exemple des sites d’avis, ou des messages sur la hot-line d'une entreprise, et qu’on a un modèle des objets et des aspects que l’on veut analyser, alors il y a de bonnes chances qu’un système de « sentiment analysis » fonctionne correctement. Et c'est satisfaisant, parce que çà correspond à de nombreux cas d'usages d'entreprises qui veulent juste surveiller des sources bien identifiées sur très peu d'entités.
  24. 24. Adetem / Aproged 23 IV BIG DATA ET TEMPS REEL : DES TECHNOLOGIES A ADAPTER ? Les problématiques de BigData, notamment celles liées au marketing et à la gestion client, nécessitent souvent un traitement en temps réel. Les systèmes classiques de datamining ne peuvent offrir cette analyse instantanée. Il faut une approche innovante en terme d’architecture pour s’immiscer au cœur des phénomènes complexes. L’utilisateur dépasse alors le stade d’observateur et devient acteur. DES DONNEES TEMPS REEL COMPLEXES 24 DES PROBLEMATIQUES TEMPS REEL 25 DES TECHNOLOGIES TRADITIONNELLES INADAPTÉES 26 UNE APPROCHE TECHNOLOGIQUE POUR LE TEMPS RÉEL 26 ILLUSTRATION : AMÉLIORER LA RELATION CLIENT EN TEMPS RÉEL 27
  25. 25. Adetem / Aproged 24 Des données temps réel complexes Amirhossein Malekzadeh, Focusmatic L’exemple type du phénomène BigData décrit les grands volumes et la diversité des données du web et des réseaux sociaux. Des chiffres vertigineux détaillent les centaines de millions d’utilisateurs de services tels Twitter, Facebook ou encore Youtube. Sur ces plateformes les internautes produisent chaque seconde textes, photos, vidéos et autres contenus media. Ce sont les reflets d’expressions, de sentiments ou d’intérêts. Ces mêmes internautes laissent aussi, malgré eux, de riches traces au cours de leur navigation et au travers de leurs actions (clics, pages visités, etc.). Il est ainsi possible de reconstruire leur parcours et comprendre quel objectif ils visent et comment ils l'atteignent. Ces flux massifs et temps réel de données contiennent des leviers d’action rapides et efficaces pour le business. Les tweets expriment le pouls des conversations et sont des vecteurs de leur propagation. Chaque tweet peut renvoyer vers un article, en faire sa promotion, signaler sa publication ou encore émettre un jugement dessus. L’analyse des interactions entre Twitter et les blogs prend alors toute son importance. Elle permet de mieux comprendre la propagation des contenus et des conversations. Il est ainsi possible d’identifier les messages qui ont participé à la viralité d’un contenu. Or, les systèmes informatiques classiques sont mal adaptés au traitement de données très hétérogènes comme des articles, de blogs ou des tweets. Un tweet de 140 caractères n’est pas comparable avec un article riche écrit sur un blog et contenant des commentaires de lecteurs. La sémantique est différente tout comme l’ensemble des informations disponibles autour (auteurs, support, audience, etc.). Cela pose des problèmes d’acquisition, de stockage et d’analyse de données. Pour rendre les résultats d’analyse pertinents et complets, d’autres sources sont nécessaires : Facebook, Pinterest, Youtube, Instagram, etc. Chacune enrichit l’approche, mais complexifie aussi le problème à son tour car chaque support a des données différentes. Il est donc difficile de les agréger et de faire des analyses croisées. L’analyse de l’ensemble est une problématique BigData dont la résolution permet d’optimiser sa vision de l’existant et ses actions futures en marketing et communication digitale.
  26. 26. Adetem / Aproged 25 Des problématiques temps réel Cependant cet apport de valeur est encore plus important dans l’instant présent, c’est à dire si ces BigData sont analysées instantanément. Comprendre en profondeur ce qui se passe permet d’influer dessus, par exemple sur les actes d’achats, sur les conversations, ou encore la qualité du service rendu aux clients. Si vous analysez par exemple les sujets de discussion de vos consommateurs, l’information n’aura de valeur qu’au moment de la conversation. Dans le schéma suivant nous traçons le signal commun entre l’actrice Charlize Theron et la marque de luxe dont elle est l’égérie de l’un des parfums. Au cours des 10 premiers mois de 2013, il semble n’y avoir eu qu’un seul moment où l’égérie a apporté de l’exposition médiatique à la marque. Il s’agit de la cérémonie des oscars où la star était habillée par la marque. Cet événement fut fortement commenté sur les réseaux sociaux par les téléspectateurs. Une analyse temps réel ce soir-là vous aurait permis de bien mieux profiter de l’impact media apporté par l’égérie, notamment en rediffusant sur vos canaux ce buzz pour l’amplifier et le faire perdurer. Cependant pour cela il vous aurait fallu avoir identifier ce signal (qui est faible rapporté à l’ensemble des messages vous concernant). L’apprendre le lendemain est certes intéressant mais inutile pour agir dessus. Ces informations sont non seulement produites, mais aussi mises à disposition en temps réel. Il est donc possible de récupérer les flux de données de toutes ces sources afin d’enrichir son propre système en continu. Le problème est leur exploitation en temps réel.
  27. 27. Adetem / Aproged 26 Des technologies traditionnelles inadaptées C’est précisément à ce niveau que les architectures classiques souffrent. Soit elles sont capables d’absorber des volumes importants de données, soit elles permettent une analyse en profondeur, mais pas les deux en même temps. Dans le premier cas, il s’agit des systèmes transactionnels, OLTP (Online Transaction Processing) comme les grandes bases de données relationnelles qui absorbent des flux massifs d’informations structurées. L’autre modèle, celui de l’OLAP (Online Analytical Processing) permet des analyses en profondeur sur ces mêmes données structurées comme les systèmes de Business Intelligence. Ces deux modèles sont complémentaires et peuvent coexister au prix d’une forte latence. La partie transactionnelle va absorber les flux de données, et se déverser régulièrement dans un modèle OLAP pour analyse. Les délais ainsi imposés peuvent êtres conséquents et il n’est pas rare que les outils de Business Intelligence vous fassent travailler sur les données au mieux de la veille, au pire de la semaine dernière. Pour réduire en partie cette latence, il y a des solutions qui s’appuient sur des machines plus rapides et plus nombreuses. Cela accélère les calculs, mais n’enlève pas le décalage dans le temps. Les données d’un système OLTP restent une extraction du système OLTP à un moment donné, ensuite transvasées dans le système OLAP. Certains éditeurs ont développé des solutions sur le principe de n’utiliser que la mémoire vive des systèmes (in-memory analytics) qui permet des calculs effectivement quasi- instantanés. En effet, les accès de lecture et écriture en mémoire sont bien plus rapides que les accès aux disques physiques. Cependant ces solutions sont ne sont pas adaptées à l’analyse de grands volumes de données. En effet, elles sont limitées par le volume qu’elles peuvent traiter puisque la mémoire est difficilement extensible. Par ailleurs, il y a un sujet de sauvegarde et de résilience puisqu’en cas de défaillance la mémoire est perdue. Enfin, ces solutions sont assez coûteuses. Une approche technologique pour le temps réel Pour résoudre ce problème, une approche consiste à concevoir un système qui s’appuie sur une chaine de production similaire à celle des usines en mode flux tendus, associé à un puissant moteur analytique qui fait les calculs instantanément et à la demande. Les sources de données renvoient des volumes massifs d’informations à l’entrée de la chaine de traitement. Ces volumes ne sont pas toujours prédictibles et leur contenu est de qualité et de format variable. Les fournisseurs de ces données modifient parfois les formats ou bien les règles du jeu, c’est alors au système en aval de s’adapter. La première tache du système est d’absorber ces flux. Puis, les données passent aux travers de différents acteurs le long de la chaine de traitement. Leur rôle est de s’assurer que ce qui est récupéré est exploitable et d’enrichir les données pour faciliter l’analyse. Ces acteurs vont catégoriser et pré-analyser les données avec des algorithmes statistiques ou sémantiques (ex : pertinence du message, catégorisation, reconnaissance d’entités, analyse du sentiment, etc.)
  28. 28. Adetem / Aproged 27 L’implémentation de ces algorithmes sémantiques est une étape critique. En effet, certains sont très complexes et pourraient causer non seulement de la latence, mais aussi des goulots d’étranglement dans la chaine de traitement. D’autant plus que certains algorithmes vont nécessiter des appels à des données sur des systèmes externes. Pour anticiper et résoudre ces problèmes, on ne peut se contenter de rajouter plus de machines car le volume de données en entrée est aussi en constante croissance. Une meilleure solution consiste à s’inspirer de la théorie des contraintes. L’approche est itérative afin d’identifier les potentiels points de blocage, de les analyser, puis de mettre en œuvre une solution pour fluidifier le système. Derrière cette chaine de traitement en amélioration constante, il convient d’installer un moteur analytique capable de résoudre les requêtes sous la seconde. Il sera garant de la qualité de l’expérience client : la machine doit s’adapter au rythme de pensée de ses utilisateurs au lui de lui imposer de prendre un café entre les résultats de deux requêtes. Cela suppose avant tout de remettre en cause les schémas classiques de calculs et stockages de données afin de permettre au système de résoudre les requêtes avec le moins d’utilisation possible des actions pénalisantes comme les accès disques. On arrive ainsi à concevoir un système capable de gérer en temps réel, à la fois les flux de données en entrée et les analyses complexes. Illustration : améliorer la Relation Client en temps réel Une application type est de maintenir une cartographie fine et en temps réel des conversations. Celle-ci est source de valeur marketing et commerciale pour les entreprises. En effet, nous observons souvent un décalage entre les sujets de la communication officielle de l’entreprise et les conversations entre ses consommateurs. La cartographie permet d’éviter au fossé de continuer à se creuser et permet d identifier les ressources pour le réduire. Dans l’univers des télécoms cela se traduit par un décalage entre ce qu’un opérateur communique, les préoccupations des clients, et ce sur quoi ses ambassadeurs interviennent spontanément sur les réseaux sociaux et les divers forums de discussion. Une solution BigData temps réel permet d’analyser en profondeur les différences, et de comprendre le sentiment de chaque segment de communiquant sur chaque sujet et comment ils l’abordent.
  29. 29. Adetem / Aproged 28 Le schéma suivant reprend les sujets abordés par la communication officielle de trois opérateurs télécom. On peut y voir l’importance accordée par l’ensemble des opérateurs sur leur communication au sujet des forfaits, de divers concours et des cartes SIM. Cependant, lorsque l’on regarde les préoccupations au même moment des consommateurs (en excluant les messages de la communication officielle des opérateurs et ceux des fans et hyperactifs des marques), nous nous rendons compte que la facture client, les SMS et l’espace client, sont les principaux problèmes des utilisateurs. L’intérêt de la capacité d’analyse temps réel est qu’il est alors possible de rentrer dans les détails fins de chacune de ces catégories et de mieux comprendre le décalage. Les opérateurs sont alors en mesure d’allouer des ressources et d’affiner quotidiennement leur discours afin de mieux satisfaire leurs clients. Cette analyse est d’autant plus importante qu’une partie de la relation client se passe hors du champ de contrôle et d’intervention de l’opérateur. Les clients s’expriment indifféremment sur les médias de leur opérateur et les forums de consommateurs pour faire part de leurs questions ou retours d’expérience. Les ambassadeurs de la marque sont eux présents sur ces terrains et particulièrement réactifs.
  30. 30. Adetem / Aproged 29 L’enjeu des ambassadeurs est très important. Ce sont les défenseurs de la marque et ils résolvent les problèmes d’autres clients sur les forums, et ce souvent avant le service client ou sans que celui-ci en soit informé. Ils sont partie-prenante de la relation client de l’opérateur. Leur niveau d’activité, les sujets qu’ils abordent et la façon dont ils les abordent, sont des indicateurs importants pour l’opérateur. Cette relation que l’opérateur peut constituer avec ses ambassadeurs est un atout métier fort. Il est donc important d’avoir un monitoring fin sur ces ambassadeurs afin de savoir ce qu’ils disent et quel est leur niveau d’activité. Et ce pour agir et ajuster les autres ressources de leur dispositif de relation client. Avec de l’analyse temps réel sur Big Data il est possible d’exploiter les données issues des réseaux sociaux et du web, afin de bénéficier de ce qui s’y passe et non de le subir. Les flux massifs que l’on peut recueillir peuvent certes aider à comprendre, mais leur exploitation fine permet de réagir au bon moment et de mieux développer l’activité. Les entreprises peuvent y trouver de véritables leviers pour accélérer leur business.
  31. 31. Adetem / Aproged 30 V COMMENT UTILISER LES CAPACITES DU BIG DATA ET L’APPROCHE ANALYTIQUE POUR CONTRIBUER A TRANSFORMER LE MARKETING ? Aller de « J’ai un produit : à qui vais-je le vendre ? » à « J’ai un client, de quoi a-t-il besoin aujourd’hui ? Patrice Poiraud Directeur Big Data & Analytics, IBM France UTILISER LES CAPACITÉS DU BIG DATA ET L’APPROCHE ANALYTIQUE POUR CONTRIBUER À TRANSFORMER LE MARKETING 32 SE PRÉPARER AUX CHALLENGES DU BIG DATA 33 ADRESSER LES IMPÉRATIFS CLEFS DU MARKETING 34 REDÉFINIR LES FONCTIONS MARKETING TRADITIONNELLES 35 AMÉLIORER L’EFFICACITÉ DU MARKETING AVEC L’ANALYSE PRÉDICTIVE ET PRESCRIPTIVE DES COMPORTEMENTS 36 AMÉLIORER LA VALEUR DÉLIVRÉE AU CLIENT À CHAQUE INTERACTION AVEC UNE PERTINENCE TEMPS RÉEL 37 COMMENT DÉBUTER LA TRANSFORMATION 39
  32. 32. Adetem / Aproged 31 Utiliser les capacités du Big Data et l’approche analytique pour contribuer à transformer le marketing Photo Patrice Poiraud, IBM Les professionnels du marketing ont intégré qu’un des actifs les plus intéressants pour un marketing efficace est l’information client. Aujourd’hui les clients génèrent de plus en plus de données, ils démontrent leur intérêt pour une Marque au travers d’achats en ligne et de visites de sites Web, ils expliquent leurs besoins et leurs préférences lors de leurs interactions avec les centres d’appels, par des e-mails ou des visites concrètes, ils indiquent leur satisfaction sur les produits et services en enregistrant leurs « likes » dans les médias sociaux. Ces « Big Data » - par leur volume, leur variété, le caractère « temps réel » (la vélocité) des données produites – recèlent un potentiel énorme pour les équipes marketing. En collectant et analysant ces données, on peut générer une compréhension fine des clients et ainsi avoir la capacité de délivrer une expérience client personnalisée qui va renforcer l’image de marque et maximiser la valeur de chaque interaction entre le client et la marque. Tirer le meilleur parti des données permet à une organisation d’optimiser les efforts marketing pour délivrer le bon message à la bonne personne au bon moment, au bon prix et par le bon canal. Les professionnels du marketing ont maintenant la capacité de transformer leur rôle en utilisant cette compréhension fine des marchés qu’ils peuvent produire pour contribuer aux décisions stratégiques de leur entreprise pour les années à venir.
  33. 33. Adetem / Aproged 32 Les directions marketings de nombreuses d’industries ont déjà débuté leur parcours en s’appuyant sur le Big Data, ils implémentent des fonctions analytiques pour découvrir de nouveaux usages, anticiper les comportements des clients et déterminer en temps réel la prochaine meilleure action à réaliser ( que nous simplifierons par NBA ou Next Best Action). Ceci en utilisant les informations traditionnelles et surtout en intégrant les données en provenance des enquêtes, des mémos des centres d’appels, des réseaux sociaux … . Cette intégration permettant de découvrir des points de vue jusqu’alors méconnus. Se préparer aux challenges du Big Data S‘il est exact que le Big Data peut apporter de nombreuses opportunités, de nombreux professionnels du marketing réalisent que le chemin est parsemé de défis pour atteindre les résultats espérés. L’explosion des données Il faut ajouter aux données stockées par l’entreprise au travers de ses transactions commerciales, des interactions avec les services clients, d’enquêtes consommateurs ou de tests, les données en provenance de sources externes comme les médias sociaux. De plus les données « temps réel » vont avoir une importance croissante comme celles collectées dans les caractéristiques des enregistrements d’appels. Il est alors simple de comprendre que quelque part dans toutes ces données, il sera possible de trouver ce qui n’était pas apparent en première approche Les médias sociaux Collecter et analyser le contenu des médias sociaux est une vraie priorité. Le volume de données échangé est en explosion continuelle, et à l’intérieur de ces échanges se trouvent des trésors d’informations permettant de détecter de nouvelles opportunités. Les équipes marketing peuvent ainsi utiliser les médias sociaux pour découvrir les dernières tendances, obtenir des retours sur les produits et services et déterminer les préférences des consommateurs. Il est possible d’observer, et bien évidemment de capitaliser sur les effets induits par les médias sociaux si on souhaite construire un « buzz » positif. Pour mettre en place ces fonctionnalités, il faut disposer d’un outillage permettant de collecter en temps réel (ou pas ) ces informations de type non structuré, de les analyser et d’en tirer des actions qui peuvent être automatisées pour une efficacité temps réel. La multiplication des canaux et des terminaux mobiles Les données des clients sont générées au travers d’une grande variété de canaux et de terminaux, il faut prendre en compte le fait que les modes de communications traditionnels type face à face, téléphone et e-mail sont complétés par les messageries instantanées, forums ou médias sociaux. Les consommateurs utilisent les traditionnels PCs , mais aussi leurs smarphone, tablette, télévision, console de jeux pour poser des questions, faire des achats, communiquer et partager leurs préférences avec leurs amis.
  34. 34. Adetem / Aproged 33 Ces nouveaux canaux et terminaux donnent aux équipes marketing d’autres possibilités pour favoriser la communication montante et descendante et ainsi approfondir les relations entre une marque et un individu ce qui entraine des opportunités de business complémentaires. Pour tirer parti de ces canaux et terminaux, il faut être capable de collecter et d’analyser des données de tout type en provenance de sources extrêmement variées . Adresser les impératifs clefs du marketing Mettre en œuvre les applications résultant d’une stratégie « Big Data & Analytics » va aider les équipes marketing à consolider ce qui est considéré par les directeurs marketing comme leurs principaux impératifs. Comprendre chaque client dans son unicité Le Big Data permet d’aller au-delà des traditionnelles segmentations pour déterminer les préférences individuelles et ainsi anticiper les comportements. En comprenant individu par individu, les offres proposées sont alors plus pertinentes, la mise en place de la meilleure activité ou action ( Next Best Action ) est simplifiée et l’expérience client accrue. Maximiser la valeur délivrée à chaque interaction Le nombre de canaux de distribution s’accroit de jour en jour, il est maintenant de première importance de passer d’une stratégie multi-canal à celle de l’omni-canal et donc s’assurer que l’expérience client personnalisée est similaire quelque soit le canal utilisé et que celui-ci puisse passer sans défaillance d’un canal à l’autre. Que le client se rende à son agence bancaire, qu’il joigne un vendeur d’un opérateur téléphonique au travers d’un centre d’appel, qu’il envoie un message instantané pour réserver un voyage ou qu’il poste un commentaire sur le site d’un distributeur, toutes ces organisations doivent anticiper ce que désire le client en optimisant chaque interaction avec celui-ci – capter et conserver son intérêt, générer un lead qualifié et le convertir en nouvelle vente – et en même temps s’assurer de la bonne utilisation des investissements marketing. S’assurer que la promesse de la marque et sa perception sont proches voire identiques Les organisations ont su gérer et contrôler la réputation de leur marque, mais une nouvelle norme est maintenant présente : la capacité pour le client et les employés de commenter chaque instant la réputation d’une marque et pour de nombreuses organisations une différence se crée entre la promesse de la marque et le ressenti des clients. Maintenant, la grande popularité des réseaux sociaux crée aussi pour le marketing la capacité à comprendre cette différence et à mettre en place les actions nécessaires pour optimiser cette équation entre la promesse et l’expérience client, chaque fois qu’un client participe ou commente sur les blogs, forums ... les organisations peuvent identifier les tendances, répondre au client, et optimiser ainsi l’image de marque de l’organisation.
  35. 35. Adetem / Aproged 34 Redéfinir les fonctions marketing traditionnelles Qu’est-il possible de tirer du Big Data pour un service marketing ? Le Big Data et les fonctions analytiques vont contribuer à transformer les rôles marketing en améliorant les capacités d’exécution du marketing depuis la collecte des informations clients jusqu'à l’implémentation de promotions ou offres ciblées. Explorer toutes les informations clients disponibles Les moyens traditionnels de capture d’informations tels les « focus groups » , enquêtes, ou les travaux de recherches confiés à des entreprises tierces ne donnent pas la possibilité de capturer toutes les informations disponibles et sont souvent limités à des informations statiques, en silos et obligeant les équipes marketing à des paris sur l’avenir. Une stratégie de type « Big Data & Analytics » permet d’explorer toutes les données dynamiquement, de les relier et de trouver les informations pertinentes rapidement et à moindre coût. Anticiper les comportements plutôt que réagir aux situations S’appuyer seulement sur l’historique des transactions et sur une segmentation classique pour développer des stratégies marketing n’est plus suffisant et ne permet pas la différentiation attendue. Il est maintenant nécessaire d’analyser d’autres données en provenance de toutes les sources possibles et ceci en temps réel au travers de solutions de type « Big Data & Analytics » pour anticiper les comportements des consommateurs et déterminer ainsi en temps réel la meilleure action à réaliser, à quel moment, par quel canal, pour chaque individu et obtenir ainsi le meilleur impact. Accroitre le contrôle de la marque Traditionnellement, le marketing décide et contrôle les messages qui définissent la marque. En utilisant les solutions « Big Data & Analytics », il est possible d’accroître ce contrôle en écoutant activement les consommateurs sur leur réseaux sociaux – c’est maintenant un des principaux endroits où une marque peut gagner ou perdre sa réputation. Délivrer un contenu en lien avec la cible Le pilonnage ne conduit plus au gain de nouveaux clients, au contraire il exaspère et peut conduire au rejet de la marque. Le contenu des messages doit maintenant être en résonnance avec le consommateur ciblé et les promotions ou publicités doivent être alignées avec les préférences individuelles et pouvoir être délivrées en temps réel quelque soit le canal ou le média utilisé. Développer les produits de demain Les informations de tout type structurées ou non-structurées collectées par le marketing peuvent aussi être utilisées pour aider à la définition de nouveaux produits, ceci en en partageant les tendances et les retours clients en temps réel. En passant des stratégies marketing traditionnelles vers des approches basées sur l’analyse prédictive et prescriptive des données, les équipes marketing peuvent optimiser leur audience, l’utilisation de leur canaux, les contenus délivrés et la capacité à convertir les prospects en clients
  36. 36. Adetem / Aproged 35 Améliorer l’efficacité du marketing avec l’analyse prédictive et prescriptive des comportements La combinaison du Big Data et des solutions analytiques va jouer un rôle crucial dans l’utilisation des données contribuant aussi à modifier des fonctions clefs du marketing. L’analyse comportementale basée sur cette combinaison de nouvelles données et outils permettra une exploration très fine afin de détecter et comprendre les nouvelles tendances et prédire ainsi les comportements futurs. Ceci rendra plus simple ce qui doit être réalisé pour intéresser un prospect, définir les promotions et améliorer l’efficacité des campagnes de publicité en optimisant les budgets dédiés à chaque média. Pour explorer les tendances historiques et les données temps réel, le marketing devra adopter des solutions permettant l’analyse des informations structurées (de type données liées aux transactions) et des données non structurées (de type texte ou image via les réseaux sociaux ou voix dans les centres d’appels ou de services clients) capturées sur une grande variété de canaux. Les services marketing pourront alors évaluer les comportements et créer de modèles pour découvrir de nouveaux comportements d’achats. En intégrant les analyses prédictives et prescriptives, la connaissance du client deviendra plus fine et la capacité à améliorer l’expérience client sera alors plus importante, permettant donc au marketing d’anticiper sur les comportements futurs et d’identifier en temps réel l’action à réaliser pour satisfaire le consommateur. Les solutions « Big Data & Analytics » permettent aussi d’aider les services marketing à personnaliser les offres de produits ou solutions ainsi que les offres commerciales en optimisant les gains versus les efforts réalisés sur les promotions. Par exemple dans le domaine de la vente de détail, le marketing pourra analyser les données en provenance du « clickstream » pour comprendre comment le consommateur utilise le site web, avec la possibilité de rejouer l’historique, et optimiser ainsi le contenu et améliorer les résultats des ventes. Les outils d’analyse de contenus associés permettent d’explorer les milliards de conversations publiques pour identifier et analyser les avis des consommateurs permettant de visualiser les tendances émergeantes. Les équipes marketing pourront ainsi évaluer les sentiments des utilisateurs et créer des modèles permettant de prédire l’efficacité de ventes croisées ou de ventes complémentaires. Equipés des informations concernant les préférences et comportements des clients ou prospects, l’efficacité des promotions ciblées devient une réalité, et le partage de ces informations avec les équipes de développement produits ou solutions permet d’adresser plus rapidement les besoins des consommateurs. Un autre effet de l’utilisation du Big Data et de l’analytique est d’optimiser l’efficacité des campagnes de publicité. En effet, en collectant et analysant les données des médias sociaux il devient possible de comprendre si la bonne cible est atteinte, si la visibilité du produit ou de la marque s’améliore et de connaitre les réactions aux publicités on-line ou off-line. L’utilisation des modéles prédictifs permet aux services marketing des entreprises de « digital média » de tester en grandeur réelle et ainsi d’optimiser les campagnes de publicité. Cette capacité
  37. 37. Adetem / Aproged 36 d’analyse temps réel permet de réagir instantanément, optimisant ainsi les « retours sur investissements ». Pour beaucoup d'organisations, la réduction des coûts du marketing est un enjeu en soi. Si ces s'organisations sont Alignées sur la captation de toutes les bonnes données (Big Data) et mettent en oeuvre les Analytiques les plus performants, c'est pour pouvoir Agir de la façon la plus ciblée et, pourtant, la moins couteuse : Améliorer la valeur délivrée au client à chaque interaction avec une pertinence temps réel Les analyses temps réel peuvent travailler de façon synchronisées avec les analyses comportementales pour accroître la valeur délivrée au client à chaque interaction. Les données pour mettre en place ces analyses existent déjà en masse, même si très souvent elles sont disséminées dans différentes fonctions au sein de l’entreprise. Ainsi les services marketing ont déjà collecté une grande variété de données, d’interactions avec les consommateurs de type web-clics ... les centres d’appels possèdent les discussions avec les clients, les services après-ventes ont les informations sur les retours produits. En même temps, il est possible de collecter les données des applications utilisées par les appareils mobiles, des services de GPS, les données provenant de l’efficacité des campagnes de publicité ou des promotions et bien sur d’extraire le contenu public intéressant des média sociaux.
  38. 38. Adetem / Aproged 37 En analysant en temps réel ce vaste espace de données (sans cesse en mouvement) les équipes marketing peuvent définir des modèles extrêmement fins, permettant d’engager avec le client, non pas à l’intérieur d’un segment, considéré comme unique au moment le plus approprié et en définissant la meilleure prochaine action intégrant la valeur attendue par le client au moment de cette interaction. Par exemple, un client peut se voir offrir une promotion spécifique parce qu’il s’approche d’un magasin commercialisant des produits pour lesquels ce client était en conversation avec ses amis sur les réseaux sociaux ou un vendeur peut optimiser son offre à un prospect en l’associant en temps réel à l’un des micro-segment basé sur le comportement des clients déjà existants. Le but est bien de délivrer une expérience client hautement personnalisée en maximisant le retour sur investissement du marketing, Cette compréhension fine et temps réel des consommateurs est un point d’entrée exceptionnel pour optimiser le définition des nouveaux produits et leur positionnement marché. Comment débuter la transformation La promesse du Big Data & Analytics est de contribuer à la mise en place du « Marketing 2.0 ». Celui-ci est basé sur les données en intégrant le bon outillage, afin que les équipes marketing puissent optimiser leur compréhension des clients, prédire leur comportement, créer des interactions personnalisées et maximiser le valeur délivrée à chaque contact avec le client en utilisant le bon canal. Le point de départ est toujours celui d’un besoin business. C’est ce besoin qui, combiné à la maturité de l’entreprise, sera le point de départ pour définir et construire le chemin menant à la réalisation. Ce chemin est construit en s’aidant des meilleures pratiques déjà répertoriées lors des engagements déjà réalisés. L’étude du ROI des différents projets menant à la satisfaction du besoin exprimé permettra de définir la séquence de mise en place en fonction des souhaits définis. L’analyse de l’existant de type architecture du système d’information, positionnement des données, est pris en compte permettant une vue complète du projet à traiter. Les équipes marketing peuvent débuter simplement la capitalisation de la promesse du Big Data & Analytics dès aujourd’hui.
  39. 39. Adetem / Aproged 38 VI LE BIG DATA : « LA TENTATION DE LA CLANDESTINITE ? » Les promesses du big data sont immenses. La collecte, en temps réel et en continu, de trillions d’octets de données, leur traitement et les interprétations que des machines toujours plus puissantes pourront en faire laissent présager des progrès phénoménaux dans tous les aspects de la vie humaine. Si pour tous et pour chacun, le big data signifie plus de santé, plus de sécurité, plus de service, plus de fluidité dans les échanges, le règne de la donnée marque aussi l’avènement d’une société du profilage et de la surveillance. Une perspective orwellienne qui pourrait bien conduire un nombre grandissant d’individus à tout faire pour passer sous le radar. LE BIG DATA : « LA TENTATION DE LA CLANDESTINITÉ ? » 39
  40. 40. Adetem / Aproged 39 Le Big Data : « La tentation de la clandestinité ? » Stéphane Billiet, Président, We agency / Maître de conférences associé, CELSA Paris Sorbonne Le croisement d’une somme exponentielle de données ouvre aux professionnels du marketing des champs d’expérimentation inédits. Avec le big data, les marketeurs vont pouvoir proposer aux consommateurs des services toujours plus contextualisés et plus personnalisés. Une fois résolus les défis technologiques, l’intelligence stratégique dont ils disposeront leur permettra de planifier, cibler et adresser leurs offres aux consommateurs avec une précision chirurgicale. Individualiser la proposition marketing au plus fin degré de granularité est un défi à la fois complexe et enthousiasmant pour les professionnels. Sur des marchés devenus hyperconcurrentiels, c’est une condition de succès et de pérennité pour les marques. Pour le consommateur, en revanche, le bénéfice est plus mitigé : certes, la satisfaction de n’être exposé qu’à des propositions commerciales réellement pertinentes, mais aussi, la perspective moins réjouissante d’une prise de pouvoir des algorithmes sur le libre-arbitre. La possible dictature algorithmique à laquelle un profilage excessif pourrait conduire doit faire l’objet d’un regard critique. On est en droit de redouter que l’aveuglement qui accompagne les innovations technologiques de rupture ne se traduise, en l’espèce, par une valorisation excessive du caractère prédictif des données, et, en conséquence, n’aboutisse à réduire l’individu à ses us et coutumes. Clairement, le scénario d’une prise de décision inductive, déléguée aux ordinateurs sur des critères purement statistiques, a de quoi inquiéter. Et même insupporter ceux qui refusent les assignations, considérant comme une atteinte à leur dignité l’idée même que quiconque, a fortiori des entreprises, s’arroge le droit de les cataloguer sur la base de présupposés. On sait déjà, confusément, que chaque connexion, quelle que soit son objet, génère le transfert, volontaire ou non, d’informations numériques vers des fermes de serveurs capables d’archiver et de traiter des quantités exponentielles de données et de métadonnées. On ne se figure pas encore tout à fait comment les composantes de son empreinte numérique personnelle seront exploitées – pour le meilleur et sans doute aussi
  41. 41. Adetem / Aproged 40 pour le pire – par des machines dont la puissance et la rapidité de calcul autoriseront un ciblage à l’échelle nanométrique. Parce que le big data interroge avec acuité l’acceptabilité sociale du Marketing, les marketeurs ne peuvent faire l’économie d’anticiper le point d’inflexion qui verra une proportion significative de la population commencer à avoir le sentiment d’être fiché, profilé et ciblé au-delà du supportable. Le Marketing ne pourra se dire responsable – durablement et de manière crédible – que si les professionnels dopés aux datas apportent des réponses convaincantes à la question du respect de la vie privée. Et, sur un plan philosophique, que s’ils affirment, de manière répétée, qu’à leurs yeux l’intégrité de la personne humaine primera toujours sur les intérêts commerciaux. De toute évidence, la mise en cause des pratiques marketing sera d’autant plus forte que les « cibles » prendront conscience de leur projection algorithmique personnelle. Comment réagiront-elles alors à la multiplication d’offres hyper-profilées, bombardées en permanence ? A partir de quelle pression verront-elles le renoncement à l’intime comme un prix trop cher à payer ? Si les marketeurs ignorent la question de la contre-productivité du big data, ils doivent s’attendre à ce que les consommateurs, même sous prétexte d’être placés au centre de dispositifs marchands de plus en plus personnalisés, refusent que leurs comportements passés soient utilisés pour déterminer, à leur place, quels désirs, motivations, intentions pourraient être les leurs à l’avenir. On prend ici le pari qu’à partir d’un certain degré de sophistication marketing, une proportion significative de la population fasse le nécessaire pour échapper à Big Brother. Si le partage de données – lié à un achat ou à un acte administratif, à la géolocalisation ou à une publication – n’est pas en soi un renoncement à son intimité, l’accumulation, l’historisation et le croisement de ces données peuvent le devenir. Le phénomène du big data est encore trop récent pour que le grand public ait pris la mesure de ce qui est en jeu, non seulement en matière de libertés individuelles mais aussi, plus trivialement, en termes de sanctuarisation de tous les faits et gestes qui font la vie. Certes, le rapport à l’intime a évolué avec la popularisation de l’usage des réseaux sociaux. Si les individus s’expriment abondamment sur ces médias interactifs, c’est, sans ambiguïté, pour être vus et entendus. De leurs amis certes, mais aussi des marques à qui ils communiquent ce qu'ils sont, ce qu'ils apprécient et ce qu'ils attendent en retour de leur engagement. C’est donc bien volontiers qu’ils laissent leur empreinte, partout où ils passent, conscients que leurs dépenses quotidiennes seront analysées, que leurs commentaires seront décryptés, que leurs comportements seront profilés. De fait, la notion de vie privée s’adapte, mutatis mutandis, au fonctionnement en réseau de la société omni-connectée. Déjà, les informations que chacun partage avec d’autres, volontairement ou à son insu, ne s’apprécient plus comme des données personnelles mais comme des données transactionnelles et relationnelles. Publier sur les réseaux sociaux beaucoup d’information sur soi est jusqu’ici un choix, celui du partage et de la relation. Mais demain ? Sous la pression de la norme sociale, le choix – utile et agréable – d’être connecté s’est déjà mué en injonction de connexion. Dans un monde toujours plus « social », être déconnecté sera bientôt perçu comme une attitude asociale, voire suspecte. Enfin, de manière inéluctable, être géolocalisable en permanence, par exemple, va devenir obligatoire pour profiter d’une multitude de services indéniablement utiles, qu’il s’agisse de commander un taxi ou de prévenir une crise cardiaque. De la même manière que la demande de sécurité a pu justifier le recours massif à la vidéosurveillance, la collecte et le traitement de données considérées jusqu’ici comme
  42. 42. Adetem / Aproged 41 « personnelles » est acceptable tant que le bénéfice est supérieur à l’inconvénient ou au risque. Mais lorsque le rapport s’inversera, que plus aucune zone d’ombre ne sera permise, le besoin d’échapper au contrôle et à la surveillance ne pourra que s’exacerber. Pour preuve, l’adoption rapide des monnaies électroniques, comme le bitcoin apparu en 2009, qui garantit l’anonymat des transactions. Lorsque la transparence, valeur plébiscitée aujourd’hui, sera vécue comme un totalitarisme, la clandestinité sera peut-être le seul refuge possible. La vie privée ne se conçoit plus comme un espace coupé du monde mais comme un ensemble d’interactions permanentes avec une multitude d’interlocuteurs. Comme l’accès à un club privé, elle se caractérise par le droit d’entrée que l’on accorde à l’autre selon la nature et le contexte de la relation. Le droit d’accès à la sphère intime est donc un choix essentiellement social, guidé par une approche personnelle, volontaire et différenciée. Plus que le contenu lui-même, ce qui relève de l’intimité désormais, c’est le contexte, l’intention et la destination des données. En bref, au-delà de son identité sociale, chacun peut accepter de tout dire – mode de vie, croyances religieuses, opinions politiques, orientation sexuelle – mais pas à tout le monde et en tous lieux. Bien qu’exposée comme jamais dans l’histoire humaine, la vie privée reste un fondement essentiel de la dignité́ de la personne. Le jardin secret, une condition sine qua non de la liberté. Les marketeurs doivent le comprendre pour définir, en conscience, jusqu’où et à quelles conditions ils peuvent conduire le citoyen-consommateur à laisser tomber les barrières de l’intime. Ils doivent continuer d’apprendre à cultiver la relation car, plus que jamais, elle est la condition de la transaction. Dès lors que le mirage technologique n’endormira plus les craintes du public quant à l’anonymisation des données, seule la confiance retiendra le consommateur de tout faire pour passer sous le radar. Plus qu’au rêve de célébrité exprimé par la voix prophétique d’Andy Warhol au siècle dernier, c’est au quart d’heure d’anonymat que chacun risque d’aspirer à l’heure du big data.
  43. 43. Adetem / Aproged 42 VII LE BIG DATA, NERF DE LA GUERRE DES GRANDES PLATEFORMES SOCIALES ? Les géants du web et des médias sociaux, Facebook, Twitter, Google, et bien sûr Yahoo!, sont les grands gagnants du Big Data. D'abord parce qu'ils ont eu la vision, ensuite parce qu'ils ont eu l'exécution (centaines de millions d'utilisateurs), et enfin parce qu'ils en tirent les bénéfices (la publicité). Est-ce pour le bien ou pour le pire? Que devons- nous en attendre ? QU’ENTEND-ON PAR « BIG DATA » 43 LES MÉDIAS SOCIAUX, ACTEURS ORIGINELS DU BIG DATA 44 TOUT RÉSIDE DANS L’EXÉCUTION 45 LE BIG DATA À LA BASE DES REVENUS DES MÉDIAS SOCIAUX 46 DU BIG DATA À LA BIG INTELLIGENCE ? 47
  44. 44. Adetem / Aproged 43 Le Big Data, nerf de la guerre des grandes plateformes sociales ? Hervé Kabla, de Be Angels En mars 2010, Sitaram Asur et Bernardo A. Huberman publièrent un papier assez surprenant2 dans lequel les auteurs, tous deux chercheurs des HP Labs à Palo Alto, établissaient que les médias sociaux pouvaient, dans de nombreux cas, servir d’outils prédictifs pour des événements se déroulant dans la vie réelle. Asur et Huberman proposaient, pour étayer leur propos, un modèle prédictif des revenus des films au box- office, basé sur le rythme de diffusion de tweets relatifs au film considéré, ainsi que la polarité des tweets émis – positifs vs. négatifs – pour affiner leur modèle. Les auteurs obtenaient même de meilleurs résultats que ceux s’appuyant sur l’indice HSX de la bourse aux films d’Hollywood Au-delà de l’aspect récréatif et ingénieux de leur analyse, ces deux chercheurs mettaient probablement le doigt sur l’un des aspects les plus évidents, et pourtant les moins souvent exploités des médias sociaux : ce sont de formidables machines à produire de l’information à partir d’amas de données. Données non structurées, certes, mais données tout de même, accessibles à celles et ceux qui sont prêts à s’y investir. Les grandes plateformes sociales seraient-elles les grands gagnants du Big Data ? 2 Disponible en ligne sur arXiv.org : http://bit.ly/adetem-big-data-futur
  45. 45. Adetem / Aproged 44 Qu’entend-on par « Big Data »? Avant d’aller plus loin, entendons-nous sur la signification du terme “Big Data”. L’expression est assez récente, elle date d’une dizaine d’années tout au plus. Elle désigne l’accumulation de données dans des ordres de grandeur absolument pharamineux, exprimés en zettaoctets (un zettaoctet valant la modique somme de mille milliards de milliards d’octets…). De ce gigantisme des données exploitées découlent plusieurs conséquences, qui rendent obsolètes les techniques utilisées jusqu’à présent, comme relevant du domaine de la « Business Intelligence », secteur pourtant prolifique durant la dernière décennie. Tout d’abord, les architectures sous-jacentes doivent être repensées de fond en comble : les acteurs du « Big Data » font appel à des architectures distribuées allant jusqu’aux fermes de serveurs, comme celles utilisées par Google ou Facebook, là où la BI s’appuie sur des bases de données certes de taille importante, mais où un ou quelques serveurs suffisent. Ensuite, il a fallu repenser les approches mêmes des logiciels de base de données : là où l’extraction de cubes de données suffisait pour la BI classique, le « Big Data » fait appel à une nouvelle génération de technologies comme MapReduce ou le NoSQL, pour traiter de manière parallèle des requêtes que le brave SQL ne saurait effectuer en un temps humainement raisonnable. Enfin, alors que la BI s’appuie sur une approche exacte, basée sur une forte densité de l’information enregistrée dans des entrepôts de données structurées, le « Big Data » s’intéresse plus aux tendances, à partir d’extractions de faible densité sur de grands volumes, afin d’inférer des comportements globaux, avec les limites qu’une telle approche impose. Le web 2.0, par l’exploitation massive de données situées dans des emplacements multiples et peu structurés, a sans doute été un accélérateur important de l’évolution vers le « Big Data ». Il n’a pas été le seul, car d’autres tendances sont venues se greffer en parallèle, comme l’ouverture aux données publiques ou la diffusion de flux RSS. Mais il est clair que les médias sociaux, dans leur ensemble, constituent l’un des facteurs décisifs de diffusion du « Big Data ». Les médias sociaux, acteurs originels du Big Data Notre génération aura eu cette chance de connaître le web avant sa formidable transformation sociale du début du siècle. Les premières heures du réseau, loin d’être sombres, étaient en effet bien plus monotones qu’elles ne le sont aujourd’hui. Le web avait beau être ouvert à tous, bien peu s’y lançaient réellement, tant pour des raisons techniques que par manque d’intérêt pour une mise en relief de son histoire personnelle : l’accès à quelques sites d’information, d’e-commerce, institutionnels ou officiels suffisait amplement à meubler nos quelques heures passées en ligne. Les médias sociaux ont bouleversé cet ordre des choses, en permettant à tout un chacun de devenir acteur de sa propre histoire en ligne : les blogs dans un premier temps, puis les

×