Your SlideShare is downloading. ×
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Livre blanc big data écosystème français
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Livre blanc big data écosystème français

1,553

Published on

Livre blanc du big data et éclairage sur l'écosystème français (startup, enseignement data scientist, grands groupes, open innovation, US, accélérateur Techstars). « Le Big Data s’impose comme le …

Livre blanc du big data et éclairage sur l'écosystème français (startup, enseignement data scientist, grands groupes, open innovation, US, accélérateur Techstars). « Le Big Data s’impose comme le concept contemporain incontournable dont chacun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup d’entreprises […]. Mais il n’est pas facile d’y voir clair pour les néophytes ».

Les auteurs de ce numéro d’Accomex vous proposent « d’y voir plus clair » ; ils sauront vous convaincre que le Big Data est bien plus qu’une simple évolution technologique supplémentaire, qu’il concerne les entreprises de toute taille et de tout secteur, que le terrain de jeu du Big Data est mondial…

Stocker des quantités considérables de données est une chose ; les traiter en est une autre. Le Big Data offre cette possibilité d’analyser les données produites par les entreprises, les particuliers, les États, pour créer de nouveaux usages. C’est bien de valorisation des données dont il s’agit, et c’est là que se situe la révolution, une révolution déjà bien engagée aux États-Unis, à laquelle la France porte un intérêt croissant, stimulée par des startups innovantes & créatives.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,553
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
82
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Directeur de la Publication : Etienne Guyot ; Conseiller : Rémy Arthus Rédactrice en Chef : Sandrine Rol Mise en page/PAO : Karine Cazagou, Perpétue Francina ; Administration : Pascale Fachaux ; Fabrication : Angélique Roux Comité de rédaction Catherine Druez-Marie, Responsable du département « Information et Colloques », Institut de recherche en propriété intellectuelle (IRPI) ; Luc Dardaud, Responsable du département des Facilitations du Commerce Extérieur, CCI Paris Ile-de- France ; Alain Henriot, Adjoint au Responsable des Etudes économiques, La Banque Postale ; Laurent Jacquet, Directeur des études et des ressources d’information, Experts Partenaires pour l’Entreprise à l’Étranger (EPEE) ; Éric Lahille, Professeur d’économie internationale et industrielle, ESIEE Management ; Nicolas Meunier, Consultant risques-pays ; Daniel Solano, Consultant, éditeur de la lettre d’Amérique latine ; Martine Stepanek, Responsable du département Asie-Amériques, CCI Paris Ile-de-France ; Corinne Vadcar, Rédactrice en chef des Cahiers de Friedland ; Claudine Dagnet, Directrice générale déléguée départementale, CCI Paris. Contacter l’équipe Accomex Chambre de commerce et d’industrie de région Paris Ile-de-France Revue Accomex DGA AIE - Service produits éditoriaux et formation 2 rue de Viarmes - 75040 Paris cedex 01 Tél. 01 55 65 36 31 - Fax : 01 55 65 39 60 accomex@cci-paris-idf.fr Toute reproduction/traduction/adaptation est interdite sans l’accord de la rédaction. arce que l'horizon des entreprises s'étend au-delà des frontières et que l'activité économique s'inscrit dans un monde globalisé, la Chambre de commerce et d'industrie de région Paris Ile-de- France propose à ses ressortissants une revue exclusivement dédiée à l'approche des marchés extérieurs. Revue bimestrielle, Accomex s'adresse aux entreprises soucieuses de réussir leur développement à l'international, ainsi qu’à tous les acteurs attachés aux problématiques de la mondialisation économique : acteurs du système d'appui, think tanks, monde éducatif, etc. Sa spécificité repose sur la juxtaposition d'analyses approfondies sur les marchés extérieurs et d'articles plus pratiques consacrés à l'environnement réglementaire, fiscal et juridique de l'exportation et de l'investissement à l'étranger. Accomex propose, en alternance sur les six numéros de l'année, des approches géographiques, sectorielles et thématiques de l'environnement extérieur des entreprises. Elle fait appel à des chefs d'entreprise expérimentés, à des professionnels des marchés extérieurs (avocats spécialisés, consultants à l'international, agences de couverture des risques, conseillers du commerce extérieur, etc.) et à des experts -français ou étrangers- reconnus dans leur domaine de compétence (économistes, juristes, politologues, etc.), afin d'offrir à ses lecteurs des contributions de qualité. Accomex est éditée par la Direction générale adjointe - Actions internationales et européennes de la Chambre de commerce et d’industrie de région Paris Ile-de-France. P
  • 2. 1L’édito. L’édito. Sandrine Rol Rédactrice en chef d’Accomex « e Big Data s’impose comme le concept contemporain incontournable dont cha- cun s’accorde à dire qu’il va révolutionner la manière de travailler de beaucoup d’entreprises […]. Mais entre circonspection, prosélytisme, promesses opérationnelles, fantasmes vertigineux et apports concrets, il n’est pas facile d’y voir clair pour les néophytes » nous dit Matthias Fille, conseiller en développement de la filière TIC à la CCI Paris Ile-de-France. Loin de vouloir surfer sur la vague d’un effet de mode, les auteurs de ce numéro d’Accomex vous proposent « d’y voir plus clair »... Ils sauront vous convaincre que le Big Data est bien plus qu’une simple évolution technologique supplémentaire, qu’il concerne les entreprises de toute taille et de tout secteur d’activité, que le terrain de jeu du Big Data est mondial… Stocker des quantités considérables de données est une chose ; les traiter en est une autre. Le Big Data offre cette possibilité de « nettoyer », d’analyser, de croiser les données - structurées ou non - produites par les entreprises, les particuliers (réseaux sociaux), les États (données publiques), pour créer de nouveaux usages : optimiser son processus de production, affiner sa connaissance clients, maîtriser sa e-reputation, rationaliser ses coûts d’approvisionnement, stimuler la recherche, etc. Les possibilités semblent infinies… C’est bien de valorisation des données (textes, images, statistiques, etc.) dont il s’agit, le plus souvent en temps réel (ou quasi réel)… Et c’est là que se situe la révolution, « où le nouvel or noir à raffiner serait la donnée » ! Une révolution déjà bien engagée aux États-Unis et à laquelle la France porte un intérêt croissant, stimulée par une multitude de startups innovantes, créatives & « Born Global ». “La qualité, c'est de la quantité assimilée”. Léon-Paul Fargue L
  • 3. 3 Big Data Une nouvelle révolution industrielle ? Sommaire Sommaire n° 112 - Big Data Analyses 5 Qu'est-ce que le Big Data ? u Matthias Fille 8 La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois u François Bourdoncle 12 La structuration du secteur du Big Data français : le projet Alliance Big Data u Charles Huot 15 Les initiatives gouvernementales en matière d’Open Data : la mission Etalab u Laure Lucchesi 18 De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data u Adrien Schmidt 22 Les entreprises européennes sont-elles matures pour le Big Data ? u Hichem Dhrif Le marché du Big Data aux États-Unis : trois startups, trois regards 25 Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley u Raphaël Guillemot 29 S’implanter à Kansas City : le choix décalé d’une startup française u Rachel Delacour 33 Le Techstars de New-York : un « accélérateur » de startups u Alexandre Winter Exemples d’applications sectorielles du Big Data 37 Le Big Data au service de l’analyse des visuels u Frédéric Jahard 40 Le machine learning appliqué au secteur du e-commerce u David Bessis 43 Les apports du Big Data à la finance u Thanh-Long Huynh 46 Optimiser la performance énergétique des processus industriels grâce à la data u Arnaud Legrand 49 Big Data et santé : enjeux nationaux et illustrations empiriques de l’étranger u Matthias Fille 54 Pour aller plus loin ... /...
  • 4. L’interview ! 56 Questions à... Florian Douetteau, Chief Executive Officer de Dataiku En Pratique 61 Les entreprises face aux risques du Big Data - Les enjeux sécuritaires u Christian Aghroum 65 « Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data u Josiane Gain 68 La formation de Data Scientist, un enjeu complexe u Julien Pouget 71 Les perspectives technologiques du Big Data u Nicolas Liochon Zoom sur... 73 Cinq conseils pratiques pour gérer au mieux ses paiements en devises u Cyril Léger 76 L’essentiel - résumés des articles Big Data Une nouvelle révolution industrielle ? Sommaire (suite) ... /...
  • 5. 5Qu'est-ce que le Big Data ? nécessitait de nouvelles architectures techniques. Face à ces enjeux, les approches traditionnelles de la gestion de bases de données relationnelles 2 , issues de l’informatique décisionnelle et de l’ingénierie statistique, étaient techniquement révolues. Elles ne permettaient plus d’interroger ces données par requêtes. De plus, les données non structurées (qui s’opposent aux données chiffrées ou transaction- nelles) sont venues perturber ces technologies de traitement traditionnel. Les calculs algorithmiques n’étaient pas assez parallélisés et distribués pour garantir une puissance de calcul d’interrogation suf- fisante. Ainsi, Google et Yahoo !, confrontés à ces probléma- tiques au début des années 2000, ont théorisé une nouvelle architecture de traitement analytique de l’in- formation. Elle s’appuie sur du traitement déporté, permettant de stocker et manipuler des bases de don- nées NoSQL 3 . Ce standard repose sur le déploiement des calculs sur un grand nombre de machines. Cette dynamique, conjuguée aux capacités de stockage, d’agilité et de calcul du cloud computing (pour gérer AnalysesEnpratiqueL’interview!Zoomsur... Les données s’abattent à rythme exponentiel sur les organisations. Les nouveaux systèmes d’informations, la mise à disposition d’outils numériques, les vecteurs d’expression, les systèmes de paiement et l’ouverture de multiples bases de données publiques et privées génèrent chaque jour des afflux soudains de milliards d’informations. De plus, chaque acteur (particulier, administration, organisation, entreprise, groupement communautaire) se fait lui-même, directement, pro- ducteur de nouveaux corpus d’informations non ou semi-structurés : données personnelles, applications géolocalisées (avec une dimension temporelle), conversations sur réseaux sociaux, évènements, contenus dématérialisés, photos, microblogs, etc. De surcroît, sur la dimension « passive », les communi- cations issues de la multiplicité des objets communicants numériques (Internet des objets, com- munication M2M, capteurs, sondes, RFID) génèrent de la donnée à grande échelle. En soi, ce déluge de données était prévisible au regard de la dynamique technologique existante. Mais requêter dessus s’avérait beaucoup plus complexe et Qu'est-ce que le Big Data ? e Big Data s’impose comme le concept contemporain incontournable dont chacun s’accorde à dire qu’il va révo- lutionner la manière de travailler de beaucoup d’entreprises. Mais il est complexe et difficile de lever l’opacité sur ce buzzword. Entre circonspection, prosélytisme, promesses opéra- tionnelles, fantasmes vertigineux et apports concrets, il n’est pas facile d’y voir clair pour les néophytes. Ainsi, les études de McKinsey et du Harvard Business Review nous assurent que la profession de Data Scientist sera l’eldorado de l’emploi « le plus sexy du 21ème siècle » et que le marché natif de ces technologies (les États-Unis) connaîtra une croissance supplémentaire de 1,7 % d’ici 2020 en s’appuyant sur le Big Data : ce dernier fera partie des cinq secteurs phare de la croissance américaine. Côté français, l’AFDEL 1 estime que le Big Data pourrait générer 2,8 milliards d’euros et 10 000 emplois directs, si les conditions d’un écosystème vertueux étaient déployées. Tous les early adopters s’accordent à dire que les possibilités d’usages qui en découlent ne se limitent pas à une simple révolution numérique mais posent les fondations d’une 3ème révolution industrielle, où le nouvel or noir à raffiner serait la donnée. L Matthias Fille mfille@cci-paris-idf.fr Matthias Fille est conseiller en développement de la filière TIC à la CCI Paris Ile-de-France. À ce titre, il s’intéresse tout particulièrement à l’écosystème du Big Data et de l’Analytics et aux startups qui le composent. L’émergence de cette filière, les initiatives et plans d’aide initiés par les pouvoirs publics et associations professionnelles retiennent également son attention. (1) Association Française des Éditeurs de Logiciels et Solutions internet. (2) Langage SQL, jusque-là le standard traditionnel. (3) NoSQL désigne une catégorie de systèmes de gestion de bases de données qui n'est plus fondée sur l'architecture classique des bases relation- nelles SQL.
  • 6. les pics de puissance de calcul requis), a permis l’avènement du Big Data. Mais avec du recul, la rupture de paradigme ne repose pas sur ces nouvelles architectures et ce prisme technique. Ceux-ci ne sont « que » des exten- sions et innovations incrémentales. En d’autres termes, ces nouvelles architectures sont de nouveaux outils de production amenés à affiner la matière première : la donnée. Le Big Data n’est que la com- posante informatique de la révolution de la donnée et d’une nouvelle compréhension de son écosystème. Ainsi, il faut davantage chercher les gisements d’inno- vation dans les nouveaux modèles économiques et de relation client à inventer, pour aller chercher la per- formance économique et capter la valeur. En effet, la valeur et le rapport à la donnée bouleversent, par exemple, les perceptions, l’interaction ou la connais- sance clientèle que peut avoir une entreprise. Côté marché, les analystes de Gartner ont estimé que l’application des technologies du Big Data représen- tait un marché de l’ordre de 36 milliards de dollars en 2013, contre 28 milliards en 2012. Sans surprise, les fonds de capital-risque se multiplient et se spé- cialisent sur cette thématique. Ainsi, aux États-Unis, sur le seul 1er semestre 2013 4 , les entreprises ont levé au total 1,28 milliard de dollars. Ceci est à mettre en comparaison avec les 4,9 milliards de dollars cumulés entre 2008 et 2012. Sur ce créneau, on retrouve les Venture Capital tradi- tionnels comme Sequoia Capital, Igition Partners, New Enterprise Associate, IA Ventures, Andreessen Horowitz, Khosla Ventures et MDV-Mohr Davidow Ventures. Traduisant cet engouement, des fonds dédiés se position- nent exclusivement sur cet axe : Accel Big Data Fund, Data Collective ou encore Big data Boston Ventures. Ce mouvement s’accorde avec l’accélération de rachats de jeunes startups disruptives, observée aux États-Unis en 2013 5 . En avril 2014, Intel a investi 740 millions de dollars dans Cloudera, qui venait d’an- noncer une levée de 160 millions de dollars quelques jours auparavant ! Cette levée de fonds valorise la startup fondée en 2008, qui devrait bientôt s'intro- duire en bourse, à plus de 4 milliards de dollars. Dès lors, tout un écosystème s’est créé autour de la gestion de données : des fournisseurs technologiques qui ont développé une offre variée autour des technologies Hadoop 6 , aux utilisateurs finaux de ces architectures et solutions (ETI, institutionnels et grandes entreprises) qui cherchent à construire un avantage concurrentiel sur l’exploitation de leurs don- nées, en passant par des entreprises spécialistes de la valorisation et création de la donnée (startups). Que ce soit aux États-Unis ou en Europe, on observe le même phénomène d’émergence d’acteurs. D’un côté, ceux qui se spécialisent sur la fourniture d’équipements ou qui offrent des outils d’adoption et de prise en mains des technologies Big Data. De l’autre, ceux qui se position- nent sur les usages et l’analyse de données. Sur ce dernier point, cela se traduit par la mise en relief de solu- tions métier exploitables par des opérationnels, qui sont certes conscients de l’en- jeu de la statistique, mais néophytes en la matière. Intégrer une couche additionnelle d’applications métiers s’avérera incontournable pour que de nou- veaux acteurs se frayent une place sur l’échiquier des usages de demain. Au niveau organisationnel, le Big Data change le mode d’organisation intra-entreprise. En effet, le succès d’une démarche Big Data repose sur son universalité, sa pluridisciplinarité et sa transversalité. Elle « casse » les silos entre services, ce qui a des conséquences lourdes sur l’urbanisation des systèmes d’information, car les leviers de prise de décisions se doivent d’être en temps réel : les démarches et déci- Accomex n° 112 - Big Data6 (4) Source : CB Insights, août 2013. (5) Voir infographie page suivante : « Big Data acquisitions: per month and who acquired whom » (6) Hadoop est une architecture spécifique open source de bases de données, permettant de traiter en grand nombre tous types de données (y compris les données non structurées) sur un mode non-relationnel (les données ne sont pas triées en fonction de leurs relations entre elles). Elle constitue en quelque sorte la librairie à partir de laquelle pourront être effectués des calculs parallèles (via MapReduce). Tableau 1 Levées de fonds cumulées à fin 2013 (millions de $) Source : Crunchbase API. Entreprises Montant levé VMware 369 Palantir Technologies 343 MongoDB, Inc. 231 DataStax 167 Cloudera 141 Domo 123 Fusion-io 112 The Climate Corporation 109 Pivotal 105 Talend 102 “ Le succès d’une démarche Big Data repose sur son universalité, sa pluridisciplinarité et sa transversalité”.
  • 7. sions sont guidées par la data (« data-centric »). Par conséquent, ce nouveau socle technologique, ainsi que les données que ce dernier exploite, sont devenus fondamentaux dans la refonte des processus de déci- sion. La magnitude d’impact pour appréhender le phénomène sera dès lors d’ordre économique, mana- gérial et organisationnel. Désormais, tous les secteurs sont impactés par le paradigme et la démarche du « data-driven » : santé, télécommunications, assurance, e-commerce, recrute- ment, distribution et optimisation énergétique, etc. À titre d’exemple, on détecte immédiatement l’appé- tence du marketing à s’approprier l’analyse de données, dans le but d’affiner des données comporte- mentales, comprendre le consommateur et son expérience utilisateur, prédire des attentes et propen- sions d’achat, etc. Or, force est de constater qu’à ce jour, la discipline du marketing s’appuie majoritairement sur des logiques de moyennes, d’échantillons et de segments, somme toute assez réductrices. En effet, les grilles de lecture basées sur une logique d’analyse par gamme, canal et silos (entrepôts de données) ne sont plus adaptées. Les effets conjugués de flux de données externes impactantes et la complexité à les synchroniser en temps réel échappent complètement au data mining et à la business intelligence traditionnels, quand bien même ces données sont les nouveaux leviers de différentiation et de création de valeur. Il est donc essentiel d’initier ce type de philosophie « data driven » au plus haut niveau de l’entreprise (les directions générales et les boards), car la data, ce nouvel actif stratégique, influera de façon certaine sur la stratégie globale de l’entité. 7Qu'est-ce que le Big Data ? AnalysesEnpratiqueL’interview!Zoomsur... Source : http://www.bigdata-startups.com
  • 8. Accomex n° 112 - Big Data8 La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois ous avons dépassé le simple prisme technologique du Big Data. S’attarder sur la primauté technologique est une illusion : le Big Data est désormais un enjeu de business transformation. Il faut l’appréhender par les impacts qu’il va avoir, ce qui aura le mérite d’exclure la vacuité de certains débats ambiants… Le centre de gravité du débat ne sera plus axé sur la masse de données (à partir de quel montant de masses de données peut-on considérer que l’on fait du Big Data ?) ou sur les enjeux techniques d’optimisation organisa- tionnelle, mais sur d’autres phénomènes tels que les enjeux de conception de produits, de nouveaux modèles d’affaires, d’organisation client et de gamme de produits. Sur la phase de développement des infrastructures et des solutions technologiques sous-jacentes, le terrain est balisé et l’on pourrait aisément dire : « Les dés sont déjà lancés, que le meilleur gagne ! ». Par conséquent, la bataille n’est plus sur l’infrastructure, mais bien sur les usages, sur le développement de nouveaux modèles économiques et sur les déclinaisons verticales. En matière de Big Data, il s’agit maintenant de passer du « comment ? » au « quoi ? » et au « pour quoi ? ». N François Bourdoncle @fbourdoncle François Bourdoncle est le cofondateur et actuel Directeur Technique d'Exalead, aujourd'hui filiale de Dassault Systèmes. Il est membre de la Commission Lauvergeon « Innovation 2030 », qui a remis son rapport à François Hollande en octobre 2013. F. Bourdoncle est également co-pilote (avec Paul Hermelin, PDG de Capgemini) du Plan d’action Big Data, qui compte parmi les 34 grands projets de la « Nouvelle France industrielle » du Ministère du Redressement Productif 1 . (1) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle À mes yeux, la vraie création de valeur réside dans des entreprises comme Withings ou Criteo, car celles-ci reposent sur un business model complètement intégré verticalement, qui crée, capte, analyse, valorise et monétise de la data. Pour faire de l'innovation intelli- gente, il faut placer au même endroit les données que l’on fabrique et celles que l’on recueille. La France a l’opportunité de se frayer un chemin sur l’échiquier mondial des usages, là où tout n’est finalement pas encore bien défini. Mais l’Hexagone doit composer avec son marché, qui n’a pas la taille du marché américain, ni la même capacité d’investissement. LE BIG DATA : UN ÉCOSYSTÈME PLUS QU’UNE FILIÈRE En tant que chefs de file de ce « chantier », avec Paul Hermelin, nous avons donc identifié les leviers que les pouvoirs publics peuvent actionner pour favoriser l’émergence d’un écosystème français du Big Data exportateur et créateur d’emplois. C’est avant tout un objectif économique, académique et industriel. Nous voulons rendre le terrain français fertile pour l’ensem- ble de l’écosystème Big Data, en « changeant le PH de l’aquarium ». Concernant le mode opératoire, l’ambi- tion de nos travaux n’est pas de bâtir une nouvelle filière industrielle au sens classique du terme, comme cela peut être le cas à titre d’exemple pour le plan « Avion électrique ». En effet, le Big Data est plus un écosystème qu’une filière au sens traditionnel du terme, car il n’a pas vocation à déboucher sur un produit industriel précis. Le Big Data est quelque chose de beaucoup plus écosystémique et horizontal, parce qu’il irrigue tous les secteurs. Le Big Data est donc un enjeu critique pour tous les secteurs de l’industrie et des services, notamment ceux qui n’ont pas encore été fortement impactés par la révolution numérique. Il ne faut pas que nos grands groupes ignorent cette révolution, comme cela a été le cas pour le commerce de proximité, la presse, l’indus- trie du disque ou, bientôt, la télévision et le cinéma, car le Big Data va être le moyen par lequel la révolu- tion numérique va s’inviter sur des secteurs qui n’étaient pas concernés à ce jour ; il faut éviter que ne se reproduise l’aveuglement de ces secteurs au sein
  • 9. 9La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois AnalysesEnpratiqueL’interview!Zoomsur... desquels les acteurs n’ont pas voulu appréhender la révolution numérique jusqu’à ce qu’elle devienne irréversible. SE RÉINVENTER POUR FAIRE FACE AUX PURE PLAYERS DU NUMÉRIQUE Le déni de réalité est à éviter : il correspond à une forme de défense extrêmement dangereuse. Le « jusque-là tout va bien » est également à éviter, car à vouloir refuser de se challenger sur son propre business model, de nombreux acteurs courent le risque de la désintermédiation par des pure players de la data comme le GAFA 2 , IBM, LinkedIn, ce que j’appelle les « barbares modernes 3 ». En effet, le succès de l’innovation orientée grand public de ces quinze dernières années (Internet, moteurs de recherche, téléphonie mobile, réseaux sociaux, etc.) confère à ces pure players un accès direct au grand public et à ses données. Cette connaissance de la relation client est leur outil pour se positionner dans tous les domaines. Comme le démontre l’actualité récente 4 , ces spécialistes de la data regardent les déclinaisons possibles dans d’autres secteurs traditionnels. Ainsi, le risque pour les grands groupes établis est lié à la menace que ces « barbares » s’imposent partout où il y a de l'ineffica- cité dans la relation clients : l'assurance, la santé, le crédit, le marché de l’électricité, les opérateurs de télécommunications, etc. Prenons une illustration dans le domaine de l’assu- rance : Avec Android sur votre terminal, Google dispose de votre géolocalisation et accéléro- mètre. Il connait votre mode de vie, type de conduite, oisiveté, mobilité, vos préférences, etc. En mixant ces datas et en faisant travailler un arsenal algo- rithmique, les pure players seront en mesure de proposer une offre assu- rantielle moins chère, granulaire, extrêmement sophis- tiquée quant au profil de risque d’un individu lambda. Puis ils capteront la valeur des bons clients, ceux dont la probabilité de sinistralité est faible. Ces nouveaux acteurs réinstaureront dès lors une nouvelle forme d’intermédiation. Or, qui dit intermé- diation, dit également sous-traitance et érosion des marges. Ces pure players du numérique auront la capacité d’imposer un diktat aux Brick and Mortar (acteurs traditionnels) et de les reléguer à un simple rôle d’opérateurs et de prestataires techniques inter- changeables. Ces derniers se verront confisquer la relation client, qui représente la grosse partie de la valeur de leurs activités ; celle-ci ne sera plus captée par celui qui détient la technicité de l'objet industriel, mais par celui qui détient la technicité de l'optimisa- tion de l'objet ou de la relation client grâce aux technologies du Big Data. Les entreprises françaises doivent absolument réinventer leurs services clients ou, à défaut, les exécuter mieux que les autres, d’au- tant qu’il y a une vraie demande de produits personnalisés dans ces domaines. Trop d’industries comme le crédit, l’assurance et la finance se sentent protégés, se considérant à la pointe avec leurs outils informatiques. Cela est illusoire. L’informatique pur n’est qu’un outil de production et de productivité, il n’a pas d’impact sur le business model et sur sa transformation. À cet égard, le capitalisme français a un problème : il est beaucoup trop dans l'entre-soi et la courtoisie. Plutôt que de subir cette 3ème révolution numérique, il faut anticiper sa dyna- mique et ses enjeux. Cette ouverture culturelle et l’acceptation de la compréhension de la désintermé- diation numérique sont critiques pour changer les logiciels de pensée. FAVORISER LA COLLABORATION ENTRE LES GRANDS GROUPES ET LES STARTUPS En conséquence, l’une des priorités est d’inciter les grandes entreprises françaises, aujourd’hui en retard sur leurs homologues américaines, à lancer des projets à grande échelle d’exploitation des données. Pour ce faire, dans le cadre de notre chantier, nous travaillons sur plusieurs pistes avec les grands groupes. Il s’agit d’abord d’annihiler jus- tement ce déni de réalité, puis de valoriser l’innovation ouverte. Il est aujourd’hui absolument vital, pour les grands groupes, de collaborer avec des startups : jusqu'à présent, la ten- dance était plutôt de les racheter pour les « tuer » avant qu'elles ne puissent devenir des concurrentes. Nous devons favoriser l’interaction vertueuse du tan- dem grands groupes (utilisatrices) et startups du Big Data (techno providers). Idéalement, il faudrait que les grands groupes payent trois fois ! Financer les startups en capital-risque, les aider à grandir (logique business) et les racheter au moment opportun. Sans cela, ces acteurs en herbe que sont les startups ont peu de chance de grandir, de démontrer la scalabilité de leur projet et de trouver les forces de s’attaquer à l’export pour contrer l’étroitesse et l’« aversion cultu- (2) GAFA : acronyme pour désigner Google, Amazon, Facebook et Apple. (3) Cf. Interview de François Bourdoncle dans Challenges, 20 janvier 2014. (4) Acquisitions récentes de Google dans le domaine de l’assurance et de la maison intelligente connectée ; investissement de 250 millions de dollars sur Uber, compagnie de VTC.
  • 10. Accomex n° 112 - Big Data10 relle IT » de notre marché intérieur. L’effet de levier de cette mesure est double et convergeant pour ces deux typologies d’acteurs. CHANGER LA PERCEPTION DE L’INNOVATION FRANÇAISE J’ai l’obsession de changer la perception de l’innova- tion française. Comme chacun le sait, la R&D est généreusement financée par de nombreux véhicules de financement publics (FUI, Crédit d’Impôt Recherche, etc.). Il faut s’en féliciter. Mais au regard des investissements publics consentis, l’effet produit est trop minime. La R&D est trop peu impactante pour changer « les règles du jeu » et créer de la valeur. Au-delà de la dimension exploratoire des projets de R&D, les PME et startups ne doivent pas oublier qu’il leur faut un marché. D’où notre volonté de tirer l’éco- système par l’aval, en créant le marché. Il s’agit de stimuler les projets et les preuves de concept côté demandeurs. Nous serons ainsi confortés sur l’exis- tence potentielle d’un marché, l’expérimentation de ces projets par les grands groupes, l’aide aux PME et leur besoin de scalabilité de projets. Les PME ont davantage besoin d’un carnet de commande étoffé que de subventions (côte offre, en amont). Cette logique aura un effet de levier maximal : créer le mar- ché plutôt que l’offre, et réduire le time-to-market de nos startups. Avec le récent lancement de la plate-forme TeraLab 5 , les entreprises et chercheurs disposeront d’un environnement de recherche et d’expérimentation (briques technologiques, ressources de calcul grande échelle). Pour ce faire, il est essentiel que cette struc- ture recense les « bonnes volontés » en matière de mise à disposition de données de la part des entre- prises. FAIRE ÉVOLUER LE VOLET RÉGLEMENTAIRE FRANÇAIS Tout comme le logiciel de pensée, le volet réglemen- taire français doit évoluer. Sur le premier aspect, il faut permettre aux usages de s’installer, de s’expéri- menter. Concernant le volet réglementaire, nous pouvons être fiers d'avoir exporté notre modèle de la loi Informatique et Libertés au niveau européen. Mais cette loi comporte un biais : la finalité initiale de la col- lecte des données personnelles est « gravée dans le marbre » ; on ne peut pas la faire évoluer lors d’utilisa- tions ultérieures. Or le Big Data, en mouvement permanent, ne peut s’en satisfaire : la déferlante va faire craquer cette loi, c'est inévitable. Il s’agit donc de refondre le volet législatif en matière de réutilisation des données, afin de faciliter, sans lever toute forme de contrôle, l’usage des données. Ainsi, il faut pouvoir expérimenter avant de légiférer, et déplacer l’équilibre en faveur de l’innovation. À cet égard, il est illusoire de croire que s’interdire le droit d’expérimenter sur l’utilisation innovante des données serait un garde-fou contre les dérives potentielles. Ce principe d’audace, d’action et d’expérimentation doit pouvoir rééquilibrer le rapport de force avec notre « sacro-saint » principe de précaution inscrit dans la constitution française. Les usages innovants et disruptifs comportent une part de risque, de sorte qu’avant que la CNIL n’em- pêche d’expérimenter, nous devons appréhender ces usages, sectoriellement et de manière jurispruden- tielle. Or, actuellement, l’utilisateur des données doit respecter l’usage intentionnel pour lequel les données ont été collectées… Nous pourrions remplacer le prin- cipe d’intentionnalité par celui de réciprocité, passer d’une logique déclarative à une logique d’adhésion, grâce à la rédaction d’une charte d’adhésion à des valeurs de base, par secteur, avec sanction s’il y a un non-respect de la vie privée. L’ÉTAT COMME LOCOMOTIVE D’EXPÉRIMENTATION Il faut également observer l’évolution des usages et procéder systématiquement à une étude d’impact économique avant de légiférer « défensivement et mécaniquement ». Les entreprises ont besoin de ce gage de sécurité, tout comme elles ont besoin de stabilité fiscale. Sans ce droit à l’expérimentation, mis en avant par le rapport de la Commission Lauvergeon, il sera très difficile de faire émerger une filière Big Data dans notre pays. C’est de l’action et de l’expérimentation que naitront la réflexion et les usages, et non pas l’inverse. Mais comme toute révolution industrielle, l’entrée de notre civilisation dans l’ère du « tout numérique » ne se résume pas à ses risques potentiels ; et la crispation légitime sur la protection de la vie privée ne doit pas masquer les fantastiques enjeux économiques et citoyens que représente le traitement intelligent des données massives. À ce titre, l’État se doit d’être une locomotive d’expéri- mentation, d’autant que, comme pour les entreprises, les enjeux sont considérables (gestion des res- sources, des infrastructures, de l’énergie, des transports, du marché de l’emploi, des finances publiques, etc.). (5) Centre de ressources technologiques destiné à des projets de recherche, d’innovation et de prototypage dédiés aux Big Data, lancé par l’Institut Mines-Télécom et le Groupe des Écoles Nationales d’Économie et de Statistique (GENES).
  • 11. 11 AnalysesEnpratiqueL’interview!Zoomsur... Il doit aussi montrer l’exemple sur des thèmes comme les data dans la santé, les données de la CNAM étant un fabuleux gisement de création de valeur avec de nouvelles applications et une nouvelle façon de concevoir les parcours de soins : passer d’une démarche curative à une logique préventive grâce au suivi et à une analyse en temps réel. Il en va de même dans l’évaluation et le pilotage des politiques d’action publiques. À l’heure où le niveau de défiance des citoyens vis-à-vis de la classe politique est le plus élevé de l’OCDE, voilà une formidable opportunité de recentrer le citoyen au cœur du débat sociétal et d’ac- croître le niveau d’exigence des citoyens sur l’exécutif central et les collectivités. DES ATOUTS QUE LA FRANCE SE DOIT D’EXPLOITER À titre conclusif, je dirais, d’une part, que nous ne sommes pas en retard et que, d’autre part, nous disposons de nombreux atouts, comme par exemple des ingénieurs généralistes de haut niveau, formés à l’informatique, aux mathématiques et aux statis- tiques, qui sont très largement plébiscités au niveau international, à commencer par la City et Wall Street. Ne serait-il pas plus vertueux de leur permettre de réussir en France en aidant nos entreprises à déployer le Big Data à grande échelle, en créant de nouveaux business model, en réinventant la relation client par la donnée ? Comme je l’ai évoqué, nous avons également la chance d’avoir quelques très belles success stories, comme Critéo ou Withings, l’un des leaders mondiaux de l’« Internet des Objets ». Véritable pourvoyeur de données dans le futur, cet « Internet des Objets », justement, va complètement révolutionner la manière dont les produits sont conçus et commercialisés, ainsi que la manière dont l’innovation va se nourrir de l’exploitation du suivi des produits en condition opéra- tionnelle. Espérons que les dossiers Big Data prochainement financés dans le cadre du « Concours Mondial de l’Innovation 2030 » accouchent de futures pépites ! Mais nous avons actuellement trop peu de champions numériques, ces « modernes » comme nous les appelons. J’ai en outre l’ambition de faire entrer les « anciens » (nos grands groupes) dans l’ère de cette 3ème révolution numérique. La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois
  • 12. La structuration du secteur du Big Data français : le projet Alliance Big Data l’EGE, le SFIB, le CEA List, l’INRIA, pour n’en citer que quelques-uns, ont également rejoint l’Alliance. Plus concrètement, les principaux objectifs de l’Alliance Big Data sont de : è rassembler les connaissances, expériences et technologies du Big Data et de les valoriser par une diffusion multicanal, è fédérer les associations, les offreurs de solutions et les utilisateurs pour construire une vision commune du Big Data et, à terme, englober d’autres tendances du numérique, è développer des dossiers thématiques en coordon- nant les associations, les sponsors/offreurs et les utilisateurs, è donner de la visibilité aux offreurs de solutions, è offrir un lieu de dialogues et d’échanges aux utilisa- teurs en leur donnant la possibilité de s’exprimer, de partager leurs expériences, d’améliorer leurs connais- sances du domaine. L’Alliance Big Data réunit à ce jour 5 000 membres, dont de grandes organisations avec chacune sa L’Alliance Big Data a été confortée par les récents travaux de la Commission Lauvergeon et les 34 plans industriels de la Nouvelle France Industrielle 2 du Ministère du redressement Productif, qui ont érigé le Big Data comme chantier prioritaire. Ces initiatives sous-entendent un besoin de structurer et d’ouvrir l’écosystème français. L’Alliance, par ses travaux, sa communication, ses livres blancs, œuvre dans ce sens. Elle peut être considérée comme un Do Tank de l’écosystème Big Data, qui vient en complément des réflexions menées par la Commission Big Data de l’AFDEL et l’ambitieux Plan Big Data présenté par le gouvernement. L’Alliance Big Data a été lancée en début d’année 2013. Elle constitue un carrefour unique d’acteurs industriels, services publics, associations profession- nelles, universités et laboratoires représentatifs du Big Data. Les composantes d’innovation et de business (Cap Digital), de contenants et outils docu- mentaires (Aproged), de gestion contenus (GFII), de transaction dématérialisée (APECA), d’enseignement, recherche et innovation (Mines-Télécom) et d’utilisa- teurs (ADBS) y sont représentés. L’ADETEM, le Cigref, e Big Data est un secteur à forte création de valeur. L’amplitude de choc, les secteurs impactés, les business model traditionnels « challengés » et toutes les applications qui en découleront ne sont, à ce jour, pas tous identifiés. À ce titre, il était important de créer une communauté d’échanges. La « ligne éditoriale » de l’Alliance Big Data est donc de fédérer des acteurs, construire une vision commune, partager des expé- riences et, in fine, de favoriser le développement et la mise en lumière de nouveaux services et applications. L’Alliance a également pour objectif d’expliquer à la communauté, que ce soit des citoyens, des politiques ou des industriels, ce qu’est le Big Data : pourquoi ce terme ? Comment en est-on arrivé là ? Quels sont les enjeux stratégiques en termes de développement économique, d’emplois, de compétitivité ? L’enjeu du Big Data pour la France est essentiel ; il néces- site la structuration de son écosystème, afin que la France trouve une place ambitieuse sur l’échiquier de la data et de cette révolution numérique. L Charles Huot contact@temis.fr Charles Huot a passé 10 ans chez IBM en tant que direc- teur international des ventes pour les logiciels de Text Mining. Co-fondateur de l’entreprise TEMIS, il en est également aujourd’hui le directeur général délégué en charge du développement stratégique et de l'innovation. À ce titre, il représente TEMIS auprès des industriels de son secteur et d'instances françaises et européennes. Charles Hulot est également Président du Comité Édito- rial du portail Alliance Big Data 1 . (1) http://www.alliancebigdata.com ; @AllianceBigData (2) http://www.redressement-productif.gouv.fr/nouvelle-france-industrielle 12 Accomex n° 112 - Big Data
  • 13. propre préoccupation en matière de collecte, de traitement, de visualisation, d’analyse des données. Elle fédère de multiples institutions autour de la thématique Big Data et travaille à l’homogénéisation d’un discours sur le sujet : celui-ci n’est pas que l’af- faire des spécialistes de logiciels, sa diffusion est cross-channel et impacte tous les secteurs. La philosophie de l’Alliance n’est pas de se cloisonner entre « gens du sérail », entre pure players et techno- providers de solutions Big Data ; au contraire, elle se calque sur la dynamique du Big Data, qui synchronise, casse les vases clos et impacte toute une chaîne de valeurs. C’est pourquoi, l’espace est ouvert aux personnes ayant une sensibilité intellectuelle pour le sujet et à celles pour lesquelles cela peut représenter un enjeu et une vraie rupture de paradigme dans les métiers et secteurs (les verticaux). L’arrivée continue de nouveaux partenaires per- met d’élargir les horizons de réflexion de l’Alliance Big Data, de croiser les domaines de compétences et d’exper- tise. En fédérant des acteurs répartis sur l’ensemble de la chaîne de valeur, l’Alliance a mis en forme un continuum qui pourrait difficilement être dupliqué dans une association ou une entreprise classique. En termes de communication, l’Alliance dispose bien entendu d’un site web 3 et, comme le mouvement est par essence collaboratif, met à disposition, via son partenaire Jampespot, un réseau social de partage 4 et de mise en lumière d’expériences et de réalisa- tions. Une Big Data TV 5 complète ce dispositif. Plus récemment, des partenaires médias ont manifesté leur intérêt pour la démarche : 01 Business et Veille Magazine. Enfin, des sponsors viennent apporter leur soutien au développement de l’Alliance Big Data : Exalead, Capgemini, GDF SUEZ et Jamespot. En ce qui concerne les évènements notoires de la communauté, l’Alliance a organisé le Big Data Day dans le cadre du FAN 6 2013 de l’Aproged, le 14 novembre 2013. À cette occasion, se sont succé- dés conférences-débats, plateaux TV et décryptages des challenges concernant la problématique du Big Data. Cette mobilisation collective favorise la dyna- mique et la variété des thématiques traitées, ainsi que la richesse des compétences réunies entre les anima- teurs et les intervenants. En termes de livrables et de dossiers thématiques, l’Alliance a axé ses premiers travaux sur la rédaction d’une Charte Éthique & Big Data. Étant données la criticité et les nouvelles problématiques soulevées par les flux de data, cela apparaissait comme un chantier prioritaire. Cette charte énumère les principes directeurs (transparence, usage, rémunération) destinés à garantir le bon usage et la pérennité des données. La rédaction de la Charte a été pilotée par Alain Couillault, secrétaire de l’APIL et mem- bre de l’Aproged. La multiplicité de regards des contributeurs a abouti à faire émerger quatre volets : la description des don- nées, la traçabilité, la propriété intellectuelle et les réglementations spécifiques à la nature des données traitées. Ce socle éthique contribue à harmoniser les rapports entre producteurs, fournisseurs et utilisa- teurs de données sur le plan du respect des lois, de celui de l'éthique, et à garantir la confiance dans les rapports entre l'ensemble des acteurs impliqués. Cette charte constitue un recueil de bonnes pratiques en matière de traçabilité et d’exploitation des don- nées, et un guide pratique pour savoir comment traiter les données. (3) http://www.alliancebigdata.com (4) http://alliancebigdata.jamespot.pro (5) http://www.youtube.com/channel/UCUFUuT-s9mlAuak-SAI6kvg (6) Forum des Acteurs du Numérique. Glossaire Aproged : Association des professionnels pour l’économie numérique (http://www.aproged.org) AFDEL : Association Française des Éditeurs de Logiciels et Solutions Internet (http://www.afdel.fr) GFII : Groupement Français de l’Industrie de l’Information (http://www.gfii.fr/fr) APECA : Association de la Maîtrise et de la Valorisation des Contenus ADBS : Association des professionnels de l’information et de la documentation (http://www.adbs.fr) ADETEM : Association nationale des professionnels du marketing (http://www.adetem.org) Cigref : Réseau de Grandes Entreprises (http://www.cigref.fr) EGE : École de Guerre Économique (http://www.ege.fr) SFIB : Syndicat de l’industrie des technologies de l’information (http://www.sfib.org) CEA List, Systèmes numériques intelligents http://www-list.cea.fr INRIA, Inventeurs du monde numérique (http://www.inria.fr) APIL : Association des Professionnels des Industries de la Langue (fusionnée avec l’Aproged) Zoomsur...L’interview!EnpratiqueAnalyses La structuration du secteur du Big Data français : le projet Alliance Big Data 13
  • 14. L’Alliance Big Data travaille également à l’extension de son réseau social à un réseau social européen. Beaucoup de partenaires, tel Cap Digital, ont d’ail- leurs des liens avec des clusters technologiques à travers l’Europe. Beaucoup d’intégrateurs, tel Capgemini, sont prêts à sponsoriser un réseau d’excellence européen sur le sujet, spécialement sur le thème épineux de la formation au traitement de données et aux nouveaux métiers de l’information. L’Alliance entretient également des échanges d’expé- riences avec la britannique Open Data Center Alliance. En 2014, elle poursuivra les chantiers entrepris et cherchera à développer les grands domaines émer- gents dans le Big Data comme la formation, la R&D, l’Industrie, les objets intelligents. Elle com- mence aussi à se positionner sur des chantiers verticaux comme la santé, l’assurance, les transports et la mobilité, car tous ces secteurs ont un dénomi- nateur commun : la data. L’objectif aujourd’hui est d’étendre l’Alliance et de toucher un maximum de personnes concernées par le Big Data. TEMIS TEMIS a été fondé il y a 13 ans. L’entreprise est membre du pôle de compétitivité Cap Digital 7 depuis sa création. Son cœur d’activité est la vente de logiciels dans le domaine de l’analyse automatique de textes dans le monde (filiale à New York, en Allemagne et au Canada). TEMIS est le leader français des logiciels d’enrichissement sémantique des contenus : il extrait les métadonnées des contenus non struc- turés afin d’optimiser les processus de recherche, d’exploration et d’analyse de contenu. Pour en savoir plus : contact@temis.fr ; http://www.temis.com/fr (7) Créé en 2006, Cap Digital est le pôle de compétitivité des industries des services et contenus numériques. Il a pour objectif de faire de la Région Île-de-France l’une des références mondiales du numérique (http://www.capdigital.com). 14 Accomex n° 112 - Big Data
  • 15. 15 AnalysesEnpratiqueL’interview!Zoomsur... Les initiatives gouvernementales en matière d’Open Data : la mission Etalab Quels sont les objectifs qui portent et structurent le projet Etalab ? 1 Au sein du Secrétariat Général pour la Modernisation de l’Action Publique (SGMAP), la mission Etalab est chargée de soutenir l’ouverture et le partage des don- nées publiques (Open Data) au service de la transparence, de l’efficacité de l’action publique et du développement économique. Elle poursuit cet objectif conformément à la feuille de route du gouvernement en matière d’ouverture et de partage des données publiques définie en février 2013, ainsi qu’au principe général de réutilisation 2 libre, facile et gratuite, en mettant l'accent sur les données à fort impact socié- tal (santé, éducation, etc.) et/ou à fort potentiel d’innovation sociale et économique. La mission Etalab est en particulier responsable du développement du portail unique interministériel (http://www.etalab.gouv.fr/) destiné à rassembler et à mettre à disposition librement l’ensemble des infor- mations publiques de l’État, de ses établissements publics administratifs et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public. Elle coordonne l’action des administrations de l’État et apporte son appui à ses établissements publics pour faciliter la réutilisation la plus large possible de leurs informations publiques. Elle s’est en outre engagée dans le processus de coordination interna- tionale des stratégies d’Open Data et de gouvernement ouvert (Open Government). Afin de stimuler l’innovation et les réutilisations, la mission Etalab travaille également à développer et structurer l’écosystème national de l’Open Data : innovateurs, start-ups, partenaires technologiques, chercheurs, etc. Le décret du 31 octobre 2012, créant le Secrétariat Général pour la Modernisation de l’Action Publique, a eu pour conséquence de dissoudre Etalab dans cette nouvelle structure. Cette réorganisation a-t-elle eu des conséquences dans l'approche de l'État quant au partage des données publiques ? Ce rattachement lui a donné plus de résonnance. En intégrant la mission Etalab au SGMAP, le gouverne- ment a constitué une force globale d’innovation, associant la conception des systèmes d’information de l’État, l’ouverture des données publiques, l’évalua- tion des politiques publiques et l’innovation en matière de politiques publiques. Etalab collabore désormais étroitement avec les services chargés de la modernisation de l’action publique. Les initiatives gouvernementales en matière d’Open Data : la mission Etalab “ (1) Propos recueillis par Victor Mourer, chargé d’études à la CCI Paris Ile-de-France. (2) La réutilisation est l’utilisation à d’autres fins que celles de la mission de service public en vue de laquelle les documents ont été élaborés ou sont détenus. Questions à… Laure Lucchesi, Directrice adjointe de la mission Etalab, rattachée au Secrétariat général pour la Modernisation de l’Action Publique
  • 16. Accomex n° 112 - Big Data La modernisation de l’action publique est en effet l’un des enjeux majeurs de la politique d’Open Data : au fur et à mesure de l’ouverture d’une quantité crois- sante de données (et de leur montée en qualité grâce aux interactions avec toute une communauté de contributeurs), elle conduira au renforcement de la puissance publique, à la simplification administrative et à une plus grande efficacité des politiques publiques (mieux objectivées, avec une meilleure allo- cation des moyens engagés, des outils de mesure et de pilotage renforcés, etc.). Onze décisions relatives à l’Open Data ont d’ores et déjà été entérinées lors des trois premiers Comités interministériels pour la modernisation de l'action publique (CIMAP), qui reflètent les synergies créées et la contribution de l’Open Data à la modernisation de l’action publique. En quoi l’ouverture des données publiques peut-elle être bénéfique aux professionnels ? Etalab a-t-il établi des partenariats avec des entreprises du secteur privé ? C’est l’une des promesses de l’Open Data que de sou- tenir l’innovation - économique et sociale - grâce au potentiel de réutilisation des données partagées par l’État. Nous connaissons déjà des centaines d’entre- prises qui utilisent les données publiques et qui ont créé de nombreux emplois. Mais cette promesse ne se limite pas aux réutilisations… L’Open Data, c’est souvent un levier pour un État plus simple et plus efficace, ce qui est aussi une forme importante de soutien aux entreprises. À part les concours dataconnexions, Etalab n’a pas de partenariat spécifique avec les entreprises privées, puisque le principe même de l’Open Data est de permettre librement et gratuitement toutes les innova- tions que les entreprises pourront imaginer à partir de ces données non personnelles. En revanche, dans la nouvelle version du portail data.gouv.fr lancée en décembre 2013, et ouvert à toutes les contributions d’intérêt public, nous propo- sons à la société civile de s’impliquer dans la construction d’un « bien commun informationnel » que représentent les données. Les citoyens, les associa- tions, les entreprises peuvent ainsi consulter mais aussi mettre eux-mêmes à disposition des données d’intérêt général sur le portail. En quoi consiste le programme dataconnexions ? Dans quelle mesure pourrait-il servir de laboratoire aux entreprises françaises pour exporter ces solutions innovantes à l’étranger ? Le programme dataconnexions, qui compte une tren- taine de partenaires dont le groupe La Poste, la SNCF, Orange ou encore Microsoft, permet d’animer une communauté d’acteurs autour de l’Open Data, de favoriser le partage d’expérience et de mettre en valeur des projets qui réutilisent les données publiques et créent ainsi des services innovants. La 4ème édition de ce concours a eu lieu le 4 décembre 2013 et a récompensé 8 lauréats (parmi 65 dossiers reçus), et ce programme se poursuivra en 2014. L’ouverture des données publiques permet de soute- nir l’innovation économique et sociale. Elle participe à diffuser la culture de la donnée au sein des adminis- trations et à développer les stratégies fondées sur la donnée. Ces bénéfices s’appliquent tout autant aux acteurs du secteur privé. De nombreux acteurs ont ainsi d’ores et déjà mis en place des stratégies autour de l’ouverture de leurs données et de l’innovation ouverte. Nous pourrions ajouter que l’administration bénéficie elle-même de la rencontre avec ces innovateurs, qui apportent à ses données de nouveaux points de vue, de nouvelles technologies, voire de nouvelles straté- gies de création de valeur. Existe-t-il des initiatives similaires au projet Etalab dans d’autres pays ? Et si oui, Etalab a-t-il pour projet de coopérer avec d’autres administrations nationales ou internationales en matière d’Open Data ? De nombreux pays ont d’ores et déjà engagé, avec différents niveaux d’avancement, une politique d’Open Data. La France, par l’intermédiaire notamment d’Etalab, est en lien avec cette communauté interna- tionale, avec laquelle elle entretient des échanges réguliers, en travaillant avec ses homologues (Royaume-Uni, États-Unis, pays de la zone Euro- Méditerranée, Liban, Japon notamment), ainsi qu’au travers des instances internationales auxquelles elle participe. Le 18 juin 2013, le Président de la République et les chefs d’État et de gouvernement, réunis au Sommet de Lough Erne, ont ainsi adopté une Charte du G8 pour l’ouverture des données publiques qui marque l’ambition collective des États membres de promou- voir des économies ouvertes, des sociétés ouvertes et des gouvernements ouverts. Le Premier ministre a publié le 7 novembre 2013 le Plan d’action de la France pour la mise en application de cette Charte Open Data du G8 3 . L’Europe est donc un partenaire naturel pour l’Open Data français, même si les coopérations ne sont pas encore fortement établies avec les initiatives les plus récentes. 16 (3) http://www.etalab.gouv.fr/article-les-chefs-d-etat-reunis-a-loughe-erne-signent-une-charte-du-g8-pour-l-ouverture-des-donnees-publique- 118576420.html
  • 17. Les initiatives gouvernementales en matière d’Open Data : la mission Etalab Quelles perspectives peut-on espérer pour l’initiative Etalab ? Une coopération renforcée avec le secteur privé en fait-elle partie ? En 2014, le nouveau site data.gouv.fr poursuivra sa dynamique d’innovation continue. Il s’enrichira en per- manence de nouveaux jeux de données, grâce à une expérience simplifiée de publication pour les acteurs publics. Favorisant le dialogue avec la société civile, ainsi que l’enrichissement et la réutilisation des données, cette plateforme continuera de s’enrichir et d’accueillir des contributions inédites. Elle est le pivot de la politique d’Open Data, qui doit contribuer à renouveler la confiance des citoyens et à stimuler l’inno- vation, tant au sein des administrations que de l’éco- nomie numérique dans son ensemble. Par ailleurs, Etalab a été chargée de coordonner les travaux de transposition de la Directive 2013/37/UE du Parlement européen et du Conseil du 26 juin 2013 modifiant la directive 2003/98/CE concernant la réutilisation des informations du secteur public. Ceux- ci se dérouleront dans l’année à venir, afin de respecter l’échéance de transposition en juillet 2015. Enfin, Etalab continuera à soutenir l’émergence d’un puissant écosystème de l’Open Data, incluant les collectivités locales et le secteur privé, à l’échelle nationale comme internationale. Zoomsur...L’interview!EnpratiqueAnalyses 17 Pourriez-vous expliquer en quoi consiste le projet CoDesign Data.gouv.fr ? L’objectif d’association du projet Etalab avec la communauté française de l’Open Data a-t-il été atteint ? Une profonde refonte du portail data.gouv.fr a été engagée à partir du printemps 2013, et a permis d’inaugurer, en décembre, une nouvelle version du portail, encore plus ouverte et plus collaborative. La conception de cette nouvelle plateforme a été conduite en étroite coordination avec la communauté de l’Open Data au travers d’une démarche de CoDesign. Une consultation publique menée au printemps 2013 a permis de recueillir une soixantaine de contributions, et neuf ateliers thématiques ont été conduits pour recueillir les retours d’expérience et les suggestions des utilisa- teurs et réutilisateurs du portail. Tout en conservant sa vocation de diffuser largement les données brutes, data.gouv.fr deviendra à terme un outil grand public pour une utilisation démocratique des données publiques, facilitant également la publi- cation, la réutilisation de ces données et leur enrichissement par tous types de contributeurs. “ Etalab continuera à soutenir l’émergence d’un écosystème de l’Open Data à l’échelle nationale et internationale”. “
  • 18. Accomex n° 112 - Big Data18 Pouvez-vous nous présenter Squid Solutions en quelques mots ? 2 Nous sommes éditeurs de logiciel dans le domaine de la data. Nous fournissons une plateforme de gestion et d’analyse de données 3 aux entreprises qui souhai- tent exploiter leurs données, par exemple pour optimiser leur marketing en ligne. Comment cette aventure a-t-elle commencé ? Nous sommes quatre co-fondateurs à avoir travaillé dans une filiale de Gemplus 4 où nous travaillions sur les data télécom et, plus particulièrement, sur les tickets entrants. Cela nous a aidés à comprendre les comportements des clients. Nous étions en mesure de détecter les usages patterns des clients pour savoir si un client était sur le point de quitter un opérateur pour un autre. Puis nous nous sommes lancés dans l’édition de logi- ciels avec Squid. Nous avons identifié tout ce qui, dans la chaîne de valeur de l’analyse de données, prenait le plus de temps, était le plus complexe et le plus coûteux à réaliser, afin de mettre au point une technique. Grâce à nos premiers clients - notamment eBay et SFR -, qui comptaient parmi les plus grosses bases de données du marché, nous avons fait la preuve de notre technologie. Cela nous a permis de lever trois millions d’euros auprès des investisseurs en capital-risque en 2008, en pleine crise financière. Concrètement, comment fonctionne votre technologie ? L’objectif est de récupérer un maximum de données via des solutions dites de Big Data. Il s’agit de collec- ter, stocker et « historiser » ces données, afin de déterminer des tendances. Concrètement, nous utili- sons des bases de production de sites web, des bases de CRM, tout ce qui peut concerner les produits, les transactions, etc. Ces données sont alors couplées avec celles que nous remontent nos trackers, et par des accès à des sources de données que l’on va four- nir. Nos outils permettent ainsi de dépasser la logique en silos. Des modèles de données sont alors construits pour croiser toutes ces données. La levée de fonds effectuée en 2008 nous a permis de concevoir notre propre plate-forme, qui rassemble juste- ment toutes ces données. Au-dessus de cette plate-forme, nous aidons nos clients dans leurs problé- matiques métiers à concevoir des applications prédictives et analytiques afin, par exemple, de mieux allouer leurs ressources, d’optimiser leur yield manage- ment 5 , de comprendre comment sont utilisées la machines de distribution de tri (business case de la Poste) ou industrialiser certains processus opérationnels. De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data “ Questions à… Adrien Schmidt, Chief Executive Officer chez Squid Solutions et Président de Silicon Sentier1 (1) Silicon Sentier est une association d’entreprises innovantes ayant pour objectif le développement du secteur numérique de la région Île-de-France. (2) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (3) Data Management Platform ou DMP. (4) Devenue Gemalto. (5) Yield Management (« gestion fine » en français) est un système de gestion des capacités disponibles (telles que des sièges disponibles dans le transport aérien), qui a pour objectif l'optimisation du chiffre d'affaires.
  • 19. De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data Zoomsur...L’interview!EnpratiqueAnalyses 19 À quel(s) enjeu(x) ce type de solution répond-il ? Cela permet de déterminer et de mesurer ce qui s’est vraiment passé au-delà des tendances, en ayant une connaissance micro, une approche « granulaire ». Au niveau de chaque produit, de chaque client, de chaque session, au niveau de chaque source de don- nées, nous pouvons déterminer quel a été le chiffre d’affaires généré, le nombre de produits vus, le retour sur investissement (ROI) de chaque campagne marke- ting. Cette technologie est un outil de pilotage business très fin. En fait, le succès actuel de certains purs players com- merçants du web n’est pas uniquement lié à leur notoriété : ils procèdent à une analyse précise de leur activité sur de multiples axes et sur des volumes de données conséquents. Pour enclencher la démarche d’augmentation de la valeur client et combattre les effets d’attrition, il faut une approche exhaustive de la donnée ; il faut multiplier les sources pour obtenir la fameuse vision à 360° du client, comprendre ses usages. Cette analyse multi- dimensionnelle doit être rendue accessible de manière instantanée pour offrir compréhension et agilité : c’est ce que l’on offre. Vous avez mentionné le fait que vos clients pouvaient créer leurs propres applications analytiques ? Pouvez-vous nous en dire plus ? En fait, nos clients peuvent créer leurs propres applica- tions au-dessus de notre plate-forme, en couche haute, répondant ainsi à leur problématique métier. Mais ce marché n’est pas encore assez mature. C’est pourquoi nous accompagnons nos clients sur ce volet-là. À ce jour, 35 % de notre chiffre d’affaires vient de ce type de ser- vices associés. Même si notre technologie est mature pour créer de telles applications, il faudra encore atten- dre un peu avant que nos clients créent, à partir de notre plate-forme, leurs propres applications. Vous vous êtes rendu à plusieurs reprises aux États-Unis à titre individuel ou par le biais de missions. Où en est Squid sur le marché américain ? Nous avons depuis peu notre premier client 100 % américain au Michigan. Cela est d’autant plus valorisant qu’il s’agissait d’un lead entrant : il est venu nous cher- cher, nous, dans le 14ème arrondissement de Paris, pour monter un projet ensemble ! Ce projet a commencé au dernier trimestre 2013 et se poursuivra tout au long de l’année 2014. Ce type de démarche nous conforte sur nos choix et orientations technologiques. Quel regard portez-vous sur le marché américain ? Les Américains ont de toute évidence de très belles entreprises dans les infrastructures Big Data. Mais au niveau des usages, ils se questionnent sur les applica- tions à concevoir. Sur ce point, je dirais que le marché est naissant et qu’il y a de vraies places à prendre. L’écosystème français n’est pas tellement en retard sur cette composante. Mais quand un besoin émerge, les entreprises concernées ne doivent pas « se regar- der en chiens de faïence » mais au contraire se lancer, innover et réinventer leur industrie ! À l’inverse, à l’heure où trop d’entreprises françaises ne sont pas encore conscientes de leur patrimoine de la data, où le ROI doit encore être démon- tré en interne, où l’avancement stagne au stade de la curiosité intellectuelle, les projets et problématiques existent déjà aux États-Unis. La demande y est plus forte que l’offre technologique pertinente. Et si ces projets clients existent, j’observe une carence de dis- ponibilité, d’expérience, d’expertise technologique étant à-mêmes d’appréhender, de réaliser ces projets dans leur globalité et de monter une solution de bout en bout. Pour vous donner une idée, travailler sur Redshift d’Amazon (plate-forme assez avant-gardiste sur laquelle on travaille) requiert une expertise pointue et particulière dans le traitement massivement parallèle 6 . Vous devez également être en mesure de coupler cela avec une connaissance verticale : le métier de votre client. Pour abonder dans ce sens, je pense que c’est ce type de problématique rencontrée qui pousse une entreprise du Michigan à venir nous chercher à Paris. Donc l’intérêt pour Squid d’aller aux États-Unis repose sur cette demande existante à assouvir. Dans ce domaine, se pose toujours la question de l’arbitrage côte est/côte ouest. Quel est votre point de vue ? Les deux côtés se justifient complètement dès lors que l’on est éditeur de software. Mes cibles clientes sont plutôt sur la côte est. Par contre, mes concur- rents et partenaires potentiels sont sur la côte ouest. Ce qui compte le plus pour moi, c’est de me plonger dans ce qui se fait de mieux en termes de bain concur- rentiel et technologique. Cet écosystème unique vous challenge et vous fait progresser au quotidien. C’est forcément salvateur. Trop souvent, le danger qui nous guette en France est (6) L’architecture Massivement Parallèle repose sur la division du stockage et des traitements sur une grille de serveurs. Elle permet de stocker une quantité de données illimitée et de manière élastique. Plus la taille de la grille augmente, plus sa capacité de traitement augmente.
  • 20. Accomex n° 112 - Big Data20 de nous benchmarker entre Français ou Européens, et ainsi de nous conforter dans le bien-fondé et l’excel- lence de notre technologie. En fait, nous ne sommes tout simplement pas, au quotidien, dans la ligue des meilleurs. Il est critique de confronter l’écosystème français à l’international… L’écosystème et l’ADN de la Silicon Valley sont imprégnés de cette fibre innovante qui combat continuellement la « sclérose technolo- gique » et les business model qui ne se remettent pas en cause. Ainsi, pour pas mal de raisons, nous opte- rons pour la côte ouest courant 2014. Mais choisir la côte ouest, pour une startup française, cela signifie de pouvoir appréhender le décalage horaire de neuf heures au quotidien. Dès lors, comment envisagez-vous la structuration interne de Squid ? Un modèle « classique » avec R&D en France et marketing & business development aux États-Unis ? Dans les grandes lignes, oui. On épousera ce modèle « classique » pour une startup française aux États- Unis, avec la base technique, le développement, la R&D et la compé- tence consulting en France : non seulement la R&D est soutenue par de nombreux dispositifs mais, surtout, nos compétences techniques locales sont excellentes. Par ricochet, le business develop- ment (voire le marketing) sera initié de là-bas à terme. Dans un premier temps, en tant que co-fondateur, je serai amené à m’y installer pour lancer l’entité améri- caine de Squid. Quels sont les différentes étapes du projet Squid en 2014 ? Un certain nombre de secteurs d’activité ont un inté- rêt à l’investissement dans la data. Je pense naturellement au secteur du publishing, qui est en métamorphose complète, avec une vraie rupture de paradigme, fortement challengé sur son modèle éco- nomique et qui nécessite de nouveaux ressorts qui passeront notamment par la data. Désormais, la monnaie d’échange entre les fournisseurs de contenu, les distributeurs de contenu et les consom- mateurs de contenu (universités, étudiants par exemple), c’est l’usage. Aujourd’hui, une université est prête à payer du contenu si ses étudiants le consom- ment ; c’est d’ailleurs une dynamique que j’observe aux États-Unis. La mesure de cet usage et sa segmentation sont devenues des variables vitales et critiques pour cette chaîne de valeurs. Cela représente des téraoctets de données, car cela concerne des milliers d’universités et donc, potentiellement, des centaines de milliers d’étu- diants et des millions d’articles. La combinatoire de ces trois dynamiques donne de la data à analyser. L’analyser et la transformer en leviers actionnables, pour que ce secteur puisse commercer, pourrait être un domaine de focalisation pour Squid en 2014-2015. Cela pas- sera inévitablement par une implantation aux États-Unis. Pour cela, notre technologie aura besoin d’être légèrement redimensionnée et notre produit repackagé pour ce marché. Le président de Silicon Sentier que vous êtes peut-il nous parler des initiatives entreprises par l’association dans le domaine du Big Data ? Nous disposons du premier programme d’accéléra- tion en France, le Camping, qui accompagne des projets startup à grosse dimension disruptive quant au service et à la technologie proposés. Nous accélé- rons, sur un espace-temps intensif, leur phase de transition, de la création de l’entreprise à la mise sur le marché. À ce titre, et ce pour la 1ère fois, Silicon Sentier a trois entreprises sur la promotion du premier semestre 2014, positionnées sur la data et l’analytics : è Realytics, plate-forme qui démocratise l’analyse de masses de données pour les PME, è Tastehit, outil de ciblage destiné aux sites de e-commerce qui permet de mieux connaitre les goûts des visi- teurs et de leur proposer des objets en fonction de leurs préférences, è Hublo, outil d'analyse web destiné aux spécialistes du marketing. Silicon Sentier vient également de lancer Data Shaker, un programme très innovant et ambitieux, qui a pour objectif de stimuler, via des partenariats, les projets Big Data des grands groupes. Prenons pour exemple la première entreprise partenaire de ce programme : la SNCF. Il s’agit de promouvoir la mise à disposition des données de cette entreprise, et en particulier les jeux de données récentes qu’elle n’a pas encore mis à disposition. La SNCF est ainsi au contact d’une communauté de startup, de développeurs, d’entrepreneurs, qui tirent parti de ces données et font naître de nouveaux usages et applications. Ces applica- tions dépassent le cœur de métier historique de la SNCF (exploitant de réseau) et sont à forte création de valeur : elles enrichissent l’offre voyageur, par exemple, sur la mobilité ou les services associés en gare. Le rôle de Data Shaker ne se limite pas à mettre en relations les deux parties : le programme stimule la démarche, est locomotive de réflexion, fait émerger les thématiques, mobilise cet écosystème et transforme l’essai : que ces applications béta se convertissent en création de startup. La démarche volontariste des grands comptes sur ce programme souligne leur intérêt à appréhender ces enjeux critiques. Il s’agit, certes, d’un lancement récent, mais nous recevons un écho très favorable de l’écosystème de la data.
  • 21. On parle beaucoup de travaux pour structurer cet écosystème avec une dynamique vertueuse, quel est votre regard ? On ne peut que se féliciter des travaux en cours de la structuration de la filière (vision à long terme). En complément, et à plus court terme, les idées de Bertrand Diard (co-fondateur de Talend) complètent bien cette initiative : il cherche à créer un fonds de capital- risque (levée de fonds), couplé à un accélérateur (mise à disposition de ressources techniques), dédié aux phases aval d’exploitation de la data. 21De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data AnalysesEnpratiqueL’interview!Zoomsur... Pour en savoir plus : http://squidsolutions.com ; @SquidSolutions ; @a_schm ; datashaker.numaparis.com “
  • 22. 22 Les entreprises européennes sont- elles matures pour le Big Data ? è Elle révèle que 23 % des entreprises européennes interrogées (42 % des entreprises françaises) consi- dèrent que le Big Data leur permettrait d’améliorer leur planification et leur prévision ; 28 % une meilleure connaissance de leur business (34 % pour les françaises). Cependant, seulement 7 % des entre- prises européennes interrogées considèrent le Big Data comme un sujet d’actualité. Comment expliquer le décalage entre le potentiel représenté par le Big Data et la faible prise en compte de cette problématique par les organisations à l’heure actuelle ? è L’étude biMA® 2012/2013 montre que les niveaux de maturité de la Business Intelligence (BI) des entre- prises en Europe sont assez hétérogènes, avec une forte stagnation des entreprises au « niveau 3 », maté- rialisant l’intégration des informations au sein de l’entreprise (soit une harmonisation entre les départe- ments partageant un socle et un référentiel communs). L’atteinte du « niveau 5 », permettant l'intégration com- plète de la BI dans des processus stratégiques, Le Big Data est aujourd’hui une réalité, pas un mythe et surtout un succès médiatique. Il existe des gisements de données dans et à l’extérieur de l’entre- prise, représentant un incontestable levier de croissance et de compétitivité dans un contexte où les entreprises n’ont d’autre alternative que de se trans- former. On estime que les données structurées, généralement bien exploitées par les entreprises, constituent 20 % des informations disponibles en interne, contrairement aux informations non struc- turées qui en représentent 80 % et disposent d’un plus fort potentiel. L’enjeu est donc bien d’exploiter cette masse d’informations en évitant l’écueil de « l’infobésité ». LES ENTREPRISES EUROPÉENNES SONT-ELLES PRÊTES POUR LE BIG DATA ? è L’étude européenne biMA® 2 2012/2013 est une enquête en ligne comprenant 41 questions, menée par le groupe Steria auprès de 668 participants à tra- vers l'Europe entre novembre 2012 et janvier 2013. n 2011, 1 800 milliards de giga-octets de données ont été générés dans le monde, soit un volume supérieur à ce qui a été créé du début de l’humanité à 2003, et neuf fois plus que celui généré sur la seule année 2005, selon le cabinet d’études IDC 1 . Ce même cabinet estime que le volume de données généré par les entreprises pourrait être multiplié par 75 au cours de la prochaine décennie. Par extrapolation, le volume de l’univers numérique pourrait être, en 2020, jusqu’à 44 fois plus important qu’en 2009. Le Big Data (c’est-à-dire les technologies et les méthodes permettant d’analyser la masse des données produites par les organisations et individus) va ainsi décider de la réussite future des entreprises, en ayant un impact sur leur croissance, leur productivité et leur compétitivité. Les progrès réalisés en matière de collecte, de stockage et de traitement des données font d’Internet un véritable pilier de la société du 21eme siècle. Comment les entreprises européennes vont-elles pouvoir saisir les opportunités que promet le Big Data ? Quels sont les principaux obstacles qui les empêchent d’utiliser les données comme un outil stratégique, moteur de leur compétitivité ? E Hichem Dhrif hichem.dhrif@steria.com Hichem Dhrif est Directeur du domaine d’excellence Enterprise information management (EIM) au sein de Steria France et titulaire d’un MBA en systèmes d’infor- mation organisationnels. H. Dhrif a participé, durant sa carrière professionnelle en consulting, à plusieurs projets de transformation de solutions à vocation information- nelle au sein d’entreprises des secteurs public et privé en France et au Canada, en couvrant la chaîne du cadrage de projets au déploiement de solutions. (1) Gantz John, Reinsel David (2011), Extracting Value from Chaos, étude IDC, juin. (2) Carsten Dittmar, Volker Obendorf, Klaus Dieter Schultze (2013), Rapport Steria : Les Entreprises européennes sont-elles prêtes pour le Big Data ?, Enquête Européenne biMA® 2012/2013, http://www.steria.com/fr/ Accomex n° 112 - Big Data
  • 23. 23 AnalysesEnpratiqueL’interview!Zoomsur... tactiques et opérationnels, avec une stratégie de ges- tion de l’information de bout en bout, reste semée d’embuches pour la majorité des entreprises en Europe. L’étude montre aussi que les entreprises n’ex- ploitent pas pleinement le potentiel d’analyse de leurs systèmes BI pour améliorer le ROI (Return On Investment) de la BI : mise en place de systèmes de planification, élaboration budgétaire, prévisions et simulations, costing, etc.). LES CONDITIONS PRÉLIMINAIRES À L’EXPLOITATION DU BIG DATA NE SONT PAS ENCORE REMPLIES En l'absence d’outils leur permettant d’extraire les renseignements utiles de cet océan d’informations, les entreprises risquent bien de se noyer. Malgré le poten- tiel offert par le Big Data, il reste difficile pour beaucoup d’entre elles de se doter des compétences et des moyens pour exploiter pleinement leurs données. Pour optimiser l’exploitation du Big Data, il faut dis- poser de bonnes assises en termes de Business Intelligence. Cela constitue en quelque sorte les fon- dations sur lesquelles va s’ériger l’exploitation du Big Data. Big Data et BI sont donc complémentaires. Quels sont donc ces obstacles qui empêchent les entreprises d’utiliser les données comme un outil stratégique ? QUALITÉ DES DONNÉES ET PÉNURIE D’EXPERTS : LES TALONS D’ACHILLE DES STRATÉGIES DE LA BUSINESS INTELLIGENCE Un niveau de qualité des données insuffisant est la principale difficulté des organisations au regard de leur stratégie BI, pour 38 % d’entre elles en Europe dont 34 % en France. Jusqu’ici, une trop forte emphase a été mise sur les solutions technologiques (le contenant), au détriment des données et de leur qualité (le contenu). Dans ces conditions, il est quasi impossible de traiter les gros volumes de données que les clients et prospects génèrent pour en extraire des informations précieuses, sur lesquelles fonder des décisions. Il est donc plus que nécessaire de travailler sur la qualité et la fiabilité des données, notamment en mettant en place une gouvernance dédiée, se maté- rialisant, entre autres, par une « autorité référente de la donnée », responsable de sa définition, de sa mise à jour, de sa diffusion, etc., soit la gestion de sa qualité et donc de sa pérennité. L’absence d’une stratégie formalisée et d’une gouvernance dédiée à la BI sont ainsi clairement mis en cause par les entre- prises européennes : 23 % (24 % en France) jugent les systèmes trop complexes et 19 % (21 % en France) estiment que la BI ne permet pas de donner une vision globale et consolidée de l’entreprise. Cette stratégie est indispensable mais d’autant plus difficile à mettre en place que les compétences dédiées à la gestion des données se font rares sur le marché ; trop rare pour les entreprises, qui relèvent une pénurie de compétences en BI, et particulière- ment en Data Scientists. Cette pénurie constitue un frein pour 24 % d’entre elles et 27 % en France. METTRE EN PLACE, EN AMONT, LES MÉCANISMES PÉRENNES DE GESTION DES DONNÉES Les organisations doivent, en amont, mettre en place les mécanismes pérennes de gestion des données et de leur qualité pour tirer pleinement avantage de leur analyse. Donner la priorité à la qualité des données Il est indispensable de partir de données de bonne qualité, préparées, triées et intégrées. Sans cette phase préalable, le traitement analytique ne produira pas les informations de performance justes et actuelles que l’entreprise attend, vitales pour le main- tien de sa compétitivité. (1) Allemagne, Suisse Source : Enquête européenne biMA® 2012/2013 Tableau 1 Potentialités du Big Data reconnues par les entreprises interviewées Les entreprises européennes sont-elles matures pour le Big Data ?
  • 24. 24 è Il convient tout d’abord de structurer les données et les informations de l’entreprise à travers une démarche d’urbanisation de son système d’information, afin de l’aligner avec son modèle organisationnel, è Il faut ensuite « nettoyer » les données, pour les ren- dre fiables et intègres, è Il est important de standardiser ensuite ces infor- mations en travaillant sur les référentiels de données. Toutes ces étapes préalables mettent au service de l’environnement décisionnel une information fiable et de qualité. Adopter une approche tactique du Big Data, étape par étape Plusieurs étapes doivent être respectées : è Tout d’abord, former et sensibiliser : expliquer que le Big Data ne se résume pas à traiter davantage de données dans le format voulu. Il s’agit plutôt de créer de nouvelles structures. è Élaborer des cas d’utilisation pertinents, juridique- ment mais aussi en termes de contenus et de délais. Il faut également que les avantages fonctionnels envisagés justifient l’investissement dans la technolo- gie et l’acquisition d’expertise, et non le contraire. è Examiner chaque cas d’utilisation du Big Data issu d’autres secteurs d’activité et pertinent pour l’entre- prise. è Enfin, vérifier la validité des cas d’utilisation en ter- mes de valeur ajoutée et non simplement sous l’angle de la faisabilité technique. LA COMPÉTITIVITÉ DES ENTREPRISES PASSERA PAR LE BIG DATA Un certain nombre d’entreprises ont compris le poten- tiel du Big Data et s’y appliquent déjà. Dans le secteur de la santé, l’analyse du Big Data aide à stimuler l’in- novation et à accroître l’efficacité des soins ou des essais cliniques. Dans le commerce de détail, le Big Data peut aider à accroître les marges opéra- tionnelles, à réduire les gaspillages et à mieux cibler les consommateurs avec des produits et services davantage adaptés à leurs besoins. Même les agences gouvernementales appliquent les techniques d’analyse du Big Data à leurs vastes registres d’ad- ministrés pour guider leurs efforts législatifs. Le marché du Big Data (Software et IT Services) en France devrait être multiplié par quatre d’ici 2017, pour atteindre 1,7 million d’euros 3 . Le Big Data devient un véritable levier de croissance pour les économies du monde entier, tous secteurs et toutes tailles d’entreprises confondus. Dans les années à venir, il permettra de faire la différence entre les entreprises qui innovent et celles qui stag- nent, entre les entreprises rentables et les autres et, au final, entre celles qui réussissent et celles qui échouent. (3) Source PAC (2013). Accomex n° 112 - Big Data
  • 25. 25 AnalysesEnpratiqueL’interview!Zoomsur... (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley Pouvez-vous vous présenter en quelques mots ? 1 Je suis né en France mais y ai très peu vécu puisque j’ai effectué mon parcours dans le design industriel et interactif successivement au Canada, au Japon, en Suède… Puis, j’ai rencontré l’un des futurs co- fondateurs franco-marocain d’Enigma.io, Hicham Oudghiri, au lycée en France. Quant à l’autre co- fondateur, Marc Da Costa, j’ai fait sa connaissance à Columbia. À l’époque où je les ai rencontrés, ils avaient commencé le concept et le prototypage d’Enimga.io, mais étaient intéressés par l’intégration d’une expertise et d’une composante de design. C’est là que j’ai rejoint l’équipe d’Enigma.io, en phase très embryonnaire du projet. Comment le concept d’Enigma.io a-t-il émergé ? L’idée d’Enigma.io leur est venue en parcourant l’article d’une personne qui avait découvert avant tous les analystes politiques, qu’à la surprise générale, Sarah Palin serait nommée en colistière de John Mc Cain à l’élection présidentielle de 2008. Pour cela, elle avait consolidé et croisé des datasets publics (donc à la portée de tous) qui recensent les propriétaires d’avions, puis avait affiné ceux s’avérant être des donateurs républicains. Elle avait, par la suite, établi des corréla- tions d’appartenance ou d’influence entre eux et s’était ainsi rendu compte avant tout le monde que ces der- niers affluaient simultanément vers Wasilla, en Alaska (fief de Sarah Palin). Cet exemple symptomatique souligne l’ambition et la proposition de valeur d’Enigma.io à vouloir démystifier l’Open Data (qui est à ce jour trop énigmatique et « indi- geste »), en créant de l’usage, de la valeur et de la contextualisation à partir de ces données publiques. Comment se décline votre solution ? Nous proposons une plate-forme de recherche, de découverte et d’approvisionnement de données publiques, fournies par le gouvernement, des entre- prises privées et autres organisations que nous jugeons pertinentes. Notre outil permet de trouver des faits et des liens cachés, à travers des sources de données disparates et cloisonnées. Notre plate-forme fournit de la data et de l’intelligence à laquelle personne n’était « prédisposé ». Par exem- ple, sur un sujet qui intéresse un client, nous ne nous limitons pas à fournir des datas directement liées au sujet : nous procurons également des datas qui ont un impact sur le sujet d’étude du client, mais auquel celui-ci n’avait pas pensé, ou pour lesquelles il n’avait pas découvert la corrélation et l’impact d’influence. Nous sommes ainsi très positionnés sur les données qualitatives et la contextualisation. Notre solution est ainsi en mesure de s’appuyer, par exemple, sur des réseaux d’entité, des réseaux de filiales, de connexions contractuelles ou d’influence entre opérateurs. À ce titre, il faut avoir à l’esprit que la contextualisation est la philosophie de l’Open Data chez Enigma.io. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley “ Questions à… Raphaël Guillemot, Design Manager chez Enigma.io
  • 26. Accomex n° 112 - Big Data26 À quelle clientèle, quels secteurs et métiers, la société Enigma.io s’adresse-t-elle ? Nous collaborons avec de grosses entités de consul- ting, de crédit, d’assurance, de banques et hedge funds. Ces clients cherchent à étoffer leurs analyses, élaborer de nouveaux indicateurs connexes, améliorer leurs leviers décisionnels, faire de nouvelles projec- tions avec des modèles plus élaborés via de nouveaux jeux de données. À titre d’exemple, des banques auront recours à nos services pour améliorer les algo- rithmes dont elles disposent, afin de déterminer la solvabilité de leurs clients. Cette collaboration avec ces clients importants nous demande beaucoup d’ef- forts, étant donné que nous sommes partie prenante dans la recherche des datas. Nous avons une autre catégorie de clientèle profes- sionnelle qui, elle, souscrit un abonnement pour avoir accès à notre plate-forme d’outil de recherche de données et de représentation. De surcroît, notre API 5 fournit une infrastructure dédiée et accessible aux développeurs et professionnels. Ils peuvent ainsi intégrer nos corpus de data en temps réel, à grande échelle, afin d’étoffer leurs applications tierces, leurs services analytiques et leurs tableaux de bord. Le Président Barack Obama a retweeté vos travaux d’Open Data sur le shutdown 6 en octobre 2013. Sur quels autres types de projets travaillez-vous actuellement ? Nous avons récemment travaillé sur un projet d’import-export avec les douanes américaines, qui vise à recenser l’ensemble des containers et leurs contenus, entrant et sortant des États-Unis. Chaque semaine, les douanes nous envoient un CD de jeux de données à partir duquel, grâce à notre savoir-faire d’enrichissement et de contextualisation, nous pouvons par exemple déterminer le nombre de nouvelles Lamborghini sur le sol américain. À partir de là, nous pou- vons très simplement extrapoler sur l’évolution de la consommation intérieure ou du nombre de millionnaires ! Vous venez de réaliser une nouvelle levée de fonds. Quelles évolutions structurelles envisagez-vous ? Nous avons en effet levé, fin janvier 2014 (en série A) 4,5 millions de dollars auprès de Comcast Ventures, avec des participations d’American Express Ventures, Crosslink Capital et New York Times Company. Pour rappel, nous avions également levé, début 2013, 1,1 million de dollars en seed funding. (2) Robots d’indexation conçus pour collecter des ressources. (3) Le Freedom of Information Act est une loi américaine de 1966, fondée sur le principe de la liberté d'information, et qui oblige les agences fédérales à transmettre leurs documents à quiconque en fait la demande. (4) Moteur de recherche qui puise ses informations sur plusieurs moteurs de recherche généralistes. (5) Une Interface de programmation (API) est un protocole de communication en temps réel, par lequel un logiciel offre des services à d’autres logiciels, tels que la mise à disposition et l’actualisation de données en temps réel. (6) Mésentente parlementaire sur le budget 2014 qui a entraîné durant quelque semaine l’arrêt du financement des agences gouvernementales. À quel problème de l’Open Data Enigma.io cherche-t-il à répondre ? Le problème inhérent aux données publiques, aux États-Unis et de manière plus générale également, est qu’elles sont publiées par le gouvernement américain, des services décentralisés ou des agences marketing de manière indépendante et atomisée. De sorte qu’il est complexe de centraliser ces données et de déter- miner leur usage et leur intérêt. Par ailleurs, les données publiques navigant sur Internet ne sont pas facilement identifiables et uni- fiées en tant que telles, puisque par nature elles sont disséminées. En soi, les données publiques n’ont pas beaucoup de valeur. Or, c’est justement sur ce point que nous intervenons, en tant que créateur de valeur à partir de ces données. Comment allez-vous chercher ces données ? La première façon de collecter les données est d’im- plémenter des crawlers 2 , adossés à des domaines et portails gouvernementaux dédiés à l’Open Data afin d’aller chercher et indexer les données mises à disposition. La deuxième manière consiste, lorsqu’il s’agit de cibles et d’agences très particulières, sur des théma- tiques spécifiques, d’aller chercher nous-mêmes la donnée. Ainsi, en nous fondant sur le Freedom of Information Act 3 , qui impose aux agences fédérales de transmettre les données à leur disposition, nous avons la possibilité d’effectuer des requêtes auprès d’agences gouvernementales pour obtenir de nou- velles sources de données. Mais ces agences n’ont pas d’exigence de délai, peu- vent demander des coûts de publication auprès des demandeurs et nous publier sous n’importe quel for- mat ! Par conséquent, avec ce deuxième mode opératoire, nous devons faire face à une bureaucratie relativement lourde. Notre troisième méthode de collecte de données est fondée sur notre méta-moteur 4 qui se charge de regrouper des données disséminées sur Internet, par nature difficilement identifiables et consolidables.
  • 27. 27 AnalysesEnpratiqueL’interview!Zoomsur... Nous allons prochainement rendre l’accès à notre plate-forme et à la recherche de données gratuit ! C’est quelque chose que nous avions en tête dès le départ dans notre feuille de route, mais l’intégrer dès le début de notre projet aurait été trop coûteux. Cela marque un tournant majeur dans notre stratégie et la montée en puissance de notre projet. L’idée est de démocratiser notre plate-forme, de démontrer notre scalabilité et de proposer davantage de services premium et d’outils analytiques. La combi-naison de ces deux éléments va nous permettre de nous adresser à davantage de « gros clients » et de poursuivre nos travaux sur les réseaux d’entités en web sémantique 7 . Quelles distinctions ou similitudes observez-vous entre les écosystèmes d’Open Data de France et des États-Unis ? Tout d’abord, je salue le travail qu’entreprend Henri Verdier 8 au sein d’Etalab. Je trouve que son agence fait un travail remarquable pour libérer la donnée et inciter les pouvoirs publics et les ministères à faire de même. Il a donné à Etalab un véritable second souf- fle, car pour opérer dans l’Open Data, il est inconcevable et impossible, pour une entreprise pri- vée, d’inciter les pouvoirs publics à libérer la donnée, sans le travail de sensibilisation que réalise une agence publique telle qu’Etalab. En effet, pour faire émerger un écosystème vertueux de l’Open Data, il faut que la dyna- mique soit insufflée au niveau des pouvoirs publics, ce que fait remar- quablement bien Etalab. Aux États-Unis, le mouvement s’est accéléré par le biais du Freedom of Information Act et de l’Open Government Initative 9 de l’Administration Obama. Le Freedom of Information Act relève d’un volet législatif qui stimule, certes, l’Open Data, mais qui dépasse largement ce périmètre. Cela résulte de la culture historique de la transparence aux États-Unis, même auprès des opérateurs privés, dont la libéralisation des données publiques est un axe central. Cette conjonc- tion permet de faire émerger un écosystème et une économie autour des applications et des usages. Notons également que la France est très stricte sur l’anonymisation et la mention de noms privés au sein de jeux de données. A contrario aux États-Unis, il est particulièrement aisé, notamment via le Gouvernement de New York, de savoir par exemple combien de propriétés immobilières Robert de Niro dispose dans cette ville ! Quel regard croisé transatlantique portez-vous sur le design interactif, quand on connait la primauté du marketing et du design aux États-Unis dans la com- posante produit ? Les français sont bons en design, et plus particulière- ment en graphisme, ce qui n’est pas tout à fait la même chose. Ainsi, je pense que trop de talents fran- çais se prédestinent au design industriel ou au graphisme, par exemple dans le domaine publicitaire et industriel. Il manque à la France une culture plus prononcée de l’interaction design 10 , discipline très imprégnée et très enseignée aux États-Unis. En effet, j’estime que le plus gros obstacle à la compréhension et à la démocratisa- tion des données, par le public, est lié à la difficulté à faire ressortir des cas d’usages et d’applications. Ainsi, le design interactif a émergé car nous étions jusqu’ici limités par les possi- bilités techniques très réduites de l’infographie et de la visualisation classique. À titre d’exemple, on ne pouvait mettre en relief qu’un seul sujet d’étude. Or, le design interactif permet justement de rendre les outils de recherche accessibles et d’offrir un cadre de contextualisation. (7) Recherche, structuration et exploitation de données sur le web. Le web sémantique permet de rendre du contenu des ressources web interprétables automatiquement par les machines. (8) Ancien entrepreneur dans la data et ancien Président du pôle de Compétitivité Digital, Henri Verdier est, depuis janvier 2013, Directeur d’Etalab - Voir l’article de Laure Lucchesi dans ce même numéro d’Accomex. (9) Cette « initiative » vise à créer un niveau sans précédent de transparence et d'ouverture du gouvernement dans la tendance de l'Open Source Governance et de l’Open Data, pour permettre à tout citoyen et entreprise intéressé de contribuer à créer les contenus de la politique. (10) Design numérique des systèmes interactifs. Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley
  • 28. Accomex n° 112 - Big Data28 Vue de France, la Silicon Alley 11 semble prendre sa revanche sur la Californie en ce qui concerne l’entre- preneuriat numérique. Pouvez-vous nous livrer vos impressions ? En effet, le nombre de startups explose actuellement à New-York, la Silicon Alley étant un écosystème très vivifiant. Par rapport à la Californie, les business model des startups de New-York sont, dans une certaine mesure, peut-être moins nombreux, mais plus sérieux et réalisables. Par ailleurs, les startups new-yorkaises sont position- nées, pour la très grande majorité, sur le créneau du B2B, a contrario de la Silicon Valley. Elles sont égale- ment très portées sur le design interactif. On peut expliquer cet aspect par l’histoire de New-York dans les secteurs de l’industrie, de la publication et des médias. De surcroît, les Venture Capital locaux sont moins spéculatifs et préfèrent se positionner sur des business model plus « sérieux » comparativement à la Silicon Valley. Pour conclure, pourriez-vous me présenter quelques startups que vous appréciez ? En France, j’appréciais beaucoup Everpix 12 (soutenu par Index Ventures) que je considérais comme le meil- leur service de stockage de photos dans le cloud et ce, peu importe le terminal. Mais ils ont malheureusement dû stopper leur activité fin 2013, faute de financements suffisants. Everpix n’a pas eu le temps d’atteindre sa masse critique monétisable afin d’être rentable. Côté américain, je suis admiratif de Zendesk 13 au regard de l’excellence du niveau produit qu’ils ont atteint. Même chose pour GitHub 14 , qui a réussi à rendre accessible à tout un chacun la publication de codes et la construction d’applications (par essence très compliqué). (11) La Silicon Alley est un pendant de la Silicon Valley, située en plein cœur de Manhattan. C’est une technopole concentrant des startups spécialisées dans l’Internet, les médias, l'édition, la publicité. (12) Everpix a été créé en août 2011 par deux français, Pierre-Olivier Latour, ancien de chez Apple et fondateur de Quartz Composer, et Kevin Quennesson. (13) Zendesk propose aux entreprises les outils nécessaires à l’établissement d’un service de support auprès de leurs utilisateurs.. (14) GitHub est un service web d'hébergement et de gestion de développement de logiciels, utilisant le programme Git. Pour en savoir plus : contact@enigma.io ; @enigma_io ; @a_schm ; http://www.enigma.io “
  • 29. 29 AnalysesEnpratiqueL’interview!Zoomsur... S’implanter à Kansas City : le choix décalé d’une startup française Pouvez-vous nous présenter brièvement la solution Bime ? 1 Bime est une solution logicielle d’analytique décision- nelle en mode 100 % cloud. Notre intelligence analytique permet de coupler toutes les sources de données d’une entreprise (fichiers internes, services en lignes), en provenance de grandes bases de don- nées propriétaires telles qu’Oracle ou issues des solutions telles que Google Analytics ou Salesforce. Notre technologie propose une analyse de ces données en temps réel, via une interface intuitive et simple ; elle permet de partager ces analyses via des tableaux de bord dynamiques, attractifs, créés par les utilisateurs et visualisables en toute mobilité sans interface propriétaire. Sur la partie infrastructures, nous proposons un service 100 % cloud public, basé sur l'environnement Amazon Web Services. De plus, nous sommes la seule solution technologique parte- naire de Google Cloud Platform sur Big Query. L’idée est vraiment de laisser l’entreprise piloter son activité grâce à la Business Intelligence (BI) en cloud, avec une solution agile, simple d’utilisation et adaptable à tous les besoins avec des visuels séduisants et dynamiques. Notre outil est délivré en mode SaaS 2 , avec un prix adapté en fonction du nombre d’analystes (créateurs du tableau de bord) et du nombre de lecteurs de ces mêmes tableaux. L’entreprise peut créer autant de tableaux qu’elle le souhaite et les visualiser à volonté. Notre équipe d’experts propose également de designer les tableaux de bord. Comment l’idée de Bime a-t-elle émergé ? À quelle problématique avez-vous cherché à répondre ? L’idée de Bime est née d’une certaine frustration quant aux coûts et contraintes de déploiement de pro- jets BI lors de nos parcours professionnel respectifs ! J’ai été contrôleur de gestion et j’utilisais alors la BI au quotidien, à un niveau assez poussé. Je mettais ainsi en place les KPI (indicateurs clefs de performance) pour ma direction. Par la suite, au sein d’une autre structure, j’étais en charge de mettre en place tous les process de contrôle de gestion à l’échelle nationale. J’ai alors été confronté à l’inexistence, en interne, d’outils de BI. Pour y pallier, il m’a été recommandé d’aller quotidiennement pousser la porte du départe- ment IT pour faire mes extractions ! Je n’avais aucune valeur ajoutée à faire cela et à retraiter les datas sur Excel. Plus tard, même grâce à l’octroi d’un budget dédié à la BI, je n’ai obtenu que 3 licences utilisateurs, à peine 2 jours d’intégration et aucune formation ! Nicolas Raspal, qui allait devenir mon co-fondateur, était, lui, architecte en informatique au Bon Marché - LVMH Groupe. En recoupant nos expériences respec- tives, nous nous sommes rendus compte de la peine et des budgets conséquents consacrés à l’intégration S’implanter à Kansas City : le choix décalé d’une startup française “ Questions à… Rachel Delacour, Chief Executive Officer chez We Are Cloud – Bime Analytics (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (2) Le SaaS, Software as a Service, propose de consommer un logiciel sous la forme d'un service hébergé.
  • 30. Accomex n° 112 - Big Data30 d’une solution BI : la BI ne tirait pas partie du cloud et des perspectives de l’analyse de données multi- sources. La montée en puissance de Salesforce ou Amazon, qui devenaient très solides en termes d’infrastructures pour supporter la BI en mode cloud sur des architec- tures multi-tenantes, nous a confortés dans notre démarche. Nous avons décidé de monter « le produit de nos rêves à partir de rien », avec une touche de fraîcheur, de simplicité d’utilisation et de puissance, afin de séduire l’utilisateur qui, comme nous, a peiné pendant des années. Nous avons donc commencé à coder pour disposer d’une version beta à montrer aux incubateurs fin 2007, puis créé la structure en 2009. Dans la foulée, nous avons bénéficié d’une subvention significative, remportée lors d’un concours du Ministère de la Recherche. Dès le début vous vous êtes tournés vers les États-Unis. Comment cela s’est-il passé ? Dès le départ, nous avons volontairement axé notre communication sur les États-Unis, afin de récupérer un maximum de feedbacks de la communauté de la BI et de la data. Le caractère innovant de notre projet a été salué, même à ce stade d’avancement relative- ment early stage. Parallèlement pourtant, l’écho de Directeurs de la technologie (CTO) de grands groupes français rencontrés n’était pas forcément très mélio- ratif sur notre démarche de pure player cloud. Cela m’a immédiatement convaincu d’essayer de lever des fonds auprès de Business angels ayant une sensibilité aux produits technologiques à l’américaine. Ainsi, nous avons levé du seed capital 3 auprès de Business Angels franco-américains (mais dont le mon- tant pourrait s’apparenter à une levée de fonds série A en France). La logique de passer sous silence cette opération était volontaire, car dans le même temps, notre produit s’étoffait. Nous étions listés dans les analyses des Gartner 4 ou Forrester 5 , où l’on côtoyait des concurrents qui, eux, avaient levé des tickets de l’ordre de 50 millions de dollars ! Les princi- paux noms de l’intelligence décisionnelle en cloud sont, en effet, américains (Tableau Software, Qlickview, GoodData ou Microstrategy). Les investisse- ments se produisent ainsi dans des écosystèmes dont les échelles sont multipliées par dix ou vingt à tous les niveaux. Nous avons donc fait « profil bas » pour conti- nuer à les côtoyer dans les grilles d’analystes, afin de ne pas être jugés d’emblée sur notre surface finan- cière mais sur notre proposition de valeur. Puis les États-Unis ont commencé à représenter une part de plus en plus significative de notre traction client. Nous y réalisions un part non négligeable de notre chiffre d’affaires sans même avoir d’équipe sur (3) “capital-amorçage” qui intervient très en amont (parfois en post-création), lorsque l'entreprise poursuit le développement de sa technologie. (4) http://blog.bimeanalytics.com/english/gartner-positions-bime-in-a-whos-who-of-bi-vendors (5) http://blogs.forrester.com/boris_evelson/11-10-19-bi_in_the_cloud_separating_facts_from_fiction Schéma 1 Visual Showcase
  • 31. 31 AnalysesEnpratiqueL’interview!Zoomsur... place ! Il était évident, dès le départ, que les Américains seraient plus matures et moins réticents à l’adoption de solutions cloud de BI que les Français. L’ouverture d’une filiale aux États-Unis devenait donc impérative : il fallait se rapprocher de nos clients et les États-Unis représentent notre caisse de réson- nance technologique. Pourquoi avoir préféré Kansas City (Missouri) à la Silicon Valley ou à la côte Est pour votre implantation ? Pour déployer notre projet États-Unis et répondre à la nécessité d’avoir une présence locale, nous avions besoin de disposer très rapidement d’une équipe locale à très fort potentiel, sans réduire notre time- to-market. La rapidité d’execution était donc primor- diale, tout en composant avec notre récente levée de fonds de 3 millions d’euros 6 . Au regard du climat actuel du capital-risque français, qu’une startup comme la nôtre réussisse à lever ce montant est une fierté, surtout au regard du prestigieux portefeuille de participations d’Alven Capital. Mais pour avoir un projet ambitieux aux États-Unis - et particulièrement dans la Silicon Valley - il manque encore un 0 derrière ! Même constat à peu de choses près pour la côte Est…, avec un coût de démarrage énorme : attirer des talents locaux au sein d’une jeune startup française est impossible à ce stade de maturité, car tous rêvent de travailler pour le GAFA, Twitter ou Yahoo ! Et même si l’on était parvenu à recruter, nous y aurions subi le turnover classique. Nous ne voulions pas freiner la vitesse d’exécution et l’ambition de notre projet et, de fait, la démarche décalée consistant à s’implanter dans une zone technologique à fort potentiel comme Kansas City a per- mis d’y pallier. Pourriez-vous apporter des précisions concernant l’attractivité technologique de Kansas City ? Kansas City est une cité technologique à fort potentiel. Google a en effet sélectionné Kansas City comme projet-pilote de son réseau de fibre optique à 1000 Mbp/s 7 . Or, tout le monde connaît l’élasticité positive de l’existence de très bonnes infrastructures de télé- communication pour faire émerger l’attractivité technologique d’un territoire. De surcroît, la municipa- lité a lancé un ambitieux projet, LaunchKC 8 , pour attirer les startups technologiques disruptives, et offre des incitations aux entreprises technologiques qui souhaitent s’implanter. Kansas City ne restera pas en marge longtemps : c’est la ville qui monte dans le high tech, une progression d’ailleurs soulignée par tous les classements d’attractivité 9 . C’est également un endroit où l’on peut se démarquer en attirant des talents commerciaux agressifs, en leur montrant que notre solution, c’est l’avenir de la BI. Nous avons reçu un accueil très favorable : le jour de l’ouverture de notre bureau, 80 CV nous attendaient ! Je ne suis pas certaine que l’accueil aurait été aussi spontané en Silicon Valley ! Notre antenne, ouverte le 6 Janvier 2014, compte huit personnes à ce jour. Notre modèle de vente étant direct, les démos et webinars s’opèrent en ligne ; le fait de ne pas être physiquement dans la Silicon Valley n’est donc pas rédhibitoire pour accélérer notre dynamique commer- ciale. De surcroît, il y a un fort ancrage de call centers dans le Middle West et la population a un accent relativement neutre… Enfin, dans le Middle East, se trouvait historiquement une industrie du software assez traditionnelle et déclinante. Reste que tous les évènements liés à la data et à la BI se déroulent à San Francisco… Il faut donc s’y rendre régulièrement pour être présents dans notre éco- système. La solution Bime est-elle destinée à des verticaux spécifiques ? Non pas réellement, car les verrous que nous avions identifiés, lors de nos expériences précédentes, impactaient bon nombre d’industries et étaient très horizontaux. En revanche, la BI est, par essence, très complexe, car chaque business a sa propre logique d’analyse, ce qui nécessite un degré très avancé d’ultra-customization de l’outil proposé. Cela nécessite aussi de proposer la plus grande capacité de calcul possible, car il faut répondre à des problématiques métiers, des approches de bases de données, des aperçus de tableaux de bord, des KPI très différents les uns des autres selon l’in- dustrie considérée. Il est donc critique de proposer une plate-forme la plus standard possible mais qui, en parallèle, offre de multiples fonctionnalités customi- sées à l’extrême. Nous ne nous adressons donc pas à des verticaux en particulier, mais tous nos clients ont en commun d’avoir un fort ADN web. Ce sont des structures qui excluent de fait de repartir sur un outil BI traditionnel, hébergé sur leurs serveurs. Par exemple, les départe- ments marketing de grandes entreprises sont très S’implanter à Kansas City : le choix décalé d’une startup française (6) Bime a annoncé, le 21 novembre 2013, une levée de fonds de 3 millions d’euros auprès d’Alven Capital. (7) 100 fois plus rapide que la plupart des connexions ADSL citadines. (8) http://launchkc.org/ (9) http://www.businessinsider.com/hottest-startup-cities-2013-9?op=1
  • 32. Accomex n° 112 - Big Data32 sensibles à notre solution, car ils recherchent une communication moderne, on line, collaborative pour faire leurs reports. Nous avons beaucoup de profils clients différents, de plusieurs universités américaines au gouvernement canadien, en passant par la maison mère Shell, Cisco ou encore la ville d’Atlanta. Toute entité qui a de la volumétrie de données à analyser, qui veut s’affran- chir de solutions BI lourdes à mettre en œuvre, sera susceptible d’être intéressée par notre solution. À quoi sera dédiée votre récente levée de fonds auprès d’Alven Capital ? Elle sera consacrée à renforcer notre force commer- ciale et marketing aux États-Unis, qui reste très largement la 1ère place de marché pour le BI en cloud. Mais elle servira également à étoffer la structure mont- pelliéraine : le message marketing, la R&D et l’antenne commerciale qui sert l’EMEA (Europe, the Middle East and Africa). À ce jour, plus de 75 % de notre chiffre d’affaires est réalisé à l’étranger. On constate que la BI en cloud prend le pas sur la BI traditionnelle ; nos pers- pectives sont donc très prometteuses. Comment percevez-vous l’écosystème français actuel ? La France a de bons ingénieurs, de bons entrepre- neurs ; il ne manque donc plus que l’action des pouvoirs publics et, sur ce point, je me félicite du lan- cement de l’initiative French Tech 10 portée par Fleur Pellerin sur le volet international et l’animation des écosystèmes numériques. C’est un très beau projet collectif pour accélérer le développement des pépites numériques françaises. La Ministre a été très moderne dans sa démarche de consultation et de mobilisation ; son message à la communauté entre- preneuriale technologique est très positif pour fertili- ser notre écosystème. De plus en plus de pépites numériques montpelliéraines émergent (Bime, Teads, CodeinGame, Nelis, 1001Pharmacies ou Medtech, etc.). Quel est le « secret » de Montpellier ? Entre la levée de fonds de Teads 11 (et sa prochaine introduction sur le Nasdaq) et l’introduction sur le Nyse Euronext de Medtech, il est certain que notre écosystème fait émerger de belles success stories. Il y a tout d’abord un très bon vivier d’universités et d’ingénieurs, et nous bénéficions d’une moindre concurrence qu’à Paris pour attirer des profils d’excel- lence. Et le recrutement est le nerf de la guerre pour démarrer une startup. En outre, la ville mise sur le numérique et essaie de se positionner en tant que métropole numérique « French Tech ». Cela va dans le bon sens pour l’émergence de clusters régionaux « décentralisés ». Nantes regorge d’ailleurs aussi de belles startups (Lengow, iAdvize). Mais les chambres de commerce et d’industrie pourraient faire beaucoup pour stimuler encore ces écosystèmes, en investis- sant dans le lancement de programmes dédiés aux startups. Ce mouvement de « décentralisation » a déjà été observé aux États-Unis avec Austin (Texas) ou Boulder (Colorado). La Silicon Valley n’a plus le monopole de l’émergence de pépites. De plus en plus de Venture Capital californiens investissent à Portland (Oregon), Omaha (Nebraska), Stamford (Connecticut) ou Salt Lake City (Utah). À titre d’exemple, le fonds Hyde Park VC vient d’annoncer une allocation de 25 millions de dollars spécifiquement dédiée aux startups du Midwest. Pour en savoir plus : @bimeanalytics ; http://www.bimeanalytics.com (10) http://www.lafrenchtech.com (11) Teads (solution de monétisation de vidéos) a levé 4 millions d’euros en octobre 2013 auprès de Partech et Isai. “
  • 33. 33 AnalysesEnpratiqueL’interview!Zoomsur... Le Techstars de New-York : un « accélérateur » de startups Pouvez-vous vous présenter brièvement ? 1 Après avoir passé un an dans la conception de sys- tèmes de vision pour l'aéronautique au sein d'Aérospatiale, aujourd'hui EADS, je suis devenu chercheur en reconnaissance d'images et vision robo- tique à l'INRIA. Nous nous sommes rencontré entre co-fondateurs à l’INRIA en collaborant sur l’indexation d’images, pour ce qui allait devenir LTU Technologies, startup que nous avons montée en 1999 2 . Nous avons ensuite effectué une levée de fonds en 2000 avec Mars Capital. Assez rapidement, après avoir essayé plusieurs business models, nous nous sommes axés sur le law enforcement (cyber crimi- nalité, applications dédiées à l’investigation policière, vol d’objets d’art, enquête pédo-pornographiques, etc.) et avons commencé à vendre sur le marché américain. Justement, pourriez-vous retracer les grandes étapes de LTU Technologies aux États-Unis ? En tant que Directeur Technique, je suis parti en 2003 monter notre bureau États-Unis, car 80 % de notre chiffre d’affaires était généré là-bas (Secret Service, Department of Defense, FBI, différentes agences de renseignement, douanes américaines, etc.). Au regard de ce vertical initial que nous adressions, nous nous sommes très logiquement installés à Washington DC. J’ai ainsi constitué l’équipe américaine de LTU Technologies et ai continué, parallèlement, à diriger l’équipe technique, basée en France, à partir des États-Unis. Puis, nous avons vendu l’entreprise en 2005 à Jastec 3 . Nous avons décidé de déménager l’antenne américaine sur New-York, car nous générions moins de business avec les agences gouvernementales et, surtout, afin d’accélérer notre essor avec des entre- prises de marketing, de publicité et de média. Dès lors, nous avons « dupliqué » et « repackagé » notre technologie de reconnaissance d’images pour être en adéquation avec les problématiques de ces secteurs. Pourquoi avoir quitté LTU technologies pour fonder Placemeter ? J’avais simplement l’intention de redémarrer une expérience entrepreneuriale. Je suis donc parti, fin 2011, d’une page blanche, à faire des analyses, regar- der les tendances, observer le marché. J’ai commencé à travailler sur des technologies de géolocalisation indoor, mais tandis que je travaillais sur des proto- types, Google se lançait massivement sur le créneau, ce qui m’a conduit à vite abandonner ce marché ! Puis, je suis revenu à l’idée originelle que j’avais depuis longtemps, qui consiste à mesurer les flux de personnes et la manière dont les individus interagis- sent avec la ville. Le Techstars de New-York : un « accélérateur » de startups “ Questions à… Alexandre Winter, Chief Executive Officer chez Placemeter (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (2) Voir la papier de Frédéric Jahar sur l’analyse visuelle dans ce même numéro d’Accomex. (3) société japonaise cotée à la Bourse de Tokyo.
  • 34. Accomex n° 112 - Big Data34 Cette problématique sociétale est un défi planétaire : les villes sont de plus en plus denses, conjuguées avec de plus en plus de flux urbains entrants. À titre d’exemple : 300 millions d’habitants vont emménager en mégalopole lors des dix prochaines années en Chine. L’idée de Placemeter est née de cette rupture de para- digme concernant les flux urbains et l’interaction homme-ville. Dès lors, j’ai travaillé sur des techno- logies de mesure et de détection, et ce qui s’est révélé le plus sensé s’avéra être la reconnaissance d’images. J’ai rencontré mon associé sur New-York, Florent Peyre : il a travaillé dans la fusion/acquisition aux États-Unis pour le compte de Lagardère, puis est entré en tant qu’employé « n° 5 » chez Gilt City 4 , c’est- à-dire au tout début de cette aventure (ils sont passés très rapidement à 200 employés et 100 millions d’euros de chiffre d’affaires). Florent a ensuite créé une entreprise de réseau social de voyages mais sans succès. Un ami, Matt Turck (à l’époque Directeur Général chez Bloomberg Ventures) nous a présentés et c’est ainsi que tout a débuté ! Florent et moi avons commencé à travailler ensemble sur le sujet Placemeter en octobre 2012. Quelle est la proposition de valeur de Placemeter ? Il y a beaucoup d’autres acteurs sur le domaine d’activité de Placemeter, mais notre élément diffé- renciant repose sur la manière dont nous mesu- rons la donnée. Les autres acteurs ven- dent aux commerçants des capteurs pour appré- hender ce qui se passe dans leurs magasins. À partir de là, les commer- çants installent une caméra et la donnée qui résulte de ce système leur appartient. L’approche de Placemeter est sensiblement différente : nous produisons de la donnée et de l’infor- mation sur tous les endroits concernés car nous voulons être propriétaires de la donnée. Nous ne fabri- quons donc pas de capteurs, ni de hardware : notre solution, ainsi que notre application, s’intègrent et ana- lysent des flux vidéos d’un parc de caméras existant. Nos algorithmes travaillent sur ces flux, ce qui nous permet de fournir à nos clients de l’intelligence, de l’analyse et de la data en temps réel concernant les flux de personnes dans les espaces concernés. La mise en place de partenariats avec les municipalités et compa- gnies de sécurité ayant déjà leur parc de caméras nous offre un avantage évident de scalabilité. Notre plate-forme collaborative de contribution de flux est large : cela va du simple individu, via son terminal ou des caméras reliées au wifi, aux acteurs munici- paux (trafic, civil, vidéosurveillance) en passant par des compagnies privées et de sécurité (parc de camé- ras en propre). À noter que Placemeter n’est pas une entreprise de vidéosurveillance : nous sommes davan- tage une force de contribution sur le domaine de la ville intelligente du futur, en mode crowdsourcing (collaboratif), dont la solution passe par de l’analyse de flux vidéos existants. L’idée derrière cela est d’indexer le monde physique et la manière dont les individus interagissent avec leur ville en temps réel. Nous proposons ainsi notre outil d’analytics à des commerçants, des municipalités ou des acteurs qui conçoivent des applications dites « life style » cherchant à faciliter aux individus leurs accès et leurs interactions avec la ville. Au Printemps 2012, Placemeter a participé au Techstars 5 de New-York. En quoi consiste ce programme ? C’est une nouvelle fois Matt Turck qui nous a guidé et conseillé de rentrer dans ce programme d’accélé- ration de startups du Techstars de New-York. Nous avons candidaté, sans plus de convictions d’ailleurs… Nous avons été retenu et là, je n’ai plus fait la fine bouche concernant mon investissement dans ce programme, en raison du degré de sélection des projets : 1 700 candida- tures en provenance de 66 pays et seulement 11 sélectionnées ! L’expé- rience fut exceptionnelle ! Je n’ai toujours pas réussi à décrypter la recette magique de Techstars et cette alchimie si particu- lière ! Au Techstars, il n’y a pas de cours magistraux, ni de méthodologies particu- lières délivrées. En revanche, on évolue dans un environnement où pèse une grande pression avec des attentes extrêmement élevées. Je pense que se sont ces composantes qui poussent à se démener. De plus, on côtoie des sommités du milieu que, per- sonnellement, j’ai toujours rêvé de rencontrer et qui échangent avec vous librement, vous délivrant du feedback. La compétition « officieuse » et la pression entre lauréats poussent également chacun à se sur- passer quotidiennement. Au risque de me répéter, cet environnement est exceptionnel ! Avec du recul, c’est vraiment à la suite de ce programme que nous avons fait décoller notre startup. D’ailleurs à ce sujet, nous (4) Site d’e-commerce. (5) Programme d’accélération de startups.
  • 35. 35 AnalysesEnpratiqueL’interview!Zoomsur... avons récemment conclu notre premier tour de table de levée de fonds. Pouvez-vous nous dire où en est Placemeter à ce stade ? Nous sommes désormais huit. Nous avons également bouclée une levée de fonds ainsi que je vous le préci- sais auparavant. Actuellement, nous construisons le système de maillage afin de couvrir intégralement New-York d’ici un mois. Notre application est dispo- nible sur les app-stores depuis février 2014, ce qui contribuera à densifier notre plate-forme de contri- butions. Par ailleurs, notre application va couvrir les 100 endroits les plus « busy » de New-York, tels que : Shake Shack, Trader’s Joe, etc… Avec du recul, sur quelles composantes avez-vous progressé en tant qu’entrepreneur aux États-Unis ? Sans surprise, j’ai beaucoup appris sur les aspects de design et de packaging de solution. Mais un autre point est également à prendre en compte : aux États-Unis, on apprend à vendre avant de fabriquer ; de sorte qu’il est primordial de bien affiner sa proposition de valeur avant de concevoir son produit. Autre aspect important : vu de France, nous avons une image d’Épinal assez emphatique comme quoi les Américains ne seraient pas forcément de bons techni- ciens, de bons développeurs, et que les Français seraient bien meilleurs. Pour moi, en France, nous avons un important peloton de très bons dévelop- peurs de classe A - / B +, alors qu’aux États-Unis, il existe une classe de développeurs exceptionnel- lement bons et, ensuite, une grande classe de développeurs relativement moyens. Cette première classe n’émerge pas directement des Universités mais bien des « écoles » GAFA (Google, Apple, Facebook, Amazon). Or, ces entreprises ont une cul- ture de l’excellence technique que l’on ne trouve nulle part ailleurs. New-York semble être « the place to be » pour les startups, l’environnement de la Silicon Alley est très stimulant et bien soutenu par la municipalité. Quel est votre sentiment à ce sujet ? Concernant l’investissement dans les startups, New- York est passé en quelques années de la 4ème / 3ème place à la 2ème place, et ce loin devant Boston. De sorte qu’en effet, la croissance et la profusion de startups à New-York est exponentielle : New-York est devenue très « tech-friendly ». Je vois ainsi des entrepreneurs arriver chaque semaine, dont beaucoup de français d’ailleurs. Au-delà des initiatives entreprises par le maire de New- York, Michael Bloomberg, et par la municipalité (difficilement mesurables mais qui ont facilité le pro- cessus), je pense qu’il faut chercher les facteurs explicatifs du succès de cette ville autre part. Pour créer un écosystème numérique vertueux pour les startups, il faut en effet trois éléments combinatoires : du talent, des investisseurs et un environnement social et collaboratif (une culturel sociale dans l’écosystème). New-York revêt tous ces ingrédients : è Les talents sont venus suite à la crise de 2008 lorsque, d’un coup, 600 000 personnes ultra-qualifiées se sont retrouvées au chômage ; beaucoup se sont tournés naturellement vers l’entrepreneuriat et les startups. è Pour ce qui relève du financement, à l’époque, des structures comme le Huffington Post (la « mafia PayPal 6 ») ont investi dans une myriade de startups qui sont devenues de véritables succès. è Et pour finir, New-York a un tissu social très dense ; les leviers d’introduction sont donc très faciles. Ces trois ingrédients font que New-York est devenue une place forte pour les startups. Par effet de miroir, et pour évoquer Paris, cela peut également fonctionner : il faudrait accentuer le levier du tissu social afin qu’il devienne plus actif et impac- tant. Nous n’avons pas forcément besoin d’un investissement plus significatif de la part des pouvoirs publics pour faire émerger un écosystème vertueux. À ce titre, Boulder au Colorado, lieu d’où a émergé le programme Techstars, en est le meilleur exemple. Boulder, historiquement ville de hippies, n’est pas du tout « tech-friendly ». Pour autant, il y a six fois plus de startups par habitant que la moyenne nationale. À titre de comparaison, la ville de San Jose en Silicon Valley, c’est trois fois plus que la moyenne nationale. Selon vous, quels programmes les pouvoirs publics devraient-ils mettre en place pour stimuler l’éco- système français du Big Data et de l’Analytics ? Au niveau des tendances technologiques, le discours ambiant a toujours une approche sectorielle : hier, on parlait d’usage de BYOD 7 , aujourd’hui de Big Data, demain d’IoT 8 , et après ce sera naturellement autre chose… Le Techstars de New-York : un « accélérateur » de startups (6) La « mafia PayPal » désigne tous les anciens fondateurs et employés de PayPal ayant par la suite connu de grandes réussites : Tesla, LinkedIn, Youtube, Yammer, Tesla Motors, SpaceX. (7) BYOD : Bring Your Own Device, pratique qui consiste à utiliser ses équipements personnels (téléphone, ordinateur portable, tablette électronique) dans un contexte professionnel. (8) IoT : Internet des Objets, tendance représentant l'extension d'Internet à des objets connectés et à des lieux dans le monde physique.
  • 36. Accomex n° 112 - Big Data36 Je pense humblement que les pouvoirs publics ne doi- vent pas faire de focus trop appuyé, marqué et distinctif sur chacun de ces secteurs. Ce qui compte, c’est de soutenir de bons entrepreneurs, leur offrir un environnement stable, leur donner les clés. Ils défri- cheront et structureront eux-mêmes les tendances porteuses et disruptives de demain. C’est l’aspect humain qui l’emporte sur le domaine, de sorte qu’il faut surtout renforcer l’environnement collaboratif et la dynamique inter-startup. Ceci est une différence majeure par rapport à ce que j’ai pu expérimenter aux États-Unis. Pour finir de manière plus légère, pouvez-vous nous citer les entrepreneurs que vous admirez ? Elon Musk 9 sans hésitation ! Et Xavier Niel pour la France. Tous deux ont en commun cette volonté de sortir de leur zone de confort, de réinvestir sur de nouveaux secteurs. Je suis admiratif de leur capacité à remettre en cause l’ordre établi par de nouveaux business models. Un autre entrepreneur que j’admire est Aaron Levie de Box, très humble et très abordable. Placemeter Créée fin 2012 à New-York par deux Français, Placemeter est une startup qui analyse des images récupérés à l’aide d’une caméra wifi ainsi que de capteurs et les transmet à son client sous forme de données : statistiques, graphiques, tableaux, plans. Pour en savoir plus : http://www.placemeter.com ; http://awinter.me/ ; @placemeter ; @awinter (9) Elon Musk, ancien co-fondateur de PayPal, fondateur de Tesla Motors et SpaceX. “
  • 37. 37 AnalysesEnpratiqueL’interview!Zoomsur... Le Big Data au service de l’analyse des visuels image est nettement plus visible et engageant qu’un tweet de texte ! Dans le flux d’informations continu auquel nous sommes aujourd’hui confrontés, l’image joue un grand rôle de valorisation du contenu. Mais les marques ne disposent que rarement de l’arsenal technologique pour appréhender les flux de photos les concernant, si elles ne sont pas associées à des tags, des hashtags explicites ou des références textuelles. Or, la majorité des photos sont dépourvues de ces mentions. Cet actif numérique viral qui impacte leur e-réputation leur échappe. Les entreprises ne peuvent donc plus se contenter de stratégies de surveillance de marque exclusivement basées sur l’analyse textuelle des tweets, posts et autres com- mentaires via l’analyse sémantique. Il est possible d’aller plus loin en capitalisant sur les technologies avancées d’analyse de visuels, afin de pouvoir rechercher et comparer automatiquement des mil- lions de visuels, sur la base de leurs caractéristiques individuelles - couleur, ombre et forme - comme nos yeux le font à chaque instant. L’offre technologique de LTU technologies repose sur l’analyse de photos sur les réseaux, dans l’objectif d’appréhender les sentiments (perception, dénigre- LES MARQUES ET LE POUVOIR DE L’IMAGE Depuis quelque temps, les réseaux sociaux sont devenus le royaume de l’image : images et photos sont au cœur de toutes les plateformes. Sous la poussée d’Instagram, Pinterest et autres outils de partage de photos, les réseaux sociaux sont devenus de vrais « recueils visuels », avec 500 millions de photos publiées quotidiennement ; 880 milliards devraient être postés en 2014. Sur Twitter, ce sont près de 2 millions d’images qui sont publiées chaque jour, sur Facebook, 3 milliards chaque mois. Ainsi potentiellement, la quantité de visuels à analyser est exponentielle. La photographie devient le levier de moyen d’expres- sion le plus facile pour partager de l’information et pour « commenter » une marque ou un objet. Pour s’en persuader, il suffit de se souvenir que Twitter favorisait la communication par le partage de liens. Mais à quelques semaines de son entrée en bourse en octo- bre 2013, le réseau social a réalisé une petite mise à jour en permettant l’affichage direct des images dans les flux d’actualité des utilisateurs. Pourquoi cette modification ? Parce qu’un tweet comportant une « ne image vaut mille mots » disait Confucius… Voilà une affirmation particulièrement pertinente dans notre monde contemporain ! En effet, avec l’avènement des réseaux sociaux, un constat s’impose à tous : l’image, en tant que moyen d’expression, est un vecteur dont l’expansion ne connaît pas de limites ! Facile à réaliser, immédiatement porteuse de sens, valorisant les propos écrits de façon certaine, l’image se pose aujourd’hui comme un élément incontournable de la communication des entreprises. Mais cela n’est pas sans risque : il s’agit, pour les marques, de savoir gérer leur e-reputation. Et dans ce domaine, les dispositifs de veille existants se fondent essentiellement sur des éléments textuels… Avec son offre technologique de reconnaissance et de recherche visuelle multimédia, LTU technologies offre aux entreprises les moyens d’appréhender les buzz autour de leur marque, ainsi que les usages que les internautes peuvent en faire. U Frédéric Jahard info-brand@ltutech.com Diplômé de l’ENST en traitement de l’image, Frédéric Jahard a travaillé pour Peugeot/Citroën/Jaguar puis MATRA, avant de rejoindre LTU technologies. Consécutivement Business Development Engineer, Vice- President Engineering puis Chief Technology Officer, F. Jahard est aujourd’hui Chief Executive Officer de LTU technologies. Il a notamment rédigé le Livre Blanc La Surveillance de Marque à l’ère de l’image, disponible sur le site de la société (http://www.ltutech.com). Le Big Data au service de l’analyse des visuels
  • 38. 38 ment, appréciation, etc.). Nos outils de reconnais- sance d’images permettent de mesurer le buzz d’une marque ou encore d’identifier l’usage négatif ou frauduleux qui peut être fait de ses images non taggées. Cela va bien au-delà de l’analyse sémantique étant donné que nos technologies reproduisent le fonctionnement de l’œil en capitalisant notamment sur l’intelligence artificielle ; elles sont ainsi capables d’identifier en quelques secondes les points de dif- férence et de similarité existants entre deux visuels a priori différents. Nos clients peuvent bénéficier de deux briques tech- nologiques connexes. è En premier lieu, ils bénéficieront d’une vue d’ensemble axée e-reputation (surveillance de la mar- que), via un mur d’images : Qui partage les photos de ma marque ? Dans quel contexte sont-elles utilisées ? À quelle fréquence virale ? Qu’en est-il de mes concurrents ? Est-ce que ma campagne visuelle virale a bien marché ? Cette connaissance leur permettra d’arbitrer sur des leviers de décision marketing. è Sur un volet d’intelligence plus poussé, nous analysons le détournement, l’utilisation et la consom- mation de la marque par les utilisateurs finaux dans un environnement contextuel. Dans le cas « dépréciatif », ce qui nous intéresse peut être le détournement, le dénigrement d’une publicité ou du visuel d’un produit. Nos outils d’analyse seront en mesure d’alerter une marque et d’endiguer le déclenchement d’une situation de nature à entacher fortement et durablement leur réputation sur les espaces digitaux. Par exemple, nous sommes capables d’identifier l’image d’un consommateur ayant pris une photo d’un rat dans une chaîne de restaurant et de quantifier la magnitude d’impact pondéré par l’audience de ladite personne sur ces réseaux. De plus, lorsqu’une crise commence pour une marque ou un produit, le risque est de voir des internautes utiliser l’univers de com- munication de la marque pour en détourner le message ou le contexte. Dans le cas « mélioratif », l’entreprise se doit d’identi- fier l’appréciation et l’exposition contextuelles de sa marque, voire d’engager une conversation avec ses clients les plus « influents ». Ces visuels contextuels générés par les ambassadeurs et avocats de la mar- que ont une force engageante, sans commune mesure avec un visuel produit par la marque elle- même. À l’ère de l’image, les actifs visuels d’une marque deviennent plus stratégiques que jamais. Il est donc crucial de déployer des technologies d’analyse d’images pour déterminer où sont exploités les visuels de marque d’une entreprise, dans quels contextes ils sont utilisés et partagés, et s’ils ont été détournés ou altérés. L’ANALYSE DE L’IMAGE : DES SERVICES PUBLICS AUX RÉSEAUX SOCIAUX, UNE MULTIPLICITÉ D’USAGES La première technologie développée par LTU technolo- gies s’est déclinée en de nombreuses applications sensibles : enquêtes criminelles, renseignement mili- taire, trafic d’objets d’art, contrefaçon. Dans le domaine de la lutte contre la pédopornographie, elle permet à la police de comparer les images stockées dans ses bases de données avec celles récupérées sur des newsgroups ou lors de saisies d’ordinateurs, permettant alors de confondre des personnes suspec- tées. Les premiers logiciels LTU technologies ont ainsi équipé aussi bien le FBI, Secret Services et les douanes américaines, que la Gendarmerie Nationale et la plupart des polices européennes. Notre solution donne du sens aux images et analyse les visuels pour en extraire les éléments constitutifs. C’est cette signature numérique qui permet d'indexer, de reconnaître et de comparer des images. Assez étonnement, il a été plus facile pour nous, startup française, de nous attaquer à ces marchés critiques et sensibles aux États-Unis qu’en France. En France, nous sommes souvent contraints de devoir passer par des intégrateurs (là où notre brique technologique et notre proposition de valeur sont assez diluées dans une proposition finale), tandis qu’aux États-Unis, nous avons signé des contrats en direct. Le Small Business Act américain, qui réserve certains marchés publics aux PME et startup, a été très salvateur pour nous en ce sens. De même, le degré d’aversion au risque, à expérimenter une technologie, n’est pas le même qu’en France pour ce qui est des acheteurs publics. À partir de 2008, nous nous sommes progressive- ment détachés des marchés gouvernementaux, suite à la réduction drastique des budgets publics, afin de trouver de nouveaux relais de croissance. Nous avons ainsi décliné notre cœur de technologie pour nous adresser au mobile et à la media intelligence et cher- chons aujourd’hui à comprendre ce que les gens publient sur les réseaux sociaux. Pour nous rap- procher de nos nouveaux clients (telcos, agences marketing, agences PR), nous avons relocalisé notre antenne américaine de Washington à New-York. Accomex n° 112 - Big Data
  • 39. 39 AnalysesEnpratiqueL’interview!Zoomsur... vons également nos travaux sur l’analyse contextuelle de la consommation de la marque via les images ; à titre d’exemple : « est-ce que les consommateurs con- somment du Coca-Cola dans un verre ou en canette, en soirée ou pas ? ». Nous venons de signer un partenariat avec DataSift, spécialisé dans l'analyse de données sociales. L’objectif ici est de fournir à tous les clients de DataSift une augmentation visuelle et de proposer aux marques du marketing research. Nous poursui- Le Big Data au service de l’analyse des visuels
  • 40. 40 Pouvez-vous vous présenter en quelques mots ? 1 J’ai passé près de 10 ans en recherche fondamentale sur des sujets de mathématiques abstraites, d’al- gèbre, de géométrie et de topologie. Après cette dizaine d’années de recherche fondamentale à l'uni- versité de Yale et au CNRS, j’ai cofondé tinyclues en avril 2010. Comment a émergé l’idée de tinyclues ? Les possibilités techniques des CRM (Customer Relationship Management) traditionnels n’ont que partiellement tenu leurs promesses pour délivrer de la valeur, de la connaissance client. En outre, les approches traditionnelles de segmentation, de silos fermés ou de scenarii de ciblage sont mathémati- quement erronés et reposent sur une sociologie très liée au marketing classique. Il est donc critique, pour les pure players de l’e- commerce, d’améliorer la compréhension fine des véritables souhaits et besoins de leurs clients et prospects. À ce titre justement, les données sociales sont très propices à faire des constructions mathé- matiques. Pour cela, il faut se confronter à l’apprentissage automatique afin de chercher et valoriser ces signaux. Mais compte tenu de la taille et, surtout, de la com- plexité des données au sein de ces bases, il est humainement et instinctivement impossible de capter la multitude et la diversité de signaux qui s’y trouvent. Seule une machine peut appréhender les millions de corrélations qui existent entre les différentes informa- tions contenues dans une base. Ainsi est née l’idée de tinyclues en 2009 : partir des données sociales brutes jusqu’à obtenir un impact business, tout cela à une époque où, lorsque l’on évoquait le Big Data, cela renvoyait invariablement aux problématiques d’infra- structure et de stockage, sans questionnement sur « Comment délivrer la valeur ? ». Quelle est votre proposition de valeur concrètement ? Nous proposons une solution plug and play d’optimi- sation des opérations de marketing direct. Concrètement, cela repose sur une plateforme cloud en mode SaaS (Software as a Service) de « CRM prédictif » (ciblage, recommandation, prédiction d’offres), qui s’appuie sur des algorithmes avancés de machine learning 2 et sur l’analyse de grands volumes de données. Notre solution permet aux e-commerçants de mieux cibler leurs clients et prospects en analysant ces millions de données (déclaratives, engagement multi- canal, sociales, étymologie d’un email, évènements, Le machine learning appliqué au secteur du e-commerce “ Questions à… David Bessis, Chief Executive Officer de tinyclues (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (2) L'apprentissage automatique repose sur l'intelligence artificielle et les méthodes automatisables qui permettent à une machine d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. La machine adapte son comportement en fonction des données. Accomex n° 112 - Big Data
  • 41. 41 AnalysesEnpratiqueL’interview!Zoomsur... Le premier dataset « labellisé » en e-commerce sur lequel nous avons travaillé en 2012 était issu de PriceMinister ; il nous a permis de passer d’une phase de travail manuel (très peu réplicable) au prototypage et à la scalabilité de notre solution. Ensuite, la mise à disposition de notre plate-forme de services en temps réel, en janvier 2013, a permis à nos clients de construire leurs templates 3 et de « requêter » sans avoir à échanger avec nous. Aujourd’hui, absorber de nouveaux datasets n’est plus une contrainte technique, bien au contraire : l’intelli- gence de notre outil s’en nourrit. En effet, l’approche basée sur l’apprentissage statistique est à rendement marginal croissant, ce qui signifie que la performance prédictive de nos outils croît d’au- tant plus vite qu’ils sont confrontés à de nouveaux jeux de données. Pouvez-vous nous citer quelques exemples de cas que vous avez traités ? Cdiscount cherchait à augmenter la part de revenu générée par leur CRM. Grâce à nos outils de ciblage prédictifs qui permettent de trouver le bon acheteur pour le bon produit (le résultat peut parfois être sociologiquement surprenant !), Cdiscount a pu voir, dans le cadre d’un A/B testing, non seulement une augmentation de 30 % de ce type de revenus, mais aussi un tiers de désabonnements en moins. Pour PriceMinister, nous avons repensé leur stratégie de communication personnalisée afin de dépasser les newsletters génériques qui spamment. Ainsi avons- nous transformé l’essai avec un early adopter de nos travaux ! Désormais, ils se servent au quotidien de notre plate-forme pour requêter. Quel est votre regard sur le profil en vogue en ce moment : celui de Data Scientist ? Je pondère, pour plusieurs raisons, le besoin croissant et cette pénurie supposée de centaines de milliers de Data Scientist. Tout d’abord, il est complexe de proposer une offre académique capable de couvrir les différentes disci- plines que recouvre la data science. De plus, les grands comptes, dans leurs problématiques métiers, ont besoin d’industrialiser un savoir-faire de data mining à grande échelle. Un Data Scientist sera très utile sur des proof of concept ou sur du prototypage. Mais sur l’étape suivante, la contribution « manuelle » d’un Data Scientist ne peut répondre à l’automatisa- tion et à l’industrialisation des processus. Selon moi, lorsqu’une entreprise fait appel à l’expertise d’un tracking, comportements, interaction, etc.) sans limi- tation de taille ni de complexité pour valoriser des signaux. Nous sommes, par exemple, capables de trouver des corrélations entre l'hébergeur de votre e-mail (@yahoo.fr, @gmail.com) ou vos pseudos, et vos achats. Votre prénom en dit aussi beaucoup sur votre âge et le milieu dont vous êtes issu, et la moindre seconde pendant laquelle votre souris s'attarde sur une page est décortiquée pour choisir, par exemple, quelle offre pertinente vous envoyer. Notre solution est packagée pour des équipes CRM et marketing qui seront en mesure de mieux cibler et personna- liser leur communication directe. À titre d’exemple, pourront être déterminés en quelques minutes, grâce à une interface web, un public réceptif, des cibles d’of- fres pour l’envoi d’une newsletter. Nos clients en retirent un levier actionnable, profitable et tangible : proposer de manière prédictive, granulaire, le bon pro- duit au public qui sera le plus à même de l’acheter. Notre solution a démontré des gains de performance supérieurs à 30 % par rapport aux offres concurrentes. Par ailleurs, nous maîtrisons la chaîne logicielle com- plète (architecture cloud sécurisée, solution propriétaire de traitement des données, algorithmes mathématiques, interface simple d’utilisation). Quels sont pour vous les grands enjeux de l’e-commerce ? Proposer une offre commerciale sans cibler les desti- nataires revient à jeter une bouteille à la mer ! Les informations pour cerner les clients potentiels ne manquent pas, mais la difficulté porte sur « comment trier les millions de données sociales, de navigation, d'historiques d'achat et d'interaction de nos clients ? ». La machine trouve ce que l’intuition humaine pourrait éventuellement suggérer. Or, les sites qui déploient les meilleures pratiques en matière de connaissance du client affichent des taux de croissance significati- vement supérieurs ; bien plus que leur notoriété relative. Comment avez-vous procédé pour industrialiser votre solution et vous confronter à des problématiques métiers de l’e-commerce ? Il est impossible de bâtir des algorithmes de machine learning sans des données réelles. J’ai donc pris contact, en 2010, avec des acteurs de l’email marke- ting afin de travailler sur leurs datasets (jeux de données). Ces collaborations nous ont permis de tra- vailler et d’affiner nos algorithmes puis, par la suite, nous avons construit notre infrastructure dans le cloud afin de garantir la fiabilité et la confidentialité de nos données. (3) Modèles de requêtes. Le machine learning appliqué au secteur du e-commerce
  • 42. 42 Pouvez-vous nous dire où en est actuellement tinyclues ? Sur l’aspect produit, notre plate-forme est commercia- lisée sous forme d’abonnement depuis janvier 2013. Parallèlement, nous avons annoncé en décembre 2013 notre 1ère levée de fonds de 1,4 million d’euros auprès d’ISAI et Elaia, Venture capital majeurs du logiciel et des acteurs disruptifs de l’e-commerce. De surcroît, nous sommes ravis de pouvoir bénéficier du mentoring de Denis Payre (fondateur de Business Objects et de Kiala) et de Stéphane Treppoz (président de sarenza.com) au sein de notre conseil d’adminis- tration. Aujourd'hui, tinyclues emploie 12 personnes, principalement des développeurs, mais aussi des spécialistes du data mining. Avez-vous comme objectifs de vous attaquer à d’autres secteurs d’activité et de décliner votre technologie ? Bien des secteurs requièrent l’intelligence de ce type de solutions. En revanche, le point de vigilance pour une startup est de ne pas confondre « comment trans- poser sa technologie » et « comprendre ce que sa stratégie et son modèle économique peuvent faire ». Le packaging de l’offre et le cycle de vente sont bien différents sur ces secteurs que l’e-commerce. Aujourd’hui, nous nous concentrons sur un secteur pour être tangible, mais il est certain que des secteurs comme les télécommunications, la santé ou l’assu- rance seront très intéressants pour nous à l’avenir. Data Scientist, cela signifie qu’elle a abandonné l’idée d’implémenter une solution. De plus, nous nous attaquons à des problématiques métiers, pour lesquelles des profils marketing (sans compétences techniques particulières) doivent pou- voir générer des populations ciblées via une solution clés en mains et une interface web intuitive. Nous mettons ainsi notre ambition scientifique du machine learning au profit direct d’équipes marketing au tra- vers d’un produit intelligible et utilisable. Trop de solutions Big Data fonctionnent avec une grande couche de conseil et une configuration spéci- fique. Je crois beaucoup en l’émergence de solutions avec une combinaison de quatre aspects : è une composante scientifique et technique très prononcée, è un vertical et un contexte métier identifiés, è une utilisation par des profils non-techniques, è un aspect d’industrialisation à grande échelle. Ainsi, des normes, des standards et des produits émergents pourront remplacer ce que l’on est en droit d’attendre d’un Data Scientist ou d’un statisticien. Par exemple, SPSS ou SAS utilisent des boîtes à outils statistiques et de machine learning que nous utilisons également, mais c’est un outil dimensionné pour des statisticiens, pas un simple outil d’usage adressé à un métier. Accomex n° 112 - Big Data Pour en savoir plus : http://www.tinyclues.com ; @tinyclues “
  • 43. 43Les apports du Big Data à la finance AnalysesEnpratiqueL’interview!Zoomsur... Les apports du Big Data à la finance Par ailleurs, la valeur de marché d’une entreprise dépend également de ses actifs immatériels. Si la valorisation des actifs intangibles pose encore ques- tion, l’E-Réputation d’une marque calculée par QuantCube Technology offre un élément de réponse, objectif et quantifié, et permet d’en suivre l’évolution. L’approche développée par QuantCube Technology est pertinente pour les investisseurs « value » dès lors qu’ils s’intéressent à des entreprises dont les clients communiquent sur les réseaux sociaux : luxe, grande distribution, produits de grande consommation, constructeurs automobiles, etc. À titre illustratif, QuantCube Technology s’est intéressé aux marques de la division « mode & maroquinerie » du Groupe LVMH, ainsi qu’à celles de ses concurrents. Le graphique 1, anonymisé, présente les résultats obtenus pour différentes sociétés du secteur. Loin de n’intéresser que les investisseurs fondamen- taux, les données des réseaux sociaux permettent également de mettre en œuvre des stratégies de trading intraday 1 , lors d’événements ponctuels. Par exemple, l’analyse en temps réel des tweets de la conférence Blackberry du 30 janvier 2013 (dédiée au LE BIG DATA : DES INFORMATIONS PERTINENTES POUR LES INVESTISSEURS Les sources de Big Data intéressantes pour le secteur de la finance sont multiples. Spontanément, nous pensons bien sûr aux données des réseaux sociaux. Parmi les 500 millions de tweets échangés tous les jours, ceux relatifs à un produit, une société ou une actualité sont autant de signaux qui, dûment agrégés et analysés, constituent une information précieuse. Il en est de même pour les « like » sur Facebook, ou encore les commentaires sur Youtube, Google+, Instagram, les forums, les blogs, etc. Les algorithmes développés par QuantCube Technology, société française pionnière en analyse du Big Data appliqué à la finance, permettent de quanti- fier non seulement la popularité d’une marque ou d’un produit, mais aussi la perception, le sentiment qu’en ont les utilisateurs des réseaux sociaux. Un ana- lyste financier peut donc utiliser ces indicateurs afin d’estimer plus finement les revenus d’une société et ceux de ses concurrents. L’accès rapide à l’information n’est pas vraiment un nou- vel enjeu pour les professionnels de la finance. Ainsi, les compagnies florentines installées à Avignon et prospérant dans la banque et le négoce ont-elles développé les premières postes, bien avant les rois et les princes. Au milieu du XIVème siècle, leurs courriers prenaient déjà la route plusieurs fois par semaine. Plus tard, la famille Rothschild a, quant à elle, utilisé des pigeons voyageurs afin de recueillir des informations inédites. C’est ainsi que Nathan Rothschild aurait été informé de la victoire anglaise à Waterloo. Les courriers et les pigeons voyageurs ont certes disparu, mais le principe demeure : les investisseurs les mieux informés bénéficient d’un avantage concurrentiel ; ils ne peuvent plus, aujour- d’hui, ignorer le Big Data. L Thanh-Long Huynh info@quant-cube.com Thanh-Long Huynh officie en tant que CEO au sein de QuantCube Technology. Il est spécialisé dans le dévelop- pement d’algorithmes appliqués aux marchés financiers. Diplômé en statistiques de l’ENSAE, en mathématiques financières de l’Université de Chicago, et titulaire de la charte CFA, il enseigne également la gestion des risques à l’Université Paris-I Panthéon-Sorbonne. (1) Trading Intraday : pratique qualifiant les opérations monétaires ou financières initiées et dénouées en cours de journée ou dans le cadre des opérations de refinancement de la trésorerie interbancaire, notamment auprès de la banque centrale.
  • 44. 44 Accomex n° 112 - Big Data lancement des modèles Q10 et Z10 de la marque) a révélé le scepticisme de l’audience face à ces nou- veaux produits. La chute marquée du QuantCube Sentiment Index, constatée en temps réel, a créé un signal de vente de l’action en séance (Cf. Graphique 2). De la même façon, l’on notera sur le graphique 3 la forte corrélation entre le cours de bourse d’Apple et le Sentiment Index généré à partir des tweets lors de la conférence du 22 octobre 2013 (dédiée au lancement de l’iPad Air, de Mavericks OS et du nouveau Mac Pro). Les données des réseaux sociaux offrent également des informations précieuses aux investisseurs « macro ». QuantCube Technology a ainsi pu prédire avec succès le résultat des élections allemandes en 2013. Mais les réseaux sociaux ne constituent pas l’unique source de Big Data pertinente pour la finance. L’analyse des données météorologiques, couplée avec la géolocalisation des principales zones agricoles, per- met par exemple à QuantCube Technology de réagir en temps réel à des événements climatiques affectant le prix de certaines matières premières. Les applications financières du Big Data sont donc multiples. Toutefois, les professionnels de la finance sont confrontés à de nombreux écueils, certains in- hérents au Big Data, d’autres spécifiques à la finance. Graphique 1 Exemple de résultats d’analyse de QuantCube Technology dans le secteur mode & maroquinerie Graphique 2 QuantCube Sentiment Index et prix du cours de bourse d’une société Graphique 3 QuantCube Sentiment Index et prix du cours de bourse d’Apple
  • 45. 45Les apports du Big Data à la finance AnalysesEnpratiqueL’interview!Zoomsur... DES ÉCUEILS QUI NÉCESSITENT UNE DOUBLE COMPÉTENCE : FINANCIÈRE ET TECHNOLOGIQUE Certains écueils technologiques sont bien connus : è 90 % de l’ensemble des données aujourd’hui dispo- nibles ont été créées ces deux dernières années 2 et les investisseurs ne sont pas épargnés par la multipli- cation des données numériques. è Les données proviennent de sources différentes (réseaux sociaux, stations météorologiques, etc.) et ne sont pas structurées. è Pour ne reprendre que l’exemple des réseaux sociaux, l’information est fragmentée sur de nom- breuses plateformes : Facebook, Twitter, Youtube ou Google+ bien sûr, mais aussi les sites locaux tels que VKontakte en Russie ou Sina Weibo en Chine. L’analyste qui s’intéresse au secteur du luxe, par exemple, ne peut négliger le marché chinois, dominé par Sina Weibo (500 millions d’utilisateurs). è L’analyse fine des ventes d’une société internatio- nale nécessite des algorithmes multilingues. D’autres difficultés sont propres à la finance. D’une part, la mise en œuvre de stratégies de trading intraday nécessite l’analyse de Big Data en temps réel afin de prendre des décisions adéquates d’achat ou de vente en cours de séance. D’autre part, les données n’apportent pas une ana- lyse toute prête. Autrement dit, il convient d’identifier a priori les données applicables à telle stratégie ou tel instrument financier. Certes, certaines considérations sont triviales : il serait faux d’appliquer un indice d’E-Reputation à un produit exclusivement dédié à une clientèle B2C qui ne s’exprime pas sur les réseaux sociaux. Rarement avons-nous vu, en effet, des internautes s’enthou- siasmer sur Twitter ou Facebook sur la beauté d’un sac de béton, quelle que soit la qualité du produit ! Toutefois, d’autres stratégies, complexes, nécessitent l’intervention de professionnels de la finance. Mais ces derniers se heurtent alors aux écueils technolo- giques susmentionnés, qui ne relèvent pas de leur domaine d’expertise. À la croisée de deux mondes, le Big Data appliqué à la finance nécessite donc la conjugaison de deux com- pétences clefs : 1. L’expertise financière. QuantCube Technology compte ainsi parmi ses membres fondateurs des profes- sionnels de la finance (trading, gestion de portefeuille et risk management) qui cumulent plus de 55 années d’expérience dans ce domaine. 2. L’expertise technologique. QuantCube Technology dispose d'un savoir-faire reconnu dans l'analyse du Big Data. Ses algorithmes ont notamment été récom- pensés par le Prix du Jury SAP dans le cadre du Startup Forum 2013. Au-delà de cette double compétence, l’avènement d’ou- tils permettant de stocker et de traiter des données colossales s’est avéré essentiel dans l’application des Big Data à la finance. À titre illustratif, QuantCube Technology s’appuie, grâce au Prix du Jury SAP, sur SAP HANA, une technologie in-memory database qui offre des capacités d’analyse 3 600 fois plus rapides qu’une solution traditionnelle. Plusieurs terabytes de Big Data peuvent donc être traités en quelques millisecondes et ainsi répondre à l’exigence de la prise de décision d’investissement en temps réel. QuantCube Technologie utilise également le cloud, notamment Amazon Web Services, afin d’améliorer la puissance de calcul et stocker des données. Sur la base d’une infrastructure informatique performante, QuantCube Technology a développé ses algorithmes propres afin de collecter des données des réseaux sociaux, les nettoyer et les struc- turer. Elle procède ensuite à l’analyse même, en fonction des données considé- rées. Celle-ci peut, par exemple, être réalisée par inférence bayésienne, c’est-à- dire en comparant les tweets recueillis à ceux d’une base de tweets de référence déjà évalués. À cette fin, QuantCube dis- pose actuellement de bases de référence en français, en anglais et en allemand (riches de plusieurs millions de tweets), et construit actuellement une base en mandarin et une autre en arabe. Par ailleurs, la pertinence de l’analyse dépend non seulement du sentiment mais aussi d’autres critères, tels que l’influence. Autrement dit, tous les tweets ne se valent pas et il convient d’en tenir compte. Enfin, QuantCube Technology s’appuie sur les derniers développements en matière de machine learning afin de conserver son avance technologique. Les Big Data constituent une source d’information précieuse pour les investisseurs dans leur quête d’une image toujours plus fidèle de la réalité écono- mique. Les applications sont multiples (analyse « value », stratégie de trading intraday, investissement « macro ») et concernent différents éléments sous- jacents (actions, matières premières, devises, etc.). Malgré les écueils, nul doute donc que le Big Data appliqué à la finance n’en est qu’à ses débuts. C’est dans cet esprit que QuantCube Technology a lancé, le 1er janvier 2014 le premier indice Big Data : QuantCube Big Data Top-Reputation Index 3 . (2) Brasseur C. (2013), Enjeux et usages du Big Data. Technologies, méthodes et mise en œuvre, Paris, Lavoisier. (3) Consultable sur www.q3-technology.com
  • 46. 46 Accomex n° 112 - Big Data Optimiser la performance énergétique des processus industriels grâce à la data Au niveau mondial, le volume de données liées à l’énergie croit à une cadence de 60 % par an et se comptera d’ici 2020 en exaoctets, soit des milliards de milliards de données brutes par an à transmettre et stocker. C’est l’équivalent du seul trafic Internet journalier sur mobile actuel ; mais l’enjeu est déjà crucial au regard des tensions déjà fortes en termes de précarité énergétique, de blackout ou de stabilité géopolitique dans certaines zones du monde. LE COMPTEUR CONNECTÉ OU LA COMPÉTITIVITÉ PAR L’ÉNERGIE Le nombre de compteurs connectés est en constante augmentation dans le monde. Aux États-Unis, ce sont déjà 46 millions de compteurs communicants instal- lés dans 40 % des foyers qui produisent un milliard de données quotidiennes… De même ERDF prévoit l’installation de 35 millions de compteurs d’électricité communicants Linky chez les particuliers en France d’ici 2020. Les industriels investissent également massivement dans des compteurs communicants pour retrouver de la compétitivité grâce aux économies d’énergie. LA GESTION DE L’ÉNERGIE : ENTRE SMART GRID ET SMART ENERGY MANAGEMENT La capacité à fournir et à consommer sans cesse plus d’énergie atteindra bientôt les limites physiques de notre planète. Le prix et la rareté croissants des ressources naturelles, la réglementation toujours plus contraignante, la responsabilité des hommes et des entreprises incitent inexorablement à mieux gérer l’énergie et les émissions de CO2 induites. Sur l’ensemble du cycle, des fournisseurs d’énergie jusqu’aux consommateurs finaux, c’est donc la capa- cité à mieux gérer, contrôler et anticiper à distance ces enjeux que constituent le smart grid, du point de vue du fournisseur, et le smart energy management, du point de vue du consommateur final. Le sujet « Énergie » est par nature global ; c’est donc un périmètre élargi et un volume énorme de données énergétiques et de métadonnées hétérogènes qu’il faut créer, transmettre, stocker, confronter, analyser et restituer en continu partout dans le monde pour rendre cette gestion de l’énergie intelligente. areté des ressources énergétiques, contraintes environ- nementales croissantes, diversification des sources et des distributeurs d’énergie, multiplication des innovations, etc. : voilà autant de facteurs à l’origine des mutations dans le secteur de l’énergie… Ces mutations induisent une multiplica- tion des données disponibles et posent la question de leur stockage et de leur analyse : le volume de données liées à l’énergie au niveau mondial croît sur un rythme de l’ordre de 60 % par an et se comptera, d’ici 2020, en exaoctets, soit des milliards de milliards de données brutes par an. Les entre- prises étant, de leur côté, confrontées à la nécessité de réduire leurs coûts d’approvisionnement et de consommation en énergie, l’exploitation de ces données devient indispen- sable : une gestion intelligente de la consommation sur la base d’une comptabilité analytique en temps réel est aujourd’hui possible grâce à la révolution numérique et au Big data. La startup Energiency peut fournir les outils nécessaires à l’analyse de ces datas et favoriser ainsi l’optimisation de la performance énergétique du processus industriel ; un atout pour le renforcement de la compétitivité économique des entreprises. R Arnaud Legrand Arnaud.legrand@energiency.com Arnaud Legrand est diplômé d’AgroParisTech et de l’École nationale du génie rural, des eaux et des Forêts (AgroParisTech ENGREF). Il a fondé Energiency, avec deux associés, en septembre 2011, après avoir travaillé en tant que consultant en solutions énergétiques inno- vantes successivement au sein du CEA, d’Ernst & Young, de Neutroclimat et de Blue-e. A. Legrand est aujourd’hui Chief Exectuive Officer chez Energiency, Cleantech & Software Entrepreneur.
  • 47. 47Optimiser la performance énergétique des processus industriels grâce à la data AnalysesEnpratiqueL’interview!Zoomsur... Par ailleurs, l’utilisation rationnelle des machines selon l’optimisation du carnet de commande, de la disponi- bilité de l’outil industriel et des équipes, fournira également d’importantes marges de progrès énergé- tique, ainsi qu’une meilleure flexibilité pour accélérer les cadences et les taux de rendement synthétiques. À l’arrivée, les coûts opérationnels de l’énergie, mais également de la maintenance ou des achats (opex) et les coûts d’investissement (capex) se trouveront tous significativement réduits. La capitalisation du savoir- faire énergétique grâce aux Systèmes d’Information de Management de l’Énergie sera un atout considérable pour anticiper les meilleurs scénarios selon les situations productives. En effet, grâce à l’accès rapide aux données historiques de consommation énergé- tique et l’aide à la décision prédictive en continu sur mobile ou smartphone, les industriels pourront mieux opérer l’énergie avec une meilleure réactivité au sein de leurs ateliers : démarrage intelligent et ordonnancé des machines, maintenance préventive avant les pannes lourdes, arrêts et mise en veille actives en cas de ralentis-sement non prévu, mobilisation opportune des certificats d’énergie et du lean management appliqué à l’énergie, etc. ENERGIENCY : « DATA DRIVEN ENERGY ANALYTICS FOR INDUSTRY » Energiency édite un logiciel web et mobile qui fournit des outils numériques innovants d’analyse Big Data de la performance énergétique du processus industriel. L’idée à l’origine de la startup, créée en avril 2013, vient du souhait formulé un jour, par un industriel, de possé- der un outil collaboratif et analytique afin d’avoir à sa disposition sur le web des préco- nisations pour mener lui-même, à moindre coût, son projet d’éco- nomies d’énergie. L’algorithme Energiency réalise en continu, sur le cloud, l'ana- lyse croisée des données issues des systèmes d’informa- tion présents dans les usines (énergie, production, mainte- nance, tarifs fournisseurs, etc.). De plus, le portail collaboratif web et mobile Energiency resti- tue, en mode SaaS, des outils de monitoring, d’analyse et de plans d’action de la performance éner- gétique qui sont personnalisés selon les utilisateurs, depuis les opérationnels (opérateurs, chefs de pro- jets) jusqu’aux décideurs (directeurs d’usines, directeurs industriels). Or un compteur électrique industriel qui mesure la consommation d’énergie active et réactive en triphasé toutes les dix minutes génère à lui seul au moins 315 360 données par an 1 . Une usine peut ainsi posséder jusqu’à 100 compteurs (toutes énergies confondues), soit 32 millions de données par an et autant de métadonnées à gérer. Bien que la plupart des industriels relèvent encore à la main leurs compteurs seulement quelques fois par an, ils doivent d’ores et déjà, à l’image des gestion- naires de réseaux électriques pour les particuliers, se prépa- rer à gérer ce raz-de-marée de données. En finir avec le relevé manuel et fastidieux des don- nées et leur traitement hasardeux sur tableur 2 passe à la fois par le compteur communiquant et par le Big Data. Contrairement aux particuliers, le secteur indus- triel concentre peu de consommateurs et beaucoup de données brutes, qui sont souvent inexploitables seules. En effet, elles doivent être consolidées en continu à une maille de temps utile, puis croisées avec d’autres systèmes d’information pour faire sens. À titre d’exemple, connaître la part de l’énergie con- sommée par un atelier ou une famille de produits à sa sortie d’usine nécessite une comptabilité analytique en temps réel que seule l’analyse Big Data peut offrir. LE BIG DATA AU SERVICE DE L’USINE DU FUTUR La troisième révolution industrielle liée aux mutations numériques des secteurs traditionnels constitue une excellente opportunité pour permettre à l’industrie d’honorer, de manière compétitive, nos besoins expo- nentiels en produits manufacturiers de grande consommation. De sorte que, grâce à cette capacité d’analyse intelligente 3 , les opportunités d’innovations dans les services de gestion intelligente de l’énergie semblent illimitées. L’optimisation tarifaire est une première conséquence de l’ac- cès aux données, avec une estimation prédictive plus juste des courbes de charges à venir. De même, la capacité à anticiper l’arrêt de machines et réaliser ainsi de l’effacement électrique diffus en période de pointe (là où l’énergie est la plus chère, comme par exemple en hiver ou en fin de journée), allègera signi- ficativement des factures de plus en en plus élevées pour les industriels. (1) http://www.energiency.com/compteurs (2) http://www.energiency.com/tableur (3) http://www.energiency.com/technologie
  • 48. 48 Accomex n° 112 - Big Data Energiency permet ainsi aux industriels dont le pro- cess est très consommateur d’énergie de mener eux-mêmes leur projet d’efficacité énergétique. Ils peuvent alors concrétiser et maintenir dès la première année jusqu’à 20 % d’économies d’énergie sur leur facture, et ainsi renforcer leur compétitivité écono- mique. Energiency équipera plus de 20 usines en 2014, et vise plus de 500 usines connectées en 2016 dans toute l’Europe. Pour en savoir plus : http://www.energiency.com ; @energiency
  • 49. l existe de nombreuses perspectives de réutilisations inno- vantes des données publiques de santé. L’analyse des Big Data de la santé implique plusieurs bénéfices majeurs : prendre en charge le patient de façon optimale (passer d’une logique curative à une logique préventive), contenir drastiquement les dépenses nationales (doublement de la population sénior d’ici 2030) et offrir de nouveaux terrains d’analyses et d’expérimen- tations à la communauté de recherche scientifique (dans les secteurs de l’épidémiologie, des maladies chroniques, de la pharmacovigilance, etc.). À l’heure où la France se refuse de libérer les données de santé de la CNAM, véritable actif numérique de quelques 450 téraoctets, de nombreuses initiatives riches d’enseignement se développent à l’étranger, des pays européens aux États-Unis en passant par l’Australie, Singapour ou le Canada… 49Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger I La CNAM se refuse cependant de libérer ces infor- mations. Or, celles-ci pourraient être d’une grande utilité : servir à la recherche afin de mieux appré- hender les épidémies, qualifier les prescriptions, jauger l’efficacité des médicaments, recouper des informations pour prévenir de drames sanitaires ou comparer les frais médicaux. Tous les analystes s’accordent sur le fait qu’une veille sanitaire calquée sur l’analyse des données de la CNAM aurait endigué à coup sûr le mésusage inapproprié d’un médicament comme le Mediator, via le recoupage et la mise en évidence de facteurs de corrélation. On estime le nombre de décès attribuables à des prescriptions injustifiées à environ 6 000 par an. Aujourd’hui, l’efficience de notre système de santé est sacrifiée sur l’autel de l’opacité, ces informations représentant le principal levier de négociations avec les assureurs, les laboratoires, les syndicats profes- sionnels et les industriels. Lever le voile sur l’opacité du système de la CNAM dévoilerait au grand jour AnalysesEnpratiqueL’interview!Zoomsur... FRANCE : LES ATOUTS ÉVIDENTS D’UNE EXPLOITATION DES DONNÉES DE LA CNAM La CNAM, un vivier numérique inexploité Notre modèle de santé se doit de faire mieux avec moins. Il doit être vecteur d’amélioration du parcours de soins et doit replacer le citoyen au centre de ce par- cours. Par extension, il doit être challengé de manière vertueuse en s’appuyant à bon escient sur les outils d’analyse prédictive et de machine learning. En France, les données de santé sont consolidées par la CNAM 1 , qui constitue la base de données la plus étof- fée au monde toutes catégories confondues. Ainsi, le SNIIR-AM 2 retraite et stocke 1,2 milliard de feuilles de soins chaque année, 500 millions d’actes médicaux et 15 millions de séjours hospitaliers d’un peu plus de 65 millions d’individus, soit à peu près 20 milliards de lignes de prestations depuis 15 ans : un véritable actif numérique de 450 téraoctets de données… Matthias Fille mfille@cci-paris-idf.fr Matthias Fille est conseiller en développement de la filière TIC à la CCI Paris Ile-de-France. À ce titre, il s’intéresse tout particulièrement à l’écosystème du Big Data et de l’Analytics et aux startups qui le composent. L’émergence de cette filière, les initiatives et plans d’aide initiés par les pouvoirs publics et associations professionnelles retiennent également son attention. (1) Caisse Nationale d’Assurance Maladie. (2) Système National d’Informations Inter-Régimes de l’Assurance Maladie.
  • 50. certaines de ses insuffisances, ainsi que son ineffi- cience à réguler les dépenses de santé et à optimiser le pilotage du système de santé. À titre d’exemple, il faut savoir que, jusqu’à peu, l'Institut de Veille Sanitaire n'avait pas accès au SNIIR-AM. Or, l’accès à ces datasets permettrait de cerner tous nos excès et dérives, tels que les prescriptions excessives de médicaments placebo 3 et antibiotiques, les dépas- sements d’honoraires, la multiplication des arrêts de travail de complaisance, les fraudes à l’assurance maladie ou le recours trop systématique à la prescrip- tion « chimique ». Optimisé, l’accès aux données de la CNAM permettrait ainsi de réaliser de fortes économies, sans toucher à la qualité des soins ; c’est d’ailleurs le combat entrepris par le collectif Initiative Transparence Santé 4 . Vers une médecine personnalisée et préventive L’intégration du numérique et l’exploitation de la data comme outil analytique permettraient de tendre vers une médecine personnalisée, granulaire, préventive (donc plus efficace) et moins coûteuse. En effet, notre médecine traditionnelle obéit à des impératifs qui ne prennent que trop peu en compte l’environnement multifactoriel dans lequel évolue le patient au quoti- dien et dérive, de fait, vers des parcours de soins « taylorisés », protocolaires. Il est dénué de sens que deux personnes souf- frant d’une même pathologie reçoivent, selon un protocole de soin standard, un traite- ment identique. La communauté médicale pourrait tirer profit de l’ana- lyse de ces datas, en appréhendant mieux, à travers cette nouvelle grille de lecture, les rythmes de vie des patients, et en faisant ainsi face, de manière plus efficace, aux risques potentiels auxquels ces derniers sont soumis. C’est en croisant ces datas que la poso- logie, les choix thérapeutiques, la prédisposition ou les indicateurs de récidive à certaines maladies chroniques pourraient être mieux adaptés. En effet, en ayant à sa disposition de nouveaux outils d’aide à la décision, basés sur l’empirisme analytique de la data, le praticien pourrait mieux arbitrer par rapport aux modalités d’intervention, car il lui manque aujourd’hui une transversalité collaborative et une interdisciplinarité de l’analyse des données. Il ne s’agit pas seulement de se limiter à un meilleur traite- ment curatif et d’optimiser l’existant, mais bien d’explorer de nouveaux horizons préventifs (anticiper de manière prédictive de potentielles pathologies par exemple). Cela aurait pour conséquence une mutation organisa- tionnelle du système de santé, particulièrement en matière de processus et de protocoles métier ou d’optimisation des allocations de ressources. En outre, ces nouvelles perspectives permettraient de réguler notre consommation médicamenteuse ainsi que notre recours systématique aux services d’ur- gence. Notre système se révèlerait plus efficient et à moindre coût pour la société. Cela répondrait, par ailleurs, aux enjeux de proximité, de personna- lisation et de prise en compte de ses spécificités indi- viduelles voulues par le patient. Le patient : un acteur actif dans la maîtrise de son capital informationnel Désormais, le patient est engagé et est devenu générateur volontaire d’un corpus d’informations relatif au domaine de la santé : l’information n’est plus en silos compartimentés ; elle est devenue ubiquitaire. Le patient s’auto-responsabilise, il inter- agit, cherchant à prendre part à l’actif informationnel qu’il génère. Avec cette vague du Quantified Self 5 , il recourt à des appareils connectés en permanence (bracelets, balances intelligentes, tee-shirt enregistrant les batte- ments de cœur, etc.), qui balayent ses comportements alimentaires, sportifs, ses humeurs, ses habitudes, son indice de masse corporelle ou encore ses performances cognitives. Il s’agit donc de véritables extensions du système nerveux, potentiellement capables de détec- ter en amont les premiers signes d’une maladie. Ces appareils interconnectés automatisent la collecte de données et font naître un usage spécifique ; sont concernées des solutions combinant capteurs connectés et applications sur smartphone (Fitbit, NikeFuelband, Jawbone, Withings, etc.), qui permet- tent d’indiquer la vitesse, la distance, les calories brulées, le rythme cardiaque, la pression artérielle, ou encore les cycles du sommeil. Les flux d’informations de ces little data, transmis en temps réel aux praticiens, pourraient modifier en profondeur la compréhension du mode de vie d’un patient, ainsi que celle des maladies chroniques. Nul doute que cela améliorait la réponse de la santé publique. Il paraît en effet absurde d’être le pays champion des objets connectés (Netatmo, Withings, Parrot, etc.) et de ne pas être en mesure de l’expéri- menter à grande échelle, en matière de santé publique. 50 Accomex n° 112 - Big Data (3) Médicaments sans effet pharmacologique démontré dans la pathologie considérée. (4) Initiative Transparence Santé est un collectif d'acteurs œuvrant dans le domaine de la santé qui réclame l'accès aux données publiques relatives à notre système de soins (http://www.opendatasante.com). (5) Le Quantified Self est un mouvement qui regroupe les outils, les principes et les méthodes permettant à chacun de mesurer ses données personnelles, de les analyser et de les partager. Les outils du Quantified Self peuvent être des objets connectés, des applications mobiles ou des applications web. “ Désormais, le patient est engagé et générateur volontaire d’un corpus d’informations relatif au domaine de la santé”.
  • 51. Par ailleurs, le patient exige de la transparence (sur les tarifs médicaux ou les dépassements d’honoraires par exemple). Il est demandeur et consommateur d’applications et de services de réutilisation innovants, lui permettant de mieux arbi- trer et appréhender son accès au parcours de soins. Il convient donc de recentrer le patient au cœur de la plate-forme de santé, via la data, le laisser accéder à ses données et en reprendre le contrôle. Pourquoi même ne pas imaginer que le patient lègue volontaire- ment sa banque de données numériques à la recherche, plutôt que la CNAM en soit la gardienne ? Mais cela nécessite l’obtention de données objectives… Il est donc grand temps, pour le système de santé, d’appréhender cette nouvelle rupture de paradigme, où le patient n’est plus considéré comme un simple admi- nistré : cette relation au patient passif est révolue. L’Open Data : un outil au service de la recherche Les données de santé sont fondamentales pour produire de la connaissance scientifique et de la recherche avancée. La possibilité d’avoir accès à ces datasets permettrait des études cliniques à grande échelle en matière d’épidémiologie, de pharmaco- vigilance et d’effets secondaires d’un traitement. Les travaux de la communauté scientifique nécessitent des études plus innovantes dans leurs approches méthodologiques que celles des essais cliniques classiques. C’est ce qui est appelé à se manifester dans la dimen- sion participative et contributive de la recherche de demain, où les données des patients s’enrichiront les unes par rapport aux autres en vue d’un bénéfice socié- tal. De plus, le format de travail Open Data permet de connecter en réseau les communautés, de fédérer les expertises et ainsi de court-circuiter les rouages de fonctionnement cloisonnés et corporatistes. Ces données représentent un fabuleux terrain d’expé- rimentation pour la recherche approfondie : l’étude à l’échelle d’une population ou sur une couche de population précise permettrait de nouveaux angles d’approches sur les diagnostics et la connaissance maladie. Cela est notamment le cas lorsqu’il s’agit de croiser les corrélations entre le patrimoine génétique et certaines maladies telles que le cancer (phénotype) dans l’objectif de rechercher des signaux rares. L’étude de fonctionnement de la génomique et la protéomique, à l’heure de l’Open Data massif, permet- trait de mieux anticiper les évolutions d’une maladie. Après l'effondrement du coût du séquençage ADN, l'enjeu majeur porte désormais sur la capacité à exploiter les données génomiques. À L’ÉTRANGER, DE NOMBREUSES INITIATIVES DE RECHERCHE ET D’APPLICATIONS La réflexion nationale doit se nourrir des expérimenta- tions réalisées à l’étranger : des pays européens aux États-Unis en passant par l’Australie, Singapour ou le Canada, les illustrations sont nombreuses. En Italie, les autorités publiques se sont attaquées à la fraude à l’assurance maladie : le croisement automatique des données de l’assurance maladie avec celles disponibles en libre accès sur les réseaux sociaux permet d’identifier les arrêts maladie suscep- tibles d’être frauduleux du fait de leur date ou de leur récurrence. En Australie, de très nombreuses informations relatives au système de santé sont mises en ligne, comme par exemple sur My Hospitals, qui permet de comparer la performance des hôpitaux : d’une donnée libérée est né un usage… Au Royaume-Uni, l’institut pour les Données Ouvertes (ODI) 6 a mis à disposition les Open Data de santé dès décembre 2012. Lancé par Sir Tim Berners-Lee, inventeur du World Wide Web, et Dr. Nigel Shadbolt, spécialiste du Web Sémantique, membre du Government Transparency Board et du gouvernement de David Cameron, l’ODI vise à « la collaboration entre les entreprises, les entrepreneurs, les chercheurs, l’État et la société civile, pour concrétiser la promesse de valeur économique et sociale liée aux grandes quantités de données publiques désormais acces- sibles à tous et réutilisables par chacun ». Le National Cancer Registration Service a, lui, mis au point une giga base de données, unique, extrême- ment fournie en matière de diagnostics et de traitements du cancer. Il consolide les données : diag- nostics, réactions au traitement, premiers soins, traitements, suivi quotidien, résultats, soins palliatifs. Cette base de données est enrichie de 11 millions d'enregistrements sur le cancer et s'agrandit tous les ans avec 350 000 nouveaux cas de tumeurs. Ses algorithmes produisent des analyses prédictives sur la manière dont les patients réagissent aux traite- ments. Les informations relatives à la progression du diagnostic et de la maladie sont reliées aux analyses moléculaires et génomiques du patient. Toujours au Royaume-Uni, le Département de la Santé a demandé aux médecins d’encourager leurs patients à avoir recours à des applications mobiles (homo- loguées et gratuites) pour suivre leurs signes vitaux et leurs symptômes dans toutes sortes de situations, afin de réduire le nombre de consultations. 51Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger AnalysesEnpratiqueL’interview!Zoomsur... (6) Open Data Institute : organisme à but non lucratif dédié à l’ouverture des données publiques.
  • 52. L’intensification des transmissions de ces données améliore également les prises en charge ultérieures. Au Canada, a été lancé dès 2000, Génome Canada 7 , qui a permis le financement de projets innovants de Big Data génomique. Citons aussi par exemple l’entre- prise GenePOC, qui a mis au point un disque compact de diagnostic utilisant des tests à base d’ADN, ou BD Diagnostic GeneOhm, une société de diagnostic moléculaire qui se classe au premier rang mondial parmi les développeurs de tests rapides visant à détecter et à identifier une variété d’agents infectieux et de variations génétiques. Aux États-Unis, des projets de recherche connexes ont généré 67 milliards de dollars pour l’économie américaine, 20 milliards de dollars en revenus et 310 000 emplois. En outre, le projet CATCH du MIT croise génétique et analyse passive des comporte- ments des patients atteints de diabète. Ainsi, en plus des informations médicales classiques sur les patients, une équipe recueille et analyse les informa- tions comportementales, la géolocalisation de celles-ci ou encore les habitudes de vie transmises par leurs téléphones. Les États-Unis ont également usé de procédés algo- rithmiques afin de procéder à des essais sur des échantillons cliniques plus grands, faisant ainsi émerger des tendances qui n’auraient pas été imaginées à l’avance. Par exemple, en 2009, en pleine pandémie de grippe H1N1, le ministère américain a eu recours aux ser- vices de Google. Via la collecte et la localisation des recherches mots clés et données relatives, Google a pu anticiper l’évolution de l’épidémie et décliner cela à travers l’indicateur Google Flu Trends, pour fournir en prédictif des indicateurs de propagation de la grippe. Enfin, la société américaine Qualcomm, historique- ment spécialisée dans la conception de processeurs pour téléphones portables, vient de lancer 2net Mobile, une application grand public sous Android qui permet d’agréger sur smartphones et tablettes des données cliniques (médicales et biométriques) trans- mises par les capteurs de multiples dispositifs médicaux. Cette application fait écho à son produit d’infrastructure hub2net qui, lui, répond au suivi à domicile des patients atteints de maladies chroniques. À Singapour, les apports de l’analyse prédictive s’appliquent à la politique organisationnelle de soins, afin de mieux industrialiser les processus métiers : les données relatives aux patients réadmis dans l’hôpital à plus de deux reprises dans un intervalle de six mois sont analysées et servent à l’élaboration d’un modèle prédictif. Celui-ci permet d’anticiper la demande de soins un mois à l’avance, notamment celle des patients qui souffrent de maladies chroniques. L’hôpital affecte ainsi ses ressources avec davantage d’efficacité et améliore l’expérience du patient au cours de son parcours de soins. En Norvège, l’information est utilisée pour favoriser une meilleure coordination des services de santé et, in fine, une meilleure prise en charge du patient : les municipalités fluidifient l’accès à l’information via les écrans tactiles de services et l’accès aux informations de services de santé. Ces écrans équipent les salles d’infirmières en ville et affichent l’état des chambres ou le nombre de patients en attente. En Europe, mentionnons le projet européen Sim-e- Child appliqué à la cardiologie pédiatrique : cette plate-forme cloud permet aux praticiens de valider de nouveaux modèles de simulation concernant les pathologies cardiaques complexes ; elle contribue à s'affranchir des infrastructures lourdes et des contraintes propriétaires des systèmes d'information. Les cardiologues peuvent ainsi requêter une énorme base de données, croiser les datas et obtenir des rendus statistiques. La plate- forme pourrait même se convertir en outil d’aide à la décision médicale : qualifier plus facilement le diagnostic des patients et consulter des cas de référence ; un modèle déclinable pour toutes sortes de pathologies. Au Rwanda, la startup Foyo 8 s’appuie sur le vaste parc mobile du pays 9 pour toucher le plus grand nombre de patients. L’application de Foyo propose aux patients de s'abonner afin de recevoir tous les jours un SMS leur préconisant un régime équilibré et adapté à leur maladie (cancer, problèmes cardia- ques, diabète, obésité, sida et hépatites). Le volet participatif s’enrichit par leur plate-forme m-Health d’échanges entre patients et praticiens. Au Japon, saluons le prototype de canne intelligente connectée de Fujistu : tout individu est géo-localisé en permanence et peut télécharger son itinéraire. Des capteurs de température et d’humidité permettent d’évaluer un changement météo et de modifier son itinéraire pour le mettre à l’abri si nécessaire. La canne intègre également un capteur de fréquence cardiaque. Accomex n° 112 - Big Data52 (7) Génome Canada : Agence de financement de projets de recherche en génomique. (8) Lauréate du concours SSW de Kigali. (9) 62,8 % de la population rwandaise utilise le téléphone mobile. “ Le bénéfice d’une ouverture des données de santé est indéniable. L’éviter relèverait d’un certain déni de réalité”.
  • 53. L’ONU, quant à elle, via le projet Global Pulse, analyse à un niveau microéconomique les flux migratoires, la nature des intégrations sur les réseaux sociaux, les pics soudains d’achats de denrée alimentaire / médicamenteuse. Ce projet a pour ambition d’analyser ces éléments en temps réel, dans une logique prédictive, pour mieux appréhender les drames humanitaires, crises alimentaires ou épidémies. Comme le souligne Henri Verdier, directeur d’Etalab : « La plupart des actions de l'ONU ont besoin de données fiables, actionnables, et obtenues dans un délai très court. Puisque désormais, l'em- preinte de presque toutes les activités humaines et l’implication sociétale sont imprimées et géo-localis- ables dans les réseaux numériques, il devient donc très tentant d'aller chercher, dans ces données ouvertes et anonymisées, les éléments de décision dont l'organisation a besoin ». Enfin, Twitter s’intéresserait désormais à la dépres- sion, fléau sanitaire du 21ème siècle, après avoir étudié la progression de la gastro- entérite : une véritable création de valeur quand on sait que la France détient le triste record de consomma- tion de médicaments psychotropes… Le croisement de données permet ainsi d’appréhender des phénomènes imperceptibles et d’améliorer la pharmacovigilance : le requêtage, sur Google, de patients consommant du paroxetine et pravastin, a permis de comprendre que cela augmen- tait les risques d’hyperglycémie. Faute d’une position volontariste de la CNAM, ce sont aujourd’hui les pure- players de la data (Google, Twitter, etc.) qui participent à la veille épidémiologique via les analyses de signaux. Ils pourraient aussi, à terme, s’intermédier entre le citoyen et les praticiens et monétiser cette connaissance patients… CONCLUSION D’une façon générale, les pouvoirs publics n’ont pas encore suffisamment réalisé leur transition vers le numérique et la data dans le domaine de la santé, aussi bien en ce qui concerne les nouveaux usages que les compétences métiers ou les infrastructures. Dans les pays les plus précurseurs, le ratio de person- nel informatique est de 2 %, soit un spécialiste de l'IT pour 50 hospitaliers… En France, ce ratio atteint péniblement 0,4 %. Exprimés en données brutes, ces écarts se traduisent en dizaines de milliers d'emplois (par exemple 25 000 en Angleterre contre 5 000 en France). Quant aux infrastructures, le taux des hôpi- taux raccordés aux réseaux haut débit (>100Mbps) est catastrophique : la France se situe à la 25ème place du classement du continent européen ; elle est avant- dernière en termes de disponibilité de système d’archivage numérique d’images médicales, 16ème pour le déploiement de la télémédecine… Le bénéfice d’une ouverture des données de santé est indéniable. L’éviter relèverait d’un certain déni de réalité ou d’un obscurantisme à l’innovation et au progrès scientifique. Il est regrettable de constater que de plus en plus d’acteurs publics et de collec- tivités libèrent leurs données quand, dans le même temps, la CNAM conserve une position traditionnelle et sclérosante. Certes, la crispation est légitime face à la menace d’une utilisation frauduleuse de ces données. Mais il revient aux pouvoirs publics de mettre en place un cadre de confiance et d’éthique qui jugulerait les dérives, garantirait l’anonymisation des données et libérait l’innovation ainsi que la création de valeur. Tous les éléments convergent : la maturité des tech- nologies d’exploitation de Big Data, l’interconnexion du patient qui fait de lui un générateur d’information, l’exigence de transparence et de personnalisation, etc., et démontrent que les nouveaux usages ne demandent qu’à émerger. Il est ainsi grand temps de libérer ces Big data. À l’heure où notre système d’accès aux soins se dégrade, où la santé à deux vitesses se confirme, où le financement dérape, l’inté- gration des technologies d’exploitation de la data représente un formidable levier de modernisation structurelle qui ne se discute plus. De nouveaux champs disciplinaires verraient ainsi le jour, mais tout cela reste conditionné au principe du droit à l’expéri- mentation. 53Big Data et Santé : enjeux nationaux et illustrations empiriques de l’étranger AnalysesEnpratiqueL’interview!Zoomsur... “ L’intégration des technologies d’exploitation de la data représente un formidable levier de modernisation structurelle”.
  • 54. Pour aller plus loin Accomex n° 112 - Big Data54 Sur la toile... è United Nations Global Pulse http://www.unglobalpulse.org è Commission européenne : Digital Agenda for Europe http://ec.europa.eu/digital-agenda/en/making-big-data-work-europe-0 è Etalab - Plateforme ouverte des données publiques françaises http://www.data.gouv.fr è Alliance Big Data - Le portail du Big Data http://www.alliancebigdata.com è AFDEL - Association Française des Éditeurs de Logiciels et Solutions Internet http://www.afdel.fr è L’USINE digitale - Quand le numérique réinvente l’industrie http://www.usine-digitale.fr/cloud-et-data è The online Big Data knowledge plateform http://www.bigdata-startups.com Lecture approfondie... è Cigref (2013), Big Data : la vision des grandes entreprises, octobre. è Brasseur C. (2013), Enjeux et usages du Big Data : technologies, méthodes et mise en œuvre, Paris, Lavoisier, avril. è Mayer-Schönberger V., Cukier K. (2013), Big Data: A Revolution That Will Transform How We Live, Work, and Think, Copyrighted Material, 5 mars. è Nieuwbourg P. (2013), Big Data : enjeux stratégiques & études de cas, janvier. è World Economic Forum (2012), Big Data, Big impact: New Possibilites for International Development. è IBM (2013/2014), Guide du Big Data - L'annuaire de référence à destination des utilisateurs. è Commission Innovation, sous la Présidence d’Anne Lauvergeon (2013), « Un principe et sept ambitions pour l’innovation », Rapport. è Commissariat général à la stratégie et la prospective (2013), « Analyse des Big Data : quels usages, quels défis ? », La note d’analyse n° 08, novembre. è Tata Consultancy Services - TCS (2013), « The Emerging Big Returns on Big Data », a TCS 2013 Global Trend Study. è Levallois-Barth C. (2013), « Big Data et protection des données personnelles : un défi quasi impossible ? », Télécom n°169, juillet. è Meunier C. (2012) « Big Data index France EMC/IDC », Livre blanc, septembre.
  • 55. AnalysesEnpratiqueL’interview!Zoomsur... Pour aller plus loin (suite) 55 Dans la presse... è De Montcheuil Yves (2014), « Quand les Big Data créent de nouveaux business models », La Tribune, 7 avril. è Lévy-Lang André, Lasry Jean-Michel (2014), « Le "Big Data" et les atouts français », Les Échos, 20 mars. è David Forest David (2014), « Big data : le cadre juridique existe », L'Usine Nouvelle n° 3359, 9 janvier. è Caulier Sophy (2013), « La montée en puissance de la Datamasse », Le Monde, 10 décembre. è Vittori J-M. (2013), « Big Data, troisième étape de la révolution de l’information », Les Échos, 27 novembre. è Cassini S., Hecketsweiler C., Michel A. (2013), « Dix secteurs bouleversés par le déluge d'informations », Le Monde, 15 octobre. è Belliard D. (2013), « Big Data, le nouvel Eldorado d'Internet », Alternatives Économiques n° 327, septembre. è Dauvergne G. (2013), « Big Data : de formidables opportunités professionnelles », Les Échos, 15 avril. è Belouezzae S., Ducourtieux C. (2012), « Vertigineux Big Data », Le Monde, 26 décembre. è Groupement français de l’industrie de l’information - GFII (2012), « Big Data : exploiter des grands volumes de données : quels enjeux pour les acteurs du marché de l’information et de la connaissance ? », Dossier de synthèse de la journée d’étude du GFII, 3 juillet. è Yiu C. (2012), « The Big Data Opportunity: Making Government Faster, Smarter and More Personal », Policy Exchange Report, juillet. è TechAmerica Foundation (2012), « Demystifying Big Data: A Practical Guide to transforming The Business of Government », Report. è Mckinsey Global Institute (2011), « Big Data: The next frontier for innovation, competition and productivity », rapport, juin.
  • 56. 56 Accomex n° 112 - Big Data ““ ± La vraie rupture vient du fait que l’on passe de la Business Intelligence à une logique prédictive Questions à... Florian Douetteau, Chief Executive Officer de Dataiku Je travaille dans le domaine de la data depuis à peu près 12 ans. J’ai commencé comme stagiaire fondateur chez Exalead 1 . J’y suis resté pendant 10 ans en tant que Directeur Technique (CTO), avec des responsabilités telles que la définition de la stratégie produit, le pilotage d’une équipe de 55 ingénieurs R&D et la réalisation des versions successives du produit. Je suis parti lors de la cession de l’entreprise à Dassault Systèmes en 2010. J’ai ensuite été CTO d’une société de Social Gaming (IsCool Entertainement) au sein de laquelle j’analysais les raisons pour lesquelles les joueurs acceptent ou non de payer, en mesurant notamment l'influence des nouvelles fonctions d'un jeu ou celle des com- munautés. J’ai également été Data Scientist chez Criteo, en tant que consultant auprès de la direction technique. Au fil de ce parcours, j’ai donc découvert le monde merveilleux de la data !” “ Pouvez-vous vous présenter en quelques mots ? Big Data est un terme en vogue en ce moment ; pouvez-vous nous en donner votre définition ? Je définirai en 1er lieu le Big Data comme une émergence de flux de données que l’on est amené à manipuler pour créer de la valeur. Cette émergence est due à la digitalisa- tion de l’univers. « Big » est entre guillements, parce que la donnée n’a pas besoin d’être « grosse ». « Datas » est au pluriel pour moi, car la plupart des projets qui portent de la valeur consistent à créer des liens entre des données que l’on n’avait pas imaginé d’em- blée ou que l’on ne pouvait pas relier auparavant.” “ Selon vous, dans quelle mesure le Big data représente-t-il une rupture de paradigme ? Ill y a selon moi deux types de ruptures majeures. Paradoxalement, je dirai que ce n’est pas le volume, car faire des analyses de données sur des volumes à l’échelle de quelques dizaines de téraoctets, c’était déjà une réalité dans le domaine de la finance ou de l’assurance. Aux États-Unis, des acteurs manipulent même du petabyte, en Europe relativement peu. La vraie rupture vient plutôt du fait que l’on passe de la Business Intelligence à une logique prédictive, que l’on change fondamentalement les processus métier. Certains leviers de décisions, non identifiés jusque-là, sont parfois suggérés par l’apprentissage “ (1) Exalead est un éditeur de logiciels, leader français des technologies de moteur de recherche basées sur les usages en entreprise et appartenant au groupe Dassault Systèmes.
  • 57. 57La vraie rupture vient du fait que l’on passe de la Business Intelligence à une logique prédictive AnalysesEnpratiqueL’interview!Zoomsur... Chez Dataiku, nous sommes quatre cofondateurs avec des profils différents (business, statisticien, technologies de l’information) et provenant de métiers différents : biologie, marketing en ligne et grande distribution. C’est dans ces différents métiers et au cours de nos expériences respectives que nous avons réalisé la difficulté qu’il y a à répondre à la promesse du Big Data dans les entreprises : les entreprises ne savent pas par où commencer… Les nombreuses technologies open source disponibles pour analyser l'information per- mettent rarement son exploitation au quotidien, et mieux vaut être polyglotte du point de vue des technologies, c’est-à-dire pouvoir choisir la meilleure technologie - Open Source ou propriétaire - par rapport à son besoin. Dois-je faire du SQL (Structured Query Language) ou du NoSQL (Not only SQL) ? Dois-je faire de l’Hadoop 2 ou du fichier ? Python ou R 3 ? En outre, le Big Data touche plusieurs métiers dans l’entreprise, de l’informaticien qui travaille sur la donnée d’un point de vue de la programmation au marketeur et à l’ana- lyste. Ces personnes perdent un temps considérable à nettoyer des fichiers, à essayer de comprendre les causes ou de faire des prévisions avec des outils qui ne sont plus adaptés à l’univers Web et Big Data. Plus concrètement, nous avons senti un fort besoin d’outillage de tous les nouveaux acteurs qui veulent fabriquer des applications Big data et prédictives appliquées à l’apprentissage automatique pour leur métier. Ill faut également savoir qu’il existe plusieurs stratégies de traitement du Big data selon les entreprises : soit via des partenaires qui vont traiter la donnée et la valoriser pour une meilleure utilisation ; soit - et c’est la stratégie que Dataiku promeut - via la mise en place d’un datalab interne, le client créant alors sa propre stratégie de structure de compréhension de données. Dans ces « datalabs », des spécialistes de la data et de la problématique métier collaborent pour fabriquer de nouveaux services à partir de la donnée.” “ Comment l’idée de créer Dataiku a-t-elle émergé ? Et quelles difficultés relatives au Big data avez-vous identifiées dans les entreprises ? Quelles réponses Dataiku apporte aux entreprises ? Chez Dataiku, nous avons fait le pari de l’évolution des métiers de la donnée face à la quantité croissante de données et à la nécessité d’internaliser plus de data pour faire des croisements, dégager de la valeur et industrialiser ce type de levier de décision. En réalité, générer plus de production et chercher à bénéficier d’avantages compétitifs sur la donnée, cela existe effectivement dans les entreprises ; aux États-Unis, un acteur comme Wall Mart a, dès les années 1990, eu recours à l’usage et à l’analyse de la data afin de générer des taux de croissance à deux chiffres là où ses compétiteurs stagnaient. Nous avons donc créé un outil qui simplifie la tâche de tous ceux qui, dans l’entreprise, doivent travailler la donnée. Il s’agit en fait de lever des verrous technologiques : nettoyer la donnée, intégrer des données brutes, industrialiser les projets à l’échelle Big Data et utiliser des technologies prédictives. Pour faire simple, disons que Dataiku est un logiciel d’analyse de données qui aide, très visuellement, à préparer, canaliser et faire des prédictions à partir de gros volumes de données. Une interface simple permet de traiter les données et de les rendre intel- “ automatique ainsi que par les machines elles-mêmes. Cela change donc la manière de travailler. Deuxième aspect : se greffe à cette logique prédictive une logique de prise de décision en temps réel, pour laquelle des services qui personnalisent une offre sont créés. Cela change radicalement la manière de concevoir des projets en entreprise.” (1) Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et échelonnables. (2) Langages de programmation informatique.
  • 58. 58 Accomex n° 112 - Big Data ligibles, via des probabilités d’achat ou de clics par produits. Notre studio intègre et analyse des données externes, des données brutes ou « sales », qui sont souvent sources de valeur. Grâce au Studio, nos clients peuvent fabriquer des applications pré- dictives plus rapidement et plus efficacement. À l’arrivée, l’entreprise peut mieux cerner ses clients et leurs habitudes d’achat ; elle peut alors développer des opérations marketing ciblées ou prendre des décisions stratégiques en termes de profitabilité, comme mettre en avant les produits qui généreront le plus de marge, plutôt que d’afficher un top 15 des ventes.” A qui s’adressent plus précisément vos solutions ? Nos verticaux sont, pour les ¾ d’entre eux, des pure players du web, notamment des e- commerçants, des éditeurs de contenus, des publishers, des régies publicitaires. Aujourd’hui, nombre d’entreprises sont conscientes de disposer d’un actif précieux avec leurs données. Elles s’interrogent sur la transformation de leur business model via la data, afin d’offrir des services online, de la mobilité, de nouvelles initiatives commer- ciales et marketing corrélées à la performance induite par la donnée. Ces entreprises observent assidument les acteurs, souvent américains qui, les premiers, ont opéré cette mutation. L’enjeu est de comprendre quels sont les leviers de performance, afin de développer toutes les applications qui en découlent pour mieux industrialiser et opti- miser leur offre de service.” “ Pouvez-vous nous donner un exemple d’application sur lesquelles vous travaillez ? Avec Arkeon, acteur historique des parcmètres (ils disposent de plus de la moitié du parc mondial), nous travaillons sur l’analyse de leurs données afin de concevoir de nouveaux services autour du stationnement « intelligent » et du trafic au sens large. Mais on peut également utiliser le Big Data pour guider les automobilistes vers les rues où ils sont le plus susceptibles de trouver une place de parking : l’application tient compte de la probabilité qu’une place de parking se libère et de l’attractivité des commerces.” C’est une application que nous sommes en train de développer pour la ville de New- York. La démarche est très intéressante car il ne s’agit pas uniquement d’optimiser un business model existant, mais bien de créer de nouveaux business model via la data. L’enjeu est fort pour la « ville intelligente » : comprendre, via ces technologies, quelles corrélations permettent d’améliorer les problématiques du stationnement ou de la ges- tion du trafic. Avant le Big Data, ce type d’analyse correspondait à des questions scientifiques de modélisation urbaine. Avec les nouvelles technologies, nous nous orien- tons de plus en plus vers des applications concrètes, mobiles, qui font naître de nouveaux usages.” “ En quoi la Data Science apporte-t-elle une nouvelle réponse au secteur du e-commerce ? Le succès de la vente en ligne induit des volumes de données importants (les visites, les clics, les parcours clients, les abandons de panier, etc.), qui laissent bien souvent les e-commerçants démunis quant à l’exploitation à en faire : comment traiter, comprendre, analyser et utiliser toutes ces informations pour améliorer leur offre ? Quels produits mettre en avant ? Quelles promotions mettre en place et à quel moment ? Le machine learning peut apporter des réponses à ces questions : un ordinateur apprend, grâce à l'analyse de gros volumes d'informations, pour en déduire des tendances ou des règles sur les comportements d’achat par exemple. C’est une technologie prédictive dans la mesure où les règles déduites permettent de prévoir un comportement en fonction des profils utilisateurs qui auront été établis. “
  • 59. 59La vraie rupture vient du fait que l’on passe de la Business Intelligence à une logique prédictive AnalysesEnpratiqueL’interview!Zoomsur... Il faut avant tout se poser les bonnes questions : qu’est-ce qu’un produit qui se vend le mieux ? Est-ce le produit qui, dans l’absolu, génère le plus de chiffre d'affaires ? Le pro- duit qui a le meilleur taux de transformation ? Faut-il seulement vendre le produit qui génère le plus de chiffre d’affaires ? Les produits ne sont jamais indépendants les uns des autres, les taux de marge pendant la durée de vie d’un produit fluctuent, le com- portement d’achat évolue en saisonnalité, des éléments externes rendent hétérogène le comportement des acheteurs entre eux, etc. Il s’agit donc de détecter les facteurs qui permettent de mieux cibler l’envie d’un client pour ne lui proposer que les produits qu’il est vraiment susceptible d’apprécier. L’aspect « apprentissage automatique » du machine learning consiste ainsi à laisser la machine apprendre qu’un visiteur du site, qui a acheté précédemment un futon par exemple, préférerait qu’on lui suggère, dans le rayon livres de voyages, des ouvrages sur le Japon. Voilà donc l’atout de l’analyse prédictive : l'automatisation de l'analyse de gros volumes de données appliquée à de nombreuses hypothèses.” Quel regard portez-vous sur les États-Unis ? Y observez-vous des initiatives intéressantes ? Nous avons eu l’occasion d’aller aux États-Unis à plusieurs reprises pour y prendre le pouls de l’écosystème de la data, challenger notre proposition de valeur ou présenter notre solution, comme lors de la O’Reilly Strata Conference à New-York. C’est de toute évidence un marché que l’on regarde de très près car les puits de données sont là-bas ! Les initiatives y sont nombreuses également ! Je suis notamment attentif à celle de Planet Labs. Cette société, fondée par des anciens de la Nasa, met à disposition de tous des images satellites de la Terre fréquemment actualisées. Concrètement, ils mettent en orbite des mini-satellites (10 cm3) qui envoient régulièrement des images des quatre coins de la Terre et comptent ainsi observer des phénomènes comme la déforestation, la pollution, les problèmes agricoles, etc., avec une certaine granularité : l’image satellitaire offre en effet une définition telle que l’on doit distinguer chaque arbre ! Via des interfaces de programmation, l’accès aux datas est très ouvert aux États-Unis, ce qui permet à une communauté de développeurs de plugger leurs applications d’analy- tique. Ces développeurs seront en mesure d'innover par la data et de créer de nouveaux outils que nous aurions difficilement pu concevoir sans récolter ce type de data.” “ Quelle perception avez-vous de l’écosystème français du Big Data ? Et de l’enseignement ? Je perçois cet écosystème comme assez foisonnant, croissant et dynamique. Il y a quelques acteurs très intéressants, des startups très innovantes qui tirent parti de notre culture d’ingénieur. Ces startups ont une vraie capacité à innover grâce à cette culture mixte mathématique/ingénierie et de vraies compétences en local ; il est très intéressant de tirer parti de l’écosystème français pour concevoir son produit. En ce qui concerne l’enseignement en France, je trouve que le cloisonnement est trop grand entre les différents enseignements, et que la statistique intervient trop tard dans le cursus universitaire… Nous excellons dans les domaines théoriques comme l’algèbre ou l’analyse, mais alors qu’aux États-Unis la statistique est enseignée de manière très pratique, dès le début des cursus, en France elle intervient trop tard dans les cycles uni- versitaires. Heureusement cela commence à changer ! Le Big Data exige, en effet, des profils d’analystes aux multiples compétences. Cela touche à la statistique, à l’informatique, à la programmation algorithmique, au design, à la sémantique, à la linguistique, au machine learning ou encore à la visualisation de données. Le Data Scientist doit donc être avant tout un Data Cleaner ! Mais il doit aussi trouver des solutions aux problèmes générés par une plateforme Hadoop : on ne compte “
  • 60. 60 Accomex n° 112 - Big Data plus le temps perdu à attendre qu’une tâche confiée à Hadoop soit terminée… On ne compte plus non plus le temps perdu à essayer de récupérer les données éparpillées chez les différents partenaires de l’entreprise, comme ses prestataires en communi- cation par exemple. Dataiku peut répondre à ces difficultés.” Quels sont les projets en cours de Dataiku ? Nous avons travaillé notre produit en version bêta pendant neuf mois, en collaborant avec de grands groupes clients pour affiner notre solution et répondre à leurs problématiques métier : associer le client et notre écosystème dans la conception de notre plate-forme est un élément clé pour disposer d’un retour de notre communauté. Ces « bêta utilisa- teurs » sont aujourd’hui nos meilleurs avocats pour imposer notre plate-forme comme le prochain stan- dard de marché. Nous allons désormais axer nos efforts sur le dévelop- pement commercial et l’évolution du produit. Dataiku a, en effet, offi- ciellement annoncé la disponibilité de la plate- forme data Science Studio fin février 2014, à l’occasion d’une manifes- tation de notre incubateur Agoranov, en présence de la Ministre Fleur Pellerin. Notre produit suscite reconnaissance et enthousiasme de la part de nos pairs (prix remis récemment par Bertrand Diard, co-fondateur de Talend, lors de Big Data Expo), ce qui récompense le positionnement et l’excellence de notre solution après une grosse première année d’existence : c’est de très bon augure ! Notre objectif est, en effet, de devenir le standard du marché car notre marché est global et la prime au leader extrêmement élevée”. Interview réalisée par Mathias Fille “ Pour en savoir plus : http://www.dataiku.com ; @dataiku ; @fdouetteau
  • 61. AnalysesEnpratiqueL’interview!Zoomsur... 61Les Entreprises face aux risques du Big Data - Les enjeux sécuritaires Dans quelle mesure le Big Data transforme- t-il la problématique de la sécurité en entreprise ? Il convient en premier lieu de définir ce que l’on nomme Big Data, car cela peut être sujet à débat. Ainsi, entend-on par Big Data « l’ensemble des don- nées à la disposition de l’entreprise et situées à l’intérieure de celle-ci » ? Ou parle-t-on d’un phénomène plus global, comprenant les données également présentes à l’extérieur de l’entreprise ? Certains professionnels vont même jusqu’à définir le Big Data comme « l’ensemble des données mises à la disposition de l’entreprise en propre mais aussi à travers ses consultants ». Personnellement, je pars du principe qu’il faut limiter la définition à « l’ensemble des données qui appar- tiennent à l’entreprise, qu’elles soient détenues en propre ou par le biais d’un contrat quelconque et dont la masse atteint un seuil critique les rendant difficiles à traiter de manière conventionnelle ». De cette façon, même si ces données appartiennent à un sous- traitant, elles sont à la disposition de l’entreprise prin- cipale. À titre d’exemple, des architectes qui travaillent pour votre entreprise, qui en dessinent les plans, disposent de données sensibles, stockées sur les bases de don- nées de leur propre société. Ces données ne vous appartiennent donc pas encore… Or, qu’elles soient déjà en votre possession ou qu’elles le deviennent plus tard ne modifie en rien la problématique de sécu- rité de l’entreprise principale. En effet, ces données procèdent de la sécurité de votre entreprise, puisque si ces plans sont amenés à disparaître ou à être volés, vous en subirez les nuisances tout autant que l’entre- prise sous-traitante. En conséquence, votre entreprise va se retrouver, dans la pratique, confrontée à deux types de situa- tions : il s’agira soit de gérer les masses de données en interne, soit de les faire gérer à l’extérieur, en ayant recours à une entreprise de cloud-computing. Voilà donc l’une des toutes premières questions qu’une entreprise doit se poser. Mais lorsque les services de cloud-computing sont externalisés, les enjeux sécuritaires ne sont-ils pas plus difficiles à gérer ? En effet, les enjeux deviennent plus difficile car, pour avoir la maîtrise de ces données, il faut savoir où elles se trouvent ! Et si elles sont détenues dans un lieu extérieur, l’entreprise s’expose à davantage de risques. Ces risques peuvent être classés en quatre types : Les Entreprises face aux risques du Big Data - Les enjeux sécuritaires “ Questions à… Christian Aghroum, Administrateur et Président de la commission « Sécurité Numérique » du Club des Directeurs de Sécurité des Entreprises 1 (1) Propos recueillis par Victor Mourer, Assistant de Rédaction auprès de la revue Accomex.
  • 62. 62 è Le premier porte sur l’intégrité des données, celles- ci ne devant être modifiées d’une quelconque manière, volontaire ou fortuite. Cet enjeu sécuritaire concerne donc la transmission des données, qui doit passer par le biais de liens sécurisés. Ainsi, en matière de cloud-computing, l’entreprise travaillant avec un acteur extérieur, elle se doit d’assurer et de vérifier en permanence l’intégrité et la viabilité de ses données. Dans le cas contraire, les risques qui pèse- raient sur l’entreprise seraient beaucoup trop grands. è Ensuite, il faut que les données soient immédiate- ment disponibles. Cela signifie que le système doit fonctionner sans problèmes durant les périodes d’utilisation prévues, afin que l’accès aux ressources et services nécessaires soit toujours assuré : une entreprise ne peut se permettre de se retrouver face à une panne des serveurs qu’elle loue. è L’entreprise doit également être certaine de l’impu- tation des opérations et des actions réalisées. Autrement dit, elle doit être certaine que ses données sont conservées en toute sécurité, et qu’aucun tiers ne peut s’attribuer les actions d’un autre utilisateur en usurpant notamment ses identifiants afin d’entrer dans la société. À titre d’exemple, si un tiers peut pénétrer à l’intérieur des serveurs, sans que l’entre- prise ne soit mise au courant par le sous-traitant, on peut largement douter de la sécurité des données… è Enfin, et c’est sans doute la chose la plus délicate en matière de sécurité des données, il s’agit de savoir où ces données sont physiquement. En effet, même s’il n’y pas de frontières dans le domaine de l’informa- tique ou d’Internet, lorsque l’on se retrouve confronté à une situation juridique, les frontières physiques entrent en ligne de compte : c’est la souveraineté internationale qui s’appliquera et c’est donc le corpus juridique du pays où les données sont stockées qui s’appliquera. Si mes données sont stockées dans un pays étranger, cela conduit à diverses difficultés, à commencer par la barrière de la langue et la diver- gence des expressions de droit. Ce n’est pas parce que l’on est confronté à des dispo- sitifs qui paraissent complexes et qui font appel aux notions de cyber-sécurité que l’on doit perdre le sens commun. Or, le sens commun dispose qu’une entre- prise est plus apte à contrôler, vérifier, auditer des données proches de chez elle que celles qui se trou- vent de l’autre côté de la planète. À vous entendre, on en vient à se dire que l’a priori selon lequel le Big Data simplifierait le travail de la politique de sécurité d’une société est erroné… Le Big Data complexifie la politique de sécurité si l’on ne se prémunit pas en amont, en suivant un ensem- ble de principes tels que : l’intégrité, la confidentialité, la disponibilité, la non répudiation et l’authentifica- tion, principes fondateurs de la SSI (Sécurité des Systèmes d’Information). Une fois que l’on a une poli- tique de Sécurité des Systèmes d’Information qui respecte ces principes, qui est claire, précise et cen- sée, il devient beaucoup plus aisé de définir ensuite vers quel prestataire se tourner. Finalement, la question du stockage des données par un sous-traitant est une question de dialogue, de col- laboration, dans l’objectif d’établir une relation de confiance pour que les entreprises puissent travailler efficacement main dans la main. Il convient, en outre, de noter que le niveau de sécurité est fonction de la nature de l’entreprise avec laquelle vous travaillez. À ce titre, les PME et PMI n’ont pas les mêmes exigences que des entreprises internationales puisqu’elles n’ont pas les mêmes capacités d’action. Le Big Data a-t-il rendu les attaques extérieures contre les entreprises plus faciles ? Non, cela ne les a pas rendues nécessairement plus faciles. En réalité, il s’agit d’une dynamique exponen- tielle : sachant qu’il y a un accroissement du nombre de données disponibles, il y a, parallèlement, une augmentation de la capacité à mener des attaques informatiques. Ainsi, c’est l’accroissement du nombre de données qui a suscité un attrait beaucoup plus important pour celles-ci. On constate donc, effectivement, une augmentation des attaques. Mais les entreprises sont de plus en plus conscientes de ces enjeux ; elles y sont d’ailleurs de plus en plus sensibilisées. Les attaques numériques aux fins d’intelligence économique repré- sentent, en fait, l’un des problèmes majeurs de notre temps. Or, plus Internet s’étend, plus le Big Data s’accroît, plus le potentiel de victimisation des inter- nautes grandit. Certains ne comprennent pas pourquoi les spam fonc- tionnent aussi bien. Mais c’est parce qu’il y a toujours un faible nombre de personnes qui, en raison de divers facteurs (comme la fatigue, etc.), vont les ouvrir. On ne peut donc pas dire que le Big Data faci- lite les attaques extérieures : il en a seulement accru le nombre. (2) Curry S., Kirda E., Shwartz E. (2013), le Big Data, des ressources pour la sécurité intelligente, RSA Security, janvier. Accomex n° 112 - Big Data
  • 63. AnalysesEnpratiqueL’interview!Zoomsur... 63 RSA Security a récemment suggéré 2 que toute entreprise de sécurité qui ne trouvera pas de solutions dans les deux ans pour gérer la problématique sécuritaire du Big Data est appelée à disparaître. Pensez-vous que ce soit vrai ou s’agit-il avant tout d’un effet d’annonce ? Je ne souhaite pas faire de commentaires sur ce genre d’annonces, car il y a souvent des stratégies publicitaires derrière. Toutefois, cela me semble un peu alarmiste. Beaucoup d’entreprises peuvent encore vivre sans Big Data : tout dépend à quelle entreprise on fait référence. On arrive toujours à travailler sur des données avec un nombre limité d’accès, ainsi qu’un nombre limité de données stockées. Cela ne pose pas de réels problèmes. Mais il est évident que si certaines entreprises, comme de grands revendeurs sur Internet, ne sont pas armées pour faire face aux attaques présentes sur le web, elles sont vouées au déclin, et pas dans les deux ans ! En fait, une entreprise qui gère mal les questions de sécurité informatique a plus de chances de se faire voler ses données, relatives à son savoir-faire, ses compétences, sa liste de client, etc., tout simplement parce qu’elle peut être l’objet de cybercriminels ou d’attaques à vocation d’espionnage économique. Aucune entreprise n’est immunisée. Ce n’est pas parce que l’on est une PME/PMI que l’on n’est pas confronté à ce type de risque, surtout avec les moyens de communication modernes. Le Big Data ne serait finalement qu’une question de volume ? Dans ma conception oui. Le Big Data étant la con- frontation d’une entreprise à une multiplicité d’infor- mations, cela génère davantage de risques parce qu’il y a des volumes plus importants, donc plus de portes d’entrée et, finalement, plus de possibilités de récu- pérer des données pleines ou fragmentaires afin de les revendre. Le risque est donc plus élevé, en ce sens qu’il est désormais beaucoup plus aisé de laisser des traces utilisables par des individus mal intentionnés. Donc, si l’on a une politique de sécurité informatique constante, basée sur les quatre principes que vous avez énumérés, il est possible de faire face aux menaces du Big Data ? En effet. Une entreprise doit toujours se remettre en question, ne pas considérer comme acquises les capacités de sécurité qu’elle avait précédemment, et se demander si une évolution technologique précise ne pose pas de nouveaux risques. Il faut donc faire des analyses de risque régulières (au moins une fois par an), celles-ci n’étant valables qu’à partir du moment où les données extérieures ne se modifient pas. De plus, une entreprise ne doit pas se priver de se tourner vers des sociétés amies afin de collaborer, de former des partenariats et d’échanger des savoirs. Mais le grand écueil sécuritaire des sociétés, c’est la formation en interne. Les entreprises ont tendance à tout miser sur les dispositifs techniques et en finis- sent par oublier de former leurs collaborateurs ! Pourtant, tout commence de là : c’est même essen- tiellement une question de formation. La base technique ne suffit pas. Et les PME/PMI sont les plus menacées car elles n’ont pas toujours les moyens de trouver des réponses à leurs questions ou de faire appels à des expertises extérieures. Heureusement, certaines structures comme les éta- blissements consulaires, certaines fédérations professionnelles ou corps de l’État aident les entre- prises à progresser. Mais il faut également que les patrons s’informent et s’investissent, qu’ils ne délais- sent pas les problématiques sécuritaires. Rappelons, s’il le fallait, que le forum de Davos édition 2013 était consacré à ces questions, que le colloque 2012 du CDSE l’était aussi 3 . Il est vrai que cela a un prix ; mais de bonnes solutions de sécurité informatique existent, à des prix abordables, sous réserve d’être accompa- gnées d’une formation des collaborateurs. Pensez-vous qu’il y a un monopole de la direction informatique sur les problèmes de sécurité au sein d’une entreprise ? Comment régler cette question dans la pratique ? Il appartient aux dirigeants de valoriser un acteur qui sera chargé de cette coopération entre les différents services de la société ; un acteur qui n’est, à mon sens, pas assez valorisé au sein des entreprises. Je veux parler du Responsable de la Sécurité des Systèmes d’Information (RSSI). Il devrait y en avoir un au sein de chaque entreprise. Cela peut être une personne de l’informatique, car en matière de sécurité de l’information, il faut des connaissances techniques. Mais il est également nécessaire d’avoir des connaissances juridiques, notamment sur les questions de protection des don- nées personnelles. De plus, il faut que le RSSI ait un accès direct à la direction de l’entreprise. Cela signifie qu’il ne doit pas être soumis à des échelons hiérar- chiques intermédiaires, comme par exemple au directeur de l’informatique. Celui-ci fera parfois des « raccourcis de sécurité » pour éviter des dépenses qu’il jugera inutiles ; un comportement catastrophique pour l’entreprise. Les Entreprises face aux risques du Big Data - Les enjeux sécuritaires (3) Aghroum Christian, Hassid Olivier (2013), Les entreprises et l'État face aux cybermenaces, Éditions L’Harmattan, septembre.
  • 64. 64 Le RSSI peut donc être rattaché au directeur de la sécurité dont les fonctions ont évolué ces dernières années. Elles sont dorénavant globales, allant du risk management à la gestion des risques, de la sécurité bâtimentaire à la sécurité de l’information, de celle des voyageurs à la maîtrise des données person- nelles. Quel que soit le niveau de l’entreprise, il est donc nécessaire d’avoir un responsable de la sécurité, à temps plein ou à mi-temps, qui soit autonome et qui ait une approche de sécurité globale. En fait, ce directeur de la sécurité doit jouer le rôle d’aiguillon, être celui qui n’hésite pas à remettre en question les acquis. On peut prendre dans ce rôle un auditeur ou un consultant extérieur si la taille de l’en- treprise ne permet pas de spécialiser le poste ; là n’est pas le problème. L’élément essentiel est de ne pas avoir peur de se remettre en question. Quelles propositions souhaiteriez-vous faire aux entreprises ? Je leur conseille d’aborder la problématique selon trois aspects : humain, technique et juridique. Il est nécessaire de confronter ces trois aspects et de se poser les bonnes questions. L’aspect humain passe par la formation, par la sensibilisation. L’aspect technique exige des questionnements sur « Comment j’outille ? », « Comment je développe les besoins que j’ai à ma disposition ? ». Enfin, l’aspect légal invite à se poser la question suivante : « Que puis-je faire, jusqu’où puis-je aller et pas plus ? ». Par la combinaison de ces trois aspects, toute entre- prise sera mieux à même de trouver les réponses adaptées à ses besoins, face aux enjeux de sécurité informatique qui ont été accentués par le Big Data. Enfin, tout directeur de la sécurité mais aussi tout diri- geant de société doit garder ceci à l’esprit : la sécurité doit demeurer continuellement orientée business. Le Club Des Directeurs de Sécurité des Entreprises Créé il y a plus de 30 ans, le Club des Directeurs de Sécurité des Entreprises (CDSE) dispose d’une solide expérience dans le domaine de la sécurité/sûreté d’entreprise. Il collabore avec plus de 90 entreprises présentes dans 187 pays, représentant 800 milliards d’euros de chiffre d’affaires et 3 millions d’emplois. è Un espace d’échanges entre acteurs de la sécurité/sûreté Pour créer des synergies entre les entreprises, le CDSE organise des séminaires (une vingtaine en 2013) ; il dispose de 11 commis- sions thématiques : la sécurité des salariés à l’étranger, la protection des installations, la protection de l’information, la fraude, l’intelligence économique, la gestion de crise, ou encore le CDSE junior (à destination des collaborateurs de 25 à 35 ans). è Un espace de réflexion au service des entreprises Le CDSE est à l’avant-garde des réflexions sur la sécurité et la sûreté. Cela se traduit par une vingtaine de publications par an et une trentaine d’événements annuels ; le CDSE a également établi des conventions avec des organismes de recherche et de forma- tion (IRIS, CNPP, INHESJ). è Une diffusion de la connaissance en matière de sécurité Le CDSE s’efforce de faire évoluer le regard des décideurs sur la fonction sécurité, tant auprès des autorités publiques que des res- ponsables d’entreprise. Il publie la revue trimestrielle Sécurité & Stratégie et le journal des Directeurs Sécurité d’Entreprise (DES). è Une force de proposition auprès des pouvoirs publics Le CDSE a établi des partenariats avec les services du Premier Ministre (SGDSN et ANSSI), les Ministères de l’Intérieur, de l’Écono- mie, de la Défense, et le Centre de crise du Ministère des Affaires Étrangères avec lequel il a défini une convention de coopération destinée à mieux coordonner la sécurité des 50 000 expatriés français. Pour en savoir plus : https://www.cdse.fr/ Accomex n° 112 - Big Data “
  • 65. AnalysesEnpratiqueL’interview!Zoomsur... 65 Quels sont les besoins des entreprises à l’origine du partenariat IBM - HEC Paris 1 ? Les compétences analytiques destinées à faire émerger de nouvelles exploitations et applications des masses de données sont aujourd’hui de plus en plus recherchées. Les data, notamment chez les grands comptes his- toriques, restent très largement sous-exploitées. Elles sont pourtant au centre des préoccupations de ces acteurs, qui cherchent désormais à prendre des déci- sions marketing plus granulaires, trouver de nouveaux leviers d’arbitrage, enrichir leur offre clients avec des services associés et trouver de nouvelles applications. Paradoxalement, trop peu d’entre eux disposent des compétences requises pour utiliser ces technologies et faire émerger de nouvelles applications. Le manque de diplômés et de professionnels disposant de telles compétences est une barrière à l’adoption de nou- velles technologies de traitement de données et de prise de décision, pourtant créatrices de valeur significative. Pour répondre en partie à cette problématique et for- mer des profils d’un nouveau genre dans le paysage de l’académique appliqué à l’analytique, HEC Paris (école de la CCI Paris Ile-de-France) et IBM ont lancé un cursus Big Data destiné aux étu-diants du MBA HEC. Quels sont les objectifs de ce partenariat ? Ce cursus a pour but de sensibiliser les étudiants à l’analytique et de répondre à la demande croissante de postes nécessitant des compétences managé- riales en Big Data et Analytics. Pour se démarquer des formations de Data Scientists et de statisticiens dispensées en école d’ingénieur, IBM et HEC Paris ont eu l’ambition de former de nou- veaux profils, complémentaires avec ces ingénieurs sur la chaîne de valeurs du traitement de données. Cette initiative conjointe représente, à ce jour, le 1er cursus européen d’analytique dispensé dans une école de commerce. Elle s’inscrit dans le cadre de l’IBM Academic Initiative, un programme qui fournit aux enseignants du matériel de formation, des logi- ciels et des matériels essentiels pour former aux compétences technologiques et managériales. La formation apporte une expertise plus centrée « métiers » que « traitement des données », en formant des managers techno-compatibles. HEC Paris entend ainsi former des étudiants ayant à la fois une bonne vision du business et la capacité de traiter des don- nées en masse, pour améliorer à la fois la prise de décision et la capacité d’innovation. « Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data “ Questions à… Josiane Gain, Responsable des relations universitaires d’IBM France (1) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data
  • 66. 66 Selon nous, les talents que les entreprises recher- chent doivent maîtriser trois compétences : gérer les informations, les analyser, puis prendre des décisions stratégiques pour l’entreprise. L’objectif vise à combi- ner la formation généraliste de dirigeant d’entreprise typique des MBA, avec des compétences pointues en matière d’analyse et d’interprétation des données. Quelle sont les spécificités et l’originalité des profils ainsi formés ? Comme cela vient d’être précisé, ce cursus se démarque des profils d’ingénieurs, statisticiens et Data Scientists formés par Télécom ParisTech ou l’ENSAE ParisTech. Jusque récemment encore, le Big Data était une affaire de statisticiens, de program- mateurs algorithmiques, de designers ou de mathématiciens. Il s’agit désormais de former d’au- tres types de profils. Le Big Data réclame en effet des compétences plus complexes et multiples : il s’agit d'abord de collecter les données, puis de les analyser, puis enfin de décider ! Car les experts du Big Data ont eux aussi besoin d'une hiérarchie qui parle leur langage et qui soit capable d’identifier les nouvelles opportunités de croissance liées à l’exploitation des data. Le champ des compétences à cumuler est tellement grand, qu'il faudrait savoir piloter et manager les équipes de Data Scientist. HEC Paris entend ainsi créer de nouveaux entrepreneurs de la data, des managers dotés des outils nécessaires pour créer de nouveaux business models à partir de la data. L’essor de l’analytique et des applications verticales issues de l’exploitation de la data contribue à la redéfinition des rôles au sein des entreprises, notam- ment par la création du poste de CDO (Chief Data Officer). Ce dernier cumule une double fonction, à savoir mettre la data au service de l’entreprise, tout en s’interrogeant sur les perspectives business que cette prise en compte des données peut engendrer. C'est sur ces fonctions stratégiques que se positionne l’association IBM - HEC Paris. Comment cela se passe d’un point de vue opérationnel ? Du côté d’IBM, je suis à l’initiative de ce projet, piloté par le Docteur Hammou Messatfa, Expert européen du Big Data. Du côté d’HEC Paris, Gonçalo Pacheco de Almeida, Professeur associé au département Stratégie et Politique d’Entreprise, et Bernard Garrette, Directeur délégué du MBA d’HEC Paris, assurent la gestion du cursus. À la rentrée 2013, 55 étudiants du MBA d’HEC Paris ont été retenus pour suivre ce module. Le cursus, dans sa première mouture, comprend une quaran- taine d’heures de cours ; il a nécessité le travail d’une équipe de 14 personnes pendant 110 jours. Dans le cadre de ce partenariat, IBM met à la disposi- tion d’HEC Paris ses ingénieurs, ses Data Scientists, ses logiciels et son savoir-faire en matière de Big Data. Les intervenants sont pour moitié des ensei- gnants et pour l’autre des professionnels de l'entreprise, dont des ingénieurs d'IBM : un pro- gramme hybride donc, avec des intervenants d’horizons divers (IBM, MIT, Kellog, etc.). Quant au contenu, la formation s’articule en quatre temps forts : è Une phase d’introduction, destinée à former les étudiants aux problématiques générales induites par le sujet : Où va la recherche ? Par quelles technologies transite-t-elle et dans quelle direction ? Comment les Data Natives sont-ils en train de changer les modèles d’entreprises ? Comment mettre en œuvre un projet data ? è Une phase d’illustration de propos, par le biais d’un listing de la perception Big Data au sein de chaque industrie. è Une phase de mise en situation, avec réflexion per- sonnelle de chaque étudiant sur des cas d’entreprises concrets. è Une dernière phase d’incubation sur plusieurs mois - destinée à certains étudiants - qui clôt le processus de formation. Accomex n° 112 - Big Data
  • 67. AnalysesEnpratiqueL’interview!Zoomsur... 67Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data Une Chaire d’enseignement consacrée au Big Data HEC Paris et AXA ont annoncé, le 18 mars 2014, la création d’une Chaire d’enseignement sur le thème « Stratégie Digitale et Big Data » confiée à Julien Lévy, Professeur Affilié à HEC Paris et Directeur de la Majeure et du Mastère Spécialisé « Management et Nouvelles Technologies ». Cette Chaire sensibilisera sur les enjeux et impacts du Big Data sur la stratégie et la transformation du modèle économique des entre- prises. Elle a pour vocation d’exposer les étudiants aux problématiques digitales opérationnelles des grandes entreprises, de les sensibiliser à l’intérêt des métiers liés à ces enjeux stratégiques et de confronter en retour les offres et produits d’AXA aux réactions de la génération des digital natives. La Chaire organisera par ailleurs un forum annuel portant sur la collaboration entre grandes entreprises et startups. http://www.hec.fr/Espace-entreprises/Chaires-et-Centres/AXA2 Au terme de ce cursus, les étudiants seront ainsi capables d’appréhender différentes problématiques comme la compréhension et la prévision des ten- dances d'achat des consommateurs, ou la collecte et l'analyse des données sur la concurrence. On leur apprendra également à aider les responsables de marques à mesurer l'impact de leurs campagnes marketing, à analyser les perceptions des consomma- teurs vis-à-vis des marques et des produits, tout en les familiarisant avec les technologies d’infrastructures désormais incontournables sur le marché. Quelles sont les perspectives de ce nouveau cursus innovant ? HEC envisage de renforcer cette formation au cours des prochaines éditions, en y intégrant de nouveaux modules tels que « Modèles de Simulation de Stratégie », « Extraction de Données », « Prédiction », « Analyse Stratégique », « outils d'analyse des médias sociaux » ou encore « Visualisation des Données ». Gonçalo Pacheco de Almeida a également décidé de créer un incubateur pour promouvoir l’entre- prenariat dans le secteur du Big Data. “
  • 68. 68 Quels ont été les ressorts et motivations pour ouvrir une filière Data Science à l’ENSAE ParisTech 2 ? Les méthodes quantitatives font partie de l’ADN de l’ENSAE ParisTech. Nous formons, de longue date, des ingénieurs, statisticiens-économistes, qui possèdent tout à la fois les compétences techniques nécessaires à l’analyse des données et la capacité à en saisir les enjeux stratégiques, en particulier en économie et en finance. Or, depuis un ou deux ans, nous recevons de plus en plus de propositions de stages et d’offres d’emploi pour des profils de Data Scientists. On assiste en effet à une très forte croissance du volume de données disponibles, dans des domaines très divers, mais aussi à une prise de conscience, de la part des entreprises, de l’intérêt qu’elles peuvent trouver à exploiter ces données. Nous nous sommes donc efforcés de faire évoluer notre offre de formation pour répondre encore mieux à ces nouveaux besoins, générateurs d’innovation, de croissance et d’emplois. Concrètement, comment s’inscrit cette filière dans votre offre de formation ? Cette filière Data Science 3 s’inscrit dans le cadre de notre cursus ingénieur, qui comporte au total trois années. Les deux premières sont consacrées à l’ac- quisition du socle fondamental de compétences en statistique, mathématiques appliquées et économie. C’est en troisième année que nos élèves se spéciali- sent et peuvent donc choisir cette nouvelle filière : Data Science. Nous diplômons environ 150 ingénieurs par an : dès cette année, plus d’un tiers d’entre eux ont choisi cette nouvelle voie. Au-delà de cet engouement, nous suivrons bien sûr attentivement leur devenir profes- sionnel. À côté de cette offre de formation initiale, nous tra- vaillons également sur la formation continue, ainsi que sur un projet de mastère spécialisé, sans doute pour la rentrée de septembre 2014. Quels sont les principaux modules et champs discipli- naires dispensés ? En pratique, la formation contient un tronc commun en statistique (en particulier machine learning, data- mining, etc.), informatique (notamment les outils logiciels et matériels nécessaires au traitement des Big Data, ainsi que des cours d’algorithmique et opti- misation distribuées) et économétrie avancée, puis trois parcours de spécialisation : marketing quantitatif et aide à la décision ; statistique et apprentissage ; économie et sociologie quantitatives. La formation de Data Scientist, un enjeu complexe “ Questions à… Julien Pouget, Directeur de l’ENSAE ParisTech 1 (1) École Nationale de la Statistique et de l’Administration Économique ParisTech, qui fait partie du GENES (Groupe des Écoles Nationales d'Économie et Statistique). (2) Propos recueillis par Matthias Fille, International Development - ICT Advisor, CCI Paris Ile-de-France. (3) http://www.ensae.fr/data-science.html Accomex n° 112 - Big Data
  • 69. AnalysesEnpratiqueL’interview!Zoomsur... 69 Cette filière devrait donc permettre, entre autres, d’acquérir les compétences attendues pour les postes de Data Scientist et Chief Data Officer qui émergent avec le développement des Big Data. Cette formation Data Science complète-t-elle ou se démarque-t-elle du mastère spécialisé Big Data de Telecom ParisTech ? Les futurs Data Scientists auront des profils hybrides, maîtrisant tout à la fois les statistiques, l’informatique, ainsi que leurs domaines d’application, autrement dit l’expertise métier. Tous n’auront pas forcément des connaissances exhaustives dans chacun de ces trois domaines. On peut par exemple supposer que l’ENSAE ParisTech formera des Data Scientists davan- tage au fait des méthodes statistiques, tandis que d’autres formations seront plutôt tournées vers l’infor- matique. Mais il est important que tous possèdent un langage commun. La plus-value de l’ENSAE ParisTech, c’est l’analyse statistique, en articulation notamment avec des pro- blématiques économiques ou financières et dans une perspective d’aide à la décision. Par ailleurs, Télécom ParisTech, comme l’ENSAE ParisTech, devraient rejoindre dans les prochaines années le campus de Paris-Saclay, et renforcer ainsi encore leurs interac- tions sur ces sujets. L’enseignement sera-t-il axé sur le cluster Hadoop 4 , les distributions associées d’Hadoop, le NoSQL 5 ? Cela fait en effet partie de notre programme, qui aborde les principaux éléments logiciels pour le traite- ment des Big Data. Mais nous portons également une attention particulière aux méthodes statistiques en grande dimension : machine learning bien sûr, mais également statistique computationnelle, statistique bayésienne, estimation non paramétrique, bootstrap 6 , analyse statistique des réseaux, etc. En termes de débouchés, vers quels types de postes cette formation oriente-t-elle ? Les profils polyvalents qui seront issus de cette filière pourront, nous l’espérons, occuper aussi bien des postes d’experts que des postes décisionnels ou d’encadrement en entreprise. Le caractère transver- sal des méthodes quantitatives permet en effet aux étudiants d’accéder à une large palette de secteurs d’activité (conseil, industrie, recherche fondamentale et appliquée, etc.). Les données du e-commerce ne sont pas les seules données dont l’exploitation génèrera de la valeur ajou- tée ! Les secteurs de la banque et de l’assurance sont aussi très intéressés par cette révolution. C’est égale- ment le cas de la biologie, avec les données issues de la génétique, ou encore des télécommunications, avec l’explosion des données géolocalisées. Existe-t-il des entreprises partenaires associées à cette formation ? Nous sommes en relation tout à la fois avec de grandes entreprises, des banques et des startups, qui sont particulièrement intéressées par cette nouvelle filière. Cela pourrait éventuellement prendre la forme, dans les prochaines années, d’un parrainage pour cette formation de Data Scientist, ainsi que d’une chaire développée dans le cadre du Groupe des Écoles Nationales d’Économie et Statistique (GENES). Nous avons par ailleurs lancé, il y a quelques semaines, dans le cadre du GENES et en partenariat avec la société de conseil Bluestone, spécialisée dans le domaine de la Data Science, le site datascience.net 7 , qui propose des challenges ouverts à tous. L’ENSAE ParisTech forme une élite académique de la statistique souvent prédestinée à pourvoir des postes clés dans la recherche ou des organismes publics. Avec cette dynamique de la Data Science, vos futurs ingénieurs pourraient-ils choisir une voie plus entrepreneuriale ? À sa création, il y a plus de 70 ans, l’école formait essentiellement les futurs administrateurs de l’Insee. Mais elle s’est largement ouverte depuis plusieurs décennies au secteur privé puisque les élèves- fonctionnaires ne représentent aujourd’hui qu’environ 15 % des promotions sortantes. À la sortie de l’école, la grande majorité des jeunes ingénieurs diplômés s’orientent donc vers l’entreprise, en particulier dans les secteurs de la banque, la finance, l’assurance, les technologies de l’information, le conseil, l’énergie ou encore les transports. L’émergence de la Data Science fournit aussi, à mon sens, l’occasion de les sensibiliser davantage à la création d’entreprise. C’est ainsi qu’un certain nombre d’anciens ENSAE ont d’ores et déjà participé à la création de startups dans ce domaine. Plusieurs d’entre eux viennent d’ailleurs enseigner à leur tour à l’école dans cette nouvelle filière Data Science ! (4) Hadoop est un framework open source écrit en Java et géré par la fondation Apache. Il a été conçu pour réaliser des traitements de volumes de données en masse. (5) NoSQL = Not Only SQL ou, littéralement, pas seulement SQL = ensemble des bases de données qui s’opposent à la notion relationnelle. (6) Méthodes d'inférence statistique et requérant des calculs informatiques intensifs. (7) http://datascience.net La formation de Data Scientist, un enjeu complexe
  • 70. 70 L’ENSAE ParisTech a été force de contribution pour la plate-forme d’expérimentation TeraLab 8 , pouvez-vous nous en dire un peu plus ? En effet, l’Institut Mines-Télécom et le GENES (dont faite partie l’ENSAE) ont obtenu la validation de la Caisse des dépôts et consignations pour investir dans une plateforme de services destinée à des projets Big Data dans le cadre de l’appel à projets « Investissements d’Avenir Big Data 2012 ». Avec cette plateforme de services, nous souhaitons répondre rapidement aux besoins de projets de recherche, d’enseignement, d’expérimentation d’appli- cations innovantes et lancement de pilotes industriels. La plateforme comporte des moyens matériels tels qu’une capacité de traitement considérable avec une mémoire vive de plusieurs téraoctets, des corpus de données, des applications et outils innovants (fournis par des PME innovantes sélectionnées par concours). Les porteurs de projets disposeront ainsi d’un environ- nement optimal pour se consacrer au traitement applicatif des données massives, faciliter la produc- tion et valider les résultats de recherche pouvant être transférés dans des innovations. L’infrastructure de la plateforme TeraLab intègrera des technologies matérielles, logicielles, et des solu- tions à l’état de l’art pour permettre des traitements batch ou temps réel et le stockage de centaines de téraoctets de données. Cette plateforme, TeraLab, qui va nous permettre d’accélérer significativement le passage à l’échelle industrielle de nombreux projets innovants, a été lancée mardi 4 février 2014. (8) http://www.teralab-datascience.fr Accomex n° 112 - Big Data “
  • 71. AnalysesEnpratiqueL’interview!Zoomsur... 71 Quels sont les apports technologiques du Big Data ? La technologie Big Data délivre deux nouveautés essentielles : s’appuyer sur du matériel à faible coût et offrir à la fois des capacités de stockage et des capacités de traitement. Cela fait longtemps que l’on sait stocker des milliards de données et que l’on sait faire des milliards de calculs par seconde. Le Big Data, c’est la réunion de ces deux actions à un coût raisonnable. Pourriez-vous expliquer en quoi consiste Hadoop ? Google a publié plusieurs articles scientifiques expliquant ses algorithmes, mais il n’a pas publié ou vendu leur implémentation : Hadoop est l’implémenta- tion de ces algorithmes, utilisés par d’autres sociétés que Google, particulièrement Yahoo !, rejoint ensuite par Facebook et bien d’autres. Hadoop est désormais utilisé par de nombreuses startups. Suivant précisément l’architecture définie par Google, Hadoop est modulaire, chaque module adressant une problématique spécifique. Cette modu- larité est parfois une faiblesse, de par la complexité qu’elle apporte, mais également une force car elle permet un développement et une utilisation indépen- damment de chacun des composants. Deux écueils sont à éviter concernant la plateforme Hadoop : è En premier lieu, l’idée qu’Hadoop n’est pas si novateur que cela. Certes, les personnes ayant implé- menté Hadoop n’en étaient pas à leur première implémentation d’un système distribué, mais celui-ci se démarque car il a fédéré le plus d’expériences. è Ensuite, l’idée qu’Hadoop est un outil fini, sans possibilité d’évolution. C’est un peu comme dire, en 1920, au sujet de la Ford T : « La question de l’auto- mobile est terminée, il n’y a plus qu’à l’utiliser, la seule industrie qui reste est celle des clubs de vacances ». Hadoop évolue, progresse encore et va être amené à apporter des solutions à des problèmes qu’elle ne sait pas encore résoudre. D’une part, la masse de travail nécessaire pour implémenter et valider l’ensemble des algorithmes est importante. D’autre part, les progrès technologiques du matériel amènent des changements dans les choix des algorithmes. Il convient également d’observer le passé récent d’Hadoop, qui consistait en l’insertion de quantités très importantes de données. C’est un postulat positif, mais ce n’est pas suffisant. En effet, il faut également être certain qu’une donnée insérée est véritablement et définitivement insérée. La capacité de pouvoir réaliser cette insertion, non pas sur des gros blocs de données, mais sur des millions de petits blocs, se révèle davantage positif encore. Les perspectives technologiques du Big Data “ Questions à… Nicolas Liochon, Chief Executive Officer chez Scaled Risk Les perspectives technologiques du Big Data
  • 72. 72 À titre d’exemple, Facebook utilise Hadoop pour sa messagerie : aucune perte de messages n’est bien entendu acceptable, et les envois de messages doivent être instantanés. Avec un million d’écritures par seconde, nous sommes ici dans le « Big Data transactionnel », qui est relativement récent. En effet, Facebook est en production de ce « Big Data transac- tionnel » depuis 2010. En 2012 et 2013, l’effort, auquel Scaled Risk a beaucoup contribué, a porté sur le temps d’indisponibilité en cas de panne. Celui-ci est passé de l’ordre de 10 minutes à moins d’une minute dans les cas standards. Notre objectif est de le réduire encore pour les cas avancés. Ce sont ici des fonctionnalités qui viennent juste d’être livrées et qui vont permettre des utilisations autrefois impossibles. À noter qu’en 2014, l’un des efforts portera sur la latence, c’est à dire la garantie de temps d’accès en millisecondes. Quels nouveaux matériels et nouveaux algorithmes ont été intégrés dans le système Hadoop ? Tout le monde connait les SSD (Solide-State Drive), dont il ne faut minimiser ni les problèmes qu’ils créent, ni la complexité qu’ils génèrent. Leur intégra- tion vient d’être réalisée dans Hadoop. Mais au-delà de ça, les évolutions concernent avant tout de nouveaux matériels et de nouveaux usages. Un exemple concret : les horloges atomiques 1 . Chères aujourd’hui, le resteront-elles encore longtemps ? Pourrait-on imaginer de nouveaux algorithmes si l’on disposait d’une horloge atomique dans chaque ordinateur ? Google a publié sa réponse à cette ques- tion en 2012 et a répondu par l’affirmative et par une réalisation concrète, lui permettant de simplifier encore l’utilisation d’encore plus de données, sur un nombre de machines encore plus grand. Leur réalité a vocation à devenir la nôtre. La plateforme n’est donc pas un sujet terminé, elle évolue de façon permanente, et les cas d’usages évo- luent avec elle. Maitriser la plateforme, comprendre sa roadmap, sont indispensables pour développer des solutions pérennes et ne pas se limiter à une vision passée de ses capacités. Quelles utilisations faites-vous de la plateforme Hadoop ? Scaled Risk est fondé autour de deux axes : l’impor- tance de la plateforme, et les compétences - rares - qui permettent de faire un système distribué, consis- tant et en temps réel. Tester un tel système est complexe et prend du temps. Rien n’est plus facile que de faire un système qui a l’air de marcher, mais qui, en fait, corrompt les données ou ne scale pas. Ainsi, plus encore que sur des technologies tradition- nelles, l’essentiel du temps est passé sur les tests et la qualité. C’est pour cette raison que le futur du Big data passe par les éditeurs de logiciel qui peuvent maîtriser cette complexité, plutôt que par des dévelop- pements « locaux ». Une plateforme dépourvue de fonctionnalités n’ap- porte rien. Grâce à la plateforme, la fonctionnalité n’est pas, ou plus, limitée à « faire tourner des batch pour associer des données ». Il s’agit au contraire de capturer la donnée en temps réel, gérer le workflow associé (changement de valeur, validation) et calculer sur des données, en temps réel ou non. Prenons un exemple concret d’un scénario couvert par Scaled Risk. Une opération a lieu : elle est sauvegardée instantanément. La dimension Big Data se manifeste lorsque des millions d’opérations sont sauvegardées simultanément. Une fois enregistrée, l’opération est définitive, même en cas de perte d’une machine. On dit que l’opération est timestampée. Il est possible de faire un rapport sur les données à une certaine date, y compris lorsque d’autres opérations sont en cours parallèlement. L’opération est également indexée en temps réel. L’intérêt de l’index est de doubler la taille des données. Elle ne sera donc pas effacée et en cas de modification, les deux versions seront conservées. Tous les accès sont audités, en écriture comme en lecture, ce qui permet de savoir quelles données ont été vues et par quelles personnes. Enfin, les calculs sont effectués sur les nœuds de stockage. Ces calculs peuvent être ceux de la finance traditionnelle ou des algorithmes dits de machine learning. Ici, les résultats sont stockés et diffusés en mode push : on sort du monde du Big data pour entrer dans les archi- tectures push. Scaled Risk Nicolas Liochon est contributeur du projet Apache HBase et membre de ce PCM (Project Management Committed). L’entreprise Scaled Risk a été créée en 2011, avec comme objectif spécifique de créer un logiciel s’appuyant sur les technologies Big Data. Initialement simple utilisateur de la technologie, l’entreprise en est devenue contributeur à part entière. Pour en savoir plus : contact@scaledrisk.com ; http://www.scaledrisk.com Accomex n° 112 - Big Data (1) Horloge dont les oscillations basées sur l’atome sont rapides et régulières, très utilisée en raison de sa précision quasi-parfaite. “
  • 73. AnalysesEnpratiqueL’interview!Zoomsur... 73 Cinq conseils pratiques pour gérer au mieux ses paiements en devises ANTICIPEZ VOS BESOINS POUR OPTIMISER VOTRE RISQUE DE CHANGE Il est indispensable de bien connaître les détails de vos flux d’échanges avec l’étranger, afin d’anticiper les sorties de trésorerie (équivalentes aux factures à régler). En effet, avoir le montant ainsi que les dates de paiement permet de mesurer votre exposition au risque de change des devises concernées. L’évolution, positive ou négative (i.e. la volatilité) du cours de ces devises peut faire augmenter ou, au contraire, fondre la marge prise sur un produit ou un service. è Si vous le pouvez, pensez à regrouper vos opéra- tions import et export afin de « netter » vos flux dans les mêmes devises (Ex. si vous avez reçu des dollars, utilisez-les pour le paiement d’une facture à venir plutôt que de faire deux opérations de change), è Achetez des devises au préalable si vous anticipez une hausse de leur valeur. DÉVELOPPEZ LE NOMBRE DE MONNAIES AVEC LESQUELLES VOUS TRAVAILLEZ Il ne faut en aucun cas repousser les offres commer- ciales dans des monnaies qui ne sont pas identiques à votre devise comptable. Au contraire, plus vous en ajoutez à votre « répertoire », plus vous allez avoir accès à des marchés supplémentaires. En effet, les sociétés avec lesquelles vous pourriez travailler n’ont pas forcément les mêmes opportunités que vous en termes de facilités de paiement. è Si vous refusez de payer une facture en devise étrangère, vous pourriez être amené à payer les réper- cussions de change de votre fournisseur (frais de change, compte, commission, etc.), è Ajouter des devises à votre « arc » vous permettra d’avoir un avantage commercial voire concurrentiel. INFORMEZ-VOUS SUR LES COURS DE CHANGE Depuis une dizaine d’années, le marché des changes (FOREX) s’est largement développé au-delà du cercle bancaire. Il vous est désormais très facile de trouver a société dans laquelle vous travaillez est, ou va être, amenée à acheter/vendre des produits/services dans un pays hors de la Zone euro ? Si tel est le cas, vous allez devoir effectuer des paiements en devises, alors que vous n’en maitrisez pas forcément les mécanismes. Avant de vous aven- turer à l’international et afin de limiter vos coûts, découvrez les meilleurs moyens de gérer le risque de change et optez pour les bons réflexes ! Nous vous proposons cinq conseils pratiques pour simplifier vos démarches et optimiser vos transactions en devises : information, couverture, choix de l’établissement de paiement, etc. : chaque décision compte. L Cyril Léger cle@fx4biz.com Cyril Léger est Country Manager France chez FX4Biz. Il a commencé sa carrière au CIC en 2004 sur un desk de vente Forex, puis a exercé plusieurs professions au sein du Groupe Crédit Agricole. Sa dernière activité : la com- mercialisation de solutions de change et de taux à une clientèle de moyennes et grandes entreprises, depuis la salle des marchés du LCL. C. Léger est co-auteur du guide pratique du change pour les entreprises, avec Nicolas Charbonnier, Président de FX4Biz (www.guide- change-entreprise.com). Cinq conseils pratiques pour gérer au mieux ses paiements en devises
  • 74. 74 des informations sur les différentes devises via des établissements spécialisés (un peu moins avec les banques). Une étude rapide de ces informations vous permettra de programmer au mieux vos paiements. Vous pourrez choisir de stocker des devises plutôt que de passer par un système de couverture à terme, tout en respectant la nécessité de sécuriser votre marge commerciale. è Rassemblez à la même date toutes vos opérations de change. Cela permet d’obtenir de meilleurs cours sur le volume, è Il est possible d’effectuer l’opération de change et le paiement dans le même temps avec certains établissements. COUVREZ-VOUS LORSQUE VOUS RECEVEZ VOS FACTURES Une gestion optimale du risque de change peut se faire par le biais de produits financiers simples, com- préhensibles et transparents. Les deux mécanismes les plus fréquemment utilisés sont le change au comptant et le change à terme. Le premier vous per- met d’échanger une devise contre une autre avec une livraison sous deux jours. Le second autorise les cou- vertures jusqu’à la date à laquelle il faut régler la facture. Une fois ce mécanisme mis en place, votre risque de change est effacé et la marge commerciale sur votre opération n’est plus corrélée à la volatilité du cours des devises. è Une couverture de change à terme vous permettra de garder la trésorerie équivalente quasiment jusqu’à la date de paiement effectif de la facture (possibilité de placer les fonds et de gagner les intérêts sur la durée correspondante), è Comptablement, vous pourrez prévoir, de manière exacte, les flux de trésorerie et donc mieux piloter votre activité. CHOISISSEZ VOTRE ÉTABLISSEMENT DE PAIEMENT Mettre en place vos couvertures via une salle des marchés vous permet d’accéder à des cours de change beaucoup plus compétitifs qu’en passant par un chargé d’affaire bancaire. Naturellement, il est nécessaire de faire une étude de vos besoins (en ter- Accomex n° 112 - Big Data
  • 75. AnalysesEnpratiqueL’interview!Zoomsur... 75 FX4Biz en bref FX4Biz est un établissement de paiements dont l’offre est à disposition des entreprises, françaises ou étrangères, dont l’activité à l’international implique une gestion active des flux en devises. FX4Biz est le spécialiste des opérations de change et de paiement à l’international pour les PME. Il met gratuitement à disposition de ses clients : è une plateforme permettant de faire ces opérations en devises è un accès à sa salle des marchés è des comptes en devises è des couvertures de change à terme En savoir plus : http://www.fx4biz.com - Email : cle@fx4biz.com - Tél. : +33 (0)6 74 83 81 28 Cinq conseils pratiques pour gérer au mieux ses paiements en devises mes de services utilisés) et des tarifs correspondants. Il existe désormais des établissements de paiements qui mettent gratuitement à votre disposition leur plateforme permettant de faire des opérations de change et des opérations internationales. Il est aussi préférable de ne pas être engagé en fonction, par exemple, d’un nombre minimum de transactions par an. Les comptes en devise doivent être gratuits (tout comme l’absence de commission de change) et les frais de transaction doivent être réduits au maximum. Enfin, votre établissement doit être fiable aussi bien du point de vue réglementaire (agrément des autorités de régulation) que sur le plan organisa- tionnel (expertise des dirigeants, actionnariat de la société, technologie utilisée). è Ne transmettez pas directement l’ordre de s’occu- per du change et du paiement à votre banque habituelle, vous ne maitriserez ni le cours de change, ni le timing de l’opération ni les frais liés, è Optez pour un établissement « transparent », vous devez savoir avant toute opération ce qu’elle va vous coûter ! Il est toujours recommandé de se faire conseiller par des professionnels. Il ne faut donc pas hésiter à se renseigner (c’est gratuit !) sur les différents intermé- diaires qui pourraient vous offrir une meilleure gestion de vos paiements en devises étrangères.
  • 76. Analyses Les nouveaux défis du Trade Finance Les crises financières récentes ont profondément affecté le financement du commerce international et, partant, pesé sur les flux commerciaux (même si la causalité inverse est également vraie). Les défis ne sont pas minces pour l’industrie du Trade Finance sur les prochaines années, avec les nouvelles règles de Bâle III, la fragmentation des chaînes de valeur mondiales ou encore l’insertion accrue des pays émergents dans les échanges internationaux. Corinne Vadcar Rédactrice en chef des Cahiers de Friedland, Responsable Économie et commerce international - DGA EMC - CCI Paris Ile-de-France Le dispositif Français de financement des exportations - Présentation et enseignements - Les gouvernements français successifs n’ont de cesse, depuis plusieurs années, d’encourager les entreprises à s’internationaliser. Le dispositif national de soutien à l’exportation vient de faire l’objet d’une nouvelle réorgani- sation, avec comme point central la création de bpifrance. Reste que cela ne résout pas la problématique de la multiplicité des structures de financement et de la compétitivité du dispositif : à quand une Eximbank en France ? Hacène Benmansour, Économiste, Consultant Entreprises exportatrices et besoin en capital : trois grands profils Les besoins en capital des entreprises diffèrent en fonction de leur profil et de leur taille. Les « pépites exporta- trices » ont surtout besoin de capitaux longs pour financer leur essor international ; les PME recherchent des fonds propres pour leurs stratégies de croissance externe et d’acquisition. Quant aux ETI, elles ont besoin de capital- investissement pour financer leurs stratégies d’alliance et d’acquisition. L’offre est-elle réellement à la hauteur ?... Jean-Mathieu Sahy, Président - Capital Export Les financements bancaires à l’export : du financement du projet au financement d’une opération De nombreux types de financements bancaires existent pour les PME, parfois complétés par des outils du dispositif public. Ces financements concernent toutes les étapes de l’export, de la prospection à l’investissement à l’étranger, en passant par l’exécution d’une opération ou le soutien à ses clients dans la recherche de financements. Mais le paysage bancaire est appelé à évoluer, laissant peser un risque de raréfaction de l’offre de crédits. Henri d’Ambrières, Directeur - HDA Conseil Accomex n° 112 - Big Data76 Analyses Qu’est-ce que le Big Data ? Concept incontournable de ces dernières années, le Big Data appelle dès à présent à repenser la stratégie d’entre- prise : au-delà du défi technique posé par le traitement de grandes quantités de données, c’est en effet le mode d’organisation intra-entreprise et le processus décisionnel qui sont bouleversés. La data devient le nouvel actif stra- tégique des entreprises, quel que soit leur secteur d’activité (banque, santé, distribution, télécommunications, etc.). Matthias Fille, Conseiller filière TIC - DGA-AIE - CCI Paris Ile-de-France La révolution numérique du Big Data : pour un écosystème français exportateur et créateur d’emplois Bien plus qu’une filière, le Big Data est un véritable écosystème. Enjeu de business transformation, il irrigue tous les secteurs et doit devenir l’une des priorités des entreprises : grands groupes et startups doivent collaborer. L’État a également un rôle crucial à jouer en tant que « locomotive d’expérimentation », via notamment la mise à disposition de données publiques et l’adaptation du cadre réglementaire afin de faciliter l’usage des datas. François Bourdoncle, Directeur Technique d'Exalead ; Membre de la Commission Lauvergeon « Innovation 2030 » La structuration du secteur du Big Data français : le projet Alliance Big Data Fédérer les acteurs (industriels, services publics, laboratoires, etc.), partager des expériences, construire une vision commune, favoriser le développement de nouveaux services et applications : tels sont les objectifs de l’Alliance Big Data. L’ambition de l’Alliance est de donner à la France « une place ambitieuse sur l’échiquier de la data et de cette révolution numérique » ; il s’agit également de développer un réseau social au niveau européen. Charles Huot, Président du Comité Éditorial du portail Alliance Big Data Les initiatives gouvernementales en matière d’Open Data : la mission Etalab La mission Etalab est chargée de « soutenir l’ouverture et le partage des données publiques », afin notamment d’en faciliter la réutilisation par les personnes privées : entreprises, citoyens, associations peuvent disposer de ces don- nées sur le portail data.gouv.fr. Au-delà du développement et de la structuration de l’écosystème national, la mission Etalab participe à la coordination européenne, voire internationale, des stratégies d’Open Data. Laure Lucchesi, Directrice adjointe de la mission Etalab Résumés des articles L’essentiel
  • 77. L’essentiel De la France aux États-Unis, la vision d’un entrepreneur français sur le développement du Big Data Aller aux États-Unis, pour une startup française, c’est « plonger dans ce qui se fait de mieux en termes de bain concurrentiel et technologique ». S’établir hors de France permet de se remettre en cause en continue, et donc de progresser. En outre, contrairement aux Français, les Américains ont déjà une haute idée de la valeur de la data ; ils ont des problématiques en termes d’usages mais un manque d’expertise… auquel les entreprises françaises peuvent remédier ! Adrien Schmidt, Président Directeur général de Squid Solutions ; Président de Silicon Sentier Les entreprises européennes sont-elles matures pour le Big Data ? Si les entreprises européennes semblent conscientes de l’enjeu que représente le Big Data en termes de crois- sance et de compétitivité, elles ne sont que 7 % à le considérer comme un sujet d’actualité ! Au manque d’outils pour exploiter/analyser les gisements de données à leur disposition, s’ajoutent la difficulté à se doter des compé- tences nécessaires à leur traitement (pénurie d’expert) et un niveau de qualité de ces données insuffisant. Hichem Dhrif, Directeur du domaine Enterprise Information Management - Steria France Le marché du Big Data aux États-Unis : trois startups, trois regards Démystifier l’Open Data grâce au design interactif : l’ambition d’une startup de la Silicon Alley « Créateur de valeur à partir des données publiques », la startup Enigma.io s’est implantée aux États-Unis, où la culture américaine de la transparence stimule l’Open Data comparativement à la France. Elle a choisi la Silicon Alley, à New-York, en lieu et place de la Silicon Valley : « écosystème très vivifiant », la Silicon Alley regroupe surtout des startups du B2B, sensibles au design interactif, et les Venture Capital y sont moins spéculatifs. Raphaël Guillemot, Design Manager - Enigma.io S’implanter à Kansas City : le choix décalé d’une startup française Bime Analytics a fait le choix des États-Unis dès sa création, afin de « récupérer un maximum de feedbacks de la communauté de la Business Intelligence et de la data » sur son projet. Zone technologique à fort potentiel, Kansas City s’est révélé être la porte d’entrée parfaite pour une startup française de petite taille : infrastructures de télé- communications, incitations financières de la municipalité, disponibilité de talents locaux, etc. Rachel Delacour, Président Directeur général - Bime Analytics Le Techstars de New-York : un « accélérateur » de startups New-York revêt tous les ingrédients d’un « écosystème numérique vertueux pour les startups : du talent, des inves- tisseurs et un environnement social et collaboratif » d’après le PDG de la startup Placemeter. Retenu en 2012 au sein du programme d’accélération de startups de la ville, A. Winter parle de compétition, de pression, d’un environ- nement exceptionnel particulièrement stimulant pour les activités de son entreprise. Alexandre Winter, Président Directeur général - Placemeter 77
  • 78. Accomex n° 112 - Big Data78 Exemples d’applications sectorielles du Big Data Le Big Data au service de l’analyse des visuels Vecteur de valorisation du contenu, l’image s’impose désormais comme un élément incontournable de la commu- nication des entreprises, notamment sur les réseaux sociaux. Les entreprises doivent donc surveiller et analyser ces flux de photos, comme elles le font pour les textes, afin de protéger leur e-réputation. Des technologies de reconnaissance et d’analyse d’images leur permettent aujourd’hui d’appréhender les usages que les internautes font de leur marque. Frédéric Jahard, Président Directeur général - LTU technologies Le machine learning appliqué au secteur du e-commerce Avec des possibilités techniques limitées et une approche segmentée, les CRM traditionnels n’offrent qu’une connaissance partielle des clients. Exploiter les millions de données sociales brutes que génère le web permet incontestablement aux e-commerçants d’affiner les souhaits et besoins de leurs clients, et donc de disposer d’une communication plus ciblée, personnalisée. C’est ce que permet désormais d’obtenir le machine learning. David Bessis, Président Directeur général - Tinyclues Les apports du Big Data à la finance Le Big Data contribue à alimenter les analyses des investisseurs financiers : les échanges sur les réseaux sociaux permettent, par exemple, d’appréhender la popularité d’une marque ou d’un produit, de mettre en œuvre des stratégies de trading intraday ; l’analyse à grande échelle des données météorologiques, géopolitiques, etc. permet aux investisseurs (matières premières) de réagir en temps réel ; ... : de quoi améliorer l’expertise financière. Thanh-Long Huynh, Président Directeur général - QuantCube Technology Optimiser la performance énergétique des processus industriels grâce à la data Entre contrainte environnementale et rareté des ressources, le secteur de l’énergie est en pleine mutation et génère des quantités de données. L’exploitation de ces données permettrait notamment de répondre aux nouvelles exigences des acteurs économiques (particuliers et entreprises), de plus en plus soucieux de la gestion de leurs coûts d’approvisionnement et de consommation : une contribution à l’optimisation des performances énergétiques. Arnaud Legrand, Président Directeur général - Energiency Big Data et santé : enjeux nationaux et illustrations empiriques de l’étranger L’analyse des données publiques de santé représente un formidable moyen de modernisation et de rationalisation du système d’assurance maladie français : optimisation de la prévention, meilleure prise en charge du patient, diminution des dépenses publiques, développement de la recherche, etc. De nombreux pays ont d’ores et déjà fran- chi le pas ; leurs expérimentations constituent de bons exemples à même de nourrir la réflexion nationale. Matthias Fille, Conseiller filière TIC - DGA-AIE - CCI Paris Ile-de-France
  • 79. L’interview ! Questions à... Florian Douetteau, Président directeur général de Dataiku Startup parisienne fondée en janvier 2013, Dataiku est spécialisée dans le traitement et l’analyse des datas ; elle propose aux entreprises un logiciel permettant de « préparer, canaliser et faire des prédictions à partir de gros volumes de données ». Florian Douetteau, PDG, nous présente les projets de sa société, sa vision du marché amé- ricain et sa perception des évolutions en cours de l’écosystème français du Big Data. En pratique Les entreprises face aux risques du Big Data - Les enjeux sécuritaires « Le Big Data complexifie la politique de sécurité si l’on ne se prémunit pas en amont, en suivant un ensemble de principes tels que : l’intégrité, la confidentialité, la disponibilité, la non répudiation et l’authentification ». Toute entreprise doit se remettre régulièrement en question en matière de sécurité et nommer un Responsable de la Sécurité des Systèmes d’Information autonome ; alors, elle sera à même de faire face aux menaces du Big Data. Christian Aghroum, Président de la commission « Sécurité Numérique » du Club des Directeurs de Sécurité des Entreprises « Big Data et Business Analytics » : former les nouveaux entrepreneurs de la data Trop peu d’entreprises disposent des compétences nécessaires à l’utilisation des technologies d’analyse des datas, technologies pourtant fortement créatrices de valeur. HEC Paris et IBM ont donc lancé un cursus Big Data afin de former des profils d’un nouveau genre, complémentaires aux Data Scientists, ingénieurs, statisticiens, et maîtrisant trois compétences : « gérer les informations, les analyser, prendre des décisions stratégiques pour l’entreprise ». Josiane Gain, Responsable relations universitaires - IBM France La formation de Data Scientist, un enjeu complexe Face à l’intérêt croissant des entreprises pour l’exploitation des données, l’ENSAE a cherché à adapter son offre de formation ; elle propose désormais une filière Data Science, en troisième année du cursus ingénieur, et réfléchit à un projet de mastère spécialisé pour la rentrée 2014. Grâce au caractère transversal des méthodes quantitatives, les profils issus de cette filière pourront accéder à une multitude de secteurs d’activité (conseil, industrie, etc.). Julien Pouget, Directeur de l’ENSAE ParisTech Les perspectives technologiques du Big Data Le Big Data est la réunion de deux actions : stocker des milliards de données ET faire des milliards de calculs par seconde ! La technologie évolue, comme le montre le système Hadoop, par exemple, qui s’enrichit en permanence de nouveaux matériels et de nouveaux usages. Ainsi, dans la finance, les technologies du Big Data ouvrent de nou- velles perspectives : disponibilité des données de transaction en historique illimité, nouveaux outils analytiques, etc. Nicolas Liochon, Président Directeur général - Scaled Risk 79L’essentiel
  • 80. Zoom sur ... Cinq conseils pratiques pour gérer au mieux ses paiements en devises Pour aider les entreprises qui travaillent à l’international à faire face - au mieux et à moindre coût - aux probléma- tiques de règlement en devises ou de couverture de change, cinq conseils sont proposés : de l’anticipation des sorties de trésoreries au choix de l’établissement de paiement, en passant par la diversification des devises utilisées, le suivi des cours de change, et le choix de la couverture du risque de change « à terme » ou « au comptant ». Cyril Léger, Country Manager France - FX4Biz Accomex n° 112 - Big Data80

×