Your SlideShare is downloading. ×
0
Gaia Satellite Data Processing ChallengesObjectifs                                                             Innovation ...
Alephd, we help publishersObjectifs                                                           Innovation                  ...
Artimon, service de collecte et danalyse de                           métriques à large échelle.Objectifs                 ...
BELOGIK: rendre les logs intelligentesObjectifs                                                          InnovationLe proj...
“Moving Data & BIME: Harnessing the power                           of Google BigQuery”Objectifs                          ...
“Moving Data & BIME: Harnessing the power                           of Google BigQuery”Objectifs                          ...
ICANIC : Intellectual Capital AnalyticsObjectifs                                                         Innovation       ...
Cedexis RadarObjectif du projet                                                   Aspects Novateurs                       ...
Distributed e-commerce : bringing online                         shops to high-traffic content websitesObjectifs          ...
CLIRIS, plate-forme de pilotage des points                          de vente par l’analyse des flux shoppersObjectifs     ...
ELLICIBLEObjectifs                                                          Innovation                                    ...
Tableau de bord des TerritoiresObjectifs                                                        Innovation                ...
Domirama, un outil dexploration des                            historiques de comptes au service de nos                   ...
BIG DATA GETS PERSONALObjectifs                                                      Innovation                           ...
ECO2DATAObjectifs                                                           Innovation                                    ...
Artémis : « De la logique du service public…à                         la logique de rendre le service au public »Objectifs...
BRAND IMAGE & BIG DATA : COMMENT VALORISER                          LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR              ...
Roland-Garros SlamTrackerObjectifs                                                        Innovation                      ...
Search AnalyticsObjectifs du projet :                                                Innovation                           ...
Focusmatic : Accurate Digital ReachObjectifs                                                         Innovation           ...
Gamned – Le Big Data au service de                                              l’Advertising IntelligenceObjectifs       ...
DEUSObjectif du projet                                              Innovation                                            ...
GET PLUSPrésentationGETPLUS www.getplus.fr , projet CLOUD basée surl’agrégation annuelle de plus de 100 MILLIONS de donnée...
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Slides trophee big data
Upcoming SlideShare
Loading in...5
×

Slides trophee big data

1,280

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,280
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
20
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Slides trophee big data"

  1. 1. Gaia Satellite Data Processing ChallengesObjectifs Innovation Prochaines étapesGaia is a cornerstone mission of the European Space Agency The data processing is very intense in terms of IO and many The data sent by the external Data Processing centres will beto be launched towards tests with different alternatives and increasing amounts of gathered and integrated in a central repository, analysing andthe end of 2013. It will scan the sky for 5 years measuring data have been performed. We will outline some of the verifying its integrity in order to find possible flaws in thewith unprecedented accuracy the positions and motions of problems found along the way. Since 2008 we have had a processing will be far from trivial and need significant IOmore than 1000 million stars from the Galaxy. This data will fruitful collaboration with Intersystems Cache which has been demands due to the large number of records.allow us to create a 3D model of the Milky Way. Gaia which non-traditional in many aspects as we have had costumer-will revolutionize may fields of Astronomy. provider contacts at multiple levels (management, experts, Sometime in 2020 the final catalogue should be made developers), this has proven very beneficial for both parties available to the scientific community, the archive and dataPrésentation and has lead to fast turn-around time in getting new versions, access mechanism is starting to shape now and will also beThe satellite will send to ground every day its observations problems fixed, new features. It has also allowed us to highly demanding in terms of data access. Oftenamounting to 50 GB, this data will be processed continuously optimize the system for our needs and obtain adequate disentangling instrument or processing artifacts from realin order to asses the satellite performance. The daily performance without going for expensive top hardware issues will require the execution of user provided algorithmsprocessing is critical in terms of robustness and reliability as it solutions. which can discover hidden correlations within the data.is needed in order to adjust the instrument settings on boardGaia to meet the scientific requirements. Résultats Information additionnelles We have now in place the core systems which will be needed The trend in astronomy and other scientific fields in the lastAt the end of the mission we will have of the order 100 TB of to start receiving and processing the data sent by Gaia by the decades has been to build more sensitive and powerfulraw compressed data. end of the year, so far one of the main worries in the project instruments, larger antenas and better satellites/ which was the performance and scalability of the data access observatories, this has led to a huge increase in the amountThe long term processing of this data involves 6 European rate needed for the processing has been solved. of data to be processed. Simultaneously this has beenData Processing Centres and will be done multiple times with compensated by the developments in in the IT Industry at theincreasing amounts of data. The estimated size of the data software and hardware levels. The processing of Gaias dataprocessed after the 5 year mission will be in the order of 1 presents unmatched challenges in this respect and will openPbyte and the final catalogue should be published by 2021. the road too future missions.In order to achieve the necessary precision every factoraffecting the observations needs to be modelled, this meansadapting the model as we process the data in an iterativemanner. The core processing implemented in Java will useover 200 million stars and their 160,000 millionmeasurements. A direct solution is not computationallyaffordable due to the huge number of unknowns, instead aniterative process adjusting the stars positions, motions, Porteur du projetsatellite orientation, and calibrations has been designed and Jose Luis Hernández Muñoz, Gaia Operational Data andimplemented. Calibration Engineer - European Space Agency Partenaires Intersystems, Jose Ruperez, Jose Costa, Robert Bira
  2. 2. Alephd, we help publishersObjectifs Innovation Prochaines étapesAlephdD permet aux éditeurs de médias web et aux AlephD est la première solution d’optimisation des revenus AlephD cherche aujourd’hui des investisseurs pour accélérergestionnaires dinventaires despaces publicitaires de tirer des éditeurs de site pour le RTB, en tempsréel son développement et attaquer le marché international :profit des technologies denchères en temps réel (RTB). et indépendante d’une plateforme. européen dans un premier temps, puis américain. LesGrâce à une technologie big data temps réel, AlephD rend En effet, il existe aujourd’hui deux types de solutions : principaux investissements prévus concernent le recrutementpossible une optimisation utilisateur par utilisateur de la vente - des solutions « statiques », qui optimisent les paramètres d’ingénieurs, de statisticiens et de business developers. Pardespaces sur les plateformes denchères (AppNexus, une fois par jour par ex. Ces solutions ne prennent pas en ailleurs, AlephD continue son travail avec ses clientsRubicon, Google...). compte les particularités de chaque utilisateur, et manquent existants, développant de nouveaux algorithmes, avec donc une bonne partie des opportunités d’optimisation comme objectif de convaincre d’importants nouveaux clientsPrésentation - des solutions « in-house » de plateformes, qui sont des d’ici au deuxième semestre.Larrivée du RTB donne aux acheteurs et aux vendeurs boîtes noires. Ces options ont mauvaise réputation chez lesdespaces publicitaires la possibilité de personnaliser leurs annonceurs, qui détectent et fuient les éditeurs y recourantordres en temps réel, utilisateur par utilisateur. Cela car peu transparentes et remettant en cause l’équité desnécessite le déploiement dune infrastructure serveur enchères.complexe (big data, temps réel) et la mise en placedalgorithmes de décision. RésultatsLes données traitées sont des logs d’enchères de publicités Les données recueillies permettent de comprendre commenten ligne. Concrètement, AlephD obtient, pour chaque s’effectuent les enchères, au degré de granularité le plus fin.affichage de publicité sur le site d’un de ses clients, les Elles permettent ainsi de découvrir et donc de modéliser lesinformations sur le prix et les paramètres de l’enchère comportements des acheteurs de publicité.correspondante. Ces informations sont recueillies en temps Sur les données disponibles, la technologie d’AlephD permetréel par nos serveurs, qui les mettent ensuite sur un cluster d’obtenir une amélioration des revenus de l’ordre de 30%.Hadoop.Aujourd’hui, AlephD ne traite que les données issues de laplateforme d’enchère AppNexus, qui est la solution la plustransparente et qui connait le plus de croissanceactuellement.AlephD a développé une technologie propriétaire unique pourtraiter ces données et optimiser les paramètres d’enchère entemps réel. Cette technologie repose sur deux piliers :- une infrastructure big data, utilisant les technologiesHadoop et Hive. AlephD développe des algorithmes en Map/Reduce pour exploiter au mieux ces Tera-octets de données ; Porteur du projet- une infrastructure temps réel de prise de décision, c’est-à- Vincent Lepage - Directeur Général – AlephD SASdire capable de répondre en moins de 10ms à une requête Nicolas Grislain – Président – AlephD SASde paramètres d’enchère, avec plusieurs milliers de requêtes Partenairespar secondes. Pubsquared Audience Square
  3. 3. Artimon, service de collecte et danalyse de métriques à large échelle.Objectifs Innovation Prochaines étapesOffrir un service de centralisation de métriques à caractère Lutilisation dun format universel de métriques permet de ne Les étapes à venir pour ce projet sont linstrumentation detechnique et fonctionnel permettant un suivi temps-réel et pas avoir autant doutils de monitoring (technique ou nouvelles applications et lexploitation des métriqueshistorique du fonctionnement de lentreprise. business) que de périmètres, il en découle des possibilités produites. La disponibilité de métriques vise à centrer les danalyses croisées riches denseignements (quel est limpact processus de décisions de lentreprise autour de donnéesPrésentation dune augmentation de température sur le comportement des objectives.Le projet Artimon définit un format universel de métriques, les bases de données et in fine sur les temps de traitements desdifférents périmètres fonctionnels et techniques de requêtes issues des sites Web). Information additionnelleslentreprise produisent des indicateurs (de type compteurs ou Ce projet sinscrit dans une démarche Big Data plus largejauges) sous ce format. Ces indicateurs sont collectés toutes La facilité dinstrumentation des applicatifs permet de initiées dès 2009 au sein du groupe Crédit Mutuel Arkéa.les minutes sur lensemble des machines du groupe Crédit rapidement disposer de métriques éclairant les métiers surMutuel Arkéa et remontés sur la plate-forme Big Data basée lactivité de leur périmètre. Les spécialistes des différents Ce projet a été réalisé par des équipes internes du Créditsur Hadoop. domaines ont le sentiment de ne plus être aveugles et Mutuel Arkéa. cantonnés à des chiffres à J+1.Ce projet a été initié dans les équipes techniques du groupeCrédit Mutuel Arkéa qui ont mis au point linfrastructure de Résultatscollecte et de stockage. Les premières métriques collectées Lanalyse de la distribution statistique des indicateurs permetfurent techniques (températures de machines, espaces de faire de la détection danomalie, par exemple lorsquunedisques disponibles, charge machine, ...) et ont été utilisées machine est sur le point de tomber en panne suite à unpour la mise au point de fonctions danalyse de ce type de défaut de refroidissement, ou que le volume dopérations dundonnées. Ces fonctions danalyse sont capables de certain type est atypique par rapport au volumedéclencher des alertes, permettant une réaction rapide à des habituellement observé le même jour sur la même plagesituations anormales. horaire.Une fois la chaîne complète mise au point sur le périmètre En cas dincident, la priorité est donnée au rétablissement dudes données initiales, les équipes en charge des périmètres service, la disponibilité des métriques sur la périodefonctionnels (spécialistes métier et développeurs) ont été précédant la survenue de lincident permet lorsque laaccompagnées dans linstrumentation de leurs applications et situation est rétablie de procéder à une analyse post-mortemla mise au point de fonctions danalyse propres à leurs de lindicent et à la mise en place de mécanismes dalertesmétiers. adaptés.Les travaux sur ce projet ont débuté en 2009, le périmètre de Lexistence de métriques dont la signification est maîtriséecollecte sest agrandi graduellement pour couvrir depuis fin permet de mettre en place des contrats de services (SLA)2012 lensemble des serveurs du groupe Crédit Mutuel basés sur des éléments objectifs. Lhistorisation de cesArkéa. métriques permet de tester différents modes de calculs des indicateurs de SLA afin de déterminer par exemple si un abaissement de seuil est ou non compatible avec la réalité de Porteur du projet la production. Matthias Herberts - Engineer – Credit Mutuel Arkea
  4. 4. BELOGIK: rendre les logs intelligentesObjectifs InnovationLe projet vise à améliorer la connaissance de Outscale sur le L’innovation pour Outscale est de produire une connaissancecomportement de ses clients dans l’utilisation de ses services intime du comportement de son infrastructure. La mise àd’IaaS. L’infrastructure de production de Outscale est disposition d’une énergie informatique élastique et sansdécentralisée sur plusieurs sites physiques dans le monde et «limite » génère des usages et des comportements de la partfonctionne sur plusieurs fuseaux horaires. des clients en complète rupture avec l’hébergement traditionnel à capacité finie. L’innovation réside à donner corps au concept de Customer Insight dans un contextePrésentation technologique, c’est une rupture majeure avec les pratiquesL’infrastructure de Outscale produit des millions de lignes de marketing en vigueur dans cette industrie. Les bénéfices pourdonnées machines par jour sur le fonctionnement de Outscale sont immenses avec un capacité de provisionnerl’infrastructure : ouverture d’instance, fermeture d’instance, plus finement ses ressources physiques et surtout d’adapterconsommation des ressources, augmentation des à terme son offre de services à ces nouveauxressources, trace d’erreurs, communication réseau, …. comportements. Un effet de bord induit est d’accélérer leCroissant de 50% par an, le nombre d’opérations d’une traitement de l’analyse des données machines en situationinfrastructure cloud dépasse les 500 opérations à la seconde d’anomalie. C’est un projet stratégique pour leet les traces laissées par l’infrastructure sont de plus en plus développement de l’entreprise.nombreuses.Les solutions actuelles de traitement de données ne Résultatspermettent ni d’agréger les données au regard de la diversité L’objet du projet consiste à collecter toutes les données,des formats produits par les équipements techniques, ni de permettant éventuellement une fouille en temps réel ettraiter les volumes engendrés. surtout de construire les indicateurs métiers permettant auLe projet est basé sur la solution BELOGIK d’analyse de log Product Manager de Outscale de proposer des nouvellesas a service. offres de service.L’objet du projet consiste à :•  collecter à l’échelle du big data les données machines,•  permettre la fouille en temps réel dans les données machines,•  générer l’intégralité des indicateurs métiers. Porteur du projet Christophe Ballihaut - Président – BelogikLe projet est en phase de prototypage des indicateursmétiers avant de passer à la phase de montée en charge de Partenairesla solution et de qualification des performances. Le partenaire du projet est Outscale, Le Cloud Français, opérateur de services cloud computing. Le fournisseur dun des plus grands éditeurs de logiciels mondiaux sappuie sur les services d’Outscale pour opérer l’ensemble de ses activités SaaS. Laurent Seror – Président
  5. 5. “Moving Data & BIME: Harnessing the power of Google BigQuery”Objectifs Innovation Prochaines étapesMoving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customersquality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.networks in the Australian Outback. The company has analytical database as a service that scales to petabytes ofdeveloped advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticatedalerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIMEmobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quickgenerated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap databecomes critical to make the right decisions fast. generated by the Internet of Things.Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, thisneeded tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution hasinsights to their current clients via collaborative and online been fast at all stages: testing, implementation and clientdashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of thetelecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regularstandardized across the industry, for a fee. They needed Big incrementation in the volume of data.Data analytics in real-time. RésultatsPrésentation Moving Data’s prime benefit consists of harnessing eventstype of data processed, approximate volume: and audit data and communicating insights to clients (majorFor the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely asby BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.models.With each future project the amount of data processed isprojected to increase exponentially.Resources used: human skills, technical tools:BIME cloud BI runs in any browser, queries datasets stored inBigQuery at the speed of thought and, thanks to its’ powerfulcalculation engine, displays results in interactive analysisdashboards, in seconds.BIME’s BigData project manager worked in parallel with theclient on the dashboard setup and design. At Moving Data,CEO and founder Craig Morton worked on the project alongwith an in-house IT engineer. Porteur du projet Rachel Delacour - CEO – Bime
  6. 6. “Moving Data & BIME: Harnessing the power of Google BigQuery”Objectifs Innovation Prochaines étapesMoving Data improves mobile performance by ensuring the Scaling a database is hard and scaling analytical databases Roll-out of the product to a larger number of customersquality and serviceability of telephone and broadband is even harder. BIME powered by Google BigQuery offers an dealing with ever increasing volumes of data.networks in the Australian Outback. The company has analytical database as a service that scales to petabytes ofdeveloped advanced methods to collect and disseminate data. It means that Moving Data doesn’t require sophisticatedalerts and statistics from mobile devices and supporting infrastructure and an operational team to analyze data. BIMEmobile networks. When dealing with millions of network- + Google BigQuery provide Moving Data with a reliable, quickgenerated events, trend analysis rather than specific alerts and infinitely scalable pay-as-you-go service to tap databecomes critical to make the right decisions fast. generated by the Internet of Things.Moving Data had two needs that only BIME could satisfy. It With Moving Data based in Australia and BIME in France, thisneeded tools to enable interactive, visual analysis of Big Data project has been undertaken across disparate time-emerging network issues. They also wanted to communicate zones. However, with everything in the cloud, execution hasinsights to their current clients via collaborative and online been fast at all stages: testing, implementation and clientdashboards, as well as promote insights to other validation, even in a Big Data context. The scalability of thetelecommunications clients with similar data, which is BIME-BigQuery combo can facilitate the regularstandardized across the industry, for a fee. They needed Big incrementation in the volume of data.Data analytics in real-time. RésultatsPrésentation Moving Data’s prime benefit consists of harnessing eventstype of data processed, approximate volume: and audit data and communicating insights to clients (majorFor the initial project, the type and volume of data processed Australian telco companies) as quickly and as concisely asby BIME and Big Query was 500 million radius records, possible. Dashboards with KPIs reduce the customer10,000 network probes, 120.6 million sessions, 960 device decision-cycle for further analytical actions.models.With each future project the amount of data processed isprojected to increase exponentially.Resources used: human skills, technical tools:BIME cloud BI runs in any browser, queries datasets stored inBigQuery at the speed of thought and, thanks to its’ powerfulcalculation engine, displays results in interactive analysisdashboards, in seconds.BIME’s BigData project manager worked in parallel with theclient on the dashboard setup and design. At Moving Data,CEO and founder Craig Morton worked on the project alongwith an in-house IT engineer. Porteur du projet Rachel Delacour - CEO – Bime
  7. 7. ICANIC : Intellectual Capital AnalyticsObjectifs Innovation Prochaines étapesL’objectif est de créer un instrument de mesure de la valeur Les brevets sont jusqu’à présent considérés comme ne Finalisation et lancement commercial de la V1 pour fin 2013.intrinsèque des brevets, fondé sur des critères objectifs et pouvant relever que d’appréciation d’expert et le projet de La prochaine étape sera d’étendre la capacité de notationstatistiques, qui s’applique à l’ensemble des brevets du traiter les brevets comme des données qu’il est possible de aux brevets américains et asiatiques.monde.. traiter statistiquement pour en tirer du sens constitue une révolution dans cet univers.PrésentationLes volumes sont considérables puisqu’il s’agit de traiter Résultatsl’ensemble des données sur les brevets contenues dans les La valorisation commerciale d’Icanic s’effectuera de troisbases des offices de propriété intellectuelle. manières :•  Mise en place de web-crawlers et de flux XML permettant •  par son utilisation par les entreprises et leurs d’industrialiser la récupération en temps réel des interlocuteurs financiers, auxquels il donnera le moyen informations brevets d’évaluer objectivement la valeur d’un portefeuille de•  Mise en place d’une architecture de stockage et d’une brevets architecture de calcul / ré-estimation de scores temps réel •  en direction des investisseurs financiers par la création en environnement Big Data d’indices boursiers de type « CAC 40 » qui permettront•  Analyse de type text-mining sur les textes de brevets d’identifier la performance des entreprises inventives et permettant de créer des données qualifiantes structurées de diriger l’épargne vers elles. à partir de données non structurées •  L’intégration des notes dans les analyses vendues par•  Croisement des données qualifiantes du brevet avec les des agences de notation sociale. L’analyse de la capacité données administratives et de citations. d’innovation des entreprises est un complément naturel•  Mise en place de modèles statistiques de durée de vie, aux analyses existantes de ces agences, telles que permettant d’estimer la durée de vie résiduelle d’un Vigeo. brevet en fonction de ses caractéristiques intrinsèques•  Développement de web services de restitution des Le schéma suivant résume la valorisation escomptée de données (en cours) l’outil : Porteur du projet Patrick Terroir – Directeur Général Délégué – CDC Propriétéintellectuelle Partenaires Bluestone est notre partenaire pour les travaux de modélisation statistique. Arnaud Laroche est notre directeur de mission depuis 2010. Fourniture des données et hébergement : Questel Expertise sur la vie des brevets : Marks&Clerk France
  8. 8. Cedexis RadarObjectif du projet Aspects Novateurs Etapes à venir et démarche Big Data dans l’entrepriseL’objectif de Cedexis Radar est de comparer de façon neutre Cedexis Radar ne réalise pas ses mesures depuis quelques Cedexis envisage de collecter et d’utiliser toujours plus deet objective la qualité de service des fournisseurs de services points déterminés (et un unique réseau) dans le monde. Le données pour optimiser l’aiguillage de trafic vers le meilleurd’hébergement et de diffusion de contenus (CDN, Clouds…) système de mesure repose sur la collecte de données diffuseur/hébergeur de contenus. C’est le cas avec Cedexispour aiguiller les utlisateurs finaux vers le meilleur prestataire (techniques) issues des vrais utilisateurs qui exécutent la Fusion qui permet d’aiguiller le trafic en fonction deet améliorer la performance d’un service en ligne. sonde Cedexis Radar lorsqu’ils consultent les sites d’éditeurs nombreuses variables personnalisées telles que lénergie intégrant celle-ci. Chaque jour, Cedexis collecte, traite et utilisée par l’infrastructure, la charge des serveurs (et/ou desPrésentation utilise en temps-réel près d’un milliard de mesures issues des métriques liées à ces serveurs comme l’usage de mémoireAucun prestataire (hébergeur, CDN, Cloud) n’est performant utilisateurs finaux répartis dans 230 pays et 34 000 réseaux RAM, l’état des disques durs, etc), le coût des prestataires etpartout, tout le temps et pour tous les utilisateurs finaux. Ces d’accès (FAI, entreprises…). bien plus encore... toujours dans l’objectif d’anticiper ouvariations sont liées à de multiples facteurs provenant - par contourner une éventuelle défaillance de leur infrastructureexemple - de la distance entre l’utilisateur final et le serveur Valorisation observée de la donnée pour améliorer la performance des applicatifs hébergés etd’origine, de la latence, du chemin d’accès aux serveurs du Autrefois, les données de monitoring d’infrastructures diffusion de contenus Internet.prestataire ou à la saturation/dégradation momentanée de n’étaient utilisées que de façon passive, cest-à-dire aprèssegments du réseau public. analyse longue. Cedexis a voulu rendre « actives » ces données : Les mesures de Cedexis Radar servent ainsi àLes données collectées par Cedexis « Radar » permettent de prendre une décision automatisée (en temps réel) d’usagelever le voile sur la véritable qualité de services des d’un prestataire pour améliorer la performance et laprestataires. Elles sont utilisées par l’aiguilleur de trafic DNS disponibilité des services en ligne pour chaque utilisateur àCedexis « OpenMix » pour diriger le trafic vers le meilleur travers le monde, quelque soit son terminal et son réseauprestataire et ceci, en prenant en compte les données de d’accès.Radar et/ou les critères définis par l’éditeur de contenus(performance, géographie, coûts, capacité technique / bandepassante, engagements contractuels...).Les éditeurs ont ainsi l’assurance que chaque utilisateur deses services pourra visualiser ses contenus ou utiliser sesservices de façon optimale. porteur de projet et noms des partenaires Société : Cedexis Service : Cedexis Radar
  9. 9. Distributed e-commerce : bringing online shops to high-traffic content websitesObjectifs Innovation Prochaines étapesAmener des magasins en ligne directement dans des sites de Cette application ouvre les portes d’un nouveau marché : Notre réseau de partenaires s’étend tous les mois, aussi biencontenu l’échange de données qualifiées et sémantisées entre le en termes de magasins en ligne que d’éditeurs. monde du contenu et de l’achat, qui jusqu’ici ne se parlaientPrésentation que par bannières agressives interposées. A l’inverse, nous Informations supplémentairesNous créons un lien entre le monde du contenu et de l’achat, tâchons de reproduire un maximum de l’expérience utilisateur http://corporate.chefjerome.comen développant une gamme d’interfaces qui permettent d’un magasin, directement dans la page d’origine. adurieux@chefjerome.comd’apporter des magasins en ligne directement dans des sites Là où la plupart des usages BigData se contentent dede contenu, dans des formats reprenant les codes de la chercher de vagues corrélations dans des volumes depublicité en ligne classique. données importantes, l’originalité de notre approche est deGrâce à une analyse sémantique, nous affichons au sein de privilégier une compréhension profonde et sémantique decette interface des produits parfaitement qualifiés, afin de données complexes et intriquées.permettre à un utilisateur de commencer ou de compléter unpanier sans même quitter la page. RésultatsNous avons lancé en Décembre 2012 dans le domaine de Nos interfaces sont non-intrusives, parfaitement qualifiées etl’alimentaire, en apportant des supermarchés en ligne apportent un service supplémentaire à la page qui les(CasinoExpress, CasinoDrive, MesCoursesCasino, Mon- héberge, ce qui nous permet d’atteindre des taux de clicsMarché) dans des sites culinaires (l’AtelierDesChefs, C’vous, absolument stupéfiants, signe d’un nouveau vecteurblogs, forums)… d’acquisition de clients et de monétisation du contenu. Porteur du projet Jerome SAS Partenaires Groupe SEB – François-Xavier Meyer Groupe CASINO – Patrick Garrel
  10. 10. CLIRIS, plate-forme de pilotage des points de vente par l’analyse des flux shoppersObjectifs Innovation Prochaines étapesDélivrer aux Retailers des indicateurs-clés de performance Accès à de nouveaux leviers de pilotage de leur réseau, Nouveaux modules :inédits et développer ainsi de nouveaux leviers d’optimisation auparavant inexploités : •  cartographie des mesures de performancedes ventes grâce à l’analyse du comportement des « •  attractivité des vitrines, des points de vente •  gestion de la planification des ressources RH d’uneshoppers ». •  adéquation des équipes de vente au flux client, boutique •  optimisation du plan merchandising et circulation des •  module prédictifPrésentation clients au sein des boutiques, •  module de simulation de l’activité d’un réseau et d’uneConception et mis en œuvre d’une plateforme d’analyse de •  optimisation du calendrier des opérations commerciales boutiquedonnées Big Data. •  impact des opérations commercialesCliris reçoit chaque jour un volume de données exceptionneldepuis les box en points de vente et les SI clients. Ce flux de Résultatsdonnées asynchrone est intégré de façon périodique, avec •  Fiabilité des donnéesune actualisation chaque minute possible. Les informations •  Prise en compte et exploitation en temps réelsont consolidées, croisées et structurées avant d’être •  Restitution d’indicateurs de pilotage inédits etrestituées sur notre portail de reporting permettant une personnaliséssupervision de la performance des points de vente et l’éditionde tableaux de bord. Porteur du projet Anne Steinberg Directeur Marketing
  11. 11. ELLICIBLEObjectifs Innovation Prochaines étapesPour répondre aux évolutions technologiques et à la Ellicible s’appuie sur une technologie européenne novatrice Réel projet d’entreprise associant tant la direction généraledemande du « realtime marketing » où linformation produite et apporte la commodité du « search » grand public au poste que les experts métier et les marketeurs, l’objectif denest plus segmentée en silos fonctionnels mais selon les de travail du professionnel en marketing direct. Dans les www.ellicible.fr est de créer avec cette technologie innovanteusages de la cible, Coface Services a entrepris la refonte de sélections, elle rend la donnée accessible immédiatement et unique sur son marché de nouvelles opportunités deson offre « Solutions Data ». Lancée le 20 mars 2013, élimine les temps de latence dans l’affichage des résultats. développement en « Solutions Data ».www.ellicible.fr est une plateforme marketing direct « big Exprimé d’une autre manière, lapplication utilisant le moteur Dans les étapes à venir pour accompagner les besoinsdata» en temps réel et à haut débit. Sa vocation est de cibler, de ParStream réalise à grande échelle un « facetted search » utilisateurs, sera associée à cet outil une politiquetrier, ventiler, explorer, segmenter, surveiller et extraire des sur plus dune centaine de dimensions en temps réel. d’intégration de données complémentaires avec la possibilitépopulations d’entreprises dans un espace multidimensionnel L’outil associe à cette technique novatrice une politique de recherche textuelle.de plusieurs dizaines de milliards de données. d’intégration de nouvelles sources partenaires visant des données riches et volumineuses tant nationales ouPrésentation internationales que métiers.Ellicible intègre le moteur « big data analytics » de ParStream La combinaison « technique » et « données » permet deGmbH. Elle transforme le concept de ciblage et comptage répondre aux nouveaux usages et demandes de nos clients àhaut débit temps réel en réalité opérationnelle sur des la recherche de performances permettant de cibler le plusdonnées volumineuses. juste et le plus rapidement possible leurs clients potentiels.Ce moteur repose sur une approche innovante d’indexcompressés à très hautes performances couplée à un Résultatstraitement parallèle de requêtes. Cette mécanique permet Ellicible permet de traiter des milliers de requêtes à très fortel’accès aux données à haut débit et à très faible latence. volumétrie d’informations (milliards de données) en tempsC’est ainsi que sous une faible empreinte énergétique et réel (millisecondes). L’utilisateur, à travers la combinaison dematérielle des milliers de requêtes sont traitées sur de très multiples critères, compte de manière instantanée desfortes volumétries d’informations (milliards de données) en potentiels au fur et mesure de l’élaboration de ces stratégiestemps réel (millisecondes). et identifie des entreprises. Le rôle d’Ellicible est deAvec cette technologie novatrice associée à ses solutions construire des groupes homogènes pour mettre en place desmétiers, Coface Services a su surmonter les problématiques opérations de marketing direct différenciées en fonction detechniques traditionnelles des bases de données. Ellicible segments identifiés.s’affranchit de l’UX « essai-erreur » et de la gestion destâches complexes et asynchrones tout en maintenant unetrès forte réactivité data avec de faibles ressources.Ces performances comparées aux technologiestraditionnelles, ou même avec NoSql, bouleversent lesusages de la profession du marketing direct habituée à des Porteur du projettemps de calcul et d’affichage importants avant d’avoir le Bernard Simon – Responsable Marketing Data Solutionsrésultat d’un ciblage. – COFACE SERVICES Partenaires Partream GMBH : Peter Livaudais, Sr. Director Solutions
  12. 12. Tableau de bord des TerritoiresObjectifs Innovation Prochaines étapesProposer aux utilisateurs une base de données toujours à L’innovation du projet tient à (i) la mise à disposition de Data Publica est « développeur de jeux de données », cest-jour de l’ensemble des données de description l’ensemble des données structurée selon la dimension à-dire qu’il produit des jeux de données pour ses clients.(démographiques, économiques, immobilier, activité, mobilité, géographique, (ii) la mise à jour automatique et permanente Pour cette production, Data Publica identifie les sources,…) des territoires (bassin d’emplois, communes, …) et (iii) la disponibilité en ligne customisée au besoin du client, extrait les données brutes des sources, transforme les en terme de géographie et de dimensions de contenu. données brutes en données structurées et livre ses données,Présentation sous forme de flux ou de visualisation. Ces jeux de donnéesLes données sont issues de toutes les sources publiques sont produits sur mesure (le client spécifie ses besoins etaccessibles en ligne et susceptibles de contribuer au portrait Data Publica produit le jeu de données suivant sesdes territoires. spécifications) ou sur étagère (Data Publica définit et produit le jeu de données après une analyse des besoins duLe volume est d’abord dimensionné par le nombre de marché). Les jeux de données sont livrés en DaaS (Data as aterritoires, de l’ordre de 37.000, et quelques dizaines/ Service) et facturés sous forme d’abonnement (un jeu decentaines de données par territoire. Ces données sont données est un objet vivant mis à jour en permanence).chacune rafraîchies une ou plusieurs fois par an, ce qui faitde la mise à jour automatique une difficulté significative duprojet.Ce projet est déployé, les données étant d’ores et déjàaccessibles pour les clients de Data Publica. Porteur du projet François Bancilhon – PDG – DATA PUBLICA Partenaires F. Lainée, PDG CetaData
  13. 13. Domirama, un outil dexploration des historiques de comptes au service de nos clientsObjectifs Innovation Prochaines étapesLobjectif de ce projet est la création dun outil permettant à Laspect le plus novateur est de redonner la maîtrise de leurs Les évolutions visant à enrichir les opérations denos sociétaires et clients deffectuer des recherches sur opérations à nos sociétaires et clients, et ce sur une métadonnées seront sources de création de valeurlhistorique des opérations réalisées sur leurs comptes profondeur dhistorique sans équivalent puisque nos supplémentaire.bancaires et denrichir ces historiques par des métadonnées concurrents se limitent généralement dans le meilleur despersonnalisées. cas à 12 mois dhistorique. Informations supplémentaires Ce projet sinscrit dans une démarche Big Data plus largePrésentation Résultats visant à valoriser le patrimoine données du groupe CréditLes données manipulées dans le cadre de ce projet sont La possibilité deffectuer des recherches en temps réel sur Mutuel Arkéa.constituées de lensemble des mouvements bancaires de nos lhistorique de leurs opérations permet à nos clientsclients depuis mai 2001. La date retenue correspond au dappréhender la gestion de leurs finances dans dexcellentes Ce projet a été réalisé par des équipes internes du Créditmoment où les opérations en francs ne représentaient plus conditions. Mutuel Arkéa, garantissant au groupe lexclusivité de laquune part infime du flux, et ce afin déviter davoir à gérer maîtrise des technologies mises en œuvre, gage davantageune approche multi-devises. concurrentiel durable.Ce projet est lun des premiers sappuyant sur la plate-formeBig Data basée sur Hadoop mise en place dès 2009 auCrédit Mutuel Arkéa. Il est issu dun travail conjoint entre leséquipes en charge du périmètre banque à distance pour lesaspects restitution, les équipes des différents métiers(comptes à vue, livrets, cartes, SEPA) pour la fourniture desdonnées, et léquipe Big Data/Hadoop pour la mise au pointdu moteur de recherche.Les données sont stockées dans HBase, permettant unaccès en temps-réel à celles-ci. Le moteur de recherche estoptimisé pour nindexer les opérations quà la demande,offrant ainsi des performances élevées. Une recherchecomplexe sur près de 12 années dhistorique seffectue dans90% des cas en moins de 500ms.Ce service est en production depuis fin 2011 pour nossociétaires et clients des fédérations du Crédit Mutuel deBretagne, du Sud-Ouest et du Massif-Central, de Fortunéoainsi que de la Banque Privée Européenne. Porteur du projet Matthias Herberts – Engineer – CREDIT MUTUEL ARKEA
  14. 14. BIG DATA GETS PERSONALObjectifs Innovation Prochaines étapes•  Récompenser les clients les plus fidèles de l’enseigne En relation avec les marques nous constituons au fil de La personnalisation des offres a permis de doubler le taux de avec des offres personnalisées l’année une banque de coupons. Pendant la phase de retour des coupons par rapport à des coupons non•  Créer une occasion supplémentaire de venir en magasin préparation du mailing, nous entrons les offres disponibles personnalisés.•  Exploiter et valoriser l’intégralité des données de dans un outil propre à dunnhumby. L’algorithme d’allocation transactions intégré à cet outil a été développé grâce à l’expérience Tesco Ce premier mailing personnalisé a été envoyé à partir de•  Améliorer le retour sur investissement du programme de en Angleterre et Kroger aux Etats Unis. Il permet parmi des février 2012. Au fur et mesure que les mailings ont été reçus Fidélité millions de possibilités de sélectionner la combinaison par les clients et analysés en terme de performance, le d’offres la plus pertinente pour chaque client en regard de ciblage des clients a été optimisé pour privilégier les clientsPrésentation son comportement d’achat. Le niveau de récompense des les plus appétant à ce type d’offre. Ceci a également permisNous avons créé avec Monoprix un rendez-vous mensuel offres peut lui aussi être personnalisé selon sa fidélité à de développer des supports pour les clients sensibles àdédié aux clients les plus Fidèles pour les récompenser avec l’enseigne. d’autres canaux de communication tels que les emails et lesdes offres personnalisées sur leurs marques et rayons coupons caisse. Nous pouvons ainsi optimiser chaque pointpréférés. L’exploitation des big data nous permet de Résultats de contact avec le client.personnaliser un mailing intégrant 8 coupons envoyé à Plus de 33 millions de transactions des clients les plusenviron 600 000 clients par mois. Fidèles à Monoprix sur tous les formats (y compris le site Informations supplémentaires marchand) ont été analysées, représentant environ 350 L’équipe dédiée chez dunnhumby est composée de : millions articles achetés. •  1 Project Manager pour adapter l’outil Media Centre pour Cet outil d’allocation d’offres et de contenus au niveau client la base de données Monoprix permet une véritable personnalisation de la communication. Il •  1 Data Manager est capable de traiter cette énorme quantité de données : en •  1 Analyste pour sélectionner les clients éligibles pour les moins d’une heure les offres sont allouées parmi les milliers offres proposés de possibilités. •  1 Campaign Manager pour organiser et coordonner la Plus de 80% des clients ciblés reçoit une version unique de mise en place du ciblage ce mailing Chez Monoprix le projet était mené par l’équipe Fidélité avec deux personnes dédiées à la mise en place opérationnelle. La conception et création du mailing était mené par l’agence Rosa Parks. Porteur du projet Hannah Whittall – Directrice Coms & Media – DUNNHUMBY France Partenaires Monoprix Stéphanie Guillonneau Directrice Fidélité
  15. 15. ECO2DATAObjectifs Innovation Prochaines étapesRépondre aux impératifs d’accès à l’information dans un eCO2data est à ce jour la plus grande base de données sur Nous travaillons actuellement sur 2 axes :marché réglementé en croissance et décentralisé. Permettre le marché du carbone. Elle innove dans la mesure ou les •  Extension de la plateforme au domaine de la foret. Laaux acteurs du marché de la finance environnementale données sont récupérées systématiquement et ce en temps foret est le poumon de notre planète car elle stocked’avoir accès à un niveau de transparence et de traçabilité du réel là ou nos concurrent reposent essentiellement sur un naturellement le CO2. Des projets d’investissements deniveau d’un marché mature alors que le marché est encore traitement manuel des données. Cet aspect de la plateforme taille massive sont pour l’instant bloqués car il n’existetrès jeune. nous permet de proposer des services inédits comme celui pas à ce jour d’outil de suivi d’un investissement forestier des « eCO2data alerts » qui permettent à nos clients de à grande échelle sous l’égide des normes internationalesPrésentation recevoir des alertes emails dés qu’un de leur portefeuille de l’ONU. Nous sommes associés à une entrepriseLe but du projet est de construire un tableau de bord temps environnemental connait un changement. franco-allemande du secteur de la défense et quiréel qui centralise toutes les informations relatives aux projets posséde un réseau satellitaire de premier plan pourde réduction de gaz à effet de serres qui génèrent des crédits Résultats connecter les données satelitaires à notre outil etcarbones. Ces projets sont jusqu’ici la meilleure arme mis en L’une des principales valorisation de la donnée est le fait de proposer « eCO2data Forest » afin de combattre laplace au niveau international contre la menace du travailler sur les données non structurées pour recontruire à problématique de la deforrestation et plus généralementréchauffement climatique et constituent à ce titre un enjeu la volée le portefeuille de n’importe quel acteur du marché. de la conservation de la foret.décisif. Ces projets sont répartis à travers le monde et Ainsi « BNP », « BNP Aribitrage », « Banque Nationale de •  Nouvelle plateforme sur le marché du Gas Naturelobtiennent chaque jour 1 crédit pour chaque tonne de CO2 Paris » ou encore « BNP, SA » sont automatiquement Liquéfié (LNG). Nous appliquons actuellement notreéconomisée. Un projet prend de 18 à 36 mois à se aggrégé en un seul participant et permet à nos clients technologie propriétaire au marché du LNG qui connaitconcrétiser. Il est soutenu par un conglomérat très vaste d’accéder à un niveau de transparence inégalé jusqu’ici. une croissance rapide et pour lequel il existe les mêmesd’acteurs privés et publics et est évalué par des organismes problématiques de suivi de l’activité du marché et deexternes tout au long de sa vie qui peut durer plus de 20 ans. monitoring des acteurs que sur nos précédentes réalisations. En détournant l’usage initial des balises de positionnement AIS contenues dans chaque navire on créé une carte interactive et temps réel de l’acheminement des volumes de LNG actuellement en transit à travers le monde. Porteur du projet François Cazor – Président – Kpler SAS
  16. 16. Artémis : « De la logique du service public…à la logique de rendre le service au public »Objectifs Innovation Résultats« campagnes multicanaux sur mesure : rendre le service au La solution proposée couvre l’ensemble du protocole Pour l’année 2013 les perspectives sur la big data sontpublic » décisionnel de traitement de la donnée avec trois briques nombreuses :Pour cela, générer des campagnes multicanaux qui ont pour fonctionnelles : •  Industrialisation de l’application destinée à l’aide à laobjectifs : •  Brique 1 : Collecter : cette brique est au cœur de la décision,•  De cibler : le ciblage est le facteur clés de succès d’une donnée, l’objectif est simple, une donnée active, propre et •  Intégration des données clients complémentaires, campagne de communication réussie : quel client ? Sur juste. Pour cela : auditer, redresser, enrichir et fiabiliser. •  Intégration d’une couche de données relatives aux quel sujet ? Avec quel discours ? Avec quel canal de •  Brique 2 : Comprendre pour mieux cibler : avec un outil potentiels de marchés : par communes et par Iris. contact (Téléphone, SMS, Email) ? d’aide à la décision sur l’analyse de la performance •  Enrichissement des tableaux de bord : part de marché•  De fidéliser : En identifiant les bons clients et en les commerciale construit sur le principe du géo- modale, taux de pénétration mobilité, identification des remerciant (Opération de parrainage). En identifiant les référencement de l’individu : 1 point = 1 client. zones potentielles de développement. clients en phase d’abandon (Relance commerciale et •  Brique 3 : Agir : par des campagnes multicanaux ciblées analyse des causes). pour fidéliser les clients. Prospecter : « Changer vos•  De prospecter : Avec une meilleure connaissance de habitudes de mobilité au moins une fois dans l’année », client, il est plus facile de créer le profil type et de avec une meilleure connaissance client, la recherche des rechercher les jumeaux (Bases de données scorées : Par « jumeaux » par le scoring des données est plus efficace. zone géographique, données sociologiques et données comportementales).•  D’informer en mode sur mesure : En fonction de la nature des perturbations (Exemple : Travaux), des zones géographiques impactées et des statuts des clients (Exemple : Personnes à mobilité réduite).•  De créer du ROI sur les campagnes : L’Emailing permet le déploiement d’une stratégie de « tracking » avec : taux d’ouverture, liste des ouvreurs et taux de rebond. Porteur du projet Daniel Aubaret – Directeur Marketing – EFFIA SYNERGIES
  17. 17. BRAND IMAGE & BIG DATA : COMMENT VALORISER LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR NOURRIR LA STRATEGIE DE MARQUEObjectifs Innovation Prochaines étapesComprendre et valoriser la donnée issue des plateformes des Approche en rupture avec les approches classiques de Déploiement d’une offre complète à destination desréseaux sociaux pour : valorisation de la donnée (type CRM), pour lesquelles les annonceurs.1- Monitorer et mesurer en temps réel le ROI/ROE de ses coûts d’entrée sont forts (notamment en outil & système) Partenariat avec agences de communication sur laactions de communication pour valorisation à terme souvent limitée et en silo de la couverture évènementielle.2- Comprendre les mécanismes de viralité et identifier les donnée (CRM & stratégie relationnelle / marketing / Couverture d’évènement mondiaux dans une logique de PRleaders d’opinion communication). (worldcup 2014 / fashion weeks / olympic games).3- Saisir les tendances, et identifier des territoires de marque Ici l’approche est « smart », donc cost-effective, et permet de4- Détecter les ambassadeurs des marques de demain façon simple et immédiate de tracker, mesurer, piloter des5- Comprendre les proximités de produits et de marques données individuelles publiques pour des usages marketingdans une perspective de cross-sell / faciliter les logiques de multiples et immédiats (cf. objectifs du projet).partenariat entre marques (via du maching learning). Alors que le tracking de données issues des réseaux sociaux6- Enrichissement des bases de données clients des s’est beaucoup développé ces dernières années, notreannonceurs à partir de données publiques issues des valeur-ajoutée réside non pas dans la barrière technologiqueréseaux sociaux nécessaire à leur récupération, mais surtout dans leur valorisation orientée « usages ».Présentation•  La démarche consiste en la récupération en temps réel Résultats de l’ensemble des données issues des plateformes de Au-delà de simples tableaux de reporting, nous valorisons la réseaux sociaux (Twitter / Facebook / Instagram / donnée par le déploiement de modèles statistiques ad-hoc et Pinterest, Youtube, Tumblr) relié à un évènement ou à complexes (ce qui constitue véritablement le coeur de métier sujet d’intérêt. Puis à analyser cette donnée pour la de notre entreprise). valoriser, et multiplier ses usages, pour nourrir la stratégie Notamment, utilisation de techniques telles que: marketing, et plus spécifiquement la stratégie de marque. •  Réseaux de neurones & modèles bayésiens : outil de•  La volumétrie reste assez limitée, mais nécessite recommandation. néanmoins l’usage de technologies big data notamment •  Analyse de données: segmentation / scoring orientée en ce qui concerne la collecte et le traitement de flux de connaissance client données en temps réel (Node.j, Base de données •  Séries temporelles : impact & ROI des actions de NoSQL, Map Reduce). communication•  Les ressources mises à disposition : 2 hommes à temps •  Analyses sémantiques plein pendant 4 mois•  Le déploiement s’est fait sur 1 an et demi, dans une démarche test & learn après une première implémentation réussie lors des jeux olympiques de Londres, puis lors de la couverture systématique d’évènement mondiaux, en déployant à chaque fois de nouveaux usages et de nouvelles démarches analytiques. Porteur du projet Quentin Michard – Directeur Général – Ekimetrics SAS
  18. 18. Roland-Garros SlamTrackerObjectifs Innovation Prochaines étapesLe Roland-Garros SlamTracker développé par IBM permet de L’aspect innovant de ce projet consiste à mettre à la La démarche Big data continue à la FFT. Au delà de l’analysefournir aux fans de tennis une information complète et disposition des joueurs mais également des spectateurs une prédictive utilisée dans le SlamTracker dans le contexte desprécise sur le déroulement des matchs à Roland-Garros, solution habituellement développée pour aider les entreprises matchs, des analyses des médias sociaux sont conduitesavec notamment l’utilisation de l’analyse prédictive pour à mieux prévoir leurs ventes, les niveaux de stocks durant la durée du turnoi pour étudier les flux d’intérêt qui fontdéterminer les clés du match : 3 critères définis en début de nécessaires, l’efficacité des campagnes de promotion. lumière au cours du tournoi, tant au niveau des joueurs,match, sur la base des données complètes des tournois du qu’au niveau de l’environnement et de l’organisation duGrand Chelem. Résultats tournoi. Avec le Slamtracker, « les données prennent vie »Présentation •  les clés du match permettent d’utiliser de façon Informations SupplémentairesAvec plus de 41 millions de points collectés lors des 8 intelligente tous les scores passés et de leur donner un L’analyse prédictive appliquée à Roland-Garros a permisdernières années de Grand Chelem, la Fédération Française sens pour mieux anticiper le match qui va se jouer et d’utiliser de nombreuses informations des matchs passésde Tennis et IBM disposent d’un historique colossal sur les comprendre les points forts de chaque adversaire pour déterminer des styles de joueurs et mieux analyser lesscores détaillés des matchs. Et les joueurs de tennis se •  la courbe de dynamique donnent une vision temps réel comportements. Les critères sont classés par type :rencontrent fréquemment lors des tournois, ils ont déjà joué de l’ascendant des joueurs, avec visualisation graphique - offensifsles uns contre les autres. L’analyse poussée de leurs scores de chaque type de point en fonction du temps - défensifsa permis de montrer que chacun a un comportement assez •  les statistiques mises à jour en temps réel permettent de - enduranceprévisible et un style de jeu, en fonction de son adversaire. mieux comprendre les éléments clés du match en - styleCes scores, couplés avec la solution d’analyse prédictive comparant les adversaires. L’outil est sans cesse affiné pour devenir plus pertinent. OnIBM Smarter Analytics (SPSS Modeler) permettent de définir voit que si un joueur atteint ses 3 clés et l’autre aucune clé,les critères clés que chaque joueur doit atteindre pour dans 98% des cas, le gagnant est celui qui a atteint ses 3maximiser ses chances de gagner. Le système va choisir les clés. Des statistiques assez poussées existent maintenant3 critères les plus pertinents par joueur parmi une sur la fiabilité du modèle.cinquantaine de possibilités. Chaque joueur n’aura pas La finale Nadal-Djokovic de Roland-Garros 2012 est assezforcément les mêmes critères que son adversaire. parlante car Nadal a gagné, en atteignant ses clés à moins de 1% près ! Djokovic n’a atteint qu’une seule clé mais n’étaitLe projet a été testé lors de l’édition 2011 de Roland-Garros pas si loin des 2 autres.puis lancé à Wimbledon, utilisé à l’US Open et pendantl’Australian Open. Lors de l’annonce officielle pour l’édition2012 de Roland-Garros, la FFT a donc bénéficié d’unesolution déjà bien testée et éprouvée sur les autres tournois.Les clés du Match sont mis à disposition des joueurs et deleurs équipes mais également depuis 2012 sur le site webpublic de Roland Garros afin de permettre à chaque Porteur du projetspectateur d’enrichir son expérience du match en bénéficiant Alex Loth – DSI Roland-Garros – Fédération Française dedes informations supplémentaires mises à sa disposition, et Tennisen permettant de suivre leur évolution au cours du match, parune mise à jour en temps réel des indicateurs. Partenaires IBM France Claire Herrenschmidt
  19. 19. Search AnalyticsObjectifs du projet : Innovation Prochaines étapesAméliorer la pertinence du moteur de recherche de L’exploitation des données de webanalyse permet à Le modèle de prédiction et la méthodologie élaborés pourPagesJaunes. PagesJaunes d’améliorer en continu, de façon automatique cette mission sont en cours d’internalisation et d’intégration et collaborative (donc à moindre coût) la pertinence de son dans les process métiers.Présentation du projet : moteur. Les applications potentiellement dérivées de cette missionLa catégorisation des requêtes est cruciale pour la pertinence sont multiples. L’architecture mise en place permet pardes résultats affichés par PagesJaunes. Si un visiteur tape « exemple d’envisager une personnalisation des résultats, uneacacias, Toulouse », on peut penser qu’il veut acheter des Résultats évolution du système de monétisation de PagesJaunesacacias. Cela signifie qu’on catégorise « acacias » en objet La précision du ciblage des requêtes mal catégorisées a (fondée sur le taux de clic, etc) ou encore la prise en compte(« Quoi ? »). Et si l’utilisateur cherchait en fait l’adresse d’un augmenté d’un facteur 10. de nouveaux critères pour le classement des blocs-réponses.restaurant appelé « Les Acacias » à Toulouse ? Il fautcomprendre « Les Acacias » comme le nom d’une entreprise(« Qui ? »). Dans un cas, la réponse attendue est une liste de Informations supplémentairespépinières, dans l’autre, l’adresse d’un restaurant bien Cette mission constitue un excellent exemple de ce queidentifié. l’Analytics peut apporter aux organisations, à condition d’yLa correction des requêtes mal catégorisées est un enjeu construire la bonne architecture de données, ce qui permetmajeur pour l’annuaire, et pour les professionnels répertoriés, de développer ensuite des applications adaptées pourpuisque 74 % des recherches effectuées sur PagesJaunes.fr améliorer la performance.aboutissent à un contact professionnel physique.La mission de fifty-five était d’exploiter les données dewebanalyse de PagesJaunes pour établir un modèle deprédiction permettant d’automatiser la détection de requêtesmal catégorisées.S’appuyant sur l’analyse de 3 terabytes de logs dewebanalyse et des dernières technologies de big data et demachine learning, l’équipe de fifty-five, composéed’ingénieurs, de data scientists et de spécialistes dedatavisualisation, a amélioré d’un facteur 10 le ciblage descatégories mal catégorisées.La mission s’est déroulée en 3 étapes : collecte, traitement,puis visualisation de la donnée.Après la mise en place d’un Data Management Platform(DMP) pour structurer la donnée, fifty-five a élaboré unmodèle de machine learning calculant un score de prédiction.L’équipe a ensuite créé une interface interactive dédiée pourrendre lisible l’intelligence extraite de l’analyse des données. Porteur du projet Lan Anh VU HONG – Responsable Marketing - 55 SAS
  20. 20. Focusmatic : Accurate Digital ReachObjectifs Innovation Prochaines étapesFocusmatic propose plusieurs applications du Big Data au Notre projet est novateur car il aide des opérationnels en L’entreprise toute entière est tournée vers le BigData. A datemarketing digital pour le rendre « opérationnel », c’est-à-dire extrayant de la valeur métier des données sociales. Cela est nous avons des fonctionnalités analytiques sur notre outil,utilisable par le métier. Un de nos exemples est la mesure de possible car il y a trois innovations technologiques : capable de gérer la big data. Nous travaillons à continuer àl’impact d’investissements médias de type co-branding ou la 1.  business intelligence sur des Big Data améliorer les capacités d’analyses sémantiques, notammentpriorisation d’une liste longue de partenaires potentiels. 2.  calculs orientés métier : calcul d’audience par exemple en travaillant sur la clusterisation et le maintient temps réel (nombre de personnes ayant vus) au lieu d’un reporting des clusters de messages. Cela permet de répondre à laPrésentation du nombre de messages. Tous n’ayant pas le même question : « De quels sujets parle-t-on ? ».Notre projet consiste à collecter les données pertinentes sur impact…le web et les réseaux sociaux pour nos clients. Nous 3.  le tout en temps réel pour apporter des réponses auorganisons cela par « univers logique d’écoute » comme par moment où les questions sont poséesexemple une marque et ses concurrents ou encore desusages. RésultatsNous collectons chiffres, textes, images et vidéos sur les Nous aidons nos clients à isoler les données qui sont utiles àprincipales plateformes de réseaux sociaux, les blogs, etc. leur question business et de les traiter instantanément. LesSelon les projets nous récoltons typiquement de 50,000 à données servent à prendre des décisions, typiquement1,000,000 de messages par jour et conservons toute d’investissement de co-marketing ou de focalisation desl’historique pour le client. Cela monte rapidement à des efforts commerciaux.volumes très élevés. On est typiquement en big data car lesvolumes à traiter comprennent aussi l’historique, les flux sonttrès variables et les données hétérogènes. Dans le casd’une de nos plateforme, celle qui absorbe parfois jusqu’à1,000,000 de messages par jour, il y a un pic à 20h le soircouvrant en général la moitié du volume de la journée.Ce genre de projet passe par une phase de compréhensionde besoin du client et un travail pour paramétrer notreplateforme générique au client. Ce travail qui est plusbusiness que technique prend une à deux semaines.Le projet commence ensuite mais la performance du systèmeest améliorée en continue car l’analyse sémantique s’appuienotamment sur des algorithmes de machine learning quiprennent compte des résultats passés validés ou infirméspour mieux prédire le futur. Cela s’applique notamment à cequi est analyse sémantique (sentiment, émotions, etc.) Porteur du projet Malekzadeh Amirhossein – Président – Focusmatic
  21. 21. Gamned – Le Big Data au service de l’Advertising IntelligenceObjectifs Innovation Informations supplémentairesAjouter de la Data Intelligence pour le RTB (Real Time Gamned innove dans le domaine du RTB par l’utilisation du Dans le cadre du rachat de Gamned par LeadMedia,Bidding) pour mieux cibler et acheter des espaces Big Data dont les technologies ont été éprouvées et validées l’infrastructure Big Data de Gamned va être généralisée pourpublicitaires en temps réel et mieux personnaliser l’affichage dans d’autres domaines tels que les secteurs tous les domaines nécessitant stockage et/ou calcul enpublicitaire pour les Internautes pharmaceutiques, industriels et aéronautiques. masse. Les compétences métier de fouille de données déjà présente chez Gamned et LeadMedia vont aussi êtreAjouter de la valeur sur le reporting, pour le Media Traders en Ces technologies font maintenant partie du cœur fusionnées pour répondre plus largement aux besoins desinterne, et pour nos clients qui doivent avoir accès à des technologique de Gamned. clients.informations disponibles en temps réel pour optimiser lescampagnes publicitaires, avec une bonne profondeur et un Résultatsbon historique. En résumé : •  nous stockons plusieurs milliards d’impressions nouvellesPrésentation par mois,Pour stocker, gérer et analyser une très grosse quantité de •  nous en extrayons, en temps-réel ou en différé, desdonnées, nous avons mis en place une infrastructure Big partitionnements et des indicateurs pour :Data basée sur Hadoop, Hive, HBase. Cette infrastructure •  personnaliser l’affichage par Internaute,est flexible pour le stockage, extensible et nous donne une •  créer un reporting solide pour nos clients,très grande puissance de calculs distribués. •  Nous utilisons notre infrastructure Big Data pour optimiser en temps réel les achats d’espaces publicitaires.Nous intégrons aussi d’autres technologies directementbranchées sur notre Big Data comme Néo4J pour optimisernos algorithmes de parcours de graphs ou MemCached pourservir efficacement certaines données à nos applications Porteur du projet Denis GARCIA - Gamned - Directeur R&D
  22. 22. DEUSObjectif du projet Innovation Etapes à venir et démarche Big Data dans l’entrepriseRéaliser sur un des plus grands supercalculateurs au monde, Le projet DEUS a pour la première fois disposé de Les mécanismes de délégation des entrées/sorties réalisésle premier calcul de la formation des structures cosmiques l’infrastructure, capable de charger en mémoire TOUT par le projet DEUS seront ré-utilisées pour des applicationsdans TOUT l’Univers observable du Big-bang à aujourd’hui l’Univers observable et permettre des simulations dans des comme l’évolution du climat, la fusion par confinementpour trois modèles d’énergie noire, mystérieuse composante temps de calcul satisfaisants et, surtout, capable de stocker magnétique (ITER) ou la combustion. Une autre optionreprésentant plus de 70% du contenu énergétique de et de post traiter à la volée à un débit soutenu de 50Go/s plus consistera à évaluer des approches type Map/Reduce surl’Univers et moteur de son expansion accélérée. de 150 péta octets de données réduits à un volume final utile des données scientifiques complexes, en utilisant des et acceptable de 1.5 péta octets. Tous les aspects du calcul systèmes de fichiers parallèle Lustre ou GPFS avec desPrésentation haute performance ont été sollicités durant ce défi numérique réseaux Infiniband.Chacune des simulations a permis de suivre lévolution et les performances atteintes par notre application sont unegravitationnelle de 550 milliards de particules sur plus de première pour un code en production en astrophysique et2500 milliards de points de calcul avec une résolution plus généralement pour le calcul haute performance.spatiale de la taille de la Voie Lactée à celle de lUniversobservable. Les 150 Poctets de données générées durant les Résultatscalculs ont été finalement réduites à 1.5 Poctets grâce à une Les données résultant du projet DEUS sont à la dispositionprocédure innovante et performante de traitement de de la communauté scientifique internationale. Ellesdonnées indispensables pour un tel projet. constituent un support exceptionnel aux grands projetsPour la première fois nous disposons de la distribution de observationnels des agences spatiales ESA et NASA commematière dans TOUT l’Univers observable semblable à celle le satellite européen Planck dont les résultats serontqui pourrait être observée par les télescopes et nous y prochainement publiques et le futur télescope spatial Euclidreconnaissons les structures cosmiques en formation tout au lancé en 2019.long de l’histoire de notre Univers. Porteur du projet Observatoire de Paris – Jean-Michel Alimi GENCI – Stéphane Requena
  23. 23. GET PLUSPrésentationGETPLUS www.getplus.fr , projet CLOUD basée surl’agrégation annuelle de plus de 100 MILLIONS de donnéesMARKETING comportementales en provenance de plus de1000 DATAMARTS de WEB TRACKING.GETPLUS révèle l’identité des entreprises qui visitent un siteInternet, même celles qui n’ont pas remplies de formulaire decontact, ce qui permet de réengager le bon prospect, avec lebon besoin au bon moment. Porteur du projet Porteur du projet Hervé Gonay – Fondateur – GET PLUS Partenaires RUNMYPROCESS : Alexandre LACHMANN
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×