Analytique « Big Data » :Architectures futures, compétences et feuilles de routedu DSI                                    ...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSISommaireLes promesse...
Livre blancSAS White Paperiv
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSILes promesses du « B...
Livre blancSAS White PaperLe facteur compétences – émergence de « scientifiques des données ».Avec la multitude de nouvell...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIPlus d’un millier de...
Livre blancSAS White PaperPRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?La définition et l’emploi de la t...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIDÉFINITION DU « BIG ...
Livre blancSAS White PaperIDC s’abstient de fixer un seuil (celui du téra-octet, par exemple), qui varierait forcémenten f...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSICertains de ces term...
Livre blancSAS White PaperÀ partir des travaux et études menés par IDC dans ce domaine, trois suggestionss’imposent aux DS...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSILa vérité, c’est qu’...
Livre blancSAS White PaperPour mesurer tout l’intérêt de l’analytique « Big Data », et sa valeur ajoutée pour l’entreprise...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIAnalyste/statisticie...
Livre blancSAS White PaperLe modèle de maturité ci-après décrit l’évolution, selon IDC, de ces compétences(techniques et m...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIEn complément de sa ...
Livre blancSAS White PaperDans ce contexte, il s’agira de faire valoir des compétences d’un nouveau genre afin decerner to...
LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIS’agissant du busine...
#AP14962UÀ PROPOS DE CETTE PUBLICATIONCette publication a été produite par IDC Go-to-Market Services. IDC Go-to-MarketServ...
Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI
Upcoming SlideShare
Loading in...5
×

Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI

1,884

Published on

L’ère du « Big Data » est une réalité. Au moment où les DSI commencent à adopter de nouvelles technologies indispensables au traitement, à l’exploration et à l’analyse de ces gigantesques tables inexploitables par des bases de données et architectures classiques, il semble clair pour IDC que la véritable valeur ajoutée résidera dans l’analyse poussée - l’analytique « Big Data » - des données de plus en plus volumineuses, diverses et rapides qui sont générées par les entreprises.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,884
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
42
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Analytique « Big Data » : architectures futures, compétences et feuilles de route du DSI "

  1. 1. Analytique « Big Data » :Architectures futures, compétences et feuilles de routedu DSI LIVRE BLANCSEPTEMBRE 2011 PAR PHILIP CARTERParrainé par SAS
  2. 2. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSISommaireLes promesses du « Big Data » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 PRESENTATION DE LA SITUATION . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . . L’essor de la business analytics. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 PRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?.4 DÉFINITION DU « BIG DATA ». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 AUTRES DÉFINITIONS : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Hadoop, MapReduce, KVS (Key Value Store) . . . . . . . . . . . . . . . . . . . . . . . . . 6 . . ANALYTIQUE « BIG DATA » :. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 La confrontation de deux ères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 LE FACTEUR COMPÉTENCES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Checklist du DSI dans la perspective de l’analytique « Big Data ». . . 13 CONCLUSION. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 iii
  3. 3. Livre blancSAS White Paperiv
  4. 4. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSILes promesses du « Big Data » L’ère du « Big Data » est une réalité — entrepôts de plusieurs péta-octets de données, interactions sur les réseaux sociaux, flux de données sensorielles en temps réel, informations géospatiales et autres sources de données nouvelles créent de multiples enjeux, tout en offrant de grandes opportunités aux entreprises. Au moment où les DSI commencent à adopter la nouvelle catégorie de technologies indispensables au traitement, à l’exploration et à l’analyse de ces gigantesques tables inexploitables par des bases de données et architectures classiques, il semble clair pour IDC que la véritable valeur ajoutée résidera dans l’analyse poussée - l’analytique « Big Data » - des données de plus en plus volumineuses, diverses et rapides qui sont générées par les entreprises.L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi noussommes confrontés à l’ère du « Big Data » réside dans la collecte systématique dedonnées, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui,du point de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ceque l’on ne sait pas ». Les variables et modèles vont, par conséquent, être entièrementnouveaux, nécessitant une stratégie différente en matière d’infrastructure et, surtout, denouvelles compétences.Le présent livre blanc a pour objectif d’analyser l’incidence première du phénomène« Big Data » sur les entreprises, notamment sur leurs services informatiques, contraintsde réévaluer leurs architectures, modèles de déploiement et feuilles de route. Il aborderaégalement en détail les points suivants :Définition du « big data » .La notion de « Big Data » ne se définit ni par des quantités, ni par des seuils (puisque ceux-ci varient constamment et s’appliqueront différemment, en fonction de la verticalité et dusegment de marché), mais plus par rapport à une nouvelle génération de technologies etd’architectures, conçues pour retirer une valeur économique de gigantesques volumesde données hétéroclites, en les capturant, en les explorant et/ou en les analysant en untemps record.Hadoop, mapreduce, kvs ?Les nouvelles technologies aujourd’hui utilisées sur le marché pour gérer le phénomène« Big Data » sont très médiatisées. Nous reviendrons sur certaines d’entre elles ainsi quesur leur importance.Intérêt analytique... Du « big data ».La vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétriesde données de plus en plus massives qui obligent à réévaluer les stratégies de gestionde l’information dans la majorité des entreprises ayant investi dans la business analytics.En quoi l’analytique « big data » est-elle importante (et différente)La question est souvent posée : en quoi ce phénomène est-il nouveau ? Cette sectionmettra en avant les différences entre la business analytics classique de l’ère « pré-BigData » et l’analytique « Big Data » de la nouvelle ère. Elle abordera également les différentsscénarios d’utilisation qui devraient, selon IDC, devenir monnaie courante dans différentssecteurs d’activité. 1
  5. 5. Livre blancSAS White PaperLe facteur compétences – émergence de « scientifiques des données ».Avec la multitude de nouvelles technologies et de structures organisationnelles requisespar le phénomène « Big Data », une demande croissante de « scientifiques des données »se fera jour. Cette nouvelle génération de professionnels de l’analyse, capables d’extrairedes informations de tables volumineuses pour apporter une valeur ajoutée à d’autresexperts, non spécialisés dans les données, sera de surcroît parfaitement à mêmed’identifier les nouveaux modèles à mettre en place.Migration planifiée vers l’analytique « big data ».Le cheminement vers l’analyse des « Big Data » sera itératif ; il convient donc de le planifier,dans un contexte plus large. C’est là tout l’objet de cette section, qui fournit égalementcertaines recommandations aux DSI séduits par le potentiel de l’analytique « Big Data ».PRESENTATION DE LA SITUATIONL’essor de la business analyticsL’explosion des volumétries de données à l’échelle mondiale fait l’objet de nombreuxarticles. D’après l’étude Digital Universe réalisée récemment par IDC, la quantitéd’informations créées et dupliquées dépassera 1,9 zetta-octets (1800 milliards de giga-octets) en 2011, en progression d’un facteur sur cinq ans.Dynamique née en apparence de manière soudaine, le phénomène « Big Data » estpourtant loin d’être nouveau : aujourd’hui, il se démocratise et monopolise l’attention.La montée en puissance du « Big Data » est favorisée par le faible coût de stockage,la prolifération de capteurs électroniques et de technologies d’acquisition de données,la multiplication des accès à l’information via le cloud et l’infrastructure de stockagevirtualisée, sans oublier des outils d’analyse et logiciels innovants. Rien d’étonnant donc àce que les DSI et responsables de branches d’activité s’intéressent à la business analyticsen tant que domaine technologique.Pour preuve, une étude menée récemment auprès de 5 722 utilisateurs sur le marchéaméricain révèle que la business analytics fait partie des cinq premières initiativesinformatiques des entreprises. Pourtant les motivations premières de son adoption restentencore très conservatrices et défensives. Le souci de maîtriser les coûts, de fidéliser laclientèle et d’optimiser les opérations est sans doute le reflet de l’incertitude économiquepersistante. Toutefois, les motivations varient considérablement en fonction de la taille del’entreprise et du secteur d’activité.En février 2011, IDC a réalisé une enquête cette fois auprès de 693 entrepriseseuropéennes qui elles aussi, à 51%, jugent les technologies décisionnelle et analytiquehautement prioritaires. Sur les marchés émergents, tels qu’en Asie/Pacifique, la prioritéconsiste à surfer sur la prochaine vague de croissance.2
  6. 6. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIPlus d’un millier de DSI et responsables de branches d’activité, interrogés en février 2011pour le baromètre des décideurs Asie-Pacifique, citent la business analytics commele premier domaine technologique susceptible de conférer à leurs établissements unavantage concurrentiel dans l’année .Figure 1 - L’essor de la business analytics (Source : IDC 2011) Q : Vous (directeur informatique/technique) parlez de « miser sur les TIC pour dégager un avantage concurrentiel » . . . Parmi les technologies ou solutions suivantes, lesquelles choisiriez-vous en priorité pour tirer encore mieux parti des TIC ? TOP 5 Décisionnel/ business analytics Réseau Médias sociaux/ Canaux en ligneCollaboration (vidéo,mobilité notamment) Cloud computing/ services 0 5 10 15 20 25 30 35 %Multipliant les investissements informatiques pour mieux surfer sur la vague del’hypercroissance dans les pays émergents, les entreprises en Asie recourent à dessolutions analytiques pour mieux connaître leurs clients, gérer plus efficacement lesrisques et les indicateurs financiers et, en parallèle, se différencier véritablement de leursconcurrents .Historiquement, les entreprises ont massivement investi dans l’applicatif afin d’automatiserleurs processus métier et de recueillir des données visant à optimiser leur efficacitéopérationnelle . Nombre de ces projets sont toujours d’actualité, mais les dirigeants etresponsables métier de ces entités prennent conscience de leur incapacité à fournir auxintervenants compétents en interne les informations pertinentes au moment opportun,pourtant indispensables aux prises de décisions stratégiques, essentiellement en raisond’une mauvaise intégration des systèmes, d’une qualité de données discutable, et d’unmanque de performance et d’évolutivité .Face à cette situation, les directions fonctionnelles ont tendance à déployer leurs propressolutions, créant une nouvelle vague d’investissements informatiques « parallèles » axéssur la business analytics ; les DSI sont ensuite contraints de réexaminer ces projets aveccomme priorité d’aligner les pôles informatique et métier . À noter que ces problématiquesexistent indépendamment de la dynamique « Big Data », qui ne fait que les aggraver,plaçant ainsi l’analytique « Big Data » au cœur du débat . 3
  7. 7. Livre blancSAS White PaperPRÉCISION TERMINOLOGIQUE : Business intelligence ou analytics ?La définition et l’emploi de la terminologie applicable à la business analytics sont loind’être simples . Du fait de la maturité du marché décisionnel, nombre de termes, depuislongtemps en usage, sont devenus obsolètes ou ont été redéfinis au fil des ans . Le termeanglo-saxon Business Intelligence, par exemple, peut être tour à tour utilisé dans un sensrestreint (désignant exclusivement des outils de requêtes, reporting et analyse) ou dans unsens large, désignant alors tout ce que recouvre la business analytics dans l’acceptationd’IDC (notamment le data warehousing et les applications analytiques en plus des outilsde restitution) .Le terme « Analytique » est une notion relativement nouvelle, à la signification biensouvent obscure — fait-il référence à l’analyse avancée, qui englobe analyse prédictive,optimisation et prévisions, ou aux applications analytiques ? Pour certains sous-marchés,comme l’analytique Web, le terme « analytique » n’est rien d’autre qu’un tableau de bordsuperposé à certaines données .Dans ce Livre blanc, notre interprétation de Business Intelligence sera celle d’outils QRA .Par « analytique », nous désignerons soit une analyse avancée (data mining, statistiques,optimisation et prévisions), soit des applications analytiques (gestion de la performancefinancière et de la stratégie, gestion de la relation client et analyse marketing, analyse dela chaîne logistique, etc .) . La Business analytics selon la taxinomie IDC 2011 comprendles deux et inclut également les technologies de data warehousing (voir Figure 2 ci-après):Figure 2 : Taxinomie Business Analytics IDC (source : IDC) Gestion de la performance et applications analytiques Business Intelligence Gestion de la performance financière Applications analytiques pour Outils de requêtes, de et de la stratégie la gestion de la relation client reporting et d’analyse Elaboration budgétaire, planification, Ventes, service clients, centre de contacts, Tableaux de bord, reporting de consolidation, rentabilité, gestion de la stratégie marketing, analyse de site web, optimisation production, OLAP, requêtes ad hoc tarifaire Outils d’analyse avancés Applications analytiques pour Applications analytiques pour Data mining et statistiques la chaîne logistique les opérations de services Achats, logistique, stocks, fabrication Services financiers, enseignement, administration, santé, télécommunications, etc. Outils d’analyse de contenu Applications analytiques pour la planification de la production Applications analytiques pour les Outils d’analyse des informations Prévision de la demande, offre et planification ressources humaines spatiales (SIG) de la production Plate-forme de gestion des entrepôts de données Gestion d’entrepôts de données Génération d’entrepôts de données Extraction de données, transformation, chargement ; qualité des données4
  8. 8. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIDÉFINITION DU « BIG DATA »La notion de « Big Data » ne fait pas tant référence au contenu créé, ou même àson exploitation . Elle désigne plutôt l’analyse des données et la manière dont celle-cidoit s’effectuer . Loin d’être une réalité figée, il s’agit plutôt d’une dynamique/activitécouvrant plusieurs disciplines informatiques . IDC définit le « Big Data » comme suit :« Les technologies Big Data correspondent à une nouvelle génération de technologies etd’architectures, conçues pour retirer une valeur économique de gigantesques volumesde données hétéroclites, en les capturant, en les explorant et/ou en les analysant en untemps record . »Figure 3 : Définition du « Big Data » (Source : IDC 2011) Données non Volume de structurées (vidéo, données richmédia, etc) Données semi- structurées (logs Web, flux de réseaux sociaux, etc .) Données = volume, complexité, vitesse et variété DuréevolumeL’univers des données structurées est celui dans lequel nous baignons . Il est celui desmagasins de données transactionnelles et de l’omniprésente traçabilité électroniquecréée par les particuliers et les entreprises suite à une activité en ligne en plein essor .Il se nourrit également de données sensorielles (de machine à machine) . Il se retrouveégalement dans les entrepôts ou magasins de données existants dont l’envergure atteintaujourd’hui plusieurs péta-octets de données .DiversitéAutre facette du phénomène « Big Data » : la nécessité d’analyser des données semi-structurées et non structurées . Or, l’analyse de texte, vidéo et autres formes de donnéesmultimédias nécessitera une architecture et des technologies totalement différentes .Face à l’engouement pour les réseaux sociaux, par exemple, nombre de servicesmarketing s’évertuent à effectuer leurs analyses de marque et de ressenti sur la basedes commentaires postés sur Facebook, Twitter et YouTube . Cette dynamique gagneencore en complexité en Asie, avec la présence de sites sociaux locaux tels que RenRenen Chine et Nate en Corée .vitesseCes données exigeront également d’être analysées plus régulièrement – il s’agira, parexemple, de prendre en compte la totalité des transactions, et non un échantillon, afin demesurer pleinement, en temps réel, le risque lié à une opération .En résumé, le « Big Data » désigne ces tables de données dont le volume, la diversité, lavitesse de prolifération et la complexité interdisent le stockage et la gestion par les basesde données et architectures actuelles . 5
  9. 9. Livre blancSAS White PaperIDC s’abstient de fixer un seuil (celui du téra-octet, par exemple), qui varierait forcémenten fonction du secteur et devrait obligatoirement être revu à la hausse dans la durée. Ilaccordera davantage d’importance à la valeur ajoutée que les entreprises peuvent retirerde ce phénomène — indissociable d’une démarche consistant à repenser leurs stratégiesinformatiques.AUTRES DÉFINITIONS :Hadoop, MapReduce, KVS (Key Value Store)La démocratisation du phénomène « Big Data » a donné naissance à toute une sériede nouvelles technologies. Le tableau ci-dessous les présente en contexte (liste nonexhaustive).Tableau 1 - Technologies « Big Data » (terminologie) Technologie Contexte Big Table Système de base de données distribuée propriétaire reposant sur GFS (Google File System). A inspiré HBase. Cassandra SGDB Open Source (libre) conçu pour gérer d’énormes quantités de données réparties sur plusieurs serveurs. Développé à l’origine par Facebook, ce système est aujourd’hui l’un des projets de la Fondation Apache. Entrepôt de données et Ensemble intégré de serveurs, solutions de stockage, système(s) d’exploitation, Appliance analytique bases de données, outils décisionnels, logiciels de data mining et autres logiciels (Data Warehouse et spécifiquement pré-installés et pré-optimisés pour l’entreposage de données. Analytical Appliance) Système distribué Recours à plusieurs ordinateurs, communiquant en réseau, pour résoudre un problème de calcul. Ce dernier est décomposé en plusieurs tâches, résolues individuellement par un ou plusieurs postes travaillant en parallèle. Amélioration du ratio prix/performances, fiabilité optimisée et évolutivité accrue. GFS (Google File Système de fichiers distribué propriétaire mis au point par Google ; a partiellement System) inspiré Hadoop. Hadoop Framework logiciel Open Source (libre) pour le traitement de gigantesques volumes de données sur certains types de problèmes dans le cadre d’un système distribué. Il s’inspire de Google MapReduce et de GFS (Google File System). Développé à l’origine par Yahoo!, ce système est aujourd’hui l’un des projets de la Fondation Apache. HBase Système Open Source (libre) de gestion de base de données non relationnelle distribuée, prenant pour modèle Big Table de Google. Développé à l’origine par Powerset, il est aujourd’hui l’un des projets de la Fondation Apache rattaché à Hadoop. MapReduce Framework logiciel introduit par Google autorisant certains types de calculs à partir de tables de données très volumineuses, dans le cadre d’un système distribué. Également implémenté dans Hadoop. Base de données non Dans une base de données non relationnelle, le stockage des données n’est relationnelle/KVS pas organisé en lignes et en colonnes, à la différence d’une base de données (Key Value Store) relationnelle. Les KVS (Key Value Store) autorisent la gestion d’entités sans schéma (NoSQL).6
  10. 10. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSICertains de ces termes seront utilisés dans le présent livre blanc, mais il ne s’agit pasici de les analyser en détail car, comme l’a fait remarquer un responsable informatiquedernièrement, « connaître la technologie est une chose, mais savoir l’appliquer àl’environnement adéquat en est une autre ».Il convient de confronter la nouvelle technologie aux impératifs métier, et non pas dela disséquer pour le plaisir. Cela étant, la plupart des décideurs informatiques ignorenttout des technologies et tendances dans ce domaine — et, dans le cas contraire, leurstratégie est de demander à deux ou trois membres de l’équipe architecture de tester lesnouvelles technologies (calcul en mémoire ou in-database, Hadoop, MapReduce, KVS,etc.) censées gérer le phénomène « Big Data ».ANALYTIQUE « BIG DATA » :La confrontation de deux èresLa question a été posée maintes fois : en quoi ce phénomène est-il nouveau ? Cettesection oppose la business analytics classique de l’ère « pré-Big Data » à l’analytique« Big Data » de la nouvelle ère. Elle aborde également les différents scénarios d’utilisationqui devraient, selon IDC, devenir monnaie courante dans différents secteurs.La majorité des structures informatiques ont su faire évoluer l’architecture de leursinfrastructures avec le temps ; d’environnements essentiellement mainframe dans lesannées 1980, elles sont successivement passées à des architectures client-serveur dansles années 1990, puis au Web au début de ce siècle, pour adopter des infrastructurescommunément baptisées « cloud privé ».Ce présumé « nirvana » est constitué d’un ensemble consolidé et virtualisé de ressourcesd’infrastructure (serveur, stockage et réseau) auto-allouées par les utilisateurs métier ; letout est assorti de contrats de niveaux de service (SLA) définissant de manière transparenteles engagements à respecter en matière de sécurité, de performance, de disponibilité etde coûts. Rares sont les entreprises dont l’infrastructure à atteint ce « nirvana » ; la plupartcontinuent à se débattre avec un enchevêtrement de ressources informatiques au sein deleur centre de données, victimes d’un effet spaghetti.Et aujourd’hui, une force extérieure baptisée « Big Data » oblige les DSI à repenserl’architecture de leur infrastructure, à la lumière des modalités de déploiement des outilsanalytiques dans l’entreprise.Voici les changements constatés par IDC dans l’univers de l’infrastructure qui ont uneincidence croissante sur l’analytique « Big Data » :Tableau 2 - Confrontation de deux ères (Infrastructure « Big Data ») Ancienne ère Nouvelle ère Colocation Infrastructure en silos Mise en commun des ressources Architecture Performances « ajustées » Montée en capacité linéaire (traitement parallèle distribué et stockage « en mémoire ») Modèle de déploiement Sur site Hybride (avec fonctionnalités de « cloud bursting ») et large utilisation de l’appliance 7
  11. 11. Livre blancSAS White PaperÀ partir des travaux et études menés par IDC dans ce domaine, trois suggestionss’imposent aux DSI :« Cloud bursting »Le cloud privé (interne) sera en parfaite adéquation avec les besoins analytiques del’entreprise décrits précédemment. Encore faut-il que les DSI évaluent précisémentla charge de travail et limitent autant que possible les risques. L’évaluation du « cloudbursting », autrement dit de la capacité à utiliser des services de cloud externes (sur lemodèle Iaas, Infrastructure as a Service), revêt une importance capitale, surtout lorsqueles entreprises commencent à exploiter des environnements analytiques en temps réel.Il s’agit de s’assurer que les ressources d’infrastructure épousent la demande – et qu’iln’existe aucun problème de performance et de disponibilité.Appliance analytiqueS’agissant des modèles de déploiement, IDC constate que les clients aux prises avec lephénomène « Big Data » dégagent des gains de performances significatifs des appliancesanalytiques. De plus, les logiciels étant optimisés et pré-intégrés avec les appliances, lesdurées de déploiement sont considérablement écourtées.Dans le cadre d’une récente enquête d’envergure mondiale, 10% des DSI interrogés ontavoué s’intéresser au modèle de déploiement des appliances analytiques pour 2011. IDCest d’ailleurs convaincu que la demande d’architectures de référence s’inscrira en haussecompte tenu des efforts déployés par ces mêmes DSI pour intégrer ces appliances ausein des environnements d’entreposage de données existants. Face à cet engouementpour les appliances analytiques, les services informatiques, dans l’affectation de leursressources budgétaires, « pénaliseront » les profils techniques (justifiant de connaissancesen installation, configuration et administration, par exemple) au profit des profils analytiquesde haut niveau, indispensables au pilotage décisionnel multidisciplinaire.Architecture d’entrepriseL’analytique d’entreprise requiert une architecture d’entreprise offrant une remarquablemontée en capacité — qu’il s’avère urgent d’adopter face à l’essor de l’analytique « BigData ». Les établissements doivent s’équiper d’un « environnement analytique hautesperformances » couplant gestion analytique in-database, traitement en parallèle etstockage en mémoire pour gérer des données qui augmentent en volume, en rapiditéet en diversité. S’agissant des données non structurées, il convient d’accorder plusd’attention à Hadoop — framework logiciel Open Source géré par Apache permettant letraitement distribué de tables volumineuses entre des ordinateurs organisés en clusters.Néanmoins, il existera perpétuellement des conflits entre les standards internationaux etles impératifs locaux – et l’utilisation de Hadoop en est un parfait exemple.Il faut également s’interroger sur la capacité à traiter des charges de travail mixtes (analytiqueset opérationnelles, par exemple) dans le même environnement d’infrastructure, commecelui de l’appliance cité précédemment. Les DSI doivent s’intéresser aux outils qui, dansla résolution de problématiques métier spécifiques, leur apporteront une véritable valeurajoutée, sans rien ignorer des standards et spécifications en matière d’architecture. Sicertains modèles de gouvernance internationaux interdisent d’utiliser plusieurs de cestechnologies au sein d’un environnement de production, les services informatiquesseront néanmoins contraints de réexaminer les modalités d’application de l’architectured’entreprise en local, compte tenu des attentes.8
  12. 12. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSILa vérité, c’est qu’il devient extrêmement compliqué de traiter et d’analyser des volumétriesde données de plus en plus massives qui obligent à réévaluer les stratégies de gestionde l’information dans la majorité des entreprises ayant investi dans la business analytics .Pourtant, l’enjeu est énorme . Si vous vous ingéniez à optimiser le tarif de chacun desarticles proposés par une chaîne de distribution internationale ou à détecter la fraude entemps réel, vous mesurez pleinement le genre de problématiques que l’analytique « BigData » peut résoudre .Tableau 3 - Confrontation de deux ères (Analytique « Big Data ») Ancienne ère Nouvelle ère Tables Prédéfinies Globales et itératives Vitesse de traitement Par lots/en batch Proactive et dynamique (en temps réel des données s’il y a lieu) Analyse des données Essentiellement historique Analyse prédictive, prévisions et optimisationNéanmoins, malgré le potentiel évident de cette discipline analytique, il faut savoir qu’ellene sera pas nécessairement utile ou applicable à chaque fois . Pour IDC, les scénariosd’utilisation envisageables s’articulent autour de deux dimensions inhérentes auphénomène « Big Data », à savoir la vitesse et la diversité comme indiqué ci-après :Figure 4 - Analytique « Big Data » et scénarios d’utilisation potentiels Risques de crédit et de marché dans le en temps réel secteur bancaire Détection des fraudes (à la carte bancaire) et délits financiers (lutte anti-blanchiment) dans le secteur bancaire (analyse des médias sociaux incluse) Marketing événementiel dans les services financiers et les télécommunications Optimisation des démarques dans la grande distribution Escroqueries et fraude fiscale dans le secteur publicVitesse des Maintenance prédictive Analyse de sentiment sur les médias données dans l’aérospatiale sociaux Analyse de pathologies à Prévision de la demande dans partir de dossiers médicaux l’industrie électroniques Entrepôt de données Analyse de vidéosurveillance par lot Text Mining traditionnel pour la sécurité publique structurées semi-structurées non structurées 9 Variété des données
  13. 13. Livre blancSAS White PaperPour mesurer tout l’intérêt de l’analytique « Big Data », et sa valeur ajoutée pour l’entreprise,examinons ces scénarios d’utilisation de plus près :Détection de la fraude en temps réel dans le secteur bancaireVoilà qui suppose, pour l’établissement bancaire, d’être capable de détecter, préveniret gérer la fraude sur plusieurs produits, activités et canaux. Il doit donc être en mesurede retracer l’historique des différents types d’items (carte, compte, client, identifiant determinal ou adresse IP) associées aux transactions, en détectant immédiatement lescomportements clients anormaux dans les points de vente. Ces informations peuventêtre exploitées par plusieurs modèles prédictifs pour la détection de fraudes et l’évaluationdu risque de crédit.Optimisation des démarques dans la grande distributionLa capacité d’un distributeur à optimiser, en temps réel, les tarifs pratiqués sur un largeéventail de produits, en fonction de scénarios d’anticipation de la demande (tenant comptedes offres promotionnelles, de l’incidence saisonnière et d’événements importants), estdéterminante pour ses marges. Si elle se double d’une analyse de sentiment sur lesmédias sociaux, la demande de certains produits sera évaluée quasiment en temps réel.Analyse de pathologies à partir de dossiers médicaux électroniquesAvec la modernisation des services de santé, un analyste peut à présent disposer desantécédents médicaux d’un patient au format électronique. Voilà qui ouvrira de formidablespossibilités à l’analytique « Big Data ». Dans le cas de pathologies de type diabètes,par exemple, la mise en corrélation des antécédents médicaux des patients avec desdonnées diététiques (potentiellement issues de l’analyse du panier de consommationdans la grande distribution) et un programme d’exercices physiques adaptés serontriches d’enseignements pour les praticiens.LE FACTEUR COMPÉTENCESIDC en est convaincu, la véritable valeur ajoutée de l’analytique « Big Data » résidera dansl’analyse poussée des données générées par les entreprises, qui augmentent en volume,en diversité et en rapidité. En Asie, la plupart des sociétés (hormis certaines multinationalespuisque le phénomène émane essentiellement des Etats-Unis et de l’Europe) ignorenttout du type et du niveau de compétences requises. IDC justifie cette méconnaissancepar un manque de sensibilisation et un déficit historique de compétences en gestionanalytique de haut niveau (indépendamment du phénomène « Big Data »).L’analytique de haut niveau exigera de nouvelles compétences dans deux domaines clés :Profil techniqueDes compétences techniques seront indispensables pour maîtriser la nouvelle catégoriede technologies indispensables au traitement, à l’exploration et à l’analyse de cesgigantesques tables de données inexploitables par des bases de données et architecturestraditionnelle (calcul en mémoire, Hadoop, MapReduce, KVS, etc.). Certaines de cestechnologies seront déployées sous forme d’appliance — pour tirer parti des données, ilfaudra alors justifier de connaissances permettant de mieux appréhender les modalitésd’interaction du logiciel avec le matériel.10
  14. 14. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIAnalyste/statisticien d’un nouveau genreL’une des différences fondamentales entre l’analytique traditionnelle et ceà quoi nous sommes confrontés à l’ère des « Big Data » réside dans lacollecte systématique de données, sans a priori sur le fait que la donnéesoit utile ou non à collecter — ce qui, du point de vue analytique, revient à« considérer que l’on ne peut pas savoir a priori ce que l’on ne sait pas ».Concrètement, les données non structurées sont tellement nombreuses que les variableset modèles analytiques risquent d’être entièrement nouveaux. D’où la nécessité derepenser l’approche analytique des utilisateurs chevronnés en créant une « mentalitéd’explorateur » où il s’agit toujours de partir à la découverte. En règle générale, desconnaissances en data mining et en statistiques constituerait un excellent point de départpour ce type d’analyse.À l’avenir, il y aura une demande de plus en plus marquée pour ces « scientifiques desdonnées ». Cette nouvelle génération d’analystes, versée dans les statistiques, seracapable d’extraire des informations à partir d’une avalanche de données pour apporterune valeur ajoutée à des experts non spécialisés en analytique. Elle sera de surcroîtparfaitement à même d’identifier les nouveaux algorithmes et modèles analytiques lesplus efficaces à court terme.IDC insiste sur l’intérêt de ces profils analytiques. Leurs rôles et responsabilités nesont pas définis — mais ils entrent parfaitement dans le cadre de ce qui a été évoquéprécédemment, s’agissant de l’afflux de données non structurées et de variables etmodèles analytiques probablement inédits. Il s’agit aussi, pour eux, de faire preuve decréativité par rapport à la gestion analytique qu’il convient d’appliquer à ces types etstructures de données d’un nouveau genre.Prenons l’exemple des réseaux sociaux (qui contribuent au phénomène « Big Data » autravers de données semi-structurées et non structurées) : nombre de services marketings’évertuent à réaliser des analyses de marque et de sentiment sur la base des contenuspubliés sur Facebook, Twitter et YouTube (soit de gigantesques quantités de données,comme vous vous en doutez). Cette dynamique gagne encore en complexité en Asie,par exemple avec la présence de sites sociaux locaux tels que RenRen en Chine et Nateen Corée.Actuellement, l’infrastructure informatique est loin d’être prioritaire pour le directeurmarketing, qui n’est pas qualifié pour identifier les chantiers à entreprendre (et, dans denombreux cas, n’a toujours pas défini le rôle qu’il doit tenir dans les règles ou dans lagouvernance d’utilisation des médias sociaux). La constitution du service informatiquemérite donc d’être réexaminée en termes de compétences techniques, métier etrelationnelles. 11
  15. 15. Livre blancSAS White PaperLe modèle de maturité ci-après décrit l’évolution, selon IDC, de ces compétences(techniques et métier) dans le contexte d’entreprises qui ont progressivement adoptéla business analytics . Leur évolution probable à l’ère de l’analytique « Big Data » estégalement incluse :Figure 5 - Modèle de maturité de l’analytique « Big Data » Phase Ancienne ère Nouvelle ère Analytique Analytique Impact Pilote Analytique « Big Data » départementale d’entreprise Profil du personnel Peu ou pas d’expertise en Accent mis sur la performance, Modélisateurs et « data Centre de compétences en business (informatique) analytique ; connaissance de la disponibilité et la sécurité stewards » chevronnés, analytics (BACC) composé de « scientifiques base des outils BI par l’équipe responsable des acteurs incontournables du des données » entrepôts de données service informatique Profil du personnel Connaissance fonctionnelle Rares analystes métier – Recours à des experts en Intégration de la résolution de problèmes (métier/informatique) des outils BI usage limité d’outils d’analyse modélisation analytique et complexes au Centre de compétences en avancée statisticiens business analytics (BACC) Technologie et outils Reporting BI et tableaux de Implémentation d’entrepôts Data mining à l’intérieur de Large adoption de l’appliance pour des bord simples sur des données de données, large emploi la base de données, et usage charges de travail multiples. Architecture historiques d’outils décisionnels, peu restreint du traitement en et gouvernance pour les nouvelles de magasins de données parallèle et de l’appliance technologies analytiques analytique Impact financier Aucun impact financier Instauration de certains Impact significatif sur le Stratégie commerciale et différenciation substantiel. Absence de indicateurs de performance chiffre d’affaires (mesuré et concurrentielle reposent sur la gestion modèles de retour sur clés (KPI), générateurs de contrôlé régulièrement) analytique investissement revenus, avec un retour sur investissement clairement défini Gouvernance des Inexistante ou presque Modèle d’entrepôt de données Définitions de données et Stratégie de gestion des données maîtres données (attention : danger !) et architecture classiques modèles normalisés clairement définie (MDM) Branches d’activité Mécontentes..... Visible Alignement (responsables de Inter-départemental (avec visibilité du PDG) branches d’activité inclus) Implication du DSI Imperceptible Limitée Réelle Volonté de transformation % de clients 20% 65% 10% 5% (estimations IDC)Pour disposer des compétences adaptées et les développer à l’ère de l’analytique« Big Data », il sera primordial de créer un Centre de compétences en business analytics(BACC) aux confins des pôles métier et informatique . Selon IDC, cette structure ne secontente pas de clarifier les rôles et responsabilités des principaux acteurs de cettetransformation . Elle procure également une meilleure visibilité en interne, instaure unmécanisme de formation et fait le lien entre les pôles informatique et métier (notammentles équipes Marketing et Ventes, dont les principaux acteurs devront être représentés)puisque l’amélioration des prises de décision du personnel en front-office constituera lafinalité première de ces projets .12
  16. 16. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIEn complément de sa vocation à cultiver les compétences, cette structure devrait, selonIDC, s’investir de la sorte : »» Identifier/déployer les technologies »» Créer un business case et justifier du retour sur investissement »» Instaurer un cadre de gouvernance des données assorti de principes d’action clairs en matière de gestion des données maîtres, de qualité et de modèles de données »» Veiller à l’adéquation des pôles informatique et métier en associant les principales parties prenantes au moment opportun »» Associer le DSI à la refonte informatique, indispensable à l’impact commercial recherchéTrès peu d’entreprises ont atteint le niveau de maturité leur permettant de tirer véritablementparti du potentiel représenté par l’analytique « Big Data » ; et, dans les faits, il est difficilede remplir tous les critères, mais cette transformation est nécessaire pour permettre auxentreprises de se différencier véritablement dans l’environnement économique actuel.Le rôle joué par le DSI (avec le concours du service informatique) sera essentiel dans cettetransformation. La section suivante expose quelques suggestions qui, de l’avis d’IDC,méritent d’être prises en compte dans ce contexte.Checklist du DSI dans la perspective de l’analytique « Big Data »Devenir un architecte du futurHistoriquement, les travaux analytiques étaient exécutés à l’aide de « palliatifs », en raisondu peu d’évolutivité du matériel sous-jacent. Nombre de services informatiques sont,par conséquent, enclins à créer des vues matérialisées ou des structures de donnéesprécalculées qui évitent aux utilisateurs de dégrader les performances des systèmestraitant les données sous-jacentes. Grâce à la clusterisation, au traitement en parallèle etaux technologies en mémoire, ces données sous-jacentes peuvent toutes être utiliséesdans l’environnement analytique.Il est néanmoins essentiel de ne pas commettre l’erreur d’accroître aveuglément lescapacités, en misant sur la disponibilité. Il est impératif d’évaluer plusieurs modèles dedéploiement (le mode cloud, notamment pour ses fonctionnalités de « cloud bursting »,les appliances analytiques, mais aussi le modèle client-serveur traditionnel ou encorel’architecture Web à trois niveaux) au cas par cas, puisque la solution universelle est unleurre.Adopter une « mentalité d’explorateur »L’une des différences fondamentales entre l’analytique traditionnelle et ce à quoi noussommes confrontés à l’ère du « Big Data » réside dans la collecte systématique dedonnées, sans a priori sur le fait que la donnée soit utile ou non à collecter — ce qui, dupoint de vue analytique, revient à « considérer que l’on ne peut pas savoir a priori ce quel’on ne sait pas ». Concrètement, les données non structurées sont tellement nombreusesque les variables et modèles analytiques risquent d’être entièrement nouveaux. D’où lanécessité de repenser l’approche analytique observée par les utilisateurs chevronnésdans le développement de modèles en créant une « mentalité d’explorateur », où il s’agittoujours de partir à la découverte, en particulier dans les liens établis entre données nonstructurées, semi-structurées et structurées. 13
  17. 17. Livre blancSAS White PaperDans ce contexte, il s’agira de faire valoir des compétences d’un nouveau genre afin decerner toutes les nuances des commentaires exprimés sur les réseaux sociaux (par lesgénérations Y, Z voire millénaire).Modérer le « bricolage » informatiqueÀ chaque fois qu’une nouvelle série de technologies intéressantes fait son apparition sur lemarché, les services informatiques ont tendance à les « bricoler » — ce qui a une incidenceimmédiate sur la rentabilité de l’entreprise. Même si une certaine dose d’expérimentationest souhaitable (et parfaitement avec phase avec la « mentalité d’explorateur » décriteprécédemment ; Hadoop et MapReduce font d’ailleurs indéniablement partie de cettecatégorie), les DSI doivent veiller à ce que ces expérimentations ne se fassent pas audétriment de la création de valeur ajoutée.Constituer l’équipe adéquateCe processus exige, dans un premier temps, que le DSI évalue son propre serviceinformatique afin d’identifier les niveaux de compétences et structures organisationnellesappropriés. Dans certains cas, une refonte devra être opérée en interne pour que lechangement soit perceptible. Ensuite, les individus compétents doivent être habilitésà exécuter la stratégie analytique, en s’appuyant sur les processus et structures degouvernance en place, pour pouvoir répondre efficacement aux attentes métier.Voilà qui suppose, pour le DSI, de mieux appréhender le potentiel de la technologieanalytique sous-jacente, mais aussi de collaborer avec les responsables de branchesd’activité afin de recruter des professionnels dotés d’un esprit analytique, capablesd’exploiter de manière optimale les capacités technologiques latentes.Déployer les ressources analytiques à l’échelle de l’entrepriseLa majorité des projets informatiques menés dans ce domaine consistent à créer unentrepôt de données qui, couplé à divers outils décisionnels, permet de faire remonterles informations sous-jacentes aux utilisateurs. Toutefois, faute d’expertise informatiqueen fonctions analytiques élaborées, ces projets demeurent largement départementaux ettactiques par nature, favorisant le cloisonnement des mentalités.Ainsi, une évaluation de la rentabilité ajustée du risque (calculée à partir de donnéesfinancières, d’une cote de solvabilité et de données clients) serait impossible. Unchangement s’impose et, pour ce faire, il faut redéfinir le niveau de collaboration entreles pôles informatique et métier, sous la houlette d’un DSI participant personnellementau déploiement des outils analytiques à l’échelle de l’entreprise afin d’assurer la menée àbien de ces projets.Gouvernance et business enablementC’est dans ce domaine que les investissements réalisés dans les technologies dedata warehousing, à condition d’avoir été judicieux, porteront leurs fruits. Les modèlesde données et l’architecture de référence adoptés par le pôle informatique garantirontla cohérence des définitions de données et standards entre les différents services del’entreprise. Certes, il reste du travail à accomplir en gestion des données maîtresses(MDM) pour combler le fossé opérationnel et analytique autour de la gouvernance desdonnées — mais, fondamentalement, cette plate-forme devrait procurer la gestion et lamaîtrise indispensables au pôle informatique.14
  18. 18. LIVRE BLANC / ANALYTIQUE « BIG DATA » : Architectures futures, compétences et feuilles de route du DSIS’agissant du business enablement, IDC voit apparaître une nouvelle catégorie de projetsassociant business analytics et gestion de processus métier — plus spécifiquement, deslogiciels de gestion décisionnelle comprenant des outils adaptés à la gestion des règles,au data mining, aux requêtes et au reporting, au traitement d’événements complexes(CEP), à la collaboration, aux suites BPM, aux recherches et à l’analyse de contenu.Pour IDC, les services informatiques qui, en complément de leurs précédentsinvestissements dans les technologies de data warehousing et décisionnelles, justifierontd’une meilleure appréhension du processus décisionnel à chaque niveau ainsi quedes logiciels de gestion décisionnelle seront les mieux placés pour gérer le dilemmegouvernance informatique-business enablement.CONCLUSIONMalgré des degrés de maturité et taux d’adoption différents, les entreprises sont prêtesà exploiter des solutions et offres de business analytics plus évoluées. Elles doivent doncopter pour une planification stratégique et élaborer une feuille de route solide avant des’y rallier. La nouvelle génération de décideurs, davantage sensibilisée aux avantagesconcurrentiels liés au business analytics, mènera une politique d’adoption plus offensive.Pour IDC, une approche nouvelle s’impose à l’avenir ; elle seule permettra d’effectuer leschangements nécessaires, en ce sens : »» Le rôle du DSI doit être affirmé, et celui-ci mieux à même de transformer l’établissement en participant activement au déploiement de la stratégie analytique d’entreprise — et en veillant à ce que ces technologies aient l’impact commercial escompté. »» Les autres modèles de déploiement (appliance, « en mémoire » et Hadoop pour les « Big Data ») doivent être évalués. »» Il s’agit de capter l’attention des responsables de branches d’activité alors même que les projets de business analytics sont intégrés à des technologies de traitement d’événements complexes (CEP) et de supervision des activités métier (BAM) pour piloter une nouvelle catégorie de projets définis par IDC comme relevant de la « gestion décisionnelle ».Le rôle du DSI s’affirme progressivement au sein de la direction et celui-ci devientincontournable dans l’achat d’applications évoluées, de business analytics notamment.Le DSI et le service informatique n’ont d’autre choix que de tirer parti d’un large éventailde fonctions de business analytics pour définir une nouvelle stratégie de gestionde l’information capable de gérer la nouvelle dynamique « Big Data » et de doter lesintervenants métier d’outils décisionnels optimisés. 15
  19. 19. #AP14962UÀ PROPOS DE CETTE PUBLICATIONCette publication a été produite par IDC Go-to-Market Services. IDC Go-to-MarketServices propose les contenus IDC dans un large éventail de formats à diversesentreprises, pour diffusion. Une licence de distribution de contenu IDC ne sous-entend niun cautionnement de son titulaire ni une quelconque opinion sur celui-ci.DROIT D’AUTEUR ET RESTRICTIONSToute information IDC ou référence à IDC destinée à être utilisée dans une publicité, uncommuniqué de presse ou un support promotionnel requiert au préalable l’approbationécrite d’IDC. Pour les demandes d’autorisation, contactez GMS au 65-6829-7757 ou àl’adresse gmsap@idc.com. Une autre autorisation d’IDC est requise pour la traduction et/ou la localisation de ce document.Pour de plus amples informations sur IDC, consultez le site www.idc.com. Pour de plusamples informations sur IDC GMS, consultez le site www.idc.com/gms.IDC Asie/Pacifique, 80 Anson Road, #38-00 Fuji Xerox Towers, Singapour 079970.Tél. : 65.6226.0330 Fax : 65.6220.6116 www.idc.com.Copyright 2011 IDC. Reproduction interdite sans autorisation. Tous droits réservés. SAS Institute s. a. s. – DOMAINE DE GREGY - GREGY-SUR-YERRES - 77257 BRIE COMTE ROBERT - FRANCE TEL. : +33(0) 1 60 62 11 11 FAX : +33(0) 1 60 62 11 99 www.sas.com/france Copyright © 2012, SAS Institue Inc. Tous droits réservés. WP010FCE0312

×