• Save
Etat de l art business intelligence
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Etat de l art business intelligence

  • 5,296 views
Uploaded on

Etat de l'art sur le système d'information décisionnel en ce début d'année 2013

Etat de l'art sur le système d'information décisionnel en ce début d'année 2013

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
5,296
On Slideshare
5,198
From Embeds
98
Number of Embeds
3

Actions

Shares
Downloads
0
Comments
0
Likes
11

Embeds 98

http://www.scoop.it 92
http://www.slashdocs.com 4
https://www.elcurator.net 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Etat de l’art du « décisionnel »1© OCTO 2012
  • 2. Agenda Le contexte de la business Intelligence aujourd’hui Etat de l’art - architecture décisionnelle Etat de l’art - Système de collecte et d’intégration ETL Stockage (Appliance, SGBD, NoSQL, Hadoop) Etat de l’art - Système de diffusion et de présentation Plateforme décisionnelle Dataviz Plateforme analytique Open space sur la BI2© OCTO 2012
  • 3. Le contexte de la business intelligence aujourd’hui3© OCTO 2012
  • 4. PLUS !4© OCTO 2012
  • 5. Tout le temps !5© OCTO 2012
  • 6. Partout !6© OCTO 2012
  • 7. 7© OCTO 2012
  • 8. SOLOMO Crowd Multi sourcing Nouveaux terminaux usages Internet Capteurs, Des objets RFID/NFC8© OCTO 2012
  • 9. Fin de l’hégémonie du SGBDR Machine Event-based Learning Nouveaux Systèmes IT d’information SI composite Open API/Data Cloud9© OCTO 2012
  • 10. Interfaces Dataviz cérébrales Nouvelles interfaces Réalité augmentée Reconnaissance10© OCTO 2012
  • 11. Nouveaux Nouvelles usages interfaces Nouveaux systèmes d’information11© OCTO 2012
  • 12. Les infrastructures ne sont pas en reste12© OCTO 2012
  • 13. Diminution du coût du stockage 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 1,000,000.00 100k $/GB 100,000.00 10,000.00 1,000.00 HDD 100.00 RAM 10.00 1.00 0,10 $/GB0.10 0.01 Source :http://www.mkomo.com/cost-per-gigabyte13© OCTO 2012
  • 14. Une évolution du « hardware » toujours fantastique…14© OCTO 2012
  • 15. Performance des disques toujours croissante, mais… 70 Seagate Barracuda 7200.1064 MB/s 60 Le débit des disques augmente 50 Sans parler de SSD Et de stockage in memory …Salutaire pour Débit (MB/s) 40 Seagate Barracuda ATA IV Plus de traitement 30 Plus rapide Gain : x91 Mais pas aussi rapidement que la 20 capacité de stockage (*100 vs *100 IBM DTTA 000) 10 350100,7 MB/s 0 1991 1996 1998 2001 200615© OCTO 2012
  • 16. La frontière du débit ms µs ns 0.000,000,000,000 L2, L1 Cache Disk Local network Memory Challenge : Comment allez au-delà? Idée #1 : en parallèle Idée #2 : la mémoire / le cache16© OCTO 2012
  • 17. Derniers benchmarks sur le coût des machines Comparatif à « puissance équivalente (RAM/CPU) » Attention, à prendre avec des pincettes du fait : des modes de facturation, des autres coûts cachés (compétence, exploitation…) des points de comparaison17© OCTO 2012
  • 18. Et coté stockage SAN Filers NAS Local storage $2 - $10 par GB $1 - $5 par GB $0,05 par GB Available storage 0,5 PB 1 PB 20 PB for 1 million $ 200 000 IOPS 400 000 IOPS 10 000 000 IOPS 1 GB per second 2 GB per second 800 GB per second Source : http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and- hadoop-in-the-same-cluster-to-simplify-big-data-analytics18© OCTO 2012
  • 19. Les architectures décisionnelles19© OCTO 2012
  • 20. Overview Architecture fonctionnelle Transverse Données opérationnelles de l’entreprise Données externes Data Quality Data Alimentation (Extract, Transform, load) gouvernance Système de collecte et d’intégration Réception Historisation Nettoyage / Stockage enrichissement / Extraction stockage Administration Publication Ordonnancement Alimentation (Extract, Transform, load) Sécurité Tracabilité Système de diffusion et de présentation Business Activity Reporting Analyse Datamining Portail Stockage Monitoring20© OCTO 2012
  • 21. Overview Architecture Technique SIO SIExternes ETL, EAI, FTPTransverse Back-up (SCI) SCI Contrôle Staging ETL DQM Habilitation Archive ETL/ELT Référentiels Audit ODS ETL/ELT BAM DWH Archive SDP Scheduler Datamarts21© OCTO 2012
  • 22. Ces architectures décisionnelles… …ont 20 ans Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement22© OCTO 2012
  • 23. SID : un changement nécessaire Les coûts Les délais et le peu de flexibilité La volumétrie Faiblesses La qualité de données Le réglementaire Satisfaction utilisateur SLA Nouvelles contraintes Séparation TP et AP Système J+1 Anciennes Système décisionnel MOLAP croyances décisionnel Datamart physique NG historique Nouveaux besoins L’autonomie des utilisateurs La BI agile Le temps réel Nouveaux Les appliances La mobilité paradigmes L’Open Source Données exogènes et non structurées NoSQL et Big data Commodities Le cloud23© OCTO 2012
  • 24. Localisation des maux Diminution des coûts SIO SIExternes Données non Temps réel, structurées Frontière gestion des EAI, FTP ETL, (réseau sociaux,Transverse Back-up (SCI) SIO/SID SCI évènements Contrôle pdf, videos…) TTM Staging ETL DQM Habilitation Archive Commodities ETL/ELT Référentiels Audit ODS Appliance ETL/ELT MDM BAM NoSQL DWH Archive Column base SDP Scheduler Datamarts Machine Mobile In memory Dataviz24 learning© OCTO 2012
  • 25. Identification de 3 modèles d’architecture 3 modèles d’architectures répondent à ces nouveaux enjeux La richesse de notre job est que ces 3 modèles sont bien entendu déclinables et combinables à l’infini selon les critères de choix retenus25© OCTO 2012
  • 26. Architecture historique ETL Operational Datastore (ODS) Contrôle, enrichissement et traitements des données opérationnelles Modèle relationnel ETL Datawarehouse (DWH) Stockage, archivage Modèle relationnel ETL Datamart (DM) Agrégats, cube d’analyse Modèle en étoile, Outils de Business multidimensionnel Intelligence Visualisation, export bureautique26© OCTO 2012
  • 27. Architecture in memory ou virtualisée Fichiers de données bruts Stockage, archivage … …ou pas Base de données en mémoire (RAM) distribuée Contrôle, calculs, agrégation Modèle multidimensionnel Outils de Business Intelligence Visualisation, export bureautique27© OCTO 2012
  • 28. Architecture distribuée Grille de stockage de données, combinée à une grille de traitement des données Contrôle, calculs, agrégation Outils de Business Intelligence Visualisation, export bureautique28© OCTO 2012
  • 29. Système de collecte et d’intégration : Les ETL29© OCTO 2012
  • 30. Magic quadrant ETL Ça n’a pas changé depuis 2008…30© OCTO 2012
  • 31. Analyse du quadrant (1/2) Correspond à notre observation de la présence de ces logiciels en entreprise avec une poussée de Talend (open source) sur les PME Ces outils restent indiscutables face à une hétérogénéité de formats et de sources de données… … mais leurs concurrents historiques gardent le cap, voir accélèrent : Développement in House EAI, ESB, FTP… Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL depuis 2008 surtout face aux appliances et autres systèmes de stockage dopés. ELT ETL ELT 2002 200831© OCTO 2012
  • 32. Analyse du quadrant (2/2) Stratégie de consolidation affichée par ces acteurs sur une approche plateforme d’intégration DQM et MDM notamment Qui fait face à de nouvelles stratégies issues du SIO … CEP sur le temps réel Les offres de virtualisation de données Indexation de données Et un dernier challenger que l’on attendait pas forcément :32© OCTO 2012
  • 33. ETL : avis • ERP En voie d’essoufflement… • CRM • Gestion d’identité Premières • Portails adoptions • NoSQL Se limiter aux use cases pertinents : • Virtualisation Sources très hétérogènes • Moteur de recherche Volumétrie mesurée Émergent • Monitoring • Middleware de messagerie Réutilisation des flux • Outils d’infrastructure ETL • Systèmes de gestion d Privilégier l’OpenSource • Outillage de test Répandu • Frameworks applicatif • Intégration continue • CMS et GED Ne pas payer 2 fois • Système d’expl l’infra (ETL et appliance) • Serveur Web • Serveur d’appli Fortement répandu • Base de donné • Wiki • IDE33© OCTO 2012
  • 34. Système de collecte et d’intégration : Le stockage34© OCTO 2012
  • 35. Magic quadrant stockage datawarehouse35© OCTO 2012
  • 36. Analyse du quadrant 2 approches correspondant à des use cases différents : Stockage old school Appliance (dont IQ un peu inclassable, problème de positionnement) Stockage old school < 15 To Oracle, DB2 le plus souvent observé Quelques incursions de Microsoft, Postgre et Mysql Appliance > 15 To Marché en forte consolidation, il ne reste plus que 4 offres sur le marché Teradata et Oracle sont les mieux positionnés dans les grandes entreprises Ces offres se sont complétés de toutes les technologies « hype » (MapReduce, SGBD colonne, in memory, disque flash, connecteur Hadoop…)36© OCTO 2012
  • 37. Et le NoSQL dans tout ça : un seul driver… € • Performance (latence) • Parallélisation • Volume • Transactions / sec.37© OCTO 2012
  • 38. A CID comme variable d’ajustement « Il est impossible pour un système informatique de calcul distribué de garantir en même temps la consistance, la disponibilité et la résistance au morcellement » Eric Brewer « Availability » Les clients peuvent A toujours accéder au système (lecture écriture) La stratégie des sites L’univers des à gros trafic. SGBRD Avec cohérence in fine « Partition tolerance »« Consistency » Le système continue aTous les clients ontla même vue de la C P fonctionner en cas de « partition » - plusieursdonnée sous-ensembles n’arrivent plus à communiquer38© OCTO 2012
  • 39. En fait, rien de très neuf… Stockage de gros Volume Approche historique HDFS Exadata HBase Approche mémoire Approche distribuée Hadoop Teradata Hana HDFS MapReduce Hive Quartet Projets ActivePivot Architecture associés Voldemort Prise en compte Cassandra BI NoSQL Accès et lecture des évènements standard Pig multiple en parallèle en temps réel Esper SGBDR, Hive ETL… Chuckwa Cassandra, Hbase iGraph Mahout Hama Pig ZooKeeper Grid Computing Map Reduce39 Capacité de calcul en© OCTO 2012 paralléle
  • 40. Y’a Hadoop quand même… Reporting Workflow IBM BigSheets Pentaho Hue Beeswax Oozie / Azkaban Outil de requêtage Reporting Interface web de requêtage Workflow pour jobs Hadoops dépendants Requêtage Traitement distribué avancé Pig Hive Mahout Hama Langage de flux de données DSL de requêtage « SQL-like » Machine learning Bulk Synchronous Processing Traitement Supervision Platform Management MapReduce Hue Console Framework permettant de traiter des données en parallèle Intégration au SI Stockage Hbase Sqoop Intégration RDBMS & Hadoop Base de données pour des accès aléatoires read/write HDFS Flume, Chukwa, Scribe… Un système de fichiers distribué write-once, read-many Collection de données fiable et résiliente Infrastructure40© OCTO 2012
  • 41. Hadoop Distributed File System, la couche de stockage « non structurée »  Utilisation de « commodity disk » plutôt que d’un SAN  Stockage de fichiers plus volumineux qu’un unique disque  Répartition des données sur plusieurs machines  Réplication des données pour assurer le « fail-over » : « rack awareness » NameNode DataNode DataNode DataNode DataNode File#1 File#1 Block#1 Block#2 File#2 File#2 File#2 Block#1 Block#2 Block#3 File#1 File#1 Block#1 Block#241© OCTO 2012
  • 42. MapReduce, le système de requêtage  Paralléliser / Distribuer les traitements  Traiter plus rapidement des volumes de données unitaires plus faibles  Co-localiser traitements / données42© OCTO 2012
  • 43. Le requêtage Deux DSL pour masquer la complexité PIG: un langage de flux HIVE: un SQL-likerecords = LOAD ‘/input/cashflows.txt’ CREATE TABLE cash_flow (BookID STRING,AS (BookID:chararray, ProductID:chararray, ProductID STRING, TraderID STRING, DueDateTraderID:chararray, DueDate:int, BIGINT, Currency STRING, Amount DOUBLE,Currency:chararray, Amount:double, Direction STRING, Counterparty STRING) ROWDirection:chararray, Counterparty:chararray); FORMAT DELIMITED FIELDS TERMINATED BY t LINES TERMINATED BY n STORED ASccy_grouped = GROUP records BY Currency TEXTFILE;results = FOREACH ccy_grouped GENERATE LOAD DATA INPATH /data/cashflows.txtgroup, SUM(records.Amount); OVERWRITE INTO TABLE cash_flow;DUMP results; select Currency, sum(Amount) from cash_flow where Direction=Credit group by Currency; Metastore HDFS HDFS43© OCTO 2012
  • 44. Et NoSQL44© OCTO 2012
  • 45. L’écosystème NoSQL45© OCTO 2012
  • 46. Base de données clés-valeurs Modélisation de type Hashtable Papier de recherche Origine A une clef correspond une (et une seule) valeur d’Amazon sur Dynamo Le type de la valeur n’est pas à spécifier La valeur peut être de n’importe quel type Clés Valeurs Opérations Valeur : Objet Put Clé : Objet Objet 1 Objet 3 Get Ligne Objet 2 Delete Valeur : Objet Objet 1 Objet 3 Pas de possibilité de requêtage autre que par la clé Clé : Objet Ligne Valeur : Objet Cas d’usage Clé : Objet Objet 1 Objet 3 Stockage de données identifié par une valeur unique Ligne Objet 4 session préférence utilisateur Cache de données Maintien de contextes hautement accessibles Redis, Riak, Voldemort, Dédoublonnage de données Exemple …46© OCTO 2012
  • 47. Exemple : modélisation clé/valeur Directement utilisatble pour de nombreux use cases HTTP sessions, … Dans les autres cas, cela nécessite une modélisation en accord avec les patterns d’accès aux données Clé composité Contenu agrégé Attention jointur = full scan CustomerCst1 AccountCst2 Acc1 Key/Value Cst1#Acc1 { Op1=100, Op2 =-50} Acc2 Cst2#Acc2 Operation Op1 +100 Op2 -5047© OCTO 2012
  • 48. Base de données colonnes Modélisation dérivé du clé-valeur mais orienté colonnes Papier de recherche de Origine Des familles de colonnes pour remplacer le concept de Google sur BigTable tables dans les SGBDR Et des données semi-structurées dont les blocs colonnes sont stockés de manière triée Clé Famille de colonnes 1 Opérations Colonne1 Colonne2 Colonne3 Clé : Objet Objet 1 Objet 21 Objet 31 Requêtage par clé ou ensemble de clé Ligne Requêtage possible sur valeur d’index secondaire Colonne2 Sélection d’une ou plusieurs colonnes résultat Clé : Objet Objet 22 Ligne Cas d’usage Colonne3 Colonne4 Clé : Objet Objet 32 Objet 4 Web Ligne Priorité à la disponibilité plutôt qu’à la consistance des données Haut débit et faible latence Schéma de données évolutif HBase (slide 103) et Exemple Beaucoup d’écritures, peu de lectures Cassandra (slide 104)48© OCTO 2012
  • 49. Base de données documents Modélisation dérivé du clé-valeur avec des documents Origine Lotus Notes Les documents sont des données structurées sous la forme d’arbres hiérarchiques (sous-documents) Les données peuvent être de différentes natures Chaînes de caractères, valeurs scalaires, tableaux… Clé Documents Les documents sont auto-portants Contient les informations décrivant sa structure et les valeurs Document: Objet { Champ1: Objet, Clé : Objet associés Ligne Champ2: [Objet, Objet] } Plusieurs formats de stockage du document XML, JSON, BSON, … Document: Objet {Champ1: Objet, Clé : Objet Champ3: Sous-Doc: {Champ21: Ligne Objet} } Opérations Document: Objet {Champ4: Objet } Clé : Objet Requêtage évolué (autre que par la clé) Ligne Cas d’usage Recherche documentaire, catalogue produits, CMS… Fort besoin de schéma faiblement structuré Exemple MongoDB (slide 105) Beaucoup de lectures, peu d’écritures49© OCTO 2012
  • 50. Base de données graphes Modélisation de type nœuds/relations Origine Théorie des graphes Repose sur l’interconnectivité des données (contrairement aux autres types de solutions NoSQL qui ne supportent pas les relations) Les données sont non seulement attachées aux nœuds mais également aux relations (property graph) Noeud1 Prop10 Opérations Parcours de graphes (traversal) Relation1 Relation2 Algorithmes de traitement de graphes (Dijkstra, …) Prop11 Prop12 Prop20 Noeud2 Noeud3 Cas d’usage Prop21 Prop22 Prop3 Réseaux sociaux Réseaux de transports Réseaux logistiques Réseaux électriques Réseaux télécoms Exemple Neo4j (slide 106) …50© OCTO 2012
  • 51. Typologies : OLTP vs OLAP…51© OCTO 2012
  • 52. 52© OCTO 2012
  • 53. Le stockage : avis Une certitude : « one size doesn’t fit all » Quelques alternatives intéressantes à surveiller Intrusion des moteurs de recherche (Exalead) Solution en rupture VB-DBMS (Iluminate) La virtualisation Mon architecture décisionnelle composite de demain : Reporting sous datawarehouse Postgre alimenté par Talend Analytique sous Exadata + complément Hadoop en stockage, traitements supplémentaires et historisation des données froides Une base Titan pour les réseaux sociaux53© OCTO 2012
  • 54. Pourquoi cette frilosité entre BI et NoSQL? Parce que la plupart de ces technologies sont inadaptées à l& BI, Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans d’expérience sur des problématiques de forte volumétrie (stockage et performance) Parce que c’est OpenSource et que c’est un milieu gangréné par les grands éditeurs (Oracle, IBM…) Mais surtout parce qu’on affronte un changement comparable à migrer des cobolistes vers de l’Open : Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs environnement NoSQL (java généralement) Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse dans l’attente de solutions propriétaires (connecteur avec couche d’abstraction) L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine) L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur les pratiques54© OCTO 2012
  • 55. Système de diffusion et de présentation : La plateforme décisionnelle55© OCTO 2012
  • 56. Plateforme décisionnelle : magic quadrant et part de marché… (24%) (15,6 %) (12,6 %) (11,6 %) (8,7 %)56© OCTO 2012
  • 57. …inversement proportionnelle concernant la satisfaction utilisateur Overall Customer Experience Source: Gartner 2011.57© OCTO 2012
  • 58. Analyse des quadrants Les leaders du marché sont peu challengés et profitent pleinement de leur base installée (ceux sont les mêmes depuis 10 ans…): Ils disposent d’une couverture de service très étendue L’innovation est faite par acquisition ou reproduction Ils profitent de la politique de rationalisation des DSI Ils profitent de tous les freins propres au changement (habitudes des DSI, habitudes des utilisateurs…) De nouveaux acteurs perturbent ce marché avec une approche utilisateur final et métier Qliktech, Tableau Software, BIME Le facteur prix est ensuite un facteur de positionnement dans un contexte assez gris Microsoft OpenSource : Jaspersoft et Pentaho58© OCTO 2012
  • 59. Tendances du marché Poursuite de la rationalisation du marché et dans les DSI dans une optique d’économie Génère de nouveaux achats de solution par les métiers L’ « in memory » est une approche de référence introduite pas Qliktech et devenue un incontournable aujourd’hui. La tendance s’est diffusée au niveau hardware (appliance), des SGBD (HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…) MOLAP est mort… ou du moins en fin de vie en dehors de use cases complètement balisés (comptabilité avec Hypérion) Arrivée d’approche non dépendante (moins) de la modélisation : les approches NoSQL (mongoDB), les technologies associative/corrélative (CDBMS illuminate : VBS, indexation par contexte et relation gérée en métadonnée) tendent à ne plus forcément structurer un projet autour de la modélisation  la panacée du ad hoc (attention au perf au chargement)59© OCTO 2012
  • 60. Compatibilité Hadoop Hive QL MapReduce HDFS File scripting Datamining SAS (SAS/ACCESS et SAS BASE) R RevoScale Business Intelligence SAP Business Object Oracle BIEE MicroStrategy IBM BigSheets IBM Cognos Tableau Tibco Spotfire Pentaho QlikTech (through DataRocket) Datameer60© OCTO 2012
  • 61. Plateforme décisionnelle : avis Si on construit un système décisionnel de zéro, il est raisonnablement difficile de choisir une acteur du marché historique Une certitude : « one size doesn’t fit all » 3 critères de choix apportent des différentiants forts en dehors des cas d’usages : Le prix Le contexte (technologique, compétence…) L’expérience utilisateur Excel reste le meilleur choix dans bien des situations Quid du dataviz?61© OCTO 2012
  • 62. Système de diffusion et de présentation : Dataviz62© OCTO 2012
  • 63. L’importance de la visualisation des données L’objectif de la data visualisation est de communiquer une information claire et efficiente à l’aide de moyen graphique La data visualisation est un outil fondamental de l’analyse et est un support de communication du résultat Donne du sens Impact visuel Lisibilité du message Cohérence entre données et messages  Stimuler l’attention et l’engagement La data visualisation est devenu un domaine de recherche à part entière (à ce titre des enseignements existent)63© OCTO 2012
  • 64. Les typologies de représentation visuelle (1/6) De l‘âge de pierre…64© OCTO 2012
  • 65. Les typologies de représentation visuelle (2/6) Cumulative Histogramm histogramm65© OCTO 2012
  • 66. Les typologies de représentation visuelle (3/6) Scatter chart Bubble chart66© OCTO 2012
  • 67. Les typologies de représentation visuelle (4/6) …A l‘âge de l’information… Geo chart Graph/Cluste r67© OCTO 2012
  • 68. Les typologies de représentation visuelle (5/6) …A l‘âge de l’information… Heat map Tree map68© OCTO 2012
  • 69. Les typologies de représentation visuelle (6/6) …A l‘âge du dataviz Illustration – D3.js69© OCTO 2012
  • 70. Comment présenter efficacement des données analytiques? A chaque typologie de donnée correspond un mode de représentation privilégié Type de données Mode de représentation Statistique descriptive mono-variable • PieChart • Histogramme • CDF (line chart) Statistique descriptive multi-variable • Geo Map • Tree map • Heat map Relations • Graph Série temporelle • Line chart • Timeline Statistique explicative • Scatter Chart+ line • BubbleChart + line70© OCTO 2012
  • 71. Forrester wave (en attendant le gartner…)71© OCTO 2012
  • 72. Magic quadrant Dataviz « non officiel »Andrei Pandre Yellow Square for DV, 201272© OCTO 2012
  • 73. Les outils de visualisation spécialisésAnalyse de données multi variés : Analyse de textes R IBM BigSheets Revolution Analytics IN-SPIRE. IN-SPIRE™ provides IBM Attribute explorer tools for exploring Ggobi, XGobi Mondrian (rosuda.org) Toolkit JUNGAnalyse de réseaux et de graph Gephi toolkit Gephi Google Chart Graphviz Processing (http://processing.org) NodeXL Protovis/ D3.js http://selection.datavisualization.chAnalyse de cartes (maps) Google Fusion Tables73© OCTO 2012
  • 74. Dataviz : avis Une réponse aux nouveaux enjeux Volumétrie, temps réel, big data Synthèse, convaincre en peu de temps, capter l’attention  Rien de plus frustrant que de parvenir aux résultats sans arriver à l’expliquer/le démontrer simplement Dataviz = l’usabilité étendue à la business intelligence : proposer des représentations de la donnée utiles utilisables Si ce n’est pas votre métier : limitez-vous aux outils du marché en attendant la démocratisation d’outils spécifiques De nouveaux métiers apparaissent, on ne parle plus de web agency mais de data agency74© OCTO 2012
  • 75. Système de diffusion et de présentation : Plateforme analytique75© OCTO 2012
  • 76. De quoi parle t’on? Corrélation Classification Identification Simulation76© OCTO 2012
  • 77. 3 philosophies complémentaires de l’analyse L’analyse se focalise sur les propriétés intrinsèques des données Ex : moyenne, saisonnalité, stationnarité, … L’analyse se focalise sur l’identification d’un modèle Statistiques mathématique robuste à partir des données Ex : régression, classification, descriptives L’analyse se focalise sur réduction de dimensions, … l’apprentissage à identifier des propriétés et des modèles mathématiques à partir des données Ex : clustering, pattern matching, Support Vector Machine, … Machine Data mining learning77© OCTO 2012
  • 78. On nous a menti!!! Rien de neuf sous le soleil… Statistiques Machine descriptives learning = Data mining78© OCTO 2012
  • 79. J’exagère? Différence sémantique évidente… Une possibilité (parmi plusieurs dizaines…) : le Data Mining, c’est l’application du machine learning Ma meilleure proposition issue de l’usage que l’on en fait (vrai dans 90% des cas): Now, increasingly, people are comfortable using the term "machine learning" for cases where "data mining" was used in the past.79© OCTO 2012
  • 80. Dernier magic quadrant (2008) et Wave (2010)80© OCTO 2012
  • 81. Vision du marché 2 leaders : Des challengers Sans oublier l’OpenSource Software Library81© OCTO 2012 ©OCTO 2012
  • 82. Plateforme analytique : avis Attention ces outils ne sont pas à la portée de tout le monde Les bases de la statistiques sont nécessaires On parle de data scientist Utiliser les bons modèles/méthodes… Le modèle de pricing de ces solutions ne peut pas être qualifié d’amical Montée en puissance de R au détriment des leaders (changement d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…)82© OCTO 2012
  • 83. Open Space Business Intelligence83© OCTO 2012
  • 84. MDM : Master Data Management ? Les acteurs du MDM sont les mêmes que les plateforme d’intégration Dans 90% des cas le sujet est abordé par le prisme SIO Le MDM est un univers complexe Solution généraliste (orchestra) Solution spécifique objet (PIM, CDI) Solution métier (masterI, ERP) Sans oublier le développement spécifique84© OCTO 2012
  • 85. DQM : Data Quality Management ? Les acteurs du DQM sont les mêmes que les plateformes d’intégration et MDM… Ces outils regroupent des fonctionnalités de … Découverte (profilage) Nettoyage Normalisation … couplés généralement avec un ETL85© OCTO 2012
  • 86. MDM, DQM : avis Une recommandation concernant le MDM est un sujet d’architecture en soit (gouvernance de la donnée, échange, choix d’architecture et de solution…). Ce que l’on peut en dire sans se mouiller: Ça fonctionne même sur des grosses archis (en spécifique) C’est très dur à vendre au business et ça coûte cher Dans 90% des cas  hébergement par l’ERP C’est le saint graal des urbanistes, donc méfiance Concernant les outils de DQM, leur tarification leur interdit une utilisation massive qui pourrait être intéressante car cela reste des outils très puissants Dans 90% des cas les entreprises développent en spécifique et limitent les fonctions de DQM aux données de références via des outils spécifiques (normalisation des adresses)86© OCTO 2012
  • 87. La gestion des métadonnées ? Pour quels usages? Analyse d’impact Documentation Dictionnaire Génération de code automatique… Malheureusement cette gestion est propre à chaque outil  ce qui profite aux architectures mono-éditeur… …alors que des standards existent : Common Warehouse Metamodel (CWM™) Metadata Interchange Patterns (MIP) Nous n’avons pas identifié de solution miracle: Développement spécifique Adresser par d’autres référentiels (MDM), référentiel d’architecture (Aris,PowerAMC, Mega…) Wiki… Des solutions existent par éditeur (IBM information server metadata, informatica metadata manager...) qui nécessitent du spécifique pour une intégration complète87© OCTO 2012
  • 88. Bi & OpenSource? Les outils Open source arrivent à maturité sur le marché du décisionnel avec une pénétration PME et Grands Comptes Les solutions couvrent aujourd’hui tout le spectre du décisionnel et constituent une alternative pertinente avec par exemple : ETL Reporting OLAP - Kettle - JasperReports - Mondrian - Talend - Birt - JPivot Plateforme Datamining - Weka - Pentaho - Jasper Soft Sans oublier et d’autres solutions présentées dans cet état de l’art88© OCTO 2012
  • 89. Cloud computing et BI? « Permettant de contrôler des données volumineuses, linformatique dans les nuages devrait bouleverser substantiellement le marché de la Business Intelligence grâce à son coût peu élevé, à son extensibilité et sa flexibilité » Dans les faits, la BI dans le cloud est confrontée à: Une crainte des clients relative à la localisation des données Une offre SAAS des éditeurs historiques très loin d’une approche self- service (c’est une nouveau paradigme pour ces acteurs) Un avantage économique encore incertain A court terme nous recommandons de : Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….) Privilégier les offre SaaS natives (BIME partenaire google) Tester Amazon marketplace (jaspersoft et BO)89© OCTO 2012
  • 90. Mobilité et BI? source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE Microstrategy comme précurseur et leader 3ème usage mobile recensé dans le cadre professionnel 68% des organisations jugent le sujet très important Préférence d’une approche native et sur de l’iOS (non tenable sur la durée  HTML5) Avis : suit le changement des usages. Réellement une priorité?90© OCTO 2012
  • 91. Agilité et BI? Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en évidences les carences suivantes : La difficulté de lutter contre l’effet tunnel Le retard important dans la mise en œuvre et les budgets en augmentation Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants Un rejet de l’application par les utilisateurs Les méthodes agiles ont fait leur preuve et constituent une approche pertinente dans la construction du SI Décisionnel (SID), afin de soulager les carences précitées qui sont au cœur des apports potentiels de ces méthodes Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en commençant petit » L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités des projets décisionnels Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des pratiques de développement (vrais freins): Politique de test (automatisation) Pratique de modélisation (refactoring database et approche verticale et itérative)91© OCTO 2012
  • 92. BI self-service? Une demande récurrente adressée au DSI est de fournir une BI self- service Recevant des regards torves des DSI, les métiers achètent de nouvelles solutions éditeur pour parvenir à une fonctionnalité… …déjà présente dans les outils de la maison proposés par la DSI mais dont la mise en oeuvre est bridée au niveau logiciel ou par les processus et la gestion des habilitation La Bi self-service est avant tout un problème d’organisation et de processus même si la dimension logicielle peut aider : Virtualisation Outils graphique user friendly + in memory Data discovery92© OCTO 2012
  • 93. Une offre de service BI? Un letmotiv « One size doesn’t fit all » Que cela soit au niveau des outils, des architectures, de la méthodologie ou des processus Processus Architecture Méthodologie93© OCTO 2012
  • 94. Competence center et BI? La notion de BICC est à la mode et s’est généralisée avec les modes d’interventions suivants : Développement « Expertise » Exploitation + MCO « Pilotage » + Gestion de projet « Opérationnel partiel » Gestion qualité Conseil + « Opérationnel » Veille Cadre de Prototypage référence Education Expertise Pilotage Opérationnel partiel Opérationnel Ces organisations issues de rationalisation/outsourcing sont challengées par les tendances suivantes : La décentralisation des compétences et des outils vers le métier  la prise de pouvoir par le métier Les nouvelles technologies associées à la donnée (hadoop) L’agilité94© OCTO 2012
  • 95. Et la business intelligence en temps réel? 1er problème: trouver le cas d’usage… Rappel : Un système d’analyse de données temps réel est un système évènementiel disponible, scalable et stable, capable de prendre des décisions (actions) avec une latence inférieure à … la fréquence des évènements Les architectures historiques fonctionnent en J+1… … mais ces limites peuvent largement être dépassées avec une revue de la cinématique des traitements : Chargement toutes les heures Chargement toutes les 5 minutes  Donc attendez avant de sortir la Maserati et trouvez un use cases qui en vaille la peine95© OCTO 2012 ©OCTO 2012
  • 96. Architecture BI Real-time :approche « In-memory » IHM édition des règles IHM données historiques IHM données temps-réel latence : 100 msévènements Moteur CEPstructurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles …évènementsnon-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services96© OCTO 2012
  • 97. Architecture BI Real-time : approche « Grille dedonnées » STORM latence : 100 ms évènements Moteur CEP structurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles … évènements non-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services97© OCTO 2012
  • 98. Architecture BI Real-time :approche « CEP » latence : 100 msévènements Moteur CEPstructurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles …évènementsnon-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services98© OCTO 2012
  • 99. Le SID existe-il encore? La frontière SIO/SID tend à disparaître du fait … De la virtualisation des données De l’utilisation des outils « BI » dans le monde opérationnel De l’arrivée du temps réel De la gouvernance des données Des Boucles de feedback (CRM) … et finalement ce n’est pas plus mal Stigmatisation des architectures et des hommes + de partage de pratiques notamment sur l’industrialisation des développements Besoin de dépoussiérage des pratiques du monde SID99© OCTO 2012
  • 100. EXPERTISE ARCHITECTURE ERGONOMICS PRAGMATISM SECURITY The two most important asset of a company can not be seen in its balance sheet: its reputation and its people Henry Ford, car industry INTEGRATION EXPERIENCE TRAINING MOBILITY AUDITS AUTEUR Joseph Glorieux Julien cabot jglorieux@octo.com jcabot@octo.com TOOLS AGILITY100© OCTO 2012