Etat de l’art du « décisionnel »1© OCTO 2012
Agenda              Le contexte de la business Intelligence aujourd’hui              Etat de l’art - architecture décision...
Le contexte de la business                  intelligence aujourd’hui3© OCTO 2012
PLUS !4© OCTO 2012
Tout le temps !5© OCTO 2012
Partout !6© OCTO 2012
7© OCTO 2012
SOLOMO               Crowd                                  Multi              sourcing            Nouveaux         termin...
Fin de                                  l’hégémonie du                                       SGBDR              Machine   ...
Interfaces                                           Dataviz              cérébrales                           Nouvelles  ...
Nouveaux                   Nouvelles               usages                    interfaces                           Nouveaux...
Les infrastructures ne sont pas en                                           reste12© OCTO 2012
Diminution du coût du stockage                       1965      1970    1975    1980   1985    1990    1995   2000   2005  ...
Une évolution du « hardware » toujours      fantastique…14© OCTO 2012
Performance des disques toujours                    croissante, mais…                    70                               ...
La frontière du débit                                 ms         µs        ns                      0.000,000,000,000      ...
Derniers benchmarks sur le coût des machines      Comparatif à « puissance équivalente (RAM/CPU) »      Attention, à prend...
Et coté stockage                                  SAN                      Filers NAS                     Local storage   ...
Les architectures décisionnelles19© OCTO 2012
Overview Architecture fonctionnelle     Transverse                           Données opérationnelles de l’entreprise      ...
Overview Architecture Technique                SIO                                            SIExternes                  ...
Ces architectures décisionnelles…     …ont 20 ans     Si on peut leur souhaiter de vivre aussi longtemps que le     mainfr...
SID : un changement nécessaire                                                                     Les coûts             ...
Localisation des maux Diminution des coûts      SIO                                                        SIExternes     ...
Identification de 3 modèles d’architecture      3 modèles d’architectures répondent à ces nouveaux enjeux      La richesse...
Architecture historique                              ETL      Operational Datastore                                       ...
Architecture in memory ou virtualisée                                     Fichiers de données bruts                       ...
Architecture distribuée              Grille de stockage de              données, combinée à une              grille de tra...
Système de collecte et d’intégration :                                           Les ETL29© OCTO 2012
Magic quadrant ETL      Ça n’a pas changé depuis 2008…30© OCTO 2012
Analyse du quadrant (1/2)      Correspond à notre observation de la présence de ces logiciels en      entreprise avec une ...
Analyse du quadrant (2/2)      Stratégie de consolidation affichée par ces acteurs sur une approche      plateforme d’inté...
ETL : avis                                                             • ERP      En voie d’essoufflement…                ...
Système de collecte et d’intégration :                                      Le stockage34© OCTO 2012
Magic quadrant stockage datawarehouse35© OCTO 2012
Analyse du quadrant      2 approches correspondant à des use cases différents :              Stockage old school          ...
Et le NoSQL dans tout ça : un seul driver…          €                                            • Performance            ...
A    CID comme variable d’ajustement « Il est impossible pour un système informatique de calcul distribué de garantir en m...
En fait, rien de très neuf…                                                          Stockage de gros                     ...
Y’a Hadoop quand même… Reporting                                                                                     Workf...
Hadoop Distributed File System,         la couche de stockage « non structurée »        Utilisation de « commodity disk »...
MapReduce, le système de requêtage      Paralléliser / Distribuer les traitements      Traiter plus rapidement des volum...
Le requêtage Deux DSL pour masquer la complexité     PIG: un langage de flux                     HIVE: un SQL-likerecords ...
Et NoSQL44© OCTO 2012
L’écosystème NoSQL45© OCTO 2012
Base de données clés-valeurs     Modélisation de type Hashtable                                          Papier de recherc...
Exemple : modélisation clé/valeur              Directement utilisatble pour de nombreux use cases                 HTTP ses...
Base de données colonnes     Modélisation dérivé du clé-valeur mais orienté colonnes                               Papier ...
Base de données documents     Modélisation dérivé du clé-valeur avec des documents                                        ...
Base de données graphes     Modélisation de type nœuds/relations                                                          ...
Typologies : OLTP vs OLAP…51© OCTO 2012
52© OCTO 2012
Le stockage : avis              Une certitude : « one size doesn’t fit all »              Quelques alternatives intéressan...
Pourquoi cette frilosité entre BI et NoSQL?        Parce que la plupart de ces technologies sont inadaptées à l& BI,      ...
Système de diffusion et de présentation :                   La plateforme décisionnelle55© OCTO 2012
Plateforme décisionnelle : magic quadrant et part       de marché…                                                   (24%)...
…inversement proportionnelle concernant la        satisfaction utilisateur     Overall Customer Experience Source: Gartner...
Analyse des quadrants      Les leaders du marché sont peu challengés et profitent pleinement de      leur base installée (...
Tendances du marché       Poursuite de la rationalisation du marché et dans les DSI dans une       optique d’économie     ...
Compatibilité Hadoop                                                      Hive QL   MapReduce                             ...
Plateforme décisionnelle : avis      Si on construit un système décisionnel de zéro, il est raisonnablement      difficile...
Système de diffusion et de présentation :                                       Dataviz62© OCTO 2012
L’importance de la visualisation des données              L’objectif de la data visualisation est de communiquer une      ...
Les typologies de représentation visuelle (1/6)       De l‘âge de pierre…64© OCTO 2012
Les typologies de représentation visuelle (2/6)                                       Cumulative              Histogramm  ...
Les typologies de représentation visuelle (3/6)              Scatter chart                                       Bubble ch...
Les typologies de représentation visuelle (4/6)        …A l‘âge de l’information…              Geo chart               Gra...
Les typologies de représentation visuelle (5/6)        …A l‘âge de l’information…              Heat map                 Tr...
Les typologies de représentation visuelle (6/6)        …A l‘âge du dataviz                                             Ill...
Comment présenter efficacement des données        analytiques?              A chaque typologie de donnée correspond un mod...
Forrester wave (en attendant le gartner…)71© OCTO 2012
Magic quadrant Dataviz « non officiel »Andrei Pandre Yellow Square for DV, 201272© OCTO 2012
Les outils de visualisation spécialisésAnalyse de données multi variés :   Analyse de textes          R                   ...
Dataviz : avis              Une réponse aux nouveaux enjeux                   Volumétrie, temps réel, big data            ...
Système de diffusion et de présentation :                         Plateforme analytique75© OCTO 2012
De quoi parle t’on?                             Corrélation                                              Classification   ...
3 philosophies complémentaires de l’analyse                                                               L’analyse se foc...
On nous a menti!!!              Rien de neuf sous le soleil…                      Statistiques               Machine      ...
J’exagère?       Différence sémantique évidente…              Une possibilité (parmi plusieurs dizaines…) : le Data       ...
Dernier magic quadrant (2008) et Wave (2010)80© OCTO 2012
Vision du marché       2 leaders :       Des challengers       Sans oublier l’OpenSource                Software          ...
Plateforme analytique : avis      Attention ces outils ne sont pas à la portée de tout le monde              Les bases de ...
Open Space Business Intelligence83© OCTO 2012
MDM : Master Data Management ?      Les acteurs du MDM sont      les mêmes que les      plateforme d’intégration      Dans...
DQM : Data Quality Management ?      Les acteurs du DQM sont les mêmes      que les plateformes d’intégration et      MDM…...
MDM, DQM : avis      Une recommandation concernant le MDM est un sujet d’architecture      en soit (gouvernance de la donn...
La gestion des métadonnées ?      Pour quels usages?              Analyse d’impact              Documentation             ...
Bi & OpenSource?      Les outils Open source arrivent à maturité sur le marché du décisionnel      avec une pénétration PM...
Cloud computing et BI?      « Permettant de contrôler des données volumineuses, linformatique      dans les nuages devrait...
Mobilité et BI?                                      source: DAS Mobile Business Intelligence Market Study – October 2011,...
Agilité et BI?      Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en      évidences les ca...
BI self-service?        Une demande récurrente adressée au DSI est de fournir une BI self-        service        Recevant ...
Une offre de service BI?        Un letmotiv     « One size doesn’t fit all »        Que cela soit au        niveau des out...
Competence center et BI?      La notion de BICC est à la mode et s’est généralisée avec les modes      d’interventions sui...
Et la business intelligence en temps réel?       1er problème: trouver le cas d’usage…       Rappel : Un système d’analyse...
Architecture BI Real-time :approche « In-memory »                   IHM édition des règles                                ...
Architecture BI Real-time : approche « Grille dedonnées »                                                                 ...
Architecture BI Real-time :approche « CEP »                                                 latence : 100 msévènements    ...
Le SID existe-il encore?      La frontière SIO/SID tend à disparaître du fait …              De la virtualisation des donn...
EXPERTISE                                        ARCHITECTURE                                           ERGONOMICS        ...
Upcoming SlideShare
Loading in...5
×

Etat de l art business intelligence

11,588

Published on

Etat de l'art sur le système d'information décisionnel en ce début d'année 2013

Published in: Technology
3 Comments
34 Likes
Statistics
Notes
  • très bonne présentation que je viens découvrir .. mais j'ai apprecier .puis je avoir une version SVP
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Bonjour M. Glorieux
    Merci pour la qualité de votre support. Est-il possible d'en recevoir une version electronique ? merci par avance
    JF Loubeyre 066 066 5606
    jf.loubeyre@gmail.com
    Société SaaS
    6 Place de la madeleine
    75008 PARIS
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Très bonne présentation, qui met en avant un phénomène qui tend à prendre de plus en plus d’importance : la complexité des systèmes d’informations, qui certes bénéficient beaucoup des progrès technologiques de l’industrie high tech et des inventions des géants du Web, mais à quel prix ?

    J’imagine que l’auteur n’a pas souhaité faire peur à son audience, mais est-ce qu’à un seul moment quelqu’un s’est posé la question de comment l’on entretient toute l’infrastructure qui soutient ces nouveaux outils ? Performance : identifier les sous éléments qui ont besoin de puissance ou non (I/O stockage, cpu, réseau, mémoire…), compatibilité : entre les os, applications, middleware… évolutivité : dans le sens « scalabilité » quand un jour on vous dit qu’il faut des SAN partout (SGBD) et le lendemain qu’il faut une system de stockage JBOD sans RAID (cf. HDFS d’hadoop). Allez trouver aujourd’hui des experts avec du recul non pas sur un domaine mais sur tous… car c’est bien ce qui est demandé aujourd’hui et depuis l’avènement de la virtualisation, du cloud et autres évolutions que je définirai de « globalisante ».

    Je ne cautionne pas beaucoup non plus les pratiques des grands éditeurs de solutions logicielles mais avec du recul on peut aussi comprendre la frilosité d’un grand nombre de DSI et utilisateurs d’outils de BI, de privilégier leurs solutions.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
11,588
On Slideshare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
0
Comments
3
Likes
34
Embeds 0
No embeds

No notes for slide

Transcript of "Etat de l art business intelligence"

  1. 1. Etat de l’art du « décisionnel »1© OCTO 2012
  2. 2. Agenda Le contexte de la business Intelligence aujourd’hui Etat de l’art - architecture décisionnelle Etat de l’art - Système de collecte et d’intégration ETL Stockage (Appliance, SGBD, NoSQL, Hadoop) Etat de l’art - Système de diffusion et de présentation Plateforme décisionnelle Dataviz Plateforme analytique Open space sur la BI2© OCTO 2012
  3. 3. Le contexte de la business intelligence aujourd’hui3© OCTO 2012
  4. 4. PLUS !4© OCTO 2012
  5. 5. Tout le temps !5© OCTO 2012
  6. 6. Partout !6© OCTO 2012
  7. 7. 7© OCTO 2012
  8. 8. SOLOMO Crowd Multi sourcing Nouveaux terminaux usages Internet Capteurs, Des objets RFID/NFC8© OCTO 2012
  9. 9. Fin de l’hégémonie du SGBDR Machine Event-based Learning Nouveaux Systèmes IT d’information SI composite Open API/Data Cloud9© OCTO 2012
  10. 10. Interfaces Dataviz cérébrales Nouvelles interfaces Réalité augmentée Reconnaissance10© OCTO 2012
  11. 11. Nouveaux Nouvelles usages interfaces Nouveaux systèmes d’information11© OCTO 2012
  12. 12. Les infrastructures ne sont pas en reste12© OCTO 2012
  13. 13. Diminution du coût du stockage 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010 2015 1,000,000.00 100k $/GB 100,000.00 10,000.00 1,000.00 HDD 100.00 RAM 10.00 1.00 0,10 $/GB0.10 0.01 Source :http://www.mkomo.com/cost-per-gigabyte13© OCTO 2012
  14. 14. Une évolution du « hardware » toujours fantastique…14© OCTO 2012
  15. 15. Performance des disques toujours croissante, mais… 70 Seagate Barracuda 7200.1064 MB/s 60 Le débit des disques augmente 50 Sans parler de SSD Et de stockage in memory …Salutaire pour Débit (MB/s) 40 Seagate Barracuda ATA IV Plus de traitement 30 Plus rapide Gain : x91 Mais pas aussi rapidement que la 20 capacité de stockage (*100 vs *100 IBM DTTA 000) 10 350100,7 MB/s 0 1991 1996 1998 2001 200615© OCTO 2012
  16. 16. La frontière du débit ms µs ns 0.000,000,000,000 L2, L1 Cache Disk Local network Memory Challenge : Comment allez au-delà? Idée #1 : en parallèle Idée #2 : la mémoire / le cache16© OCTO 2012
  17. 17. Derniers benchmarks sur le coût des machines Comparatif à « puissance équivalente (RAM/CPU) » Attention, à prendre avec des pincettes du fait : des modes de facturation, des autres coûts cachés (compétence, exploitation…) des points de comparaison17© OCTO 2012
  18. 18. Et coté stockage SAN Filers NAS Local storage $2 - $10 par GB $1 - $5 par GB $0,05 par GB Available storage 0,5 PB 1 PB 20 PB for 1 million $ 200 000 IOPS 400 000 IOPS 10 000 000 IOPS 1 GB per second 2 GB per second 800 GB per second Source : http://www.slideshare.net/lucenerevolution/the-search-is-over-integrating-solr-and- hadoop-in-the-same-cluster-to-simplify-big-data-analytics18© OCTO 2012
  19. 19. Les architectures décisionnelles19© OCTO 2012
  20. 20. Overview Architecture fonctionnelle Transverse Données opérationnelles de l’entreprise Données externes Data Quality Data Alimentation (Extract, Transform, load) gouvernance Système de collecte et d’intégration Réception Historisation Nettoyage / Stockage enrichissement / Extraction stockage Administration Publication Ordonnancement Alimentation (Extract, Transform, load) Sécurité Tracabilité Système de diffusion et de présentation Business Activity Reporting Analyse Datamining Portail Stockage Monitoring20© OCTO 2012
  21. 21. Overview Architecture Technique SIO SIExternes ETL, EAI, FTPTransverse Back-up (SCI) SCI Contrôle Staging ETL DQM Habilitation Archive ETL/ELT Référentiels Audit ODS ETL/ELT BAM DWH Archive SDP Scheduler Datamarts21© OCTO 2012
  22. 22. Ces architectures décisionnelles… …ont 20 ans Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement22© OCTO 2012
  23. 23. SID : un changement nécessaire Les coûts Les délais et le peu de flexibilité La volumétrie Faiblesses La qualité de données Le réglementaire Satisfaction utilisateur SLA Nouvelles contraintes Séparation TP et AP Système J+1 Anciennes Système décisionnel MOLAP croyances décisionnel Datamart physique NG historique Nouveaux besoins L’autonomie des utilisateurs La BI agile Le temps réel Nouveaux Les appliances La mobilité paradigmes L’Open Source Données exogènes et non structurées NoSQL et Big data Commodities Le cloud23© OCTO 2012
  24. 24. Localisation des maux Diminution des coûts SIO SIExternes Données non Temps réel, structurées Frontière gestion des EAI, FTP ETL, (réseau sociaux,Transverse Back-up (SCI) SIO/SID SCI évènements Contrôle pdf, videos…) TTM Staging ETL DQM Habilitation Archive Commodities ETL/ELT Référentiels Audit ODS Appliance ETL/ELT MDM BAM NoSQL DWH Archive Column base SDP Scheduler Datamarts Machine Mobile In memory Dataviz24 learning© OCTO 2012
  25. 25. Identification de 3 modèles d’architecture 3 modèles d’architectures répondent à ces nouveaux enjeux La richesse de notre job est que ces 3 modèles sont bien entendu déclinables et combinables à l’infini selon les critères de choix retenus25© OCTO 2012
  26. 26. Architecture historique ETL Operational Datastore (ODS) Contrôle, enrichissement et traitements des données opérationnelles Modèle relationnel ETL Datawarehouse (DWH) Stockage, archivage Modèle relationnel ETL Datamart (DM) Agrégats, cube d’analyse Modèle en étoile, Outils de Business multidimensionnel Intelligence Visualisation, export bureautique26© OCTO 2012
  27. 27. Architecture in memory ou virtualisée Fichiers de données bruts Stockage, archivage … …ou pas Base de données en mémoire (RAM) distribuée Contrôle, calculs, agrégation Modèle multidimensionnel Outils de Business Intelligence Visualisation, export bureautique27© OCTO 2012
  28. 28. Architecture distribuée Grille de stockage de données, combinée à une grille de traitement des données Contrôle, calculs, agrégation Outils de Business Intelligence Visualisation, export bureautique28© OCTO 2012
  29. 29. Système de collecte et d’intégration : Les ETL29© OCTO 2012
  30. 30. Magic quadrant ETL Ça n’a pas changé depuis 2008…30© OCTO 2012
  31. 31. Analyse du quadrant (1/2) Correspond à notre observation de la présence de ces logiciels en entreprise avec une poussée de Talend (open source) sur les PME Ces outils restent indiscutables face à une hétérogénéité de formats et de sources de données… … mais leurs concurrents historiques gardent le cap, voir accélèrent : Développement in House EAI, ESB, FTP… Approche ELT/ETL qui est une guerre en train d’être perdue par les ETL depuis 2008 surtout face aux appliances et autres systèmes de stockage dopés. ELT ETL ELT 2002 200831© OCTO 2012
  32. 32. Analyse du quadrant (2/2) Stratégie de consolidation affichée par ces acteurs sur une approche plateforme d’intégration DQM et MDM notamment Qui fait face à de nouvelles stratégies issues du SIO … CEP sur le temps réel Les offres de virtualisation de données Indexation de données Et un dernier challenger que l’on attendait pas forcément :32© OCTO 2012
  33. 33. ETL : avis • ERP En voie d’essoufflement… • CRM • Gestion d’identité Premières • Portails adoptions • NoSQL Se limiter aux use cases pertinents : • Virtualisation Sources très hétérogènes • Moteur de recherche Volumétrie mesurée Émergent • Monitoring • Middleware de messagerie Réutilisation des flux • Outils d’infrastructure ETL • Systèmes de gestion d Privilégier l’OpenSource • Outillage de test Répandu • Frameworks applicatif • Intégration continue • CMS et GED Ne pas payer 2 fois • Système d’expl l’infra (ETL et appliance) • Serveur Web • Serveur d’appli Fortement répandu • Base de donné • Wiki • IDE33© OCTO 2012
  34. 34. Système de collecte et d’intégration : Le stockage34© OCTO 2012
  35. 35. Magic quadrant stockage datawarehouse35© OCTO 2012
  36. 36. Analyse du quadrant 2 approches correspondant à des use cases différents : Stockage old school Appliance (dont IQ un peu inclassable, problème de positionnement) Stockage old school < 15 To Oracle, DB2 le plus souvent observé Quelques incursions de Microsoft, Postgre et Mysql Appliance > 15 To Marché en forte consolidation, il ne reste plus que 4 offres sur le marché Teradata et Oracle sont les mieux positionnés dans les grandes entreprises Ces offres se sont complétés de toutes les technologies « hype » (MapReduce, SGBD colonne, in memory, disque flash, connecteur Hadoop…)36© OCTO 2012
  37. 37. Et le NoSQL dans tout ça : un seul driver… € • Performance (latence) • Parallélisation • Volume • Transactions / sec.37© OCTO 2012
  38. 38. A CID comme variable d’ajustement « Il est impossible pour un système informatique de calcul distribué de garantir en même temps la consistance, la disponibilité et la résistance au morcellement » Eric Brewer « Availability » Les clients peuvent A toujours accéder au système (lecture écriture) La stratégie des sites L’univers des à gros trafic. SGBRD Avec cohérence in fine « Partition tolerance »« Consistency » Le système continue aTous les clients ontla même vue de la C P fonctionner en cas de « partition » - plusieursdonnée sous-ensembles n’arrivent plus à communiquer38© OCTO 2012
  39. 39. En fait, rien de très neuf… Stockage de gros Volume Approche historique HDFS Exadata HBase Approche mémoire Approche distribuée Hadoop Teradata Hana HDFS MapReduce Hive Quartet Projets ActivePivot Architecture associés Voldemort Prise en compte Cassandra BI NoSQL Accès et lecture des évènements standard Pig multiple en parallèle en temps réel Esper SGBDR, Hive ETL… Chuckwa Cassandra, Hbase iGraph Mahout Hama Pig ZooKeeper Grid Computing Map Reduce39 Capacité de calcul en© OCTO 2012 paralléle
  40. 40. Y’a Hadoop quand même… Reporting Workflow IBM BigSheets Pentaho Hue Beeswax Oozie / Azkaban Outil de requêtage Reporting Interface web de requêtage Workflow pour jobs Hadoops dépendants Requêtage Traitement distribué avancé Pig Hive Mahout Hama Langage de flux de données DSL de requêtage « SQL-like » Machine learning Bulk Synchronous Processing Traitement Supervision Platform Management MapReduce Hue Console Framework permettant de traiter des données en parallèle Intégration au SI Stockage Hbase Sqoop Intégration RDBMS & Hadoop Base de données pour des accès aléatoires read/write HDFS Flume, Chukwa, Scribe… Un système de fichiers distribué write-once, read-many Collection de données fiable et résiliente Infrastructure40© OCTO 2012
  41. 41. Hadoop Distributed File System, la couche de stockage « non structurée »  Utilisation de « commodity disk » plutôt que d’un SAN  Stockage de fichiers plus volumineux qu’un unique disque  Répartition des données sur plusieurs machines  Réplication des données pour assurer le « fail-over » : « rack awareness » NameNode DataNode DataNode DataNode DataNode File#1 File#1 Block#1 Block#2 File#2 File#2 File#2 Block#1 Block#2 Block#3 File#1 File#1 Block#1 Block#241© OCTO 2012
  42. 42. MapReduce, le système de requêtage  Paralléliser / Distribuer les traitements  Traiter plus rapidement des volumes de données unitaires plus faibles  Co-localiser traitements / données42© OCTO 2012
  43. 43. Le requêtage Deux DSL pour masquer la complexité PIG: un langage de flux HIVE: un SQL-likerecords = LOAD ‘/input/cashflows.txt’ CREATE TABLE cash_flow (BookID STRING,AS (BookID:chararray, ProductID:chararray, ProductID STRING, TraderID STRING, DueDateTraderID:chararray, DueDate:int, BIGINT, Currency STRING, Amount DOUBLE,Currency:chararray, Amount:double, Direction STRING, Counterparty STRING) ROWDirection:chararray, Counterparty:chararray); FORMAT DELIMITED FIELDS TERMINATED BY t LINES TERMINATED BY n STORED ASccy_grouped = GROUP records BY Currency TEXTFILE;results = FOREACH ccy_grouped GENERATE LOAD DATA INPATH /data/cashflows.txtgroup, SUM(records.Amount); OVERWRITE INTO TABLE cash_flow;DUMP results; select Currency, sum(Amount) from cash_flow where Direction=Credit group by Currency; Metastore HDFS HDFS43© OCTO 2012
  44. 44. Et NoSQL44© OCTO 2012
  45. 45. L’écosystème NoSQL45© OCTO 2012
  46. 46. Base de données clés-valeurs Modélisation de type Hashtable Papier de recherche Origine A une clef correspond une (et une seule) valeur d’Amazon sur Dynamo Le type de la valeur n’est pas à spécifier La valeur peut être de n’importe quel type Clés Valeurs Opérations Valeur : Objet Put Clé : Objet Objet 1 Objet 3 Get Ligne Objet 2 Delete Valeur : Objet Objet 1 Objet 3 Pas de possibilité de requêtage autre que par la clé Clé : Objet Ligne Valeur : Objet Cas d’usage Clé : Objet Objet 1 Objet 3 Stockage de données identifié par une valeur unique Ligne Objet 4 session préférence utilisateur Cache de données Maintien de contextes hautement accessibles Redis, Riak, Voldemort, Dédoublonnage de données Exemple …46© OCTO 2012
  47. 47. Exemple : modélisation clé/valeur Directement utilisatble pour de nombreux use cases HTTP sessions, … Dans les autres cas, cela nécessite une modélisation en accord avec les patterns d’accès aux données Clé composité Contenu agrégé Attention jointur = full scan CustomerCst1 AccountCst2 Acc1 Key/Value Cst1#Acc1 { Op1=100, Op2 =-50} Acc2 Cst2#Acc2 Operation Op1 +100 Op2 -5047© OCTO 2012
  48. 48. Base de données colonnes Modélisation dérivé du clé-valeur mais orienté colonnes Papier de recherche de Origine Des familles de colonnes pour remplacer le concept de Google sur BigTable tables dans les SGBDR Et des données semi-structurées dont les blocs colonnes sont stockés de manière triée Clé Famille de colonnes 1 Opérations Colonne1 Colonne2 Colonne3 Clé : Objet Objet 1 Objet 21 Objet 31 Requêtage par clé ou ensemble de clé Ligne Requêtage possible sur valeur d’index secondaire Colonne2 Sélection d’une ou plusieurs colonnes résultat Clé : Objet Objet 22 Ligne Cas d’usage Colonne3 Colonne4 Clé : Objet Objet 32 Objet 4 Web Ligne Priorité à la disponibilité plutôt qu’à la consistance des données Haut débit et faible latence Schéma de données évolutif HBase (slide 103) et Exemple Beaucoup d’écritures, peu de lectures Cassandra (slide 104)48© OCTO 2012
  49. 49. Base de données documents Modélisation dérivé du clé-valeur avec des documents Origine Lotus Notes Les documents sont des données structurées sous la forme d’arbres hiérarchiques (sous-documents) Les données peuvent être de différentes natures Chaînes de caractères, valeurs scalaires, tableaux… Clé Documents Les documents sont auto-portants Contient les informations décrivant sa structure et les valeurs Document: Objet { Champ1: Objet, Clé : Objet associés Ligne Champ2: [Objet, Objet] } Plusieurs formats de stockage du document XML, JSON, BSON, … Document: Objet {Champ1: Objet, Clé : Objet Champ3: Sous-Doc: {Champ21: Ligne Objet} } Opérations Document: Objet {Champ4: Objet } Clé : Objet Requêtage évolué (autre que par la clé) Ligne Cas d’usage Recherche documentaire, catalogue produits, CMS… Fort besoin de schéma faiblement structuré Exemple MongoDB (slide 105) Beaucoup de lectures, peu d’écritures49© OCTO 2012
  50. 50. Base de données graphes Modélisation de type nœuds/relations Origine Théorie des graphes Repose sur l’interconnectivité des données (contrairement aux autres types de solutions NoSQL qui ne supportent pas les relations) Les données sont non seulement attachées aux nœuds mais également aux relations (property graph) Noeud1 Prop10 Opérations Parcours de graphes (traversal) Relation1 Relation2 Algorithmes de traitement de graphes (Dijkstra, …) Prop11 Prop12 Prop20 Noeud2 Noeud3 Cas d’usage Prop21 Prop22 Prop3 Réseaux sociaux Réseaux de transports Réseaux logistiques Réseaux électriques Réseaux télécoms Exemple Neo4j (slide 106) …50© OCTO 2012
  51. 51. Typologies : OLTP vs OLAP…51© OCTO 2012
  52. 52. 52© OCTO 2012
  53. 53. Le stockage : avis Une certitude : « one size doesn’t fit all » Quelques alternatives intéressantes à surveiller Intrusion des moteurs de recherche (Exalead) Solution en rupture VB-DBMS (Iluminate) La virtualisation Mon architecture décisionnelle composite de demain : Reporting sous datawarehouse Postgre alimenté par Talend Analytique sous Exadata + complément Hadoop en stockage, traitements supplémentaires et historisation des données froides Une base Titan pour les réseaux sociaux53© OCTO 2012
  54. 54. Pourquoi cette frilosité entre BI et NoSQL? Parce que la plupart de ces technologies sont inadaptées à l& BI, Parce qu’on sait gérer des To depuis longtemps et qu’on a 20 ans d’expérience sur des problématiques de forte volumétrie (stockage et performance) Parce que c’est OpenSource et que c’est un milieu gangréné par les grands éditeurs (Oracle, IBM…) Mais surtout parce qu’on affronte un changement comparable à migrer des cobolistes vers de l’Open : Environnement BI actuel (SQL, L4G, basic, C et Shell au pire) vs environnement NoSQL (java généralement) Les BICC au mieux qualifient négativement ces solutions, voir font l’impasse dans l’attente de solutions propriétaires (connecteur avec couche d’abstraction) L’âge de pierre de l’ingénierie logicielle (pas de test, pas d’usine) L’enjeu est de parvenir à réunir ces 2 mondes sur les compétences et sur les pratiques54© OCTO 2012
  55. 55. Système de diffusion et de présentation : La plateforme décisionnelle55© OCTO 2012
  56. 56. Plateforme décisionnelle : magic quadrant et part de marché… (24%) (15,6 %) (12,6 %) (11,6 %) (8,7 %)56© OCTO 2012
  57. 57. …inversement proportionnelle concernant la satisfaction utilisateur Overall Customer Experience Source: Gartner 2011.57© OCTO 2012
  58. 58. Analyse des quadrants Les leaders du marché sont peu challengés et profitent pleinement de leur base installée (ceux sont les mêmes depuis 10 ans…): Ils disposent d’une couverture de service très étendue L’innovation est faite par acquisition ou reproduction Ils profitent de la politique de rationalisation des DSI Ils profitent de tous les freins propres au changement (habitudes des DSI, habitudes des utilisateurs…) De nouveaux acteurs perturbent ce marché avec une approche utilisateur final et métier Qliktech, Tableau Software, BIME Le facteur prix est ensuite un facteur de positionnement dans un contexte assez gris Microsoft OpenSource : Jaspersoft et Pentaho58© OCTO 2012
  59. 59. Tendances du marché Poursuite de la rationalisation du marché et dans les DSI dans une optique d’économie Génère de nouveaux achats de solution par les métiers L’ « in memory » est une approche de référence introduite pas Qliktech et devenue un incontournable aujourd’hui. La tendance s’est diffusée au niveau hardware (appliance), des SGBD (HANA, Ibm, Oracle, MySql), ou au niveau software (Powerpivot…) MOLAP est mort… ou du moins en fin de vie en dehors de use cases complètement balisés (comptabilité avec Hypérion) Arrivée d’approche non dépendante (moins) de la modélisation : les approches NoSQL (mongoDB), les technologies associative/corrélative (CDBMS illuminate : VBS, indexation par contexte et relation gérée en métadonnée) tendent à ne plus forcément structurer un projet autour de la modélisation  la panacée du ad hoc (attention au perf au chargement)59© OCTO 2012
  60. 60. Compatibilité Hadoop Hive QL MapReduce HDFS File scripting Datamining SAS (SAS/ACCESS et SAS BASE) R RevoScale Business Intelligence SAP Business Object Oracle BIEE MicroStrategy IBM BigSheets IBM Cognos Tableau Tibco Spotfire Pentaho QlikTech (through DataRocket) Datameer60© OCTO 2012
  61. 61. Plateforme décisionnelle : avis Si on construit un système décisionnel de zéro, il est raisonnablement difficile de choisir une acteur du marché historique Une certitude : « one size doesn’t fit all » 3 critères de choix apportent des différentiants forts en dehors des cas d’usages : Le prix Le contexte (technologique, compétence…) L’expérience utilisateur Excel reste le meilleur choix dans bien des situations Quid du dataviz?61© OCTO 2012
  62. 62. Système de diffusion et de présentation : Dataviz62© OCTO 2012
  63. 63. L’importance de la visualisation des données L’objectif de la data visualisation est de communiquer une information claire et efficiente à l’aide de moyen graphique La data visualisation est un outil fondamental de l’analyse et est un support de communication du résultat Donne du sens Impact visuel Lisibilité du message Cohérence entre données et messages  Stimuler l’attention et l’engagement La data visualisation est devenu un domaine de recherche à part entière (à ce titre des enseignements existent)63© OCTO 2012
  64. 64. Les typologies de représentation visuelle (1/6) De l‘âge de pierre…64© OCTO 2012
  65. 65. Les typologies de représentation visuelle (2/6) Cumulative Histogramm histogramm65© OCTO 2012
  66. 66. Les typologies de représentation visuelle (3/6) Scatter chart Bubble chart66© OCTO 2012
  67. 67. Les typologies de représentation visuelle (4/6) …A l‘âge de l’information… Geo chart Graph/Cluste r67© OCTO 2012
  68. 68. Les typologies de représentation visuelle (5/6) …A l‘âge de l’information… Heat map Tree map68© OCTO 2012
  69. 69. Les typologies de représentation visuelle (6/6) …A l‘âge du dataviz Illustration – D3.js69© OCTO 2012
  70. 70. Comment présenter efficacement des données analytiques? A chaque typologie de donnée correspond un mode de représentation privilégié Type de données Mode de représentation Statistique descriptive mono-variable • PieChart • Histogramme • CDF (line chart) Statistique descriptive multi-variable • Geo Map • Tree map • Heat map Relations • Graph Série temporelle • Line chart • Timeline Statistique explicative • Scatter Chart+ line • BubbleChart + line70© OCTO 2012
  71. 71. Forrester wave (en attendant le gartner…)71© OCTO 2012
  72. 72. Magic quadrant Dataviz « non officiel »Andrei Pandre Yellow Square for DV, 201272© OCTO 2012
  73. 73. Les outils de visualisation spécialisésAnalyse de données multi variés : Analyse de textes R IBM BigSheets Revolution Analytics IN-SPIRE. IN-SPIRE™ provides IBM Attribute explorer tools for exploring Ggobi, XGobi Mondrian (rosuda.org) Toolkit JUNGAnalyse de réseaux et de graph Gephi toolkit Gephi Google Chart Graphviz Processing (http://processing.org) NodeXL Protovis/ D3.js http://selection.datavisualization.chAnalyse de cartes (maps) Google Fusion Tables73© OCTO 2012
  74. 74. Dataviz : avis Une réponse aux nouveaux enjeux Volumétrie, temps réel, big data Synthèse, convaincre en peu de temps, capter l’attention  Rien de plus frustrant que de parvenir aux résultats sans arriver à l’expliquer/le démontrer simplement Dataviz = l’usabilité étendue à la business intelligence : proposer des représentations de la donnée utiles utilisables Si ce n’est pas votre métier : limitez-vous aux outils du marché en attendant la démocratisation d’outils spécifiques De nouveaux métiers apparaissent, on ne parle plus de web agency mais de data agency74© OCTO 2012
  75. 75. Système de diffusion et de présentation : Plateforme analytique75© OCTO 2012
  76. 76. De quoi parle t’on? Corrélation Classification Identification Simulation76© OCTO 2012
  77. 77. 3 philosophies complémentaires de l’analyse L’analyse se focalise sur les propriétés intrinsèques des données Ex : moyenne, saisonnalité, stationnarité, … L’analyse se focalise sur l’identification d’un modèle Statistiques mathématique robuste à partir des données Ex : régression, classification, descriptives L’analyse se focalise sur réduction de dimensions, … l’apprentissage à identifier des propriétés et des modèles mathématiques à partir des données Ex : clustering, pattern matching, Support Vector Machine, … Machine Data mining learning77© OCTO 2012
  78. 78. On nous a menti!!! Rien de neuf sous le soleil… Statistiques Machine descriptives learning = Data mining78© OCTO 2012
  79. 79. J’exagère? Différence sémantique évidente… Une possibilité (parmi plusieurs dizaines…) : le Data Mining, c’est l’application du machine learning Ma meilleure proposition issue de l’usage que l’on en fait (vrai dans 90% des cas): Now, increasingly, people are comfortable using the term "machine learning" for cases where "data mining" was used in the past.79© OCTO 2012
  80. 80. Dernier magic quadrant (2008) et Wave (2010)80© OCTO 2012
  81. 81. Vision du marché 2 leaders : Des challengers Sans oublier l’OpenSource Software Library81© OCTO 2012 ©OCTO 2012
  82. 82. Plateforme analytique : avis Attention ces outils ne sont pas à la portée de tout le monde Les bases de la statistiques sont nécessaires On parle de data scientist Utiliser les bons modèles/méthodes… Le modèle de pricing de ces solutions ne peut pas être qualifié d’amical Montée en puissance de R au détriment des leaders (changement d’époque : on utilise R dans les écoles d’ingénieur, plus SAS…)82© OCTO 2012
  83. 83. Open Space Business Intelligence83© OCTO 2012
  84. 84. MDM : Master Data Management ? Les acteurs du MDM sont les mêmes que les plateforme d’intégration Dans 90% des cas le sujet est abordé par le prisme SIO Le MDM est un univers complexe Solution généraliste (orchestra) Solution spécifique objet (PIM, CDI) Solution métier (masterI, ERP) Sans oublier le développement spécifique84© OCTO 2012
  85. 85. DQM : Data Quality Management ? Les acteurs du DQM sont les mêmes que les plateformes d’intégration et MDM… Ces outils regroupent des fonctionnalités de … Découverte (profilage) Nettoyage Normalisation … couplés généralement avec un ETL85© OCTO 2012
  86. 86. MDM, DQM : avis Une recommandation concernant le MDM est un sujet d’architecture en soit (gouvernance de la donnée, échange, choix d’architecture et de solution…). Ce que l’on peut en dire sans se mouiller: Ça fonctionne même sur des grosses archis (en spécifique) C’est très dur à vendre au business et ça coûte cher Dans 90% des cas  hébergement par l’ERP C’est le saint graal des urbanistes, donc méfiance Concernant les outils de DQM, leur tarification leur interdit une utilisation massive qui pourrait être intéressante car cela reste des outils très puissants Dans 90% des cas les entreprises développent en spécifique et limitent les fonctions de DQM aux données de références via des outils spécifiques (normalisation des adresses)86© OCTO 2012
  87. 87. La gestion des métadonnées ? Pour quels usages? Analyse d’impact Documentation Dictionnaire Génération de code automatique… Malheureusement cette gestion est propre à chaque outil  ce qui profite aux architectures mono-éditeur… …alors que des standards existent : Common Warehouse Metamodel (CWM™) Metadata Interchange Patterns (MIP) Nous n’avons pas identifié de solution miracle: Développement spécifique Adresser par d’autres référentiels (MDM), référentiel d’architecture (Aris,PowerAMC, Mega…) Wiki… Des solutions existent par éditeur (IBM information server metadata, informatica metadata manager...) qui nécessitent du spécifique pour une intégration complète87© OCTO 2012
  88. 88. Bi & OpenSource? Les outils Open source arrivent à maturité sur le marché du décisionnel avec une pénétration PME et Grands Comptes Les solutions couvrent aujourd’hui tout le spectre du décisionnel et constituent une alternative pertinente avec par exemple : ETL Reporting OLAP - Kettle - JasperReports - Mondrian - Talend - Birt - JPivot Plateforme Datamining - Weka - Pentaho - Jasper Soft Sans oublier et d’autres solutions présentées dans cet état de l’art88© OCTO 2012
  89. 89. Cloud computing et BI? « Permettant de contrôler des données volumineuses, linformatique dans les nuages devrait bouleverser substantiellement le marché de la Business Intelligence grâce à son coût peu élevé, à son extensibilité et sa flexibilité » Dans les faits, la BI dans le cloud est confrontée à: Une crainte des clients relative à la localisation des données Une offre SAAS des éditeurs historiques très loin d’une approche self- service (c’est une nouveau paradigme pour ces acteurs) Un avantage économique encore incertain A court terme nous recommandons de : Privilégier les offres IaaS et PaaS (Amazon Elastic, Google bigQuery….) Privilégier les offre SaaS natives (BIME partenaire google) Tester Amazon marketplace (jaspersoft et BO)89© OCTO 2012
  90. 90. Mobilité et BI? source: DAS Mobile Business Intelligence Market Study – October 2011, DRESNER ADVISORY SERVICE Microstrategy comme précurseur et leader 3ème usage mobile recensé dans le cadre professionnel 68% des organisations jugent le sujet très important Préférence d’une approche native et sur de l’iOS (non tenable sur la durée  HTML5) Avis : suit le changement des usages. Réellement une priorité?90© OCTO 2012
  91. 91. Agilité et BI? Aujourd’hui de nombreux retours d’expériences de projets décisionnels mettent en évidences les carences suivantes : La difficulté de lutter contre l’effet tunnel Le retard important dans la mise en œuvre et les budgets en augmentation Un problème d’agilité pour faire évoluer ou adapter la solution aux besoins changeants Un rejet de l’application par les utilisateurs Les méthodes agiles ont fait leur preuve et constituent une approche pertinente dans la construction du SI Décisionnel (SID), afin de soulager les carences précitées qui sont au cœur des apports potentiels de ces méthodes Les méthodes agiles répondent très bien à une adage du Décisionnel « voir grand en commençant petit » L’approche des méthodes agiles doit être adaptée en prenant en compte les spécificités des projets décisionnels Elle nécessite cependant les pré-requis suivants propres à l’industrialisation des pratiques de développement (vrais freins): Politique de test (automatisation) Pratique de modélisation (refactoring database et approche verticale et itérative)91© OCTO 2012
  92. 92. BI self-service? Une demande récurrente adressée au DSI est de fournir une BI self- service Recevant des regards torves des DSI, les métiers achètent de nouvelles solutions éditeur pour parvenir à une fonctionnalité… …déjà présente dans les outils de la maison proposés par la DSI mais dont la mise en oeuvre est bridée au niveau logiciel ou par les processus et la gestion des habilitation La Bi self-service est avant tout un problème d’organisation et de processus même si la dimension logicielle peut aider : Virtualisation Outils graphique user friendly + in memory Data discovery92© OCTO 2012
  93. 93. Une offre de service BI? Un letmotiv « One size doesn’t fit all » Que cela soit au niveau des outils, des architectures, de la méthodologie ou des processus Processus Architecture Méthodologie93© OCTO 2012
  94. 94. Competence center et BI? La notion de BICC est à la mode et s’est généralisée avec les modes d’interventions suivants : Développement « Expertise » Exploitation + MCO « Pilotage » + Gestion de projet « Opérationnel partiel » Gestion qualité Conseil + « Opérationnel » Veille Cadre de Prototypage référence Education Expertise Pilotage Opérationnel partiel Opérationnel Ces organisations issues de rationalisation/outsourcing sont challengées par les tendances suivantes : La décentralisation des compétences et des outils vers le métier  la prise de pouvoir par le métier Les nouvelles technologies associées à la donnée (hadoop) L’agilité94© OCTO 2012
  95. 95. Et la business intelligence en temps réel? 1er problème: trouver le cas d’usage… Rappel : Un système d’analyse de données temps réel est un système évènementiel disponible, scalable et stable, capable de prendre des décisions (actions) avec une latence inférieure à … la fréquence des évènements Les architectures historiques fonctionnent en J+1… … mais ces limites peuvent largement être dépassées avec une revue de la cinématique des traitements : Chargement toutes les heures Chargement toutes les 5 minutes  Donc attendez avant de sortir la Maserati et trouvez un use cases qui en vaille la peine95© OCTO 2012 ©OCTO 2012
  96. 96. Architecture BI Real-time :approche « In-memory » IHM édition des règles IHM données historiques IHM données temps-réel latence : 100 msévènements Moteur CEPstructurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles …évènementsnon-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services96© OCTO 2012
  97. 97. Architecture BI Real-time : approche « Grille dedonnées » STORM latence : 100 ms évènements Moteur CEP structurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles … évènements non-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services97© OCTO 2012
  98. 98. Architecture BI Real-time :approche « CEP » latence : 100 msévènements Moteur CEPstructurés Event/Condition/Action Calculs et état en Capture Stream-based querying Applis mémoire : décision / transactionnelles, fenêtres de temps, Analyse multi-dim. action BPM, ESB opérateurs, règles …évènementsnon-structurés Cache / Cache distribué Historique des Données de référence, DWH, évènements interrogation de services98© OCTO 2012
  99. 99. Le SID existe-il encore? La frontière SIO/SID tend à disparaître du fait … De la virtualisation des données De l’utilisation des outils « BI » dans le monde opérationnel De l’arrivée du temps réel De la gouvernance des données Des Boucles de feedback (CRM) … et finalement ce n’est pas plus mal Stigmatisation des architectures et des hommes + de partage de pratiques notamment sur l’industrialisation des développements Besoin de dépoussiérage des pratiques du monde SID99© OCTO 2012
  100. 100. EXPERTISE ARCHITECTURE ERGONOMICS PRAGMATISM SECURITY The two most important asset of a company can not be seen in its balance sheet: its reputation and its people Henry Ford, car industry INTEGRATION EXPERIENCE TRAINING MOBILITY AUDITS AUTEUR Joseph Glorieux Julien cabot jglorieux@octo.com jcabot@octo.com TOOLS AGILITY100© OCTO 2012

×