Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Formation Big Data
Initiation, concepts, architectures,
administration et développements
pour architecte et consultant
✘ Veuillez vous présenter :
✗ Vôtre nom et prénom
✗ Fonction, société
✗ Avez vous une expérience Big Data? Qu’avez vous fa...
Mehdi TAZI
✘ Architecte BigData
✘ Freelancer, ex OCTO
✘AXA, BNP, EDF, LA
POSTE, AL BARID BANK,
✘ ARCHI, DEV, ADMIN,
ORGA.....
✘ Communication interactive par
thème
Déroulement
✘ Osez poser vos questions de façon interactive
> des termes utilisés, s...
Outils nécessaires
Cassandra Server : http://cassandra.apache.org/download/
Cassandra Dev Center : http://www.datastax.com...
Programme
Programme
✘ Introduction à la Big Data
✘ Vue d’ensemble
✘ Concepts architecturaux
✘ Couches et technologies
✘ Le NoSQL
✘ D...
Introduction
Big data is like teenage sex : everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is...
C’est quoi selon vous le big data ?
Introduction à la Big Data
✘ Traitement et stockage massives des gros volumes de données
✘ Explosion quantitative des donn...
Introduction à la Big Data
✘ Données provenant de plusieurs sources :
✗ Capteurs : température, pression…
✗ IOT : montres ...
Introduction à la Big Data
Qu’est ce qui se passe chaque minute sur Internet?
Source : Qmee
log
Storage
RT Processing
ex :...
Introduction à la Big Data
✘ Les solutions actuelles coûtent cher : archivage et traitement
✘ Répondre à des problématique...
Introduction à la Big Data
✘ Au début c’était destiné aux gros acteurs du web et les grandes
multinationales :
✗ Facebook,...
Introduction à la Big Data
✘ Energie
✗ Amélioration de la production et distribution d’énergie
✗ Information en temps réel...
Introduction à la Big Data
✘ E-Commerce
✗ Amélioration des stocks et de l’expérience clients.
✗ Gestion plus fine et dynam...
Buzzwords
Introduction à la Big Data
Big Data, Fast Data, Smart Data et Open Data
Big Data
Fast Data
Smart
Data
Open
Data
Quiz Time !
Questions / Réponses
> Comment définir le Big data en une seule phrase ?
> Pourquoi adopter le Big data ?
> Qu’est ce que ...
J’entend souvent parler des 3V, mais c’est
quoi exactement ?
Introduction à la Big Data
Les 3V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100...
Et c’est quoi cette histoire de
5V ?
Introduction à la Big Data
Propriété d’un Système big data - Les 5V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
B...
Quiz Time !
Questions / Réponses
> Citez les 3 principales propriétés d’un systèmes big data
> Citez deux autres propriétés
> Qu’elles...
Big Picture
Vue d’ensemble
VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE
Processing
Exchange
Storage
Data
Management
Consume
Quiz Time !
Questions / Réponses
> Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ?
> Quelles sont les 4 grand...
Concepts architecturaux
Concepts architecturaux
✘ Besoin : Traitement et stockage massif des gros volumes de données
✘ Limites : Ajouter plus de p...
Scalabilité horizontale
vs
Scalabilité verticale
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Hardware
limitation !Sca...
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU Scale out
24 CPU, 48 GO
Augmenter la ...
Concepts architecturaux
Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Limit !
16 GB
8 CPU
Scal...
Partitionnement
--
Distribution
--
Réplication
Concepts architecturaux
Partitionnement - Sharding
Collection A
File
File1
TB
Nœud 1 Nœud 2 Nœud 3 Nœud 4
256
GB
256
GB
25...
Concepts architecturaux
Réplication
Collection A
BA C
Nœud 1 Nœud 2 Nœud 3
CA BA B C
Nœud 4
BA C
RF = 3
✘ Copier la donnée...
Architecture des disques
Concepts architecturaux
Architecture des disques (1/3)
✘ JBOD vs RAID
✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3T...
Concepts architecturaux
Architecture des disques (2/3)
striping mirroring
single parity double parity
distribution réplica...
Concepts architecturaux
Architecture des disques (3/3)
Architecture des nœuds
Concepts architecturaux
Architecture des nœuds - Master / Slave – Sans HA
Nœud Master
Nœud Slave Nœud Slave
Application
Dr...
Concepts architecturaux
Architecture des nœuds - Multi-Master
Master
active
Slave
Slave
Master
active
Slave
Slave
Master
a...
Concepts architecturaux
Architecture des nœuds - Peer to Peer / En noeuds
Nœud 1
Nœud 2
Nœud 3
Nœud 4
✘ Tout les nœuds son...
Election des noeuds
Concepts architecturaux
Election des nœuds (1/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Nœud Secondaire
Slave
Réplicat...
Concepts architecturaux
Election des nœuds (2/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Heartbeats
Réplication
Concepts architecturaux
Election des nœuds (3/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Arbiter
Réplication
Heartbeat
...
Concepts architecturaux
Election des nœuds (4/4)
Nœud Primaire
Master
Arbiter
Heartbeat
Théorème de CAP
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
X X
X
Concepts architecturaux
Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
Most
P...
Couches et technologies
Concepts architecturaux
Cartographie des technologies par couches
REALTIME & BATCH PROCESSING
SECURITY,&GOUVERNANCE
CNavig...
Concepts architecturaux
Cartographie des technologies par couches
DATA ACQUISITION, INGESTION & INTEGRATION
REALTIME & BAT...
Le NoSQL
Déjà le NoSQL n’est pas :
Lab MongoDB
Lab MongoDB - Introduction
sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture
✘ Analyse de...
Lab MongoDB - Introduction
✘ Base de données open-source
✘ Base de données orientée documents
✘ Répond aux besoins de volu...
Lab MongoDB – Qui l’utilise
Lab MongoDB – Connecteurs
Lab MongoDB
RDBMS MongoDB
Database Database
Table, View Collection
Row Document (JSON, BSON)
Column Field
Index Index
Prim...
Lab MongoDB
Document JSON / BSON
LAB MongoDB
Hands on Query Language
CRUD Operations
LAB MongoDB
Hands on Schema Design
Application design
LAB MongoDB
Hands on Java Driver
Application programming
Lab MongoDB
Lecture dans MongoDB
Lab MongoDB
Absence de la
Shard Key
Lecture dans MongoDB
Lab MongoDB
Write level/concern
Unacknowledged
Ecriture dans MongoDB
Lab MongoDB
Sharding et replication
MongoD
Lab Cassandra
Lab Cassandra - Introduction
✘ Base de données open-source
✘ Base de données orientée colonnes
✘ Répond aux besoins de vol...
Lab Cassandra – Qui l’utilise?
Lab Cassandra – Connecteurs
Lab Casssandra
RDBMS Cassandra
Schema/Database Schema/Keyspace
Table Table/Column Family
Row Row
Column Column(name,value)...
LAB Cassandra
Impact de créations des tables
sur l’architecture technique
Points critiques, performances et limitations
LAB Cassandra
Hands on CQL
Application design/Schema design,
Querying and design by query
LAB Cassandra
What really happened
Read/Write Path, Write level, nodes elections,
data distribution
Datalake
Datalake
Introduction
Définition, Natures et types des données,
schema on read/write
Datalake
Définition
Réseaux sociaux et
streaming
Fichiers et logs
Bases de Données
DATA LAKE
Données structurées
Données s...
Hadoop
Introduction à Hadoop
Batch processing
RealTime processing
Hadoop
Distribution et technologies
3 grandes distributions sur le marché :
> Hortonworks : Expedia, ebay, Samsung, Spotif...
Hadoop
Distribution et technologies
Hortonworks : Stack technologique HDP
Datalake
Cartographie logique / technologique HDP
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, E...
Hadoop
Distribution et technologies
Hortonworks : version des technologies de la stack
Hadoop
Distribution et technologies
Cloudera: Stack technologique CDH
Datalake
Cartographie logique / technologique CDH
Polyglot-persistenceDonnées de référence
Datalake
Services (accès aux do...
Hadoop
Hadoop Core – Master / Slave
Master nodes
NameNode
Secondary
NameNode
Ressource
Manager
Worker nodes
DataNode
Node
...
TP HADOOP
TP AMBARI
MAP REDUCE
✘ Designe a la fois le Framework et l’algorithme
✘ MapReduce est un framework pour traiter les données en parallèle sur
pl...
PIG & HIVE
TP HIVE
Introduction à la big data V2
Upcoming SlideShare
Loading in …5
×

Introduction à la big data V2

1,322 views

Published on

Quelque slides de la formation initiation a la big data

Published in: Engineering

Introduction à la big data V2

  1. 1. Formation Big Data Initiation, concepts, architectures, administration et développements pour architecte et consultant
  2. 2. ✘ Veuillez vous présenter : ✗ Vôtre nom et prénom ✗ Fonction, société ✗ Avez vous une expérience Big Data? Qu’avez vous fait ? ✗ Quelles sont vos attentes de ce cours ? Tour de table TOUR DE TABLE
  3. 3. Mehdi TAZI ✘ Architecte BigData ✘ Freelancer, ex OCTO ✘AXA, BNP, EDF, LA POSTE, AL BARID BANK, ✘ ARCHI, DEV, ADMIN, ORGA... ✘ Contact : > twitter : @t_mehdi > web : tazimehdi.com > mail : mehdi@tazimehdi.com
  4. 4. ✘ Communication interactive par thème Déroulement ✘ Osez poser vos questions de façon interactive > des termes utilisés, sujets non compris > des problématiques liées à votre travail > des questions d’ordre générale par thème Technologique, Méthodologique, Organisationnelle…
  5. 5. Outils nécessaires Cassandra Server : http://cassandra.apache.org/download/ Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter MongoDB server : https://www.mongodb.com/download-center#community Horntonworks HDP : http://hortonworks.com/downloads/ Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html VirtualBox https://www.virtualbox.org/wiki/Downloads
  6. 6. Programme
  7. 7. Programme ✘ Introduction à la Big Data ✘ Vue d’ensemble ✘ Concepts architecturaux ✘ Couches et technologies ✘ Le NoSQL ✘ Datalake & Datalab ✘ Information generales & Atelier questions/reponses
  8. 8. Introduction
  9. 9. Big data is like teenage sex : everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it... Dan Ariely
  10. 10. C’est quoi selon vous le big data ?
  11. 11. Introduction à la Big Data ✘ Traitement et stockage massives des gros volumes de données ✘ Explosion quantitative des données numériques C’est quoi la Big Data? (1/2)
  12. 12. Introduction à la Big Data ✘ Données provenant de plusieurs sources : ✗ Capteurs : température, pression… ✗ IOT : montres connectées, balances, Smartphones… ✗ Messages sur les réseaux sociaux : tweet, posts… ✗ Transactions et logs : banques, e-commerce… ✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify… ✗ Autres : GPS, email, sms… C’est quoi la Big Data? (2/2)
  13. 13. Introduction à la Big Data Qu’est ce qui se passe chaque minute sur Internet? Source : Qmee log Storage RT Processing ex : pic tag, batch concu adds RT Processing
  14. 14. Introduction à la Big Data ✘ Les solutions actuelles coûtent cher : archivage et traitement ✘ Répondre à des problématiques métiers avec plus de précision et de rapidité. ✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de données. ✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction et l’exploitation des données sur de grandes profondeurs. ( DDC ) ✘ La création de nouveaux cas d’usages et de valeurs business basées sur la données et la technologie. ( cloud , données …) ✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF) Quel est l’intérêt d’adopter le big data?
  15. 15. Introduction à la Big Data ✘ Au début c’était destiné aux gros acteurs du web et les grandes multinationales : ✗ Facebook, Google, Amazon… ✗ Fedex, Walmart, Citi… ✘ Maintenant de plus en plus de monde y est concerné : ✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF… ✗ Des nouveaux : Snapchat, whatsapp, pokemon go … ✗ Vous ? Pour qui ?
  16. 16. Introduction à la Big Data ✘ Energie ✗ Amélioration de la production et distribution d’énergie ✗ Information en temps réel sur les débits et la qualité ✗ Détection des problèmes de réseaux ✗ Automatisation du processus de collecte de données ✘ Transport et distribution ✗ Optimisation des trajets et réductions des coûts ✗ Ajustement d’offre et de demande par zone géographique ✘ Produits de Luxe et grandes consommations ✗ Analyse de sentiments et retour produits * ✗ Amélioration de la satisfaction des clients ✗ Identification de nouveaux besoins et désirs * ✗ Recommandations Cas d’usage réel (1/2)
  17. 17. Introduction à la Big Data ✘ E-Commerce ✗ Amélioration des stocks et de l’expérience clients. ✗ Gestion plus fine et dynamique des prix de vente ✗ Personnalisation des offres ✗ Pricing dynamique * ✗ Marketing ciblé ✘ Services publics et banques ✗ Archivage et données publiques ✗ Lute contre la fraude et abus * ✗ Amélioration des processus ✗ Sécurité ✘ Autres ✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs ne soit trop élevées ✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. * Cas d’usage réel (2/2)
  18. 18. Buzzwords
  19. 19. Introduction à la Big Data Big Data, Fast Data, Smart Data et Open Data Big Data Fast Data Smart Data Open Data
  20. 20. Quiz Time !
  21. 21. Questions / Réponses > Comment définir le Big data en une seule phrase ? > Pourquoi adopter le Big data ? > Qu’est ce que la smart data ? > Qu’est ce que le fast data ? > Qu’est ce que l’open data ? > A quelles problématiques répond le big data ? > A quelles problématiques répond le fast data ?
  22. 22. J’entend souvent parler des 3V, mais c’est quoi exactement ?
  23. 23. Introduction à la Big Data Les 3V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb …
  24. 24. Et c’est quoi cette histoire de 5V ?
  25. 25. Introduction à la Big Data Propriété d’un Système big data - Les 5V Variété File Json, CSV, Texte, Png, Log ... Vélocité Batch Periodic Near RT RealTime 100 ms, 30 min, 7h, 1j, 30000 events/time unit … Volume Mb Gb Tb Pb 10Gb, 10Tb, 2Pb … Véracité 31 2 Valeur
  26. 26. Quiz Time !
  27. 27. Questions / Réponses > Citez les 3 principales propriétés d’un systèmes big data > Citez deux autres propriétés > Qu’elles sont les problématiques liées à la volumétries ? > Qu’elles sont les problématiques liée à la vélocité ? > Qu’elles sont les problématiques liée à véracité ?
  28. 28. Big Picture Vue d’ensemble
  29. 29. VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE Processing Exchange Storage Data Management Consume
  30. 30. Quiz Time !
  31. 31. Questions / Réponses > Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ? > Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de traitement ? > Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité ? > Où se positionne un système Big Data par rapport au reste du SI ?
  32. 32. Concepts architecturaux
  33. 33. Concepts architecturaux ✘ Besoin : Traitement et stockage massif des gros volumes de données ✘ Limites : Ajouter plus de puissance aux machines : ✗ Stockage: Disque dur, mémoire … ✗ Traitement: CPU, parallélisme … ✘ Solution : Archiver et traiter l’information de façon distribuée afin de bénéficier de plus de capacité de puissance ✘ Le Big data repose principalement sur les notions des systèmes distribués! Limitations & Besoin
  34. 34. Scalabilité horizontale vs Scalabilité verticale
  35. 35. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Hardware limitation !Scale-up Scale-up Augmenter la puissance d’un système en ajoutant du matériels plus puissants
  36. 36. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU Scale out 24 CPU, 48 GO Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale out X CPU, Y GO 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU
  37. 37. Concepts architecturaux Scalabilité verticale vs Scalabilité horizontale 16 GB 8 CPU 32 GB 16 CPU Limit ! 16 GB 8 CPU Scale-up Scale-out Scale-out 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU 16 GB 8 CPU Scale-up 24 CPU, 48 GO X CPU, Y GO Augmenter la puissance d’un système en ajoutant du matériels plus puissants Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
  38. 38. Partitionnement -- Distribution -- Réplication
  39. 39. Concepts architecturaux Partitionnement - Sharding Collection A File File1 TB Nœud 1 Nœud 2 Nœud 3 Nœud 4 256 GB 256 GB 256 GB 256 GB ✘ Répartir les données et traitements sur de multiples serveurs sur un cluster ✘ Le partitionnement permet d’absorber la charge (de stockage ou de traitement). Serveur logique Cluster
  40. 40. Concepts architecturaux Réplication Collection A BA C Nœud 1 Nœud 2 Nœud 3 CA BA B C Nœud 4 BA C RF = 3 ✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster ✘ Permet de garantir la disponibilité de l’ensemble des données même quand un nœud du cluster disparaît (maintenance, crash, …) ✘ La probabilité de perte d’un nœud croît avec la taille du cluster ✘ Meilleur performance et sécurité.
  41. 41. Architecture des disques
  42. 42. Concepts architecturaux Architecture des disques (1/3) ✘ JBOD vs RAID ✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage) ✗ RAID : Redundant Array of Independent Disks (réplication physique) ✘ Quand utiliser quoi ? ✗ JBOD : Système avec redondance  nœuds worker et de données ✗ RAID : Système sans redondance  Nœuds Master, gestion du système ✘ Avantage : ✗ JBOD : Gagner de l‘espace disque, facile a mettre en place… ✗ RAID : Fiabilité de données, mais coûte plus cher...
  43. 43. Concepts architecturaux Architecture des disques (2/3) striping mirroring single parity double parity distribution réplication
  44. 44. Concepts architecturaux Architecture des disques (3/3)
  45. 45. Architecture des nœuds
  46. 46. Concepts architecturaux Architecture des nœuds - Master / Slave – Sans HA Nœud Master Nœud Slave Nœud Slave Application Driver writeread SPOF ✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont simplement un rôle mendiant d’acheminement, d’orchestration des opérations read > peut s’occuper du sharding/replication > A connaissance de la topologies
  47. 47. Concepts architecturaux Architecture des nœuds - Multi-Master Master active Slave Slave Master active Slave Slave Master active SlaveSlave Synchronisation
  48. 48. Concepts architecturaux Architecture des nœuds - Peer to Peer / En noeuds Nœud 1 Nœud 2 Nœud 3 Nœud 4 ✘ Tout les nœuds sont égaux ✘ Topologie connu par chaque nœud et non par le master 0-24 25-49 75-99 50-74 Masterless architecture Application Driver R/W
  49. 49. Election des noeuds
  50. 50. Concepts architecturaux Election des nœuds (1/4) Nœud Primaire Master Nœud Secondaire Slave Nœud Secondaire Slave Réplication Réplication Heartbeats Election d’un nouveau nœud primaire
  51. 51. Concepts architecturaux Election des nœuds (2/4) Nœud Primaire Master Nœud Secondaire Slave Heartbeats Réplication
  52. 52. Concepts architecturaux Election des nœuds (3/4) Nœud Primaire Master Nœud Secondaire Slave Arbiter Réplication Heartbeat Election d’un nouveau nœud primaire Utilisé simplement pour le vote
  53. 53. Concepts architecturaux Election des nœuds (4/4) Nœud Primaire Master Arbiter Heartbeat
  54. 54. Théorème de CAP
  55. 55. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time X X X
  56. 56. Concepts architecturaux Théorème de CAP Consistency The data is the same across the cluster, at the same given time Most P2P
  57. 57. Couches et technologies
  58. 58. Concepts architecturaux Cartographie des technologies par couches REALTIME & BATCH PROCESSING SECURITY,&GOUVERNANCE CNavigator ApacheRanger QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEMENT&ADMINISTRATION Clouderamanager EXTERNAL INPUTS : FS / WS STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES DATA ACQUISITION, INGESTION & INTEGRATION MESSAGING, BROKERS & COORDINATION
  59. 59. Concepts architecturaux Cartographie des technologies par couches DATA ACQUISITION, INGESTION & INTEGRATION REALTIME & BATCH PROCESSING SECURITY, & GOUVERNA NCE C Navigator QUERYING, ANALYTICS & DATASCIENCE USER PRESENTATION & REPORTING MANAGEME NT & ADMINISTRA TION Cloudera manager STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINE MESSAGING, BROKERS & COORDINATION Spark Flume Hadoop Sqoop Talend Scala Java Kafka RabbitMQ ActiveMQ IronMQ Zookeeper TalendNifiFlinkStormHadoopSpark HBaseHadoop MongoDB CouchBase RedisNeo4J CassandraTitan Parquet Orc Avro Elastic search Teradata Solr Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala PolymapsHTML/CSSExcelQlik TableauHue Sentry Falcon Atlas Knox Ranger Ambari Ganglia Oozie Nagios AMQ Pentaho
  60. 60. Le NoSQL
  61. 61. Déjà le NoSQL n’est pas :
  62. 62. Lab MongoDB
  63. 63. Lab MongoDB - Introduction sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture ✘ Analyse de la solution : > Section Introduction > Technologie de stockage BigData (Database) > Scalable horizontalement > Section DataModel > Schema design Orienté document > Format BSON > Section Réplication : > Architecture Master/Slave > Élection des nœuds avec/sans Arbiter > Section Sharding > Distribution par élément (Document) > Distribution aléatoire et ordonnée (RangeBased/HashBased) > Section MongoDB CRUD Operations > Le write level est paramétrable (write concen) > Architecture + Web CAP Théorème > MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )
  64. 64. Lab MongoDB - Introduction ✘ Base de données open-source ✘ Base de données orientée documents ✘ Répond aux besoins de volumétries et de performances ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Accepte le paradigme Map/Reduce ✘ Gestion facile des données géo-spatiales
  65. 65. Lab MongoDB – Qui l’utilise
  66. 66. Lab MongoDB – Connecteurs
  67. 67. Lab MongoDB RDBMS MongoDB Database Database Table, View Collection Row Document (JSON, BSON) Column Field Index Index Primary Key Row Key / Partion Key Foreign Key Reference Partition Shard Table de correspondence
  68. 68. Lab MongoDB Document JSON / BSON
  69. 69. LAB MongoDB Hands on Query Language CRUD Operations
  70. 70. LAB MongoDB Hands on Schema Design Application design
  71. 71. LAB MongoDB Hands on Java Driver Application programming
  72. 72. Lab MongoDB Lecture dans MongoDB
  73. 73. Lab MongoDB Absence de la Shard Key Lecture dans MongoDB
  74. 74. Lab MongoDB Write level/concern Unacknowledged Ecriture dans MongoDB
  75. 75. Lab MongoDB Sharding et replication MongoD
  76. 76. Lab Cassandra
  77. 77. Lab Cassandra - Introduction ✘ Base de données open-source ✘ Base de données orientée colonnes ✘ Répond aux besoins de volumétrie et de performance ✘ Réplication et Failover pour une haute disponibilité ✘ Auto Sharding pour une scalabilité horizontale ✘ Gestion automatique de la réplication des Datacenter ✘ Gestion facile des données timeseries
  78. 78. Lab Cassandra – Qui l’utilise?
  79. 79. Lab Cassandra – Connecteurs
  80. 80. Lab Casssandra RDBMS Cassandra Schema/Database Schema/Keyspace Table Table/Column Family Row Row Column Column(name,value) Index Index Table de correspondance
  81. 81. LAB Cassandra Impact de créations des tables sur l’architecture technique Points critiques, performances et limitations
  82. 82. LAB Cassandra Hands on CQL Application design/Schema design, Querying and design by query
  83. 83. LAB Cassandra What really happened Read/Write Path, Write level, nodes elections, data distribution
  84. 84. Datalake
  85. 85. Datalake Introduction Définition, Natures et types des données, schema on read/write
  86. 86. Datalake Définition Réseaux sociaux et streaming Fichiers et logs Bases de Données DATA LAKE Données structurées Données semi-structurées Données non structurées STAGING ARCHIVING TRANSFORMING HISTORISATION Capteurs ANALYTICS PREDICTIONS Pas performante pour du traitement opérationnel
  87. 87. Hadoop Introduction à Hadoop Batch processing RealTime processing
  88. 88. Hadoop Distribution et technologies 3 grandes distributions sur le marché : > Hortonworks : Expedia, ebay, Samsung, Spotify,... > Cloudera : Cisco, Mastercard, Siemens, WesterUnion… > MapR : HP , American express, Beats music, Ericsson... BNP Parisbas La Poste Credit agricole
  89. 89. Hadoop Distribution et technologies Hortonworks : Stack technologique HDP
  90. 90. Datalake Cartographie logique / technologique HDP Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance,Securité… Pointsd’accèsPointd’Expositions Falcon Atlas HDFS HBase Phoenix MapReduce Spark Hive Pig Hive Solr Ranger Storm Zeppelin Ambari views WS Hive SparkKnox Spark SQL Avro ORC Hadoop Kafka Sqoop Yarn Tez
  91. 91. Hadoop Distribution et technologies Hortonworks : version des technologies de la stack
  92. 92. Hadoop Distribution et technologies Cloudera: Stack technologique CDH
  93. 93. Datalake Cartographie logique / technologique CDH Polyglot-persistenceDonnées de référence Datalake Services (accès aux données, traitements…) Traitements ( ETL, ELT, …) Données brutes, temporaires, à valeurs ajoutées Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie… Gouvernance,Securité… Pointsd’accès Ingestion, Accès données : temps réel, batch, MicroBatch Pointd’Expositions Webservices, API Record service Cloudera navigator HDFS HBase Kudu MapReduce Spark Hive/Impala Pig Hive/Impala Solr Sentry Storm Zeppelin Hue WS Knox Spark SQL Avro Parquet Hadoop Hive/Impala Spark Kafka Sqoop Yarn Tez
  94. 94. Hadoop Hadoop Core – Master / Slave Master nodes NameNode Secondary NameNode Ressource Manager Worker nodes DataNode Node Manager
  95. 95. TP HADOOP
  96. 96. TP AMBARI
  97. 97. MAP REDUCE
  98. 98. ✘ Designe a la fois le Framework et l’algorithme ✘ MapReduce est un framework pour traiter les données en parallèle sur plusieurs machines  algorithme distribués ✘ Les programmes MapReduce scalent sur des milliers de machines. Hadoop MapReduceFILEA split #1 SPLITSDATA <k,v> paire RESULT split #2 split #3 <k,v> paire <k,v> paire map map map reduce reduce reduce MAPPERS SHUFFLING SORTING REDUCERS RESULT
  99. 99. PIG & HIVE
  100. 100. TP HIVE

×