Introduction à la big data V2

Formation Big Data
Initiation, concepts, architectures,
administration et développements
pour architecte et consultant

✘ Veuillez vous présenter :
✗ Vôtre nom et prénom
✗ Fonction, société
✗ Avez vous une expérience Big Data? Qu’avez vous fait ?
✗ Quelles sont vos attentes de ce cours ?
Tour de table
TOUR DE TABLE

Mehdi TAZI
✘ Architecte BigData
✘ Freelancer, ex OCTO
✘AXA, BNP, EDF, LA
POSTE, AL BARID BANK,
✘ ARCHI, DEV, ADMIN,
ORGA...
✘ Contact :
> twitter : @t_mehdi
> web : tazimehdi.com
> mail : mehdi@tazimehdi.com

✘ Communication interactive par
thème
Déroulement
✘ Osez poser vos questions de façon interactive
> des termes utilisés, sujets non compris
> des problématiques liées à votre travail
> des questions d’ordre générale par thème
Technologique, Méthodologique, Organisationnelle…

Outils nécessaires
Cassandra Server : http://cassandra.apache.org/download/
Cassandra Dev Center : http://www.datastax.com/what-we-offer/products-services/devcenter
MongoDB server : https://www.mongodb.com/download-center#community
Horntonworks HDP : http://hortonworks.com/downloads/
Cloudera CDH : https://www.cloudera.com/downloads/quickstart_vms/5-10.html
VirtualBox
https://www.virtualbox.org/wiki/Downloads

Programme
✘ Introduction à la Big Data
✘ Vue d’ensemble
✘ Concepts architecturaux
✘ Couches et technologies
✘ Le NoSQL
✘ Datalake & Datalab
✘ Information generales & Atelier questions/reponses

Big data is like teenage sex : everyone talks about it, nobody
really knows how to do it, everyone thinks everyone else is
doing it, so everyone claims they are doing it...
Dan Ariely

C’est quoi selon vous le big data ?

Introduction à la Big Data
✘ Traitement et stockage massives des gros volumes de données
✘ Explosion quantitative des données numériques
C’est quoi la Big Data? (1/2)

✘ Données provenant de plusieurs sources :
✗ Capteurs : température, pression…
✗ IOT : montres connectées, balances, Smartphones…
✗ Messages sur les réseaux sociaux : tweet, posts…
✗ Transactions et logs : banques, e-commerce…
✗ Images, vidéos et sons : instagram, youtube, snapchat, deezer, spotify…
✗ Autres : GPS, email, sms…
C’est quoi la Big Data? (2/2)

Qu’est ce qui se passe chaque minute sur Internet?
Source : Qmee
log
Storage
RT Processing
ex : pic tag, batch concu
adds
RT Processing

✘ Les solutions actuelles coûtent cher : archivage et traitement
✘ Répondre à des problématiques métiers avec plus de précision et de
rapidité.
✘ Améliorer la prise de décision basée sur l’analyse de très gros volumes de
données.
✘ Tirer un avantage concurrentiel à travers la collecte, l’analyse, la prédiction
et l’exploitation des données sur de grandes profondeurs. ( DDC )
✘ La création de nouveaux cas d’usages et de valeurs business basées sur la
données et la technologie. ( cloud , données …)
✘ Un outil au service du métier  Une offre de service à part entière (AXA/ ERDF)
Quel est l’intérêt d’adopter le big data?

✘ Au début c’était destiné aux gros acteurs du web et les grandes
multinationales :
✗ Facebook, Google, Amazon…
✗ Fedex, Walmart, Citi…
✘ Maintenant de plus en plus de monde y est concerné :
✗ De gros Acteurs : Axa, BNP Paribas, La Poste, EDF…
✗ Des nouveaux : Snapchat, whatsapp, pokemon go …
✗ Vous ?
Pour qui ?

✘ Energie
✗ Amélioration de la production et distribution d’énergie
✗ Information en temps réel sur les débits et la qualité
✗ Détection des problèmes de réseaux
✗ Automatisation du processus de collecte de données
✘ Transport et distribution
✗ Optimisation des trajets et réductions des coûts
✗ Ajustement d’offre et de demande par zone géographique
✘ Produits de Luxe et grandes consommations
✗ Analyse de sentiments et retour produits *
✗ Amélioration de la satisfaction des clients
✗ Identification de nouveaux besoins et désirs *
✗ Recommandations
Cas d’usage réel (1/2)

✘ E-Commerce
✗ Amélioration des stocks et de l’expérience clients.
✗ Gestion plus fine et dynamique des prix de vente
✗ Personnalisation des offres
✗ Pricing dynamique *
✗ Marketing ciblé
✘ Services publics et banques
✗ Archivage et données publiques
✗ Lute contre la fraude et abus *
✗ Amélioration des processus
✗ Sécurité
✘ Autres
✗ Fidéliser les clients des casinos en intervenant avant que les pertes des joueurs
ne soit trop élevées
✗ Détecter les potentiel futures boxs en pannes : météo, géolocalisation, état box.. *
Cas d’usage réel (2/2)

Big Data, Fast Data, Smart Data et Open Data
Big Data
Fast Data
Smart
Data
Open
Data

Questions / Réponses
> Comment définir le Big data en une seule phrase ?
> Pourquoi adopter le Big data ?
> Qu’est ce que la smart data ?
> Qu’est ce que le fast data ?
> Qu’est ce que l’open data ?
> A quelles problématiques répond le big data ?
> A quelles problématiques répond le fast data ?

J’entend souvent parler des 3V, mais c’est
quoi exactement ?

Les 3V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …

Et c’est quoi cette histoire de
5V ?

Propriété d’un Système big data - Les 5V
Variété
File
Json, CSV, Texte,
Png, Log ...
Vélocité
Batch
Periodic
Near RT
RealTime
100 ms, 30 min, 7h, 1j, 30000
events/time unit …
Volume
Mb
Gb
Tb
Pb
10Gb, 10Tb, 2Pb …
Véracité
31
2
Valeur

> Citez les 3 principales propriétés d’un systèmes big data
> Citez deux autres propriétés
> Qu’elles sont les problématiques liées à la volumétries ?
> Qu’elles sont les problématiques liée à la vélocité ?
> Qu’elles sont les problématiques liée à véracité ?

VUE D’ENSEMBLE – ARCHITECTURE FONCTIONELLE
Processing
Exchange
Storage
Data
Management
Consume

> Quelles sont les 5 grandes briques fonctionnelles d’un système bigdata ?
> Quelles sont les 4 grandes fonctionnalités que gère la brique de stockage
?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de
traitement ?
> Quelles sont les 3 grandes fonctionnalités que gère la brique de sécurité
?
> Où se positionne un système Big Data par rapport au reste du SI ?

Concepts architecturaux
✘ Besoin : Traitement et stockage massif des gros volumes de données
✘ Limites : Ajouter plus de puissance aux machines :
✗ Stockage: Disque dur, mémoire …
✗ Traitement: CPU, parallélisme …
✘ Solution : Archiver et traiter l’information de façon distribuée afin de
bénéficier de plus de capacité de puissance
✘ Le Big data repose principalement sur les notions des systèmes
distribués!
Limitations & Besoin

Scalabilité horizontale
vs
Scalabilité verticale

Scalabilité verticale vs Scalabilité horizontale
16 GB
8 CPU
32 GB
16 CPU
Hardware
limitation !Scale-up Scale-up
Augmenter la puissance d’un système en ajoutant du matériels plus puissants

16 GB
8 CPU Scale out
24 CPU, 48 GO
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale out
X CPU, Y GO
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU

16 GB
8 CPU
32 GB
16 CPU
Limit !
16 GB
8 CPU
Scale-up
Scale-out Scale-out
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
16 GB
8 CPU
Scale-up
24 CPU, 48 GO X CPU, Y GO
Augmenter la puissance d’un système en ajoutant du matériels plus puissants
Augmenter la puissance d’un systèmes en ajoutant de nouvelles machines

Partitionnement
--
Distribution
--
Réplication

Partitionnement - Sharding
Collection A
File
File1
TB
Nœud 1 Nœud 2 Nœud 3 Nœud 4
256
GB
256
GB
256
GB
256
GB
✘ Répartir les données et traitements sur de multiples serveurs sur un cluster
✘ Le partitionnement permet d’absorber la charge (de stockage ou de
traitement).
Serveur logique
Cluster

Réplication
Collection A
BA C
Nœud 1 Nœud 2 Nœud 3
CA BA B C
Nœud 4
BA C
RF = 3
✘ Copier la donnée en de multiples exemplaires sur plusieurs nœuds du cluster
✘ Permet de garantir la disponibilité de l’ensemble des données même quand
un nœud du cluster disparaît (maintenance, crash, …)
✘ La probabilité de perte d’un nœud croît avec la taille du cluster
✘ Meilleur performance et sécurité.

Architecture des disques (1/3)
✘ JBOD vs RAID
✗ JBOD : Just a Bunch Of Disks (3 disques de 1T = 3To de stockage)
✗ RAID : Redundant Array of Independent Disks (réplication physique)
✘ Quand utiliser quoi ?
✗ JBOD : Système avec redondance  nœuds worker et de données
✗ RAID : Système sans redondance  Nœuds Master, gestion du système
✘ Avantage :
✗ JBOD : Gagner de l‘espace disque, facile a mettre en place…
✗ RAID : Fiabilité de données, mais coûte plus cher...

striping mirroring
single parity double parity
distribution réplication

Architecture des nœuds - Master / Slave – Sans HA
Nœud Master
Nœud Slave Nœud Slave
Application
Driver
writeread
SPOF
✘ Les nœuds master sont soit impliquer dans les opérations, soit ils ont
simplement un rôle mendiant d’acheminement, d’orchestration des opérations
read
> peut s’occuper du sharding/replication
> A connaissance de la topologies

Architecture des nœuds - Multi-Master
Master
active
Slave
Slave
Master
active
Slave
Slave
Master
active
SlaveSlave
Synchronisation

Architecture des nœuds - Peer to Peer / En noeuds
Nœud 1
Nœud 2
Nœud 3
Nœud 4
✘ Tout les nœuds sont égaux
✘ Topologie connu par chaque nœud et non par le master
0-24
25-49
75-99
50-74
Masterless architecture
Application
Driver
R/W

Election des nœuds (1/4)
Nœud Primaire
Master
Nœud Secondaire
Slave
Nœud Secondaire
Slave
Réplication Réplication
Heartbeats
Election d’un nouveau nœud primaire

Nœud Primaire
Master
Nœud Secondaire
Slave
Heartbeats
Réplication

Nœud Primaire
Master
Nœud Secondaire
Slave
Arbiter
Réplication
Heartbeat
Election d’un nouveau nœud primaire Utilisé simplement pour le vote

Nœud Primaire
Master
Arbiter
Heartbeat

Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
X X
X

Théorème de CAP
Consistency
The data is the same across
the cluster, at the same given
time
Most
P2P

Cartographie des technologies par couches
REALTIME & BATCH PROCESSING
SECURITY,&GOUVERNANCE
CNavigator
ApacheRanger
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING
MANAGEMENT&ADMINISTRATION
Clouderamanager
EXTERNAL INPUTS : FS / WS
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES & SEARCH ENGINES
DATA ACQUISITION, INGESTION & INTEGRATION
MESSAGING, BROKERS & COORDINATION

Cartographie des technologies par couches
DATA ACQUISITION, INGESTION & INTEGRATION
REALTIME & BATCH PROCESSING
SECURITY,
&
GOUVERNA
NCE
C Navigator
QUERYING, ANALYTICS & DATASCIENCE
USER PRESENTATION & REPORTING MANAGEME
NT &
ADMINISTRA
TION
Cloudera manager
STORAGE : FILE SYSTEMS, DATABASES, FILETYPES &
SEARCH ENGINE
MESSAGING, BROKERS & COORDINATION
Spark Flume Hadoop Sqoop Talend Scala Java
Kafka RabbitMQ ActiveMQ IronMQ Zookeeper
TalendNifiFlinkStormHadoopSpark
HBaseHadoop MongoDB
CouchBase RedisNeo4J CassandraTitan
Parquet Orc Avro
Elastic search
Teradata
Solr
Spark Jupyter Zepplin R Phyton HAWQ Teradata Hive Impala
PolymapsHTML/CSSExcelQlik TableauHue
Sentry
Falcon
Atlas
Knox
Ranger
Ambari
Ganglia
Oozie
Nagios
AMQ
Pentaho

Lab MongoDB - Introduction
sources : https://docs.mongodb.com et https://www.mongodb.com/mongodb-architecture
✘ Analyse de la solution :
> Section Introduction
> Technologie de stockage BigData (Database)
> Scalable horizontalement
> Section DataModel
> Schema design Orienté document
> Format BSON
> Section Réplication :
> Architecture Master/Slave
> Élection des nœuds avec/sans Arbiter
> Section Sharding
> Distribution par élément (Document)
> Distribution aléatoire et ordonnée (RangeBased/HashBased)
> Section MongoDB CRUD Operations
> Le write level est paramétrable (write concen)
> Architecture + Web CAP Théorème
> MongoDB est « CA » et « CP » si on utilise le safe=true ( besoin de creuser )

Lab MongoDB - Introduction
✘ Base de données open-source
✘ Base de données orientée documents
✘ Répond aux besoins de volumétries et de performances
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Accepte le paradigme Map/Reduce
✘ Gestion facile des données géo-spatiales

Lab MongoDB – Qui l’utilise

Lab MongoDB
RDBMS MongoDB
Database Database
Table, View Collection
Row Document (JSON, BSON)
Column Field
Index Index
Primary Key Row Key / Partion Key
Foreign Key Reference
Partition Shard
Table de correspondence

Lab MongoDB
Document JSON / BSON

LAB MongoDB
Hands on Query Language
CRUD Operations

LAB MongoDB
Hands on Schema Design
Application design

LAB MongoDB
Hands on Java Driver
Application programming

Lab MongoDB
Lecture dans MongoDB

Lab MongoDB
Absence de la
Shard Key
Lecture dans MongoDB

Lab MongoDB
Write level/concern
Unacknowledged
Ecriture dans MongoDB

Lab MongoDB
Sharding et replication
MongoD

Lab Cassandra - Introduction
✘ Base de données open-source
✘ Base de données orientée colonnes
✘ Répond aux besoins de volumétrie et de performance
✘ Réplication et Failover pour une haute disponibilité
✘ Auto Sharding pour une scalabilité horizontale
✘ Gestion automatique de la réplication des Datacenter
✘ Gestion facile des données timeseries

Lab Cassandra – Qui l’utilise?

Lab Casssandra
RDBMS Cassandra
Schema/Database Schema/Keyspace
Table Table/Column Family
Row Row
Column Column(name,value)
Index Index
Table de correspondance

LAB Cassandra
Impact de créations des tables
sur l’architecture technique
Points critiques, performances et limitations

LAB Cassandra
Hands on CQL
Application design/Schema design,
Querying and design by query

LAB Cassandra
What really happened
Read/Write Path, Write level, nodes elections,
data distribution

Datalake
Introduction
Définition, Natures et types des données,
schema on read/write

Datalake
Définition
Réseaux sociaux et
streaming
Fichiers et logs
Bases de Données
DATA LAKE
Données structurées
Données semi-structurées
Données non structurées
STAGING
ARCHIVING
TRANSFORMING
HISTORISATION
Capteurs
ANALYTICS
PREDICTIONS
Pas performante pour du
traitement opérationnel

Hadoop
Introduction à Hadoop
Batch processing
RealTime processing

Hadoop
Distribution et technologies
3 grandes distributions sur le marché :
> Hortonworks : Expedia, ebay, Samsung, Spotify,...
> Cloudera : Cisco, Mastercard, Siemens, WesterUnion…
> MapR : HP , American express, Beats music, Ericsson...
BNP Parisbas La Poste
Credit
agricole

Hadoop
Hortonworks : Stack technologique HDP

Datalake
Cartographie logique / technologique HDP
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance,Securité…
Pointsd’accèsPointd’Expositions
Falcon
Atlas
HDFS HBase Phoenix
MapReduce
Spark Hive
Pig
Hive
Solr
Ranger
Storm
Zeppelin
Ambari views
WS
Hive
SparkKnox
Spark SQL
Avro
ORC
Hadoop
Kafka
Sqoop
Yarn
Tez

Hadoop
Hortonworks : version des technologies de la stack

Hadoop
Cloudera: Stack technologique CDH

Datalake
Cartographie logique / technologique CDH
Polyglot-persistenceDonnées de référence
Datalake
Services (accès aux données, traitements…)
Traitements ( ETL, ELT, …)
Données brutes, temporaires, à valeurs ajoutées
Gouvernance, sécurité, catalogue, métadata, traçabilité, cycle de vie…
Gouvernance,Securité…
Pointsd’accès
Ingestion, Accès données :
temps réel, batch,
MicroBatch
Pointd’Expositions
Webservices, API
Record service
Cloudera navigator
HDFS HBase Kudu
MapReduce
Spark Hive/Impala
Pig
Hive/Impala
Solr
Sentry
Storm
Zeppelin
Hue
WS
Knox
Spark SQL
Avro
Parquet
Hadoop
Hive/Impala
Spark
Kafka
Sqoop
Yarn
Tez

Hadoop
Hadoop Core – Master / Slave
Master nodes
NameNode
Secondary
NameNode
Ressource
Manager
Worker nodes
DataNode
Node
Manager

✘ Designe a la fois le Framework et l’algorithme
✘ MapReduce est un framework pour traiter les données en parallèle sur
plusieurs machines  algorithme distribués
✘ Les programmes MapReduce scalent sur des milliers de machines.
Hadoop
MapReduceFILEA
split #1
SPLITSDATA
<k,v> paire
RESULT
split #2
split #3
<k,v> paire
<k,v> paire
map
map
map
reduce
reduce
reduce
MAPPERS SHUFFLING
SORTING
REDUCERS RESULT

Introduction à la big data V2

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Introduction à la big data V2

Similar to Introduction à la big data V2 (20)

Introduction à la big data V2

Editor's Notes