• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Usi 2013-next big data architecture
 

Usi 2013-next big data architecture

on

  • 505 views

 

Statistics

Views

Total Views
505
Views on SlideShare
505
Embed Views
0

Actions

Likes
0
Downloads
20
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Gérer de la donnée n’a rien de nouveauMême à très grande échelledistributed file systemAnalyser « tout ou partie » de cette donnée non plus… RDBMS, MPP ou les fameux appliance BI
  • Source ;: http://onlyhdwallpapers.com/wallpaper/darwin_bump_desktop_1920x1080_hd-wallpaper-766061.jpg

Usi 2013-next big data architecture Usi 2013-next big data architecture Presentation Transcript

  • www.usievents.com 24 & 25 Juin 2013 LE RENDEZ-VOUS DES GEEKS & DES BOSS POUR UNE INFORMATIQUE QUI TRANSFORME NOS SOCIÉTÉS Prochaine Génération d’architectures Big Data Olivier Mallassi 1 www.gopivotal.com
  • www.usievents.com 2 « Big Data »… Tout attribut qui défie les contraintes d’une capacité d’un système ou besoin métier. Challenge nos savoir-faire.
  • www.usievents.com 3 Plus… …de volume …vite …complexe : « predictive enterprise » …variée et variable …nous amène vers « plus… »
  • www.usievents.com 4 UNE IMPLEMENTATION DE REFERENCE : Hadoo
  • www.usievents.com UNE IMPLEMENTATION DE REFERENCE : Hadoo 5 NameNode DataNode DataNode DataNode DataNode File#2 Block#1 File#2 Block#2 File#2 Block#3 Un système de fichier distribué : HDFS Découpage des fichiers en « bloc ». Répartition des données sur plusieurs machines. Réplication des données pour assurer la tolérance à la panne. File#2 File#2 Block#1 File#2 Block#2 File#2 Block#3
  • www.usievents.com UNE IMPLEMENTATION DE REFERENCE : Hadoo 6 TaskTracker TaskTracker TaskTracker TaskTracker File#2 Block#1 File#2 Block#2 File#2 Block#3 Map Map MapReduce Une couche de traitement: MapReduce Distribution des traitements. Co-localisation traitements & données. JobTracker
  • www.usievents.com 7 QUI POSE QUELQUE DEFIS
  • www.usievents.com QUI POSE QUELQUE DEFIS 8 Manque de généricité : « MapReduce Only » Structurant en termes de développement. Structurant en termes d’architecture (« scheduling »…). Ne convient pas à tous les types de traitements. TaskTracker TaskTracker TaskTracker TaskTracker File#2 Block#1 File#2 Block#2 File#2 Block#3 Map Map MapReduce JobTracker
  • www.usievents.com 9 Une architecture qui ne répond pas aux nouveaux enjeux Complexité d’intégration. Mode de traitement batch incompatible avec le « plus vite ». Architecture Master / Slave incompatible avec les problématiques d’ingestion (Machine-2-Machine). QUI POSE QUELQUE DEFIS SI Opérationnel SI Décisionnel Hadoop DWH (MPP...) Déchargement Extraction / Enrichissement App / RDBMS App / RDBMS App / RDBMS App / RDBMS
  • www.usievents.com 10 THEORIE DE L’EVOLUTI ON
  • www.usievents.com THEORIE DE L’EVOLUTI ON 11 #1. YARN ou l’ouverture vers d’autres types de traitements distribués YARNRessourceManager NodeMgr NodeMgr NodeMgr NodeMgr Map Map MapReduce NodeMgr MR Application Worker Master Worker SQL SQL MapReduce Master/Worker SQL
  • www.usievents.com THEORIE DE L’EVOLUTI ON 12 #2. Faciliter et diversifier l’accès à la donnée…
  • www.usievents.com THEORIE DE L’EVOLUTI ON 13 #2. …avec SQL Facilite l’accès via « SQL Like » Génération traitement MR
  • www.usievents.com THEORIE DE L’EVOLUTI ON 14 #2. …avec SQL Améliore les performances de Hive Enrichit la compatibilité SQL Privilégie la mémoire
  • www.usievents.com THEORIE DE L’EVOLUTI ON 15 #2. …avec SQL Architecture différente de MR Compatibilité avec SQL Nouveau format de stockage, compression Privilégie la mémoire
  • www.usievents.com THEORIE DE L’EVOLUTI ON 16 #2. …avec SQL Le portage du « moteur SQL » de Greenplum MPP Compatibilité avec SQL « Moteur SQL » éprouvé : redistribution des données en cas de jointure Stockage polymorphe : compression, « row / column oriented »
  • www.usievents.com THEORIE DE L’EVOLUTI ON 17 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion HDFS In memory / Streaming Services Processing / transformation calculation MR / SQL services GemFire #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Collecte, traitements temps réel : « In Memory Data Grid ».
  • www.usievents.com THEORIE DE L’EVOLUTI ON 18 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion In memory / Streaming Services Processing / transformation calculation MR / SQL services MR / Hive / HAWQ insert into…. select from… #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Analyse, Extraction, Machine Learning : MapReduce, SQL… HDFS
  • www.usievents.com THEORIE DE L’EVOLUTI ON 19 Analytic Workloads SQL Services Operational Intelligence In-Memory Services Stream Ingestion In memory / Streaming Services Processing / transformation calculation MR / SQL services HAWQ SQLFire select lag() over(partition by…) from … where … #3. HDFS : le substrat sur lequel s’intègre différentes couches de traitement Restitution : SQL. HDFS
  • www.usievents.com 20 Ouvrir vers d’autres types de traitements distribués avec YARN Faciliter et diversifier l’accès à la donnée avec SQL Intégrer différentes couches de traitements sur HDFS Simplifie(ra) la « gestion technique » de la donnée. Simplifie(ra) l’analyse et l’accès à cette donnée. Facilite(ra) l’intégration à l’écosystème et l’existant. Sera le socle technique aux nouveaux cas d’usage.