SlideShare a Scribd company logo
1 of 28
Download to read offline
Copyright Synaltic 2015
CDAP,
la boîte à outil pour concevoir
vos applications Big Data
Simplifier l'approche Big Data
Charly Clairmont
Synaltic
@egwada
cclairmont@synaltic.fr
http://synaltic.fr
Copyright Synaltic 2015
Plus d'une dizaine d'années d'expérience
Co-fondateur d'Altic, maintenant Synaltic
Co-fondateur du Hadoop User Groupe France
Aime faire connaître les technologies open source surtout
celles dédiées à l'entreprise
Charly Clairmont
2
Copyright Synaltic 2015
Société de conseils et de services spécialisée dans la mise
en œuvre de projets de Data Management
Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic
25 spécialistes en Data Management
Filiale en Suisse , à Lausanne
Nos valeurs
Engagement
Expertise
Fidélité
Synaltic
3
R&D
Training
SupportProject
Expertise
Data
Intelligence
Data
Platform
Data
Governance
Data
Exchange
SYNALTIC
Copyright Synaltic 2015
Big Data, un écosystème « hyperactif »
Core Hadoop
HDFS, MR
2006
Hbase
Zookeeper
Core Hadoop
2008
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2009
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2010
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2011
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
2012
Nifi
Flink
Atlas
Ranger
Drill
Parquet
Sentry
Spark
Impala
Solr
Kafka
Flume
Bigtop
Oozie
MRUnit
HCatalog
Sqoop
whirr
Avro
Hive
Pig
Mahout
Hbase
Zookeeper
Core Hadoop
Aujourd'hui
Arun Murthy, founder of Hortonworks : « I think you
are getting a lot more attention to fit and finish rather
than to just getting the new technology in»
Copyright Synaltic 2015
!! Simplifier Hadoop !!
Copyright Synaltic 2015
Le nouveau mot d'ordre : « Le Data Lake »
Data Lake
« Enterprise-wide data
management platforms for
analyzing disparate sources
of data in its native format »
Data Lake
« Collect everything, dive in
anywhere, give flexible
access. Maximum scale
and insight with the lowest
Possible friction and cost. »
Data Hub
« A centralized, unified data
Source that can quickly
provide diverse business
users with the information
they need to do their jobs. »
Gartner Hortonworks Cloudera
Copyright Synaltic 2015
« Le Data Lake », plusieurs architectures
« Étang » « Lac » « Réservoir »
Données Internes Existantes
Traitements / Analyses
Diffusion
Données Externes
PME / Business Units
« Dessilotage »
Startups / IoT
Stockage & Analyse de logs
logs brutes
Traitements & Analyses
Toutes données !!
Audits
Gouvernance
Traitements & Analyses
Grandes Organisations
Passage à l'échelle du DWH
Diffusion
Données Internes Existantes
DiffusionDonnées Externes
Copyright Synaltic 2015
« Le Data Lake », de nombreux challenges
« Étang » « Lac » « Réservoir »
Traitements manuels
Traçabilité (lineage)
Exploitabilité
Découpler ingestion
et traitements
Conserver la donnée d'origine
Partager l'infrastructure
Couvrir plusieurs
architectures
Traçabilité
Agile / réactif
Copyright Synaltic 2015
Attention aux enjeux techniques des projets !
Consistance Intégration Éviter l'inutile
Ré-utilisabilité Simplicité Productivité
Copyright Synaltic 2015
Cask Data Application Platform
L'objectif de Cask Data Application Platform, CDAP, est de
permettre à tout développeur ou toute organisation de
rapidement et facilement créer, déployer, exécuter et
suivre des applications modernes à l'aide de
technologies Big Data telles que Hadoop
Copyright Synaltic
Open Source (Licence Apache V 2.0)
Framework & Plateforme pour développeurs & organisations
Construire, déployer, et gérer vos applications
CDAP
11
Supporte les principales
distributions Hadoop
S'appuie sur les dernières
technologies Big Data
Standards
Copyright Synaltic
CDAP, tout en un !
12
Copyright Synaltic
Architecture hautement disponible
13
Copyright Synaltic
CDAP, tout en un !
14
Copyright Synaltic
Hydrator, un ETL pour le Big Data
15
Copyright Synaltic
Ex : Réputation de pages web, architecture application
16
Programmes
– Injection des paires d'url
– SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat
d'un jeu de données : ranks
– RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce
⇒ résultat d'un jeu de données : rankscount
Workflow
– PageRankWorkflow : Enchaînement des programmes
SparkPageRankProgram et RanksCounter
Service :
– SparkPageRankService : connaître le rang d'une url
Copyright Synaltic
Ex : Réputation de pages web, l'application
17
Copyright Synaltic
Ex : Réputation de pages web, déploiement de l'application
18
Enregistrement et déploiement de l'application
Lancement du service
Exécution d'un flux de l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Liste des applications,
Liste des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les programmes
associés
– Traçabilité des
programmes
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Les jeux de
données associés
●
Traçabilité
des jeux de
données
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Paramétrage
– Exécution de
l'application
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Pour chaque
application
– Suivi des
exécutions
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les services sont
disponibles pour
l'intégration aux
applications tierces
Copyright Synaltic
Ex : Réputation de pages web, visible depuis l'interface web
Les jeux de données
peuvent être accédés
via JDBC
Copyright Synaltic
CDAP simplifie les projets Big Data
CDAP apporte une gestion de bout en bout de vos projets Big
Data
CDAP offre une vision complète et unifiée pour l'ensemble de
vos applications Big Data
– Extensibilité
– Metadonnées
– Audit
– Suivi
Ce qu'il faut retenir
26
Copyright Synaltic
CDAP :
– http://cdap.io/
Documentation :
– http://docs.cdap.io/cdap/current/en/index.html
Source :
– https://github.com/caskdata/cdap
Editeur :
– http://cask.co/
Liens
27
Copyright Synaltic 2015
Questions / Réponses

More Related Content

What's hot

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataLudovic Piot
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabPublicis Sapient Engineering
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEMicropole Group
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2Mehdi TAZI
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...Denodo
 
Présentation de Talend Winter 2017
Présentation de Talend Winter 2017 Présentation de Talend Winter 2017
Présentation de Talend Winter 2017 Jean-Michel Franco
 
[Smile] atelier spark - salon big data 13032018
[Smile]   atelier spark - salon big data 13032018[Smile]   atelier spark - salon big data 13032018
[Smile] atelier spark - salon big data 13032018Smile I.T is open
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésNeo4j
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationDenodo
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataYassine, LASRI
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicJean-Michel Franco
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaVictor Coustenoble
 
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...Jean-Michel Franco
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Yassine, LASRI
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...DataStax
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDataStax
 
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...Micropole Group
 
Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Jean-Michel Franco
 

What's hot (20)

Oxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigDataOxalide MorningTech #1 - BigData
Oxalide MorningTech #1 - BigData
 
XebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data LabXebiConFr 15 - Be Data Driven : Monter son Data Lab
XebiConFr 15 - Be Data Driven : Monter son Data Lab
 
DATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLEDATA FORUM 2015 - Atelier ORACLE
DATA FORUM 2015 - Atelier ORACLE
 
IBM Data lake
IBM Data lakeIBM Data lake
IBM Data lake
 
Introduction à la big data V2
Introduction à la big data V2Introduction à la big data V2
Introduction à la big data V2
 
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...RGPD : comment la virtualisation des données vous garantit conformité, gouver...
RGPD : comment la virtualisation des données vous garantit conformité, gouver...
 
Présentation de Talend Winter 2017
Présentation de Talend Winter 2017 Présentation de Talend Winter 2017
Présentation de Talend Winter 2017
 
[Smile] atelier spark - salon big data 13032018
[Smile]   atelier spark - salon big data 13032018[Smile]   atelier spark - salon big data 13032018
[Smile] atelier spark - salon big data 13032018
 
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautésDigital GraphTour Paris - Neo4j 4.0, les nouveautés
Digital GraphTour Paris - Neo4j 4.0, les nouveautés
 
Analytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data VirtualizationAnalytics & Machine Learning avec la Data Virtualization
Analytics & Machine Learning avec la Data Virtualization
 
Démarche d'une data factory par Xebia
Démarche d'une data factory par XebiaDémarche d'une data factory par Xebia
Démarche d'une data factory par Xebia
 
Webinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by dataWebinar elastic stack telecom regulation by data
Webinar elastic stack telecom regulation by data
 
Offrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clicOffrir de l'analytique en temps réel en un clic
Offrir de l'analytique en temps réel en un clic
 
Préparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec TrifactaPréparation de Données Hadoop avec Trifacta
Préparation de Données Hadoop avec Trifacta
 
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...
Pricing dynamique, « réassort », gestion des stocks, personnalisation : quand...
 
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
Webinaire Comment enrichir votre BI avec l’analyse en temps réel des CDR via ...
 
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
Comment M6 personnalise l’expérience utilisateur du service 6Play avec DataSt...
 
Datastax-fraud_detection_webinar
Datastax-fraud_detection_webinarDatastax-fraud_detection_webinar
Datastax-fraud_detection_webinar
 
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...Talend - Collaboration IT et metiers autour de la donnee en libre-service -  ...
Talend - Collaboration IT et metiers autour de la donnee en libre-service - ...
 
Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...Etablir une collaboration durable entre les équipes informatiques et les méti...
Etablir une collaboration durable entre les équipes informatiques et les méti...
 

Viewers also liked

De l'idée à l'article, créer une viz en quelques étapes !
De l'idée à l'article, créer une viz en quelques étapes !De l'idée à l'article, créer une viz en quelques étapes !
De l'idée à l'article, créer une viz en quelques étapes !Synaltic Group
 
Deploying Hadoop-based Bigdata Environments
Deploying Hadoop-based Bigdata Environments Deploying Hadoop-based Bigdata Environments
Deploying Hadoop-based Bigdata Environments buildacloud
 
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...rhatr
 
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !Talend Data Mapper : Simplifiez-vous l'intégration de SAP !
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !Synaltic Group
 
Manage tracability with Apache Atlas, a flexible metadata repository
Manage tracability with Apache Atlas, a flexible metadata repositoryManage tracability with Apache Atlas, a flexible metadata repository
Manage tracability with Apache Atlas, a flexible metadata repositorySynaltic Group
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormParis_Storm_UG
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre MICHRAFY MUSTAFA
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantALTIC Altic
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Modern Data Stack France
 

Viewers also liked (9)

De l'idée à l'article, créer une viz en quelques étapes !
De l'idée à l'article, créer une viz en quelques étapes !De l'idée à l'article, créer une viz en quelques étapes !
De l'idée à l'article, créer une viz en quelques étapes !
 
Deploying Hadoop-based Bigdata Environments
Deploying Hadoop-based Bigdata Environments Deploying Hadoop-based Bigdata Environments
Deploying Hadoop-based Bigdata Environments
 
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...
Building Google-in-a-box: using Apache SolrCloud and Bigtop to index your big...
 
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !Talend Data Mapper : Simplifiez-vous l'intégration de SAP !
Talend Data Mapper : Simplifiez-vous l'intégration de SAP !
 
Manage tracability with Apache Atlas, a flexible metadata repository
Manage tracability with Apache Atlas, a flexible metadata repositoryManage tracability with Apache Atlas, a flexible metadata repository
Manage tracability with Apache Atlas, a flexible metadata repository
 
Apache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec StormApache Storm - Introduction au traitement temps-réel avec Storm
Apache Storm - Introduction au traitement temps-réel avec Storm
 
Apache SPARK ML : principes, concepts et mise en œuvre
Apache SPARK  ML : principes, concepts et  mise en œuvre Apache SPARK  ML : principes, concepts et  mise en œuvre
Apache SPARK ML : principes, concepts et mise en œuvre
 
Apache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performantApache Kafka, Un système distribué de messagerie hautement performant
Apache Kafka, Un système distribué de messagerie hautement performant
 
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
Apache Flink par Bilal Baltagi Paris Spark Meetup Dec 2015
 

Similar to CDAP, la boîte à outil pour concevoir vos applications Big Data

Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentariesRima Jamli Faidi
 
Introduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowIntroduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowSabrine Chouk
 
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)serge luca
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...Paris Open Source Summit
 
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and TalendAdoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and TalendHortonworks
 
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...Devoteam
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoJean Francois DONIKIAN
 
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaireNuxeo
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Jean-Michel Franco
 
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...drupagora
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkALTIC Altic
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems Excelerate Systems
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunk
 
Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Jeremy Fain
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Ametys
 

Similar to CDAP, la boîte à outil pour concevoir vos applications Big Data (20)

Les technologies big data avec speech commentaries
Les technologies big data avec speech commentariesLes technologies big data avec speech commentaries
Les technologies big data avec speech commentaries
 
Introduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : FlowIntroduction au nouveau moteur de workflow de Microsoft : Flow
Introduction au nouveau moteur de workflow de Microsoft : Flow
 
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
Introduction au nouveau moteur de workflow de Microsoft : Flow (Serge Luca)
 
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
#OSSPARIS19 - Gouvernance des données dans le contexte Big Data - REX datalak...
 
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and TalendAdoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
Adoption de Hadoop : des Possibilités Illimitées - Hortonworks and Talend
 
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
ExperienceNow - Découvrez comment Soitec modernise son IT et gagne en agilité...
 
Webinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfrescoWebinaire Starxpert : Ged transverse avec alfresco
Webinaire Starxpert : Ged transverse avec alfresco
 
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
#NuxeoDay | Retour d'expérience équipementier mondial du ferroviaire
 
ML Ops a Survey
ML Ops a SurveyML Ops a Survey
ML Ops a Survey
 
Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6Découvrez les nouvelles fonctionnalités de Talend 6
Découvrez les nouvelles fonctionnalités de Talend 6
 
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
Introduction à Drupal. Pourquoi Drupal est, en toute objectivité, le meilleur...
 
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache SparkPlateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
Plateforme bigdata orientée BI avec Hortoworks Data Platform et Apache Spark
 
BigData en France par Excelerate Systems
BigData en France par Excelerate Systems BigData en France par Excelerate Systems
BigData en France par Excelerate Systems
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Zenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_mlZenika matinale spark-zeppelin_ml
Zenika matinale spark-zeppelin_ml
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
SplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data InSplunkLive! Paris 2018: Getting Data In
SplunkLive! Paris 2018: Getting Data In
 
Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017Fiche Produit Verteego Data Suite, mars 2017
Fiche Produit Verteego Data Suite, mars 2017
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
Refonte intranet du Conseil Général de la Drôme avec le CMS open source Amety...
 

CDAP, la boîte à outil pour concevoir vos applications Big Data

  • 1. Copyright Synaltic 2015 CDAP, la boîte à outil pour concevoir vos applications Big Data Simplifier l'approche Big Data Charly Clairmont Synaltic @egwada cclairmont@synaltic.fr http://synaltic.fr
  • 2. Copyright Synaltic 2015 Plus d'une dizaine d'années d'expérience Co-fondateur d'Altic, maintenant Synaltic Co-fondateur du Hadoop User Groupe France Aime faire connaître les technologies open source surtout celles dédiées à l'entreprise Charly Clairmont 2
  • 3. Copyright Synaltic 2015 Société de conseils et de services spécialisée dans la mise en œuvre de projets de Data Management Créée en 2004, Synaltic est la fusion des sociétés Synotis et Altic 25 spécialistes en Data Management Filiale en Suisse , à Lausanne Nos valeurs Engagement Expertise Fidélité Synaltic 3 R&D Training SupportProject Expertise Data Intelligence Data Platform Data Governance Data Exchange SYNALTIC
  • 4. Copyright Synaltic 2015 Big Data, un écosystème « hyperactif » Core Hadoop HDFS, MR 2006 Hbase Zookeeper Core Hadoop 2008 Hive Pig Mahout Hbase Zookeeper Core Hadoop 2009 Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2010 Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2011 Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop 2012 Nifi Flink Atlas Ranger Drill Parquet Sentry Spark Impala Solr Kafka Flume Bigtop Oozie MRUnit HCatalog Sqoop whirr Avro Hive Pig Mahout Hbase Zookeeper Core Hadoop Aujourd'hui Arun Murthy, founder of Hortonworks : « I think you are getting a lot more attention to fit and finish rather than to just getting the new technology in»
  • 5. Copyright Synaltic 2015 !! Simplifier Hadoop !!
  • 6. Copyright Synaltic 2015 Le nouveau mot d'ordre : « Le Data Lake » Data Lake « Enterprise-wide data management platforms for analyzing disparate sources of data in its native format » Data Lake « Collect everything, dive in anywhere, give flexible access. Maximum scale and insight with the lowest Possible friction and cost. » Data Hub « A centralized, unified data Source that can quickly provide diverse business users with the information they need to do their jobs. » Gartner Hortonworks Cloudera
  • 7. Copyright Synaltic 2015 « Le Data Lake », plusieurs architectures « Étang » « Lac » « Réservoir » Données Internes Existantes Traitements / Analyses Diffusion Données Externes PME / Business Units « Dessilotage » Startups / IoT Stockage & Analyse de logs logs brutes Traitements & Analyses Toutes données !! Audits Gouvernance Traitements & Analyses Grandes Organisations Passage à l'échelle du DWH Diffusion Données Internes Existantes DiffusionDonnées Externes
  • 8. Copyright Synaltic 2015 « Le Data Lake », de nombreux challenges « Étang » « Lac » « Réservoir » Traitements manuels Traçabilité (lineage) Exploitabilité Découpler ingestion et traitements Conserver la donnée d'origine Partager l'infrastructure Couvrir plusieurs architectures Traçabilité Agile / réactif
  • 9. Copyright Synaltic 2015 Attention aux enjeux techniques des projets ! Consistance Intégration Éviter l'inutile Ré-utilisabilité Simplicité Productivité
  • 10. Copyright Synaltic 2015 Cask Data Application Platform L'objectif de Cask Data Application Platform, CDAP, est de permettre à tout développeur ou toute organisation de rapidement et facilement créer, déployer, exécuter et suivre des applications modernes à l'aide de technologies Big Data telles que Hadoop
  • 11. Copyright Synaltic Open Source (Licence Apache V 2.0) Framework & Plateforme pour développeurs & organisations Construire, déployer, et gérer vos applications CDAP 11 Supporte les principales distributions Hadoop S'appuie sur les dernières technologies Big Data Standards
  • 15. Copyright Synaltic Hydrator, un ETL pour le Big Data 15
  • 16. Copyright Synaltic Ex : Réputation de pages web, architecture application 16 Programmes – Injection des paires d'url – SparkPageRankProgram : Calcul des PageRank, via Apache Spark ⇒ résultat d'un jeu de données : ranks – RanksCounter : Agrégation des résultats pour toutes les url, via Map / Reduce ⇒ résultat d'un jeu de données : rankscount Workflow – PageRankWorkflow : Enchaînement des programmes SparkPageRankProgram et RanksCounter Service : – SparkPageRankService : connaître le rang d'une url
  • 17. Copyright Synaltic Ex : Réputation de pages web, l'application 17
  • 18. Copyright Synaltic Ex : Réputation de pages web, déploiement de l'application 18 Enregistrement et déploiement de l'application Lancement du service Exécution d'un flux de l'application
  • 19. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Liste des applications, Liste des jeux de données
  • 20. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les programmes associés – Traçabilité des programmes
  • 21. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Les jeux de données associés ● Traçabilité des jeux de données
  • 22. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Paramétrage – Exécution de l'application
  • 23. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Pour chaque application – Suivi des exécutions
  • 24. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les services sont disponibles pour l'intégration aux applications tierces
  • 25. Copyright Synaltic Ex : Réputation de pages web, visible depuis l'interface web Les jeux de données peuvent être accédés via JDBC
  • 26. Copyright Synaltic CDAP simplifie les projets Big Data CDAP apporte une gestion de bout en bout de vos projets Big Data CDAP offre une vision complète et unifiée pour l'ensemble de vos applications Big Data – Extensibilité – Metadonnées – Audit – Suivi Ce qu'il faut retenir 26
  • 27. Copyright Synaltic CDAP : – http://cdap.io/ Documentation : – http://docs.cdap.io/cdap/current/en/index.html Source : – https://github.com/caskdata/cdap Editeur : – http://cask.co/ Liens 27