SlideShare a Scribd company logo
1 of 17
HDInsight 
Cas d'usages, Hive, Sqoop, Pig, ... 
SQLSaturday 323 – Paris 2014
Rejoignez la communauté SQL Server 
Webcasts, Conférences, Afterworks 
Session donnée lors du 
http://GUSS.pro 
@GUSS_FRANCE 
/GUSS 
/GUSS.FR
Sponsors Gold 
SQLSaturday 323 – Paris 2014
Sponsors Silver et Bronze 
SQLSaturday 323 – Paris 2014
Speakers 
Romain Casteres 
Consultant BI & Big Data 
@PulsWeb 
www.PulsWeb.fr 
SQLSaturday 323 – Paris 2014 
David Joubert 
Consultant Data & Analytics 
@Dj_Uber 
www.djuber.net
Big Data 
SQLSaturday 323 – Paris 2014
Hadoop 
Map & Reduce HDFS 
SQLSaturday 323 – Paris 2014
HDInsight 
SQLSaturday 323 – Paris 2014
Une nouvelle brique du SI ? 
SQLSaturday 323 – Paris 2014
Besoins 
Report environmental 
crime and issues 
easily to your local 
authority and have 
them resolved 
worldwide ! 
SQLSaturday 323 – Paris 2014
Architecture cible 
Experiment Query Export 
SQLSaturday 323 – Paris 2014
Explorer et transformer la données 
Pig est une plateforme de traitement et d’analyse 
de données dans Hadoop 
Avantage : 
 Alternative à écrire du code MR directement 
Utilisation (non exhaustive) : 
 Trouver des données pertinentes dans un dataset 
 Requêter plusieurs datasets 
 Faire des calculs sur un dataset (COUNT, SUM,…) 
SQLSaturday 323 – Paris 2014
Analyse de la données 
Hive est un système d'entrepôt de données dans Hadoop 
 Hive n'est pas une base de données relationnelle, il ne 
conserve que les métadonnées de vos données 
stockées sur le HDFS. 
 Hive convertit les requêtes HiveQL en commande Map 
Reduce. 
L’un des principaux avantages de HiveQL est sa 
ressemblance avec le langage SQL. 
SQLSaturday 323 – Paris 2014
Exportation de la donnée 
Sqoop permet l’échange de données entre RDBMS et 
Hadoop 
 Peut importer ou exporter toutes les tables, une seule 
table, ou une partie d’une table dans HDFS (ou Azure 
Blolb Storage) 
 Transforme les scripts en job MapReduce 
SQLSaturday 323 – Paris 2014
Industrialisation 
Azure Automation SSIS 
SQLSaturday 323 – Paris 2014 
Hive ODBC
Et demain ? 
 ORC 
 Vectorization 
 Tez 
SQLSaturday 323 – Paris 2014
Question ? 
Merci ! 
SQLSaturday 323 – Paris 2014

More Related Content

Viewers also liked

Intro - La Marmite NoSql
Intro - La Marmite NoSqlIntro - La Marmite NoSql
Intro - La Marmite NoSqlDuchess France
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataDavid Joubert
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Alexis Seigneurin
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi
 
Introduction to Real-Time Analytics with Cassandra and Hadoop
Introduction to Real-Time Analytics with Cassandra and HadoopIntroduction to Real-Time Analytics with Cassandra and Hadoop
Introduction to Real-Time Analytics with Cassandra and HadoopPatricia Gorla
 
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...MongoDB
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin
 

Viewers also liked (12)

Trivial Java - Part 1
Trivial Java - Part 1Trivial Java - Part 1
Trivial Java - Part 1
 
Intro - La Marmite NoSql
Intro - La Marmite NoSqlIntro - La Marmite NoSql
Intro - La Marmite NoSql
 
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataJournées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data
 
Un introduction à Pig
Un introduction à PigUn introduction à Pig
Un introduction à Pig
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introNosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Introduction to Real-Time Analytics with Cassandra and Hadoop
Introduction to Real-Time Analytics with Cassandra and HadoopIntroduction to Real-Time Analytics with Cassandra and Hadoop
Introduction to Real-Time Analytics with Cassandra and Hadoop
 
Introduction spark
Introduction sparkIntroduction spark
Introduction spark
 
Une introduction à HBase
Une introduction à HBaseUne introduction à HBase
Une introduction à HBase
 
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...
MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...
 
Apache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalitésApache Cassandra - Concepts et fonctionnalités
Apache Cassandra - Concepts et fonctionnalités
 

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesGUSS
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftMicrosoft Technet France
 
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...SQLSaturday Paris 2014 - Construire et déployer une application métier Office...
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...GUSS
 
Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1GUSS
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...GUSS
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?GUSS
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation
 
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation GUSS
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013serge luca
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystèmeKhanh Maudoux
 
Donnez de l'agilité à votre système d'information avec Azure
Donnez de l'agilité à votre système d'information avec AzureDonnez de l'agilité à votre système d'information avec Azure
Donnez de l'agilité à votre système d'information avec AzureSamir Arezki ☁
 
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception Benoit Jester
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestoneServices
 
Sql saturday 323 paris 2014 azure migration iaas et paas
Sql saturday 323 paris 2014   azure migration iaas et paasSql saturday 323 paris 2014   azure migration iaas et paas
Sql saturday 323 paris 2014 azure migration iaas et paasChristophe Laporte
 
Big Data & BI : Retour d'expérience
Big Data & BI : Retour d'expérienceBig Data & BI : Retour d'expérience
Big Data & BI : Retour d'expérienceRomain Casteres
 

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, … (20)

SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesSQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big DataJSS2014 – Hive ou la convergence entre datawarehouse et Big Data
JSS2014 – Hive ou la convergence entre datawarehouse et Big Data
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
HDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement MicrosoftHDInsight : Hadoop en environnement Microsoft
HDInsight : Hadoop en environnement Microsoft
 
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...SQLSaturday Paris 2014 - Construire et déployer une application métier Office...
SQLSaturday Paris 2014 - Construire et déployer une application métier Office...
 
Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1Journées SQL Server 2014 - Keynote Jour 1
Journées SQL Server 2014 - Keynote Jour 1
 
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...
 
Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?Cloud et BI, quelle architecture pour 2014 ?
Cloud et BI, quelle architecture pour 2014 ?
 
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
JSS2014 – Cloud et BI, quelle architecture pour 2014 ?
 
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoopCy3902 formation-cloudera-developer-training-for-apache-hadoop
Cy3902 formation-cloudera-developer-training-for-apache-hadoop
 
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation
SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation
 
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013
 
Hadoop et son écosystème
Hadoop et son écosystèmeHadoop et son écosystème
Hadoop et son écosystème
 
Donnez de l'agilité à votre système d'information avec Azure
Donnez de l'agilité à votre système d'information avec AzureDonnez de l'agilité à votre système d'information avec Azure
Donnez de l'agilité à votre système d'information avec Azure
 
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception
SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception
 
NoSQL et Big Data
NoSQL et Big DataNoSQL et Big Data
NoSQL et Big Data
 
Bluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantesBluestone - Panorama des solutions analytiques existantes
Bluestone - Panorama des solutions analytiques existantes
 
Sql saturday 323 paris 2014 azure migration iaas et paas
Sql saturday 323 paris 2014   azure migration iaas et paasSql saturday 323 paris 2014   azure migration iaas et paas
Sql saturday 323 paris 2014 azure migration iaas et paas
 
Big Data & BI : Retour d'expérience
Big Data & BI : Retour d'expérienceBig Data & BI : Retour d'expérience
Big Data & BI : Retour d'expérience
 

More from GUSS

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS
 
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)GUSS
 
JSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossJSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossGUSS
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS
 
JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2GUSS
 
JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1GUSS
 
[JSS2015] Power BI Dev
[JSS2015] Power BI Dev[JSS2015] Power BI Dev
[JSS2015] Power BI DevGUSS
 
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch TablesGUSS
 
[JSS2015] Query Store
[JSS2015] Query Store[JSS2015] Query Store
[JSS2015] Query StoreGUSS
 
[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexsGUSS
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybridesGUSS
 
[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale outGUSS
 
[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analyticsGUSS
 
[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocksGUSS
 
[JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics [JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics GUSS
 
[JSS2015] - Azure automation
[JSS2015] - Azure automation[JSS2015] - Azure automation
[JSS2015] - Azure automationGUSS
 
[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016GUSS
 
[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosqlGUSS
 
[JSS2015] x events
[JSS2015] x events[JSS2015] x events
[JSS2015] x eventsGUSS
 
[JSS2015] Nouveautés SSIS SSRS 2016
[JSS2015] Nouveautés SSIS SSRS 2016[JSS2015] Nouveautés SSIS SSRS 2016
[JSS2015] Nouveautés SSIS SSRS 2016GUSS
 

More from GUSS (20)

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
GUSS - Les IO dans SQL Server (en partenariat avec DataCore)
 
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)
 
JSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a bossJSS2015 - Machine Learning like a boss
JSS2015 - Machine Learning like a boss
 
GUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the WebGUSS - CRITEO Meetup Scale SQL for the Web
GUSS - CRITEO Meetup Scale SQL for the Web
 
JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2JSS2015 - Keynote jour 2
JSS2015 - Keynote jour 2
 
JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1JSS2015 - Keynote jour 1
JSS2015 - Keynote jour 1
 
[JSS2015] Power BI Dev
[JSS2015] Power BI Dev[JSS2015] Power BI Dev
[JSS2015] Power BI Dev
 
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables
 
[JSS2015] Query Store
[JSS2015] Query Store[JSS2015] Query Store
[JSS2015] Query Store
 
[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs[JSS2015] 3 DMV's pour evaluer les indexs
[JSS2015] 3 DMV's pour evaluer les indexs
 
[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides[JSS2015] Power BI: Nouveautés archi et hybrides
[JSS2015] Power BI: Nouveautés archi et hybrides
 
[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out[JSS2015] Infra bi#4 - le scale out
[JSS2015] Infra bi#4 - le scale out
 
[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics[JSS2015] In memory and operational analytics
[JSS2015] In memory and operational analytics
 
[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks[JSS2015] Eradiction des deadlocks
[JSS2015] Eradiction des deadlocks
 
[JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics [JSS2015] Architectures Lambda avec Azure Stream Analytics
[JSS2015] Architectures Lambda avec Azure Stream Analytics
 
[JSS2015] - Azure automation
[JSS2015] - Azure automation[JSS2015] - Azure automation
[JSS2015] - Azure automation
 
[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016[JSS2015] AlwaysOn 2016
[JSS2015] AlwaysOn 2016
 
[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql[JSS2015] - Document db et nosql
[JSS2015] - Document db et nosql
 
[JSS2015] x events
[JSS2015] x events[JSS2015] x events
[JSS2015] x events
 
[JSS2015] Nouveautés SSIS SSRS 2016
[JSS2015] Nouveautés SSIS SSRS 2016[JSS2015] Nouveautés SSIS SSRS 2016
[JSS2015] Nouveautés SSIS SSRS 2016
 

SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

  • 1. HDInsight Cas d'usages, Hive, Sqoop, Pig, ... SQLSaturday 323 – Paris 2014
  • 2. Rejoignez la communauté SQL Server Webcasts, Conférences, Afterworks Session donnée lors du http://GUSS.pro @GUSS_FRANCE /GUSS /GUSS.FR
  • 3. Sponsors Gold SQLSaturday 323 – Paris 2014
  • 4. Sponsors Silver et Bronze SQLSaturday 323 – Paris 2014
  • 5. Speakers Romain Casteres Consultant BI & Big Data @PulsWeb www.PulsWeb.fr SQLSaturday 323 – Paris 2014 David Joubert Consultant Data & Analytics @Dj_Uber www.djuber.net
  • 6. Big Data SQLSaturday 323 – Paris 2014
  • 7. Hadoop Map & Reduce HDFS SQLSaturday 323 – Paris 2014
  • 8. HDInsight SQLSaturday 323 – Paris 2014
  • 9. Une nouvelle brique du SI ? SQLSaturday 323 – Paris 2014
  • 10. Besoins Report environmental crime and issues easily to your local authority and have them resolved worldwide ! SQLSaturday 323 – Paris 2014
  • 11. Architecture cible Experiment Query Export SQLSaturday 323 – Paris 2014
  • 12. Explorer et transformer la données Pig est une plateforme de traitement et d’analyse de données dans Hadoop Avantage :  Alternative à écrire du code MR directement Utilisation (non exhaustive) :  Trouver des données pertinentes dans un dataset  Requêter plusieurs datasets  Faire des calculs sur un dataset (COUNT, SUM,…) SQLSaturday 323 – Paris 2014
  • 13. Analyse de la données Hive est un système d'entrepôt de données dans Hadoop  Hive n'est pas une base de données relationnelle, il ne conserve que les métadonnées de vos données stockées sur le HDFS.  Hive convertit les requêtes HiveQL en commande Map Reduce. L’un des principaux avantages de HiveQL est sa ressemblance avec le langage SQL. SQLSaturday 323 – Paris 2014
  • 14. Exportation de la donnée Sqoop permet l’échange de données entre RDBMS et Hadoop  Peut importer ou exporter toutes les tables, une seule table, ou une partie d’une table dans HDFS (ou Azure Blolb Storage)  Transforme les scripts en job MapReduce SQLSaturday 323 – Paris 2014
  • 15. Industrialisation Azure Automation SSIS SQLSaturday 323 – Paris 2014 Hive ODBC
  • 16. Et demain ?  ORC  Vectorization  Tez SQLSaturday 323 – Paris 2014
  • 17. Question ? Merci ! SQLSaturday 323 – Paris 2014

Editor's Notes

  1. HDINSIGHT VERSION 3.1 -> HDP 2.1 -> Hadoop 2.4 (On Premise / Dans le Cloud) Hadoop possède différentes couches d’abstraction permettant notamment d’écrire des requêtes proches du T-SQL depuis Hive. Celles-ci seront alors transformées en job MapReduce. Hive : Gestionnaire des données distribuées avec un langage proche du SQL (Facebook) Pig : Scripting ETL (Twitter) Sqoop : Transfer des données entre Hadoop et des SGBDR (SQL To Hadoop) Hbase : Base de données non relationnelle Hcatalog : services de méta données Mahout : Langage de programmation pour le Machine Learning Flume : Intégrateur de logs Oozie : Ordonnanceur …
  2. Là ou hier nous détruisions les données qui n’apportai aucune intelligence a l’instant T, aujourd’hui nous pouvons nous permettre de la sauvegarder et de les analyser plus tard. 1h de HDInsight…
  3. Afin de vous présenter l’utilisation de HDInsight, nous avons trouvé un jeu de donnée libre d’utilisation provenant de l’application Love Clean Streets. Cette application permet a tous de signaler un délits environnemental aux autorités afin qu’elle puissent intervenir au plus vite. Ces données sont : Semi structurées : image du délits, commentaires, … Volumineuses et variés, l’application évolue tout comme le nombre de champs disponibles La vitesse a laquelle elles sont généré de villes en ville ne cesses d’augmenter
  4. 1 - Création du cluster HDInsight via l’interface 2 - Démos
  5. 1 – Données brute issues de Pig 2 – Création du cluster HDInsight : PowerShell 3 – Création de script Hive
  6. Azure Automation est un service Azure actuellement en Preview. Il permet d’automatiser des taches dans Azure en PowerShell Des taches SSIS sont en développement (elles ne sont pas sortie a cause des problèmes de propriétés sur les logos…) Il est cependant possible actuellement via le driver Hive ODBC de créer une source de connexion à Hive. http://blogs.msdn.com/b/benjguin/archive/2014/07/24/sample-code-create-an-hdinsight-cluster-run-job-remove-the-cluster.aspx
  7. ORC : Le format de fichier Optimized Row Columnar (ORC) permet un stockage des données Hive en colonne et améliore ainsi les performances en lecture, écriture, et en traitement ! TEZ simplifie le processing des données en généralisant le modèle de programmation Map Reduce dans une seule Job. « set hive.use.tez.natively=true; set hive.enable.mrr=true; » VECTORIZATION permet à Hive de traiter en mode batch un certain nombre de lignes. Pour profiter de vectorisation, votre table doit être au format ORC. Pour activer vectorisation avec la propriété suivante. Lorsque la Vectorization est activée, Hive va examiner la requête et les données pour déterminer si la Vectorization est possible ou non, ce qui activera ou nom l’option. « hive.vectorized.execution.enabled = true » Un fichier ORC se décompose d’un ensemble de lignes appelées Stripes (250Mb par défaut). Un fichier ORC a un pied de page qui contient la liste des emplacements des Stripes et des informations comme le Count, le Min, le Max, et le Sum de ses données. « ALTER TABLE tablename SET FILEFORMAT ORC; »