SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

•

2 likes•672 views

L’idée de la session est de présenter HDInsight en montrant des exemples concrets d’utilisation. Cette session s’adresse aux consultants BI et aux désireux de connaitre la solution BigData de Microsoft ainsi qu’aux architectes SI. Au programme : présentation de l’offre BigData de Microsoft (HDInsight OnPremise ou dans Windows Azure), les outils du monde Hadoop (Hive, Pig, HBase, Sqoop, …), la place du Framework Hadoop dans nos systèmes d’informations, le tout ponctué de démonstrations. Session présentée lors du SQLSaturday Paris 2014

Data & Analytics

HDInsight
Cas d'usages, Hive, Sqoop, Pig, ...
SQLSaturday 323 – Paris 2014

Rejoignez la communauté SQL Server
Webcasts, Conférences, Afterworks
Session donnée lors du
http://GUSS.pro
@GUSS_FRANCE
/GUSS
/GUSS.FR

Sponsors Gold
SQLSaturday 323 – Paris 2014

Sponsors Silver et Bronze
SQLSaturday 323 – Paris 2014

Speakers
Romain Casteres
Consultant BI & Big Data
@PulsWeb
www.PulsWeb.fr
SQLSaturday 323 – Paris 2014
David Joubert
Consultant Data & Analytics
@Dj_Uber
www.djuber.net

Hadoop
Map & Reduce HDFS
SQLSaturday 323 – Paris 2014

Une nouvelle brique du SI ?
SQLSaturday 323 – Paris 2014

Besoins
Report environmental
crime and issues
easily to your local
authority and have
them resolved
worldwide !
SQLSaturday 323 – Paris 2014

Architecture cible
Experiment Query Export
SQLSaturday 323 – Paris 2014

Explorer et transformer la données
Pig est une plateforme de traitement et d’analyse
de données dans Hadoop
Avantage :
 Alternative à écrire du code MR directement
Utilisation (non exhaustive) :
 Trouver des données pertinentes dans un dataset
 Requêter plusieurs datasets
 Faire des calculs sur un dataset (COUNT, SUM,…)
SQLSaturday 323 – Paris 2014

Analyse de la données
Hive est un système d'entrepôt de données dans Hadoop
 Hive n'est pas une base de données relationnelle, il ne
conserve que les métadonnées de vos données
stockées sur le HDFS.
 Hive convertit les requêtes HiveQL en commande Map
Reduce.
L’un des principaux avantages de HiveQL est sa
ressemblance avec le langage SQL.
SQLSaturday 323 – Paris 2014

Exportation de la donnée
Sqoop permet l’échange de données entre RDBMS et
Hadoop
 Peut importer ou exporter toutes les tables, une seule
table, ou une partie d’une table dans HDFS (ou Azure
Blolb Storage)
 Transforme les scripts en job MapReduce
SQLSaturday 323 – Paris 2014

Industrialisation
Azure Automation SSIS
SQLSaturday 323 – Paris 2014
Hive ODBC

Et demain ?
 ORC
 Vectorization
 Tez
SQLSaturday 323 – Paris 2014

Question ?
Merci !
SQLSaturday 323 – Paris 2014

Viewers also liked

Trivial Java - Part 1Duchess France

Intro - La Marmite NoSqlDuchess France

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big DataDavid Joubert

Un introduction à PigModern Data Stack France

Spark (v1.3) - Présentation (Français)Alexis Seigneurin

Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -introOlivier Mallassi

Une introduction à HiveModern Data Stack France

Introduction to Real-Time Analytics with Cassandra and HadoopPatricia Gorla

Introduction sparkProbst Ludwine

Une introduction à HBaseModern Data Stack France

MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...MongoDB

Apache Cassandra - Concepts et fonctionnalitésRomain Hardouin

Viewers also liked (12)

Trivial Java - Part 1

Intro - La Marmite NoSql

Journées SQL 2014 - Hive ou la convergence entre datawarehouse et Big Data

Un introduction à Pig

Spark (v1.3) - Présentation (Français)

Nosql, hadoop, map reduce, hbase, sqoop, voldemort, cassandra -intro

Une introduction à Hive

Introduction to Real-Time Analytics with Cassandra and Hadoop

Introduction spark

Une introduction à HBase

MongoDB for Time Series Data Part 2: Analyzing Time Series Data Using the Agg...

Apache Cassandra - Concepts et fonctionnalités

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

SQLSaturday Paris 2014 - Bien choisir sa plate-forme de donnéesGUSS

Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !OCTO Technology

JSS2014 – Hive ou la convergence entre datawarehouse et Big DataGUSS

Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl

HDInsight : Hadoop en environnement MicrosoftMicrosoft Technet France

SQLSaturday Paris 2014 - Construire et déployer une application métier Office...GUSS

Journées SQL Server 2014 - Keynote Jour 1GUSS

SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...GUSS

Cloud et BI, quelle architecture pour 2014 ?Jean-Pierre Riehl

JSS2014 – Cloud et BI, quelle architecture pour 2014 ?GUSS

Cy3902 formation-cloudera-developer-training-for-apache-hadoopCERTyou Formation

SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation GUSS

Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013serge luca

Hadoop et son écosystèmeKhanh Maudoux

Donnez de l'agilité à votre système d'information avec AzureSamir Arezki ☁

SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception Benoit Jester

NoSQL et Big Dataacogoluegnes

Bluestone - Panorama des solutions analytiques existantesBluestoneServices

Sql saturday 323 paris 2014 azure migration iaas et paasChristophe Laporte

Big Data & BI : Retour d'expérienceRomain Casteres

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, … (20)

SQLSaturday Paris 2014 - Bien choisir sa plate-forme de données

Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !

JSS2014 – Hive ou la convergence entre datawarehouse et Big Data

Cloud et BI, quelle architecture pour 2014 ?

HDInsight : Hadoop en environnement Microsoft

SQLSaturday Paris 2014 - Construire et déployer une application métier Office...

Journées SQL Server 2014 - Keynote Jour 1

SQLSaturday Paris 2014 - Ce que tout DBA doit savoir sur la configuration et ...

Cloud et BI, quelle architecture pour 2014 ?

JSS2014 – Cloud et BI, quelle architecture pour 2014 ?

Cy3902 formation-cloudera-developer-training-for-apache-hadoop

SQLSaturday Paris 2014 - SharePoint – de la méfiance jusqu’à l’acceptation

Ce que tout DBA doit savoir sur SQL Server et SharePoint 2013

Hadoop et son écosystème

Donnez de l'agilité à votre système d'information avec Azure

SQL saturday 323 - SharePoint : De la méfiance jusqu'à l’acception

NoSQL et Big Data

Bluestone - Panorama des solutions analytiques existantes

Sql saturday 323 paris 2014 azure migration iaas et paas

Big Data & BI : Retour d'expérience

More from GUSS

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)GUSS

Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)GUSS

JSS2015 - Machine Learning like a bossGUSS

GUSS - CRITEO Meetup Scale SQL for the WebGUSS

JSS2015 - Keynote jour 2GUSS

JSS2015 - Keynote jour 1GUSS

[JSS2015] Power BI DevGUSS

[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch TablesGUSS

[JSS2015] Query StoreGUSS

[JSS2015] 3 DMV's pour evaluer les indexsGUSS

[JSS2015] Power BI: Nouveautés archi et hybridesGUSS

[JSS2015] Infra bi#4 - le scale outGUSS

[JSS2015] In memory and operational analyticsGUSS

[JSS2015] Eradiction des deadlocksGUSS

[JSS2015] Architectures Lambda avec Azure Stream Analytics GUSS

[JSS2015] - Azure automationGUSS

[JSS2015] AlwaysOn 2016GUSS

[JSS2015] - Document db et nosqlGUSS

[JSS2015] x eventsGUSS

[JSS2015] Nouveautés SSIS SSRS 2016GUSS

More from GUSS (20)

GUSS - Les IO dans SQL Server (en partenariat avec DataCore)

Bots & Cognitive Intelligence (Meetup GUSS & AZUG FR)

JSS2015 - Machine Learning like a boss

GUSS - CRITEO Meetup Scale SQL for the Web

JSS2015 - Keynote jour 2

JSS2015 - Keynote jour 1

[JSS2015] Power BI Dev

[JSS2015] Nouveautés SQL Server 2016:Sécurité,Temporal & Stretch Tables

[JSS2015] Query Store

[JSS2015] 3 DMV's pour evaluer les indexs

[JSS2015] Power BI: Nouveautés archi et hybrides

[JSS2015] Infra bi#4 - le scale out

[JSS2015] In memory and operational analytics

[JSS2015] Eradiction des deadlocks

[JSS2015] Architectures Lambda avec Azure Stream Analytics

[JSS2015] - Azure automation

[JSS2015] AlwaysOn 2016

[JSS2015] - Document db et nosql

[JSS2015] x events

[JSS2015] Nouveautés SSIS SSRS 2016

SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

1. HDInsight Cas d'usages, Hive, Sqoop, Pig, ... SQLSaturday 323 – Paris 2014

2. Rejoignez la communauté SQL Server Webcasts, Conférences, Afterworks Session donnée lors du http://GUSS.pro @GUSS_FRANCE /GUSS /GUSS.FR

3. Sponsors Gold SQLSaturday 323 – Paris 2014

4. Sponsors Silver et Bronze SQLSaturday 323 – Paris 2014

5. Speakers Romain Casteres Consultant BI & Big Data @PulsWeb www.PulsWeb.fr SQLSaturday 323 – Paris 2014 David Joubert Consultant Data & Analytics @Dj_Uber www.djuber.net

6. Big Data SQLSaturday 323 – Paris 2014

7. Hadoop Map & Reduce HDFS SQLSaturday 323 – Paris 2014

8. HDInsight SQLSaturday 323 – Paris 2014

9. Une nouvelle brique du SI ? SQLSaturday 323 – Paris 2014

10. Besoins Report environmental crime and issues easily to your local authority and have them resolved worldwide ! SQLSaturday 323 – Paris 2014

11. Architecture cible Experiment Query Export SQLSaturday 323 – Paris 2014

12. Explorer et transformer la données Pig est une plateforme de traitement et d’analyse de données dans Hadoop Avantage :  Alternative à écrire du code MR directement Utilisation (non exhaustive) :  Trouver des données pertinentes dans un dataset  Requêter plusieurs datasets  Faire des calculs sur un dataset (COUNT, SUM,…) SQLSaturday 323 – Paris 2014

13. Analyse de la données Hive est un système d'entrepôt de données dans Hadoop  Hive n'est pas une base de données relationnelle, il ne conserve que les métadonnées de vos données stockées sur le HDFS.  Hive convertit les requêtes HiveQL en commande Map Reduce. L’un des principaux avantages de HiveQL est sa ressemblance avec le langage SQL. SQLSaturday 323 – Paris 2014

14. Exportation de la donnée Sqoop permet l’échange de données entre RDBMS et Hadoop  Peut importer ou exporter toutes les tables, une seule table, ou une partie d’une table dans HDFS (ou Azure Blolb Storage)  Transforme les scripts en job MapReduce SQLSaturday 323 – Paris 2014

15. Industrialisation Azure Automation SSIS SQLSaturday 323 – Paris 2014 Hive ODBC

16. Et demain ?  ORC  Vectorization  Tez SQLSaturday 323 – Paris 2014

17. Question ? Merci ! SQLSaturday 323 – Paris 2014

Editor's Notes

HDINSIGHT VERSION 3.1 -> HDP 2.1 -> Hadoop 2.4 (On Premise / Dans le Cloud) Hadoop possède différentes couches d’abstraction permettant notamment d’écrire des requêtes proches du T-SQL depuis Hive. Celles-ci seront alors transformées en job MapReduce. Hive : Gestionnaire des données distribuées avec un langage proche du SQL (Facebook) Pig : Scripting ETL (Twitter) Sqoop : Transfer des données entre Hadoop et des SGBDR (SQL To Hadoop) Hbase : Base de données non relationnelle Hcatalog : services de méta données Mahout : Langage de programmation pour le Machine Learning Flume : Intégrateur de logs Oozie : Ordonnanceur …
Là ou hier nous détruisions les données qui n’apportai aucune intelligence a l’instant T, aujourd’hui nous pouvons nous permettre de la sauvegarder et de les analyser plus tard. 1h de HDInsight…
Afin de vous présenter l’utilisation de HDInsight, nous avons trouvé un jeu de donnée libre d’utilisation provenant de l’application Love Clean Streets. Cette application permet a tous de signaler un délits environnemental aux autorités afin qu’elle puissent intervenir au plus vite. Ces données sont : Semi structurées : image du délits, commentaires, … Volumineuses et variés, l’application évolue tout comme le nombre de champs disponibles La vitesse a laquelle elles sont généré de villes en ville ne cesses d’augmenter
1 - Création du cluster HDInsight via l’interface 2 - Démos
1 – Données brute issues de Pig 2 – Création du cluster HDInsight : PowerShell 3 – Création de script Hive
Azure Automation est un service Azure actuellement en Preview. Il permet d’automatiser des taches dans Azure en PowerShell Des taches SSIS sont en développement (elles ne sont pas sortie a cause des problèmes de propriétés sur les logos…) Il est cependant possible actuellement via le driver Hive ODBC de créer une source de connexion à Hive. http://blogs.msdn.com/b/benjguin/archive/2014/07/24/sample-code-create-an-hdinsight-cluster-run-job-remove-the-cluster.aspx
ORC : Le format de fichier Optimized Row Columnar (ORC) permet un stockage des données Hive en colonne et améliore ainsi les performances en lecture, écriture, et en traitement ! TEZ simplifie le processing des données en généralisant le modèle de programmation Map Reduce dans une seule Job. « set hive.use.tez.natively=true; set hive.enable.mrr=true; » VECTORIZATION permet à Hive de traiter en mode batch un certain nombre de lignes. Pour profiter de vectorisation, votre table doit être au format ORC. Pour activer vectorisation avec la propriété suivante. Lorsque la Vectorization est activée, Hive va examiner la requête et les données pour déterminer si la Vectorization est possible ou non, ce qui activera ou nom l’option. « hive.vectorized.execution.enabled = true » Un fichier ORC se décompose d’un ensemble de lignes appelées Stripes (250Mb par défaut). Un fichier ORC a un pied de page qui contient la liste des emplacements des Stripes et des informations comme le Count, le Min, le Max, et le Sum de ses données. « ALTER TABLE tablename SET FILEFORMAT ORC; »

SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (12)

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

Similar to SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, … (20)

More from GUSS

More from GUSS (20)

SQLSaturday Paris 2014 - HDInsight : Cas d’usages, Hive, Sqoop, Pig, …

Editor's Notes