Uploaded on

A l'occasion de Solution Linux 2013 nous présentons Hadoop à la communauté en France. Ici une introduction à Pig.

A l'occasion de Solution Linux 2013 nous présentons Hadoop à la communauté en France. Ici une introduction à Pig.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to like this
No Downloads

Views

Total Views
1,113
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
77
Comments
1
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’UtilisationCommerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/HUG France SL2013 – Mai 2013Introduction à PigTraiter les Big Datatrès, très simplement...Charly CLAIRMONTAltic - http://altic.orgcharly.clairmont@altic.org@egwada
  • 2. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Cest quoi Pig ?● Créé chez Yahoo!● Une plate-forme très simple pour traiter lesBig Data● PigLatin : langage dont le traitement est enflux, simple, proche du scripting, très efficace● Pig Engine : parse, optimise et exécuteautomatiquement les scripts PigLatin commeune série de jobs MapReduce au sein duncluster Hadoop
  • 3. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Quapporte Pig ?● PigLatin est● un langage de haut niveau,● facile à comprendre,● orienté traitement par flux (data flow)● Il fournit les opérations standards pour la manipulation dedonnées (filters, joins, ordering) , des types primitifs, des typescomplexe (tuples, bags, maps)Bien plus simple à comprendre pour un analyste que duMapReduceIl ouvre Hadoop au non-programmeur-java
  • 4. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/WordCount en PigLatin ?
  • 5. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Si vous nêtes pas encore convaincu ?● Augmente dramatiquement la productivité● 10 lignes en Pig = 200 lignes en Java● 15 minutes en Pig = 4 heures en Java
  • 6. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Top 5 des pages les plus vues en PigLatin
  • 7. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Les autres bénéfices de Pig...● Gère tous les détails dun job de la soumission jusquà son exécutionet ce même sur des flux de données très complexes● Écrire des jobs qui nont pas dadhérence à lAPI Java dHadoop● Facile à étendre avec les UDF● Possibilité dembarqué– Python– JavaScript● Intégré à HBaseCommunauté très active
  • 8. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Comment fonction Pig ?HDFSMapReduceParserOptimiserPlan dexécutionSoumettre à Hadoop
  • 9. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/A vos éditeurs !● Eclpise● PigEditor● Pig-pen● Pig-Eclipse● Plugin pour● VIM● Emacs,● Textmate
  • 10. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Comment utiliser Pig ?● Mode local● Ni Hadoop, Ni HDFS requis● Système de fichiers local● Faciles à utiliser pour « prototyper », développer,débugger● Mode Cluster● Sait exécuter le même job quen local
  • 11. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale- Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/Exécuter un script Pig● Exécuter un script pig directement – mode batch$ pig -p input=someInput script.pig● script.pigLines = LOAD $input AS (...);● Grunt, le shell pour Pig – mode interactifgrunt> Lines = LOAD /data/books/ AS (line: chararray);grunt> Unique = DISTINCT Lines;grunt> DUMP Unique;
  • 12. Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’UtilisationCommerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/HUG France SL2013 – Mai 2013Introduction à PigMerci !Charly CLAIRMONTAltic - http://altic.orgcharly.clairmont@altic.org@egwada