Session Alt.net Paris du 15 juin chez Octo, animée par Yann Schwartz.
Au menu de cette session :
Principes du map/reduce : définition, à quoi ça sert
Une implémentation en C# pour comprendre
Utilisation du map reduce en NoSQL
Un serveur dédié map-reduce : Hadoop
hadoop : mapreduce et filesystem distribué
mapreduce de base
pig latin (un langage semi procédural – à la linq – au dessus de mapreduce)
Conclusion : pour quoi utiliser mapreduce dans vos traitements
12. MapReduce 2004 : Google « Simplified Data Processing on Large Clusters » Jeffrey Dean et Sanjay Ghemawat http://labs.google.com/papers/mapreduce.html
13.
14.
15. Séquence d’un frameworkMapReduce Choix des entrées, parallélisation Map Regroupement (parallèle) Reduce Restitution (en rouge, ce qu’on écrit soi-même)
23. NoSQL Souvent du sharding Les requêtes réparties peuvent être traduites par Traiter les données sur chacun des shards Agréger les résultats de chaque shard Regrouper ces résultats Pas de clustering (SGBD) et du mapreduce
24. MapReduce et NoSQL CouchDB Requêtes prédéfinies (vues), exprimées en MR MongoDB MR utilisé comme généralisation du GROUP BY RavenDB MapReduce utilisé pour créer des index en LINQ (pas distribué)
25. Hadoop Open Source (projet Apache) Impl émentation du paper de Google Yahoo principal contributeur En Java…
26. Qu’est-ce qu’il y a dans la boîte ? Un système de fichiers réparti (HDFS) Réplication et distribution Un scheduler de jobs et de tâches Reprise, failover, supervision Optimisation de la localité des données
27. Et on met quoi dans la boîte ? Les données (la plupart du temps des fichiers) Le code Mapper Reducer Partitionner