Présentation Map reduce altnetfr

Site : www.altnetfr.org Twitter : @altnetfr et #altnetfr Propositions de sessions: sessions@altnetfr.org

MapReduce Yann Schwartz @abolibibelot 2011-06-15

Remerciements OCTO pour l’accueil

Au menu C’est quoi ? Oui, mais à quoi bon ? Et comment ça marche ? Ah, et ça sert vraiment ? Sauf que… Bon, et ensuite ?

Petites parenthèses (reduce + (map #(* % %) [1 2 3 4])) new[]{1,2,3,4}.Select(x => x*x) .Aggregate(0, (acc, x) => acc + x)

Map : k1,v1 -> list(k2,v2) Reduce : k2, list(v2) -> v3

Map : Projection, filtre, transformation Reduce : agrégation

MapReduce 2004 : Google « Simplified Data Processing on Large Clusters » Jeffrey Dean et Sanjay Ghemawat http://labs.google.com/papers/mapreduce.html

Séquence d’un frameworkMapReduce Choix des entrées, parallélisation Map Regroupement (parallèle) Reduce Restitution (en rouge, ce qu’on écrit soi-même)

MR modélise une pipeline de forks et de joins, sans expliciter les forks ni les joins ,[object Object]

De la distribution des données (et du code)

Du failover…la partie horrible en fait.

Mais ça s’utilise vraiment ?

NoSQL Souvent du sharding Les requêtes réparties peuvent être traduites par Traiter les données sur chacun des shards Agréger les résultats de chaque shard Regrouper ces résultats Pas de clustering (SGBD) et du mapreduce

MapReduce et NoSQL CouchDB Requêtes prédéfinies (vues), exprimées en MR MongoDB MR utilisé comme généralisation du GROUP BY RavenDB MapReduce utilisé pour créer des index en LINQ (pas distribué)

Hadoop Open Source (projet Apache) Impl émentation du paper de Google Yahoo principal contributeur En Java…

Qu’est-ce qu’il y a dans la boîte ? Un système de fichiers réparti (HDFS) Réplication et distribution Un scheduler de jobs et de tâches Reprise, failover, supervision Optimisation de la localité des données

Et on met quoi dans la boîte ? Les données (la plupart du temps des fichiers) Le code Mapper Reducer Partitionner

C’est pas si simple ,[object Object]

Pas toujours évident d’exprimer son intention

Casser les algorithmes pour se conformer à MR

Certains concepts très difficiles à exprimer

Présentation Map reduce altnetfr

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Présentation Map reduce altnetfr

Similar to Présentation Map reduce altnetfr (20)

Présentation Map reduce altnetfr