Your SlideShare is downloading. ×
0
HUG France #2/2 - 17 octobre 2012    Hadoop au Crédit Mutuel Arkéa         Retour sur 3 années dutilisationMathias Herbert...
Crédit Mutuel Arkéa  Groupe bancaire de plein exercice  3.2 millions de sociétaires et clients  9000 salariés
Hadoop – phase 1 Installation dune cellule Hadoop en juillet 2009   Expérimentations autour de lanalyse de données   Labor...
Hadoop – phase 2 Installation dune cellule ZooKeeper en 2009   Besoin dun mécanisme de coordination (HBase)   Plugin dauth...
Hadoop – phase 3 Projet #1, recherche sur opérations bancaires   Recherche fulltext sur les libellés depuis 2001   Version...
Hadoop – phase 4 Récupérer nos données ... depuis le mainframe   Simplifier les transferts (IDCAMS REPRO + FTP)   Service ...
Hadoop – phase 5 Passage en production du projet #1   Nouvelle cellule Hadoop installée en 2011-04     76 HP DL 165 G7, 24...
Hadoop – phase 5
Hadoop – phase 5
Hadoop – phase 6 Mise au point dun système de monitoring   Nécessaire pour avoir une photo à t de la cellule   Centré sur ...
Hadoop – phase 6 Fonctionnement dArtimon   Création dun MonitoringContext   Enregistrement via ZooKeeper   Point dentrée T...
Hadoop – phase 6 Fonctionnement dArtimon (2)   Possibilité de collecter dans /var/run/artimon   Bibliothèque en Groovy   O...
Hadoop – phase 7
Hadoop – phase 7
Hadoop – phase 7 Gros investissement autour de Pig   Volonté davoir un outil Dataflow (pas de xQL)   Appréhendable par les...
Hadoop – phase 7 Pig au Crédit Mutuel Arkéa   Données : SequenceFile de BytesWritable   Loader Pig com.arkea.commons.pig.S...
Hadoop – phase 7
Hadoop – phase 8 Croissance de la cellule Hadoop 2012-01   112 machines, 4 racks de 28   108 DN (812 To), 88 TT (1232 slot...
Hadoop – Bilan Importance de loutillage   Être compatible avec lexistant du SI   Bien penser à la forme des données Positi...
#2/2 HUG France 17 octobre 2012    Hadoop au Crédit Mutuel Arkéa            Merci pour votre attentionMathias HerbertsMath...
Upcoming SlideShare
Loading in...5
×

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

5,294

Published on

2 Comments
2 Likes
Statistics
Notes
  • L'infrastructure est transverse, certains traitements accèdent à des données (cas de la LAB par exemple), d'autres ne sont que de purs calculs (cas des ratios de solvabilité), du coup il faut trouver un juste milieu, quitte à ce que certains jobs soient moins performants que dans une infra conçue uniquement pour leur footprint.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Très beau projet. Il serait intéressant de comprendre quels ont été les besoins qui ont orientés les décisions concernant l'infra. Pourquoi avoir besoin d'autant de coeurs (16) vs le stockage qui n'est 'que' de 4 disques 3,5' ou 8 disques 2,5'. Les codes sont très compute intensifs ?
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
5,294
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
71
Comments
2
Likes
2
Embeds 0
No embeds

No notes for slide

Transcript of "Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa"

  1. 1. HUG France #2/2 - 17 octobre 2012 Hadoop au Crédit Mutuel Arkéa Retour sur 3 années dutilisationMathias HerbertsMathias.Herberts@gmail.com@herberts Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
  2. 2. Crédit Mutuel Arkéa Groupe bancaire de plein exercice 3.2 millions de sociétaires et clients 9000 salariés
  3. 3. Hadoop – phase 1 Installation dune cellule Hadoop en juillet 2009 Expérimentations autour de lanalyse de données Laboratoire pour the master plan 5 machines Dell 1950 2 x 1To 2 x L5410@2.33GHz (8 cores) 16 Go de RAM
  4. 4. Hadoop – phase 2 Installation dune cellule ZooKeeper en 2009 Besoin dun mécanisme de coordination (HBase) Plugin dauthentification via clefs SSH Passerelle SVN → ZooKeeper Ensemble de 6 machines sur 3 datacenters 3 groupes de 2 machines de poids 2 et 1
  5. 5. Hadoop – phase 3 Projet #1, recherche sur opérations bancaires Recherche fulltext sur les libellés depuis 2001 Version en place datant de 2003, basée sur MySQL Limites atteintes (3.5 x 10E9 rows) Décision dutiliser HBase pour le stockage Indexation opportuniste des données (Solr) Extension à plus de données
  6. 6. Hadoop – phase 4 Récupérer nos données ... depuis le mainframe Simplifier les transferts (IDCAMS REPRO + FTP) Service de staging Utilitaire de transfert fileutil Lecture directe des VSAM/Séquentiels Pas de conversion EBCDIC → ??? lors du transfert Bibliothèque de lecture des données Interprétation via COPY COBOL
  7. 7. Hadoop – phase 5 Passage en production du projet #1 Nouvelle cellule Hadoop installée en 2011-04 76 HP DL 165 G7, 24Go, 4x2To, 2xAMD 16 cores 1 NN, 1 SNN, 1 JT, 1 backup JT, 72 DN, 56 TT 8 RS HBase, 8 nœuds dindexation 4 racks, 2 datacenters, sans sursouscription réseau Remplacement de la cellule de test 5 HP DL 165 G7 idem production Passage effectif en production en 2011-12
  8. 8. Hadoop – phase 5
  9. 9. Hadoop – phase 5
  10. 10. Hadoop – phase 6 Mise au point dun système de monitoring Nécessaire pour avoir une photo à t de la cellule Centré sur la donnée brute, pas sur des graphes Support de métriques techniques ET métier Format universel TS name{label0=value0,label1=val1,...} value Arkéa Real Time Information MONitoring
  11. 11. Hadoop – phase 6 Fonctionnement dArtimon Création dun MonitoringContext Enregistrement via ZooKeeper Point dentrée Thrift Mise à jour de variables dans le code Collecte via Flume / Kafka Archivage dans HDFS Stockage dhistoriques en mémoire (VHMS) 1H@1m / 4H@5m / 24H@15m / 72H@60m
  12. 12. Hadoop – phase 6 Fonctionnement dArtimon (2) Possibilité de collecter dans /var/run/artimon Bibliothèque en Groovy Opérations sur classes déquivalences Génération de graphiques via Google Charts API Analyse postmortem via extraction Pig + VHMS 2M de métriques par minute sur 1200 machines grunt> fs -du /hdfs/data/artimon Found 2 items 43801992067763 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2011 131762114040268 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2012
  13. 13. Hadoop – phase 7
  14. 14. Hadoop – phase 7
  15. 15. Hadoop – phase 7 Gros investissement autour de Pig Volonté davoir un outil Dataflow (pas de xQL) Appréhendable par les métiers (qui font du SAS) Possibilités dextension Souplesse dans la mise à disposition des données Ordonnancement depuis le mainframe
  16. 16. Hadoop – phase 7 Pig au Crédit Mutuel Arkéa Données : SequenceFile de BytesWritable Loader Pig com.arkea.commons.pig.SequenceFileLoadFunc Classes Helper pour interpréter les données Thrift, COBOL, DB2, JDBC, Paramétrage, PCAP Outil fileutil dextraction de ces données 50 personnes formées 2 projets majeurs, reporting opérationnel et LAB
  17. 17. Hadoop – phase 7
  18. 18. Hadoop – phase 8 Croissance de la cellule Hadoop 2012-01 112 machines, 4 racks de 28 108 DN (812 To), 88 TT (1232 slots) Utilisation des capacités de calcul Calcul de ratios de solvabilité Solvency II Division par ~200 des temps de calculs
  19. 19. Hadoop – Bilan Importance de loutillage Être compatible avec lexistant du SI Bien penser à la forme des données Positionnement transverse un réel plus Coût réduit au fur et à mesure des projets Capitalisation dans les métiers, viralité Ne pas céder à certaines sirènes
  20. 20. #2/2 HUG France 17 octobre 2012 Hadoop au Crédit Mutuel Arkéa Merci pour votre attentionMathias HerbertsMathias.Herberts@gmail.com@herberts Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×