Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

HUG France #2/2 - 17 octobre 2012

Hadoop au Crédit Mutuel Arkéa
Retour sur 3 années d'utilisation

Mathias Herberts
Mathias.Herberts@gmail.com
@herberts

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Crédit Mutuel Arkéa

Groupe bancaire de plein exercice
3.2 millions de sociétaires et clients
9000 salariés

Hadoop – phase 1

Installation d'une cellule Hadoop en juillet 2009
Expérimentations autour de l'analyse de données
Laboratoire pour the master plan
5 machines
Dell 1950
2 x 1To
2 x L5410@2.33GHz (8 cores)
16 Go de RAM

Hadoop – phase 2

Installation d'une cellule ZooKeeper en 2009
Besoin d'un mécanisme de coordination (HBase)
Plugin d'authentification via clefs SSH
Passerelle SVN → ZooKeeper
Ensemble de 6 machines sur 3 datacenters
3 groupes de 2 machines de poids 2 et 1

Hadoop – phase 3

Projet #1, recherche sur opérations bancaires
Recherche fulltext sur les libellés depuis 2001
Version en place datant de 2003, basée sur MySQL
Limites atteintes (3.5 x 10E9 rows)
Décision d'utiliser HBase pour le stockage
Indexation opportuniste des données (Solr)
Extension à plus de données

Hadoop – phase 4

Récupérer nos données ... depuis le mainframe
Simplifier les transferts (IDCAMS REPRO + FTP)
Service de staging
Utilitaire de transfert fileutil
Lecture directe des VSAM/Séquentiels
Pas de conversion EBCDIC → ??? lors du transfert
Bibliothèque de lecture des données
Interprétation via COPY COBOL

Hadoop – phase 5

Passage en production du projet #1
Nouvelle cellule Hadoop installée en 2011-04
76 HP DL 165 G7, 24Go, 4x2To, 2xAMD 16 cores
1 NN, 1 SNN, 1 JT, 1 backup JT, 72 DN, 56 TT
8 RS HBase, 8 nœuds d'indexation
4 racks, 2 datacenters, sans sursouscription réseau
Remplacement de la cellule de test
5 HP DL 165 G7 idem production
Passage effectif en production en 2011-12

Hadoop – phase 6

Mise au point d'un système de monitoring
Nécessaire pour avoir une photo à t de la cellule
Centré sur la donnée brute, pas sur des graphes
Support de métriques techniques ET métier
Format universel
TS name{label0=value0,label1=val1,...} value

Arkéa Real Time Information MONitoring

Hadoop – phase 6

Fonctionnement d'Artimon
Création d'un MonitoringContext
Enregistrement via ZooKeeper
Point d'entrée Thrift
Mise à jour de variables dans le code
Collecte via Flume / Kafka
Archivage dans HDFS
Stockage d'historiques en mémoire (VHMS)
1H@1m / 4H@5m / 24H@15m / 72H@60m

Hadoop – phase 6

Fonctionnement d'Artimon (2)
Possibilité de collecter dans /var/run/artimon
Bibliothèque en Groovy
Opérations sur classes d'équivalences
Génération de graphiques via Google Charts API
Analyse postmortem via extraction Pig + VHMS
2M de métriques par minute sur 1200 machines
grunt> fs -du /hdfs/data/artimon
Found 2 items
43801992067763 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2011
131762114040268 hdfs://jb-k15-01.p.infra.arkea.com/hdfs/data/artimon/2012

Hadoop – phase 7

Gros investissement autour de Pig
Volonté d'avoir un outil Dataflow (pas de xQL)
Appréhendable par les métiers (qui font du SAS)
Possibilités d'extension
Souplesse dans la mise à disposition des données
Ordonnancement depuis le mainframe

Hadoop – phase 7

Pig au Crédit Mutuel Arkéa
Données : SequenceFile de BytesWritable
Loader Pig com.arkea.commons.pig.SequenceFileLoadFunc
Classes Helper pour interpréter les données
Thrift, COBOL, DB2, JDBC, Paramétrage, PCAP
Outil fileutil d'extraction de ces données
50 personnes formées
2 projets majeurs, reporting opérationnel et LAB

Hadoop – phase 8

Croissance de la cellule Hadoop 2012-01
112 machines, 4 racks de 28
108 DN (812 To), 88 TT (1232 slots)
Utilisation des capacités de calcul
Calcul de ratios de solvabilité Solvency II
Division par ~200 des temps de calculs

Hadoop – Bilan

Importance de l'outillage
Être compatible avec l'existant du SI
Bien penser à la forme des données
Positionnement transverse un réel plus
Coût réduit au fur et à mesure des projets
Capitalisation dans les métiers, viralité
Ne pas céder à certaines sirènes

#2/2 HUG France 17 octobre 2012

Hadoop au Crédit Mutuel Arkéa
Merci pour votre attention

Mathias Herberts
Mathias.Herberts@gmail.com
@herberts

Ce support est mis à disposition selon les termes de la Licence Creative Commons Attribution - Pas d’Utilisation
Commerciale - Pas de Modification 2.0 France. - http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa

Similar to Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa (20)

More from Modern Data Stack France

More from Modern Data Stack France (20)

Mathias Herberts fait le retour d'expérience Hadoop au Crédit Mutuel Arkéa