BarCamp Palo IT - Mardi 28 janvier 2014 - Big Data - Pierre Revellin
Upcoming SlideShare
Loading in...5
×
 

BarCamp Palo IT - Mardi 28 janvier 2014 - Big Data - Pierre Revellin

on

  • 358 views

Mardi 28 janvier 2014, Palo IT a organisé un BarCamp intitulé "Big Data, ou comment retrouver une aiguille dans une botte de foin", animé par Pierre Revellin, Reponsable Architecture et Performance ...

Mardi 28 janvier 2014, Palo IT a organisé un BarCamp intitulé "Big Data, ou comment retrouver une aiguille dans une botte de foin", animé par Pierre Revellin, Reponsable Architecture et Performance chez Voyages-SNCF.com, 1er site d'e-Commerce en France.

Synopsis
Un parc informatique d’un millier de machines génère de nombreux Terra Octets de logs. Comment parvenir à y retrouver une information pertinente et comment valoriser les informations contenues dans ces logs ?

Au programme
• La centralisation des logs : back to basics
• Une grille Hadoop : en quoi ça consiste ?
• Cas pratiques : détection d'attaques DoS et refacturation sur plateforme mutualisée.

Qui est Pierre Revellin ?
Pierre Revellin a débuté sa carrière en tant qu'Ingénieur Système et Réseaux. Il a développé son expertise Java au cours de ces 10 dernières années. Il a occupé successivement les postes de Leader Technique sur des projets vidéo chez Orange puis d'Expert Performance chez Palo IT pour le compte de Voyages SNCF, 1er site d'e-Commerce en France, où il est désormais Responsable Architecture et Performance. Fondu d'Open Source et d'Agilité, il travaille depuis 7 ans sur des sites Web à haute volumétrie.

Pour toute demande d'informations complémentaires, adressez vous à emoy@palo-it.com.

Statistics

Views

Total Views
358
Views on SlideShare
358
Embed Views
0

Actions

Likes
0
Downloads
10
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    BarCamp Palo IT - Mardi 28 janvier 2014 - Big Data - Pierre Revellin BarCamp Palo IT - Mardi 28 janvier 2014 - Big Data - Pierre Revellin Presentation Transcript

    • BarCamp Mardi 28 janvier 2014 Palo IT 3, rue Scribe 75009 Paris Site Web : www.palo-it.com Blog : www.palo-it.com/blog « Big Data, ou comment retrouver une aiguille dans une botte de foin » Pierre Revellin, Responsable Architecture et Performance
    • Big data ou comment retrouver une aiguille dans une botte de foin Contexte et origine du besoin La première ébauche Le vrai problème : les ressources CPU vs IOs Hadoop une vulgarisation Intégration dans un SI BigData au delà d'une mode Comment valoriser des téra/pétaoctets d'informations ? Use cases Le BigData en France Palo IT 2014 © 2
    • Contexte et origine du besoin Contexte : Site de eCommerce parmi les leaders du marché Complexe, composée d'applications multi tiers / instances / multi-sites Forte visibilité avec un besoin de réactivité très fort Problèmes pour exploiter / supporter des applications réparties Répartition sur du périmètres des équipes support /exploitation différents Application statefull pour simplifier l'analyse, puis statefull'less' Quid du reporting global ? Besoin de centraliser l'information Les logs constituent la première source d'information Palo IT 2014 © 3
    • La première ébauche Architecture Centralisation des logs Ecriture sur du SAN Une implémentation via syslog Solution éprouvé, multiplateforme Plusieurs datasource : streaming / fichier Niveau de Qos : UDP / TCP, bufferisation Enrichissement de message post émission Faiblesse de la solution Pas de loadbalancing ou failover natif Pas de retravaille à la volé des messages Périmètre de responsabilité diffus ( équ système / équ applicative /dev ) IO concentré, nécessite du SAN (10000 à 30000 IO/s ) Palo IT 2014 © 4
    • Résultats au delà des faiblesses techniques Difficulté à valoriser, car méconnaissance du contenu des logs Possibilité quasi infini, seul limite : l'information est-elle disponible Information mélangée, car pas de 'contextualisation' du log, mais : • Information commercial : activité cliente • Information technique : performance du SI malgré son hétérogénéité Problèmes de fond : le traitement des données Temps nécessaire pour retrouver/traiter une information Pour traiter il faut normalisation les évènements Sécurité des informations Pas de réponse simple au problème du périmètre des équipes support/exploitation Palo IT 2014 © 5
    • Le vrai problème : les ressources CPU vs les IOs Problème du CPU vs IO Test 1 : on lit un fichier de 500mo : 4s environ 123Mos, limité par les IO disques Test 2 : on grep une ip dans un fichier de 500mo : 12s soit 42Mo/s Test 3 : on passe en multithreadé sur le grep : 118Mo/s La contention est la CPU ou la bande passante pour alimenter le processus Optimisation par agrégation de ressources Problème historique touchant toutes les strates : • Cas des supercalculateurs / RAID / Chunk&Tap sur le réseau Ne pas oublier qu'au delà de la largeur des données, la latence d'accès est maitresse Pas d'invention : c'est LE moteur de l'évolution des ordinateurs: • Augmenter le nombre d'opération en 'parallèle' : pipelining / hypethreading • La problématique d'IO est résolue par des niveaux de cache (Cache niveau 2/3 partagé) • Bank RAM appairé pour doubler la BP • Enfin le multi-core Palo IT 2014 © 6
    • Agrégation de CPU Décomposer le problème via algorithme MapReduce Plusieurs implémentation • Mongo / CouchDb / Cassandra / Hadoop Palo IT 2014 © 7
    • Augmenter la Bp : Hadoop – partie 1 le stockage File System issue de Google FS Orienté : large scale (100T/Po de donnée) / lecture intensive / lowcost Back to basic Un disque dure st décomposé en secteur de 512 octets Les secteurs sont organisée en block par un système de fichier (FS) Block totalement alloué même pour 1o util Hadoop FileSystem : HDFS Se repose sur les FS natif OS Utilise des block de 64Mo par defaut Avec un débit de 100Mo/s et un seek time de 10ms : 1% du temps en latence Allocation optimisé Palo IT 2014 © 8
    • Augmenter la Bp : Hadoop – partie 1 le stockage HDFS : Autorise un facteur de réplication de block Les metadatas (genre inode) sont stocké dans un NameNode Distribution des block de données pour améliorer la lecture : anti-défragmentation Adopte les normes posix Méthode d'accés Accès console Webapp Par API (pyhon/java/ruby) FuseFS Palo IT 2014 © 9
    • Augmenter la Bp : Hadoop – partie 1 le stockage HDFS par le schéma Palo IT 2014 © 10
    • Augmenter la Bp : Hadoop – partie 1 le stockage HDFS par le schéma Palo IT 2014 © 11
    • Un super calculateur low cost : Hadoop – partie 2 traitement des données La théorie L'API repose sur 2 fonctions • MAP / Reduce Mise en avant de la programmation fonctionnelle vs impérative Impact fort suivant les indicateurs attendus Optimisations 'cachées' Les map sont lancés au plus proche des données Attention à la compression Palo IT 2014 © 12
    • Un super calculateur low cost : Hadoop – partie 2 traitement des données Répartition sur plusieurs noeuds Palo IT 2014 © 13
    • Un super calculateur low cost : Hadoop – partie 2 traitement des données Dans la vraie .... il faut coder TDD via MRUnit Difficile de debugger/profiler une application Le fait d'être en large scale provoque un effet loupe sur le moindre pb de code …. ou sous-traiter Hive PIG SPSS Palo IT 2014 © 14
    • Quel implémantation ? Pour ceux qui aime être root : tout est disponible sous apache.org Offre hadoop packagé En plein explosion ( HortonWorks/ cloudera / ….) Attention au mode de licencing • Exemple Splunk : 800k +100k par 500g • Cloudera : au début limité à 10 nœuds, puis modification du mode de licencing • Pas à l'abri d'un revirement style la oracle Aucune implémentation ne remplace un expert pour l'exploitation Les coûts cachés Injection des données Nettoyage des données Palo IT 2014 © 16
    • Intégration dans un SI Attention au effet de bord sur le cœur du SI On parle de 100aine de giga jour, switch/coeur de réseau mutualisés Bande passante inter-site( Qos MPLS ) CPU/RAM consommé sur les serveur applicatifs Lock des ressources(Map/Reduce) de la grille : mise en place de quota Durée de vie des données ? Pas de place dans vos través ? Utilisation de serveur MoonShot HP 4U : 125 slot à repartir entre CPU est stockage • Cartouche 16 core • Disque de 1tera Recyclage Faire du capacity planning en recyclant les vieux serveurs en nœuds déstockage Externalisation de l'infra Infra clound dédié couteuse si vous avez des exigences de temps de traitement Palo IT 2014 © 17
    • Comment valoriser des téra/pétaoctets d'informations ? Difficulté à valoriser, car méconnaissance du contenu des logs L'information est-elle disponible ? Possibilité quasi infini, mais : Un expert BigData ne remplacera pas un datascientist L'information a force de valeur, uniquement par sa qualité et sa date de péremption Use case réel GrepIt ! Facturation cliente sur plateforme mutualise Indicateur de SLA sur du middleware Détection d'attaque par analyse comportementale Palo IT 2014 © 18
    • Use case 1 : grepIt Problématique : trouver un mot clef dans les logs Map / Reduce basique Map va filtrer les logs contenant le mot clé Reduce va simplement écrite les logs lui arrivant Palo IT 2014 © 19
    • Use case 2 : Facturation cliente sur plateforme mutualise Faire du SLA sur du middle tiers mutualisé Client 1 Client 2 LB Site 1 App x App x Client n LB Site 2 App x Clé de répartition composite IP / Stats / Htpp Code / Login / URL /PLateforme 90 percentile sur 2 site Palo IT 2014 © 20
    • Use case 2 : Facturation cliente sur plateforme mutualisée Palo IT 2014 © 21
    • Use case 3 : Détection d'attaque DOS Problématique : détection de robots qui empêchent la vente de produit Identifier les comportements anormaux Map va filtrer les urls utiles, la clé de répartition est l’ip Reduce va calculer des compteurs : Nombre de mise en panier Délai entre 2 mise en panier Nombre de paiement versus nombre de mise en panier En sortie on corrèle avec des seuils prédéfinies Bannissement d’IP non automatique Palo IT 2014 © 22
    • Use case 4 : Indicateur de SLA sur du middleware Problématique : vérifier qu’on rentre dans le SLA sur du middleware répartie Front WEB Middle 1 Middle 2 Middle A Périmètre de SLA Middle B Partenaire Opération de base du framework cascading Agrégation Corrélation Gestion de plusieurs datasource Palo IT 2014 © 23
    • Les nouveaux besoins Mode batch pas toujours adapté Introduction d'ElasticSearch / Kibana Gestion de la durée de vie de l'information : besoin de streaming Palo IT 2014 © 24
    • BigData au delà d'une mode Solutions inventées et adoptées par et pour les leaders du marché L’algorithme map/reduce remis au goût du jour par Google pour... indexer le web Hadoop core vient des équipe de yahoo... pour indexer le web Difficile de faire mieux avec un équipe R&D …. ( on RivoDB -:) ) Sans engagement : Pas de technologie propriétaire Hardware standard Produit opensource massivement adopté qui devient de fait un standard Implications stratégiques au delà du rêve  Permet d'établir des stratégies marketing a cour et moyen terme, comment ? • Toute la matière première est là • Nécessite de réelle compétence de data scientist Permet une évolution 'maitrisé' du SI au delà de l'amortissement CAPEX/OPEX étalé Palo IT 2014 © 25
    • Tentative de conclusion N'est qu'un moyen technique, pas la finalité Ne pas se tromper d'acteur/profile L'analyse statistique est un métier à par entière (DataScientist) Exploitation d'un cluster nécessite un bon niveau d'expertise De même pour les développements : peu très vite déraper Attention au promesse des société de consulting Pose des problèmes organisationnels importants Peu de société en France avec un vrai retour d'expérience Palo IT 2014 © 26
    • Il est toujours important de lire.... Référence http://fr.wikipedia.org/wiki/MapReduce Hadoop : the Definitive guide / O'Reilly MISC Décembre 2013 Cluster Multiprocesseur / Architecture Paralelle Eyrolles Palo IT 2014 © 27
    • BigData : enjoy ! Questions ? Palo IT 2014 © 28