SlideShare a Scribd company logo
1 of 49
Download to read offline
24 mars 2015 TechDay Big Data – Ecole 42 1
TechDay Big Data
Philippe Barra & Stéphane Goumard
24 mars 2015 TechDay Big Data – Ecole 42 2
Qui est Arrow Group ?
24 mars 2015 TechDay Big Data – Ecole 42 3
www.arrow‐group.eu
24 mars 2015 TechDay Big Data – Ecole 42 4
24 mars 2015 TechDay Big Data – Ecole 42 5
24 mars 2015 TechDay Big Data – Ecole 42 6
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 7
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 8
Chaque minute sur Internet…
source: http://pennystocks.la/internet-in-real-time/
24 mars 2015 TechDay Big Data – Ecole 42 9
Evolution du hardware exponentielle
24 mars 2015 TechDay Big Data – Ecole 42 10
Le Big Data, selon un rapport de recherche de Gartner de 2001 est une
démarche consistant à extraire l’information pertinente d’un ensemble de
données caractérisées par :
Le Big Data
24 mars 2015 TechDay Big Data – Ecole 42 11
Le Big Data peut améliorer les performances dans ces domaines:
• Recommandations : déjà utilisés par les géants de la vente en ligne
• Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des
utilisateurs face à un produit, une marque…
• Modélisation des risques : meilleure détermination des risques par traitement croisé des données
historiques et facteurs environnementaux, et simulation des scenarios potentiels
• Détection de fraudes : détection de comportements inhabituels
• Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement
ceux qui achètent le plus
• Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations
clients
• …
Que peut apporter le Big Data ?
24 mars 2015 TechDay Big Data – Ecole 42 12
• Un projet Big Data est un projet de R&D appliqué et non un projet
d’informatisation de processus métiers.
• Un projet Big Data dépend des données et non de spécifications. Le cahier des
charges est remplacé par les cas d’utilisation des données.
• La technologie et les mathématiques statistiques permettent aujourd’hui de
rendre accessible des traitements en temps réel.
Spécificités d’un projet Big Data
24 mars 2015 TechDay Big Data – Ecole 42 13
MétierMétier
StatistiqueStatistiqueITIT
Un projet Big Data est la mise en commun des trois compétences :
Projet
Big Data
Projet
Big Data
Compétences indispensables
24 mars 2015 TechDay Big Data – Ecole 42 14
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 15
Arrow Group a conçu une méthodologie Big Data Analytics conciliant la
méthodologie de data mining CRISP-DM et la méthodologie agile Scrum :
Méthodologie Big Data Analytics
24 mars 2015 TechDay Big Data – Ecole 42 16
Processus Big Data Analytics
24 mars 2015 TechDay Big Data – Ecole 42 17
Objectifs
• Définir les objectifs client par cas d’usage
• Identifier le besoin, les conditions de réussite, les données clients
• Construire le périmètre, le cadrage, les conditions de collaboration entre le client
et l’équipe projet
Compréhension du Business – Cas d’usage
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 18
Métier
StatistiqueIT
Objectifs
• Identifier l’ensemble des données exploitables : données du client, de l’Open Data,
des réseaux sociaux, du Web sémantique, des logs, des capteurs…
• Elaborer les méthodes de collecte
• Collecter les données
Compréhension des Données
24 mars 2015 TechDay Big Data – Ecole 42 19
Objectifs
• Auditer et améliorer la qualité des donnée
• Elaborer les méthodes de fusion
• Elaborer les règles de Privacy by Design à appliquer
• Préparer les donner à analyser
Audit des Données
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 20
Objectifs
• Sélection des méthodes d’analyse
• Paramétrage des algorithmes
• Application des techniques d’analyse
Modélisation & Analyse
Métier
StatistiqueIT
24 mars 2015 TechDay Big Data – Ecole 42 21
Objectifs
• Analyse des résultats
• Vérification du respect des objectifs business
Métier
StatistiqueIT
Evaluation
24 mars 2015 TechDay Big Data – Ecole 42 22
Objectifs
• Elaboration de la présentation des résultats
• Elaboration du retour d’expérience sur le développement du cas d’usage
Métier
StatistiqueIT
Déploiement
24 mars 2015 TechDay Big Data – Ecole 42 23
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 24
Square Predict vise à valoriser et monétiser l'énorme quantité de données dont
les assureurs disposent depuis des années.
Consortium :
Métier
StatistiqueIT
Assureur français leader
mondial
24 mars 2015 TechDay Big Data – Ecole 42 25
Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux
Evaluation en temps réel de la sévérité d’une catastrophe naturelle
Exemples de cas d’usages
24 mars 2015 TechDay Big Data – Ecole 42 26
Compréhension & audit des données:
Evaluation et déploiement:
Assurance Multi-Risque Habitation –
Sinistralité Incendie & Dégât des Eaux
24 mars 2015 TechDay Big Data – Ecole 42 27
Compréhension & audit des données
• Base sinistres d’origine climatique
• Base contrats (clients)
• Sites Web alertes météo
• Réseaux sociaux
• Flux RSS d’information
Evaluation et déploiement:
Sévérité en temps réel
d’une catastrophe climatique
24 mars 2015 TechDay Big Data – Ecole 42 28
Agenda
• Qu’est-ce que le Big Data ?
• Méthodologie
• Square Predict
• Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 29
● Qu’est ce que c’est ?
● Histoire.
● Architecture de référence.
● Système d’exploitation de la Donnée.
● le Coeur de Hadoop.
o HDFS
o Map Reduce.
● Demo
o Réaliser un programme MapReduce Hadoop/Java.
o Usine Logicielle SF4H.
● En bref :
o YARN.
o Hive.
o Spark.
Hadoop
24 mars 2015 TechDay Big Data – Ecole 42 30
● Solution Open Source Big Data fournissant un socle
o Distribué
 Stockage.
 Traitement.
o Scalable
 Scalabilité linéaire.
● Stockage local => Rapide et peu cher.
o SAN => 2-10$ / Go
o NAS => 1-5$ / Go
o Local => 0.05$ / Go.
● Cluster de “commodity hardware”
● Open Source pour éviter le “vendor lock-in”
Hadoop
Qu’est ce que c’est ?
24 mars 2015 TechDay Big Data – Ecole 42 31
Hadoop
Historique
24 mars 2015 TechDay Big Data – Ecole 42 32
Hadoop
Architecture de référence BI
24 mars 2015 TechDay Big Data – Ecole 42 33
En 10 ans, son adoption ne fait plus aucun doute !
Hadoop
Architecture de référence BI
24 mars 2015 TechDay Big Data – Ecole 42 34
Hadoop
Système d’exploitation de la donnée
24 mars 2015 TechDay Big Data – Ecole 42 35
● Système de fichier distribué.
● Scalable horizontale (ajout de noeuds)
● Tolérant aux pannes (réplication)
● Full Scan, Gros Fichier (--- lecture aléatoire)
Replication Factor (3)
Block Sise (128 Mo)
#NameNode (SPOF,
FAT, Master/Slave)
Hadoop
HDFS (Hadoop Distributed File System)
24 mars 2015 TechDay Big Data – Ecole 42 36
Hadoop
MapReduce
● Framework de programmation
o Parallélisation automatique des jobs Hadoop.
o Gestion transparente du mode distribué.
o Le traitement est envoyé là où résident les données.
● MapReduce = 2 fonctions.
o map()
 Convertir les données en entrée en une série de paires clé/valeur.
o reduce()
 Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé.
 Consolider les données issues du Mapper.
MapReduce est un Framework
=> Structurant en terme de développement / conception.
=> Il faut rentrer dans le paradigme.
24 mars 2015 TechDay Big Data – Ecole 42 37
Hadoop
Map Reduce
24 mars 2015 TechDay Big Data – Ecole 42 38
Hadoop
Démo (WordCount)
24 mars 2015 TechDay Big Data – Ecole 42 39
Hadoop
Démo (SF4H)
24 mars 2015 TechDay Big Data – Ecole 42 40
Hadoop
Démo (Méthode)
1 - Créons.
Créer un projet à
l’aide de l’archetype.
- Développer les
Fonctions Map /
Reduce et le Job.
2 - Développons. 3 - Testons.
- Écrire un Test
Unitaire.
Simulation Cluster
In Memory.
4 - Testons encore.
- Tester dans le
HDP en
standalone.
- Tester le projet sur la
plateforme avec
passage à l'échelle.
5 - Testons encore et
encore..
- Mettre le projet sur le
SCM.
6 - Partageons.
24 mars 2015 TechDay Big Data – Ecole 42 41
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 42
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 43
Hadoop
Démo (Code)
24 mars 2015 TechDay Big Data – Ecole 42 44
Hadoop
Démo (Vidéo)
24 mars 2015 TechDay Big Data – Ecole 42 45
Hadoop
En Bref : Yarn
YARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte
mais une évolution du framework MapReduce.
Des tâches Map sont en attente alors que des slots de tâche reduce sont
libres.
Valeurs codées en dur.
JT NN
TE DN TE DN TE DN
ResourceManager
AplicationMaster AM AM
TE DN TE DN TE DN
Avant Après
Problème de limite de “Scalability”
Problème d’allocation des resources
24 mars 2015 TechDay Big Data – Ecole 42 46
Hadoop se transforme en OS de la donnée !
● Client et cluster peuvent utiliser des versions différentes.
● Des protocoles de communication standardisés et documentés.
● Évolution du framework progressive avec rétro-compatibilité sans destruction des services.
Hadoop
En Bref : Yarn
24 mars 2015 TechDay Big Data – Ecole 42 47
Hadoop
En Bref : Hive
● Requêtage SQL sur Hadoop (HiveQL)
○ Permet d’accéder simplement aux données
○ Ouvre Hadoop aux habitués du SQL
○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.)
● Origine :
○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive)
● Les Requêtes HiveQL sont compilés en jobs Map Reduce
○ Lenteur importante (latence des jobs Map Reduce)
● Faibles performances +
● Marché très important du BD SQL.
○ Impala
○ Spark SQL
○ Drill
○ Elatstic Search For Hadoop.
Horton Works pousse à
l'optimisation (stringer)
24 mars 2015 TechDay Big Data – Ecole 42 48
Hadoop
En Bref : Spark
● Spark est un Moteur Map Reduce + évolué et + Rapide.
● Compatibilité Stockage, Moteur
d'exécution
● +Rapide.
Utilisation intensive de la mémoire
(RDD)
Langage de programmation
fonctionnel orienté opération
“lazyless”.
● Un EcoSystéme dédié au traitement
analytique.
24 mars 2015 TechDay Big Data – Ecole 42 49
Philippe Barra
pbarra@arrow-group.eu
Stéphane Goumard
sgoumard@arrow-group.eu
Contact
contact@arrow-group.eu
Arrow Financial Consulting
Arrow Group Recrutement
@Arrow_Group1
Merci
Questions ?

More Related Content

Viewers also liked

Quelle sera votre expérience Heritage Resorts- Ile Maurice?
Quelle sera votre expérience Heritage Resorts- Ile Maurice?Quelle sera votre expérience Heritage Resorts- Ile Maurice?
Quelle sera votre expérience Heritage Resorts- Ile Maurice?Heritage Resorts - Mauritius
 
Puentes terrorificos
Puentes terrorificosPuentes terrorificos
Puentes terrorificosjmartin
 
Mettre la réalité augmentée à votre service
Mettre la réalité augmentée à votre serviceMettre la réalité augmentée à votre service
Mettre la réalité augmentée à votre serviceGrégory MAUBON, PhD
 
Ingenieria de Sofware Libre para Ambientes Moviles
Ingenieria de Sofware Libre para Ambientes MovilesIngenieria de Sofware Libre para Ambientes Moviles
Ingenieria de Sofware Libre para Ambientes MovilesJuan Carlos Olivares Rojas
 
Cliquez sur la destination de votre choix
Cliquez sur la destination de votre choixCliquez sur la destination de votre choix
Cliquez sur la destination de votre choixJean Christophe Coppee
 
Femme grillagee
Femme grillageeFemme grillagee
Femme grillageelyago
 
La structuration des groupes médiatiques dans le cadre économique imposé par ...
La structuration des groupes médiatiques dans le cadre économique imposé par ...La structuration des groupes médiatiques dans le cadre économique imposé par ...
La structuration des groupes médiatiques dans le cadre économique imposé par ...M@rsouin
 
Mélanie Tremblay, Designer graphique | Portfolio
Mélanie Tremblay, Designer graphique | PortfolioMélanie Tremblay, Designer graphique | Portfolio
Mélanie Tremblay, Designer graphique | PortfolioMél Tremblay
 
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
La Puissance Du Web Communautaire,  par Eric Lamidieu 2008La Puissance Du Web Communautaire,  par Eric Lamidieu 2008
La Puissance Du Web Communautaire, par Eric Lamidieu 2008Eric LAMIDIEU
 
Nos formations Youpli : les médias sociaux (utilisation business)
Nos formations Youpli : les médias sociaux (utilisation business)Nos formations Youpli : les médias sociaux (utilisation business)
Nos formations Youpli : les médias sociaux (utilisation business)Youpli Software
 
Mapas Y Minutos - Motivacion
Mapas Y Minutos - MotivacionMapas Y Minutos - Motivacion
Mapas Y Minutos - MotivacionLuis Gaviria
 

Viewers also liked (17)

Quelle sera votre expérience Heritage Resorts- Ile Maurice?
Quelle sera votre expérience Heritage Resorts- Ile Maurice?Quelle sera votre expérience Heritage Resorts- Ile Maurice?
Quelle sera votre expérience Heritage Resorts- Ile Maurice?
 
Projets carrières
Projets carrièresProjets carrières
Projets carrières
 
Puentes terrorificos
Puentes terrorificosPuentes terrorificos
Puentes terrorificos
 
Mettre la réalité augmentée à votre service
Mettre la réalité augmentée à votre serviceMettre la réalité augmentée à votre service
Mettre la réalité augmentée à votre service
 
Ingenieria de Sofware Libre para Ambientes Moviles
Ingenieria de Sofware Libre para Ambientes MovilesIngenieria de Sofware Libre para Ambientes Moviles
Ingenieria de Sofware Libre para Ambientes Moviles
 
Cliquez sur la destination de votre choix
Cliquez sur la destination de votre choixCliquez sur la destination de votre choix
Cliquez sur la destination de votre choix
 
Tesis is
Tesis isTesis is
Tesis is
 
Femme grillagee
Femme grillageeFemme grillagee
Femme grillagee
 
La structuration des groupes médiatiques dans le cadre économique imposé par ...
La structuration des groupes médiatiques dans le cadre économique imposé par ...La structuration des groupes médiatiques dans le cadre économique imposé par ...
La structuration des groupes médiatiques dans le cadre économique imposé par ...
 
Mélanie Tremblay, Designer graphique | Portfolio
Mélanie Tremblay, Designer graphique | PortfolioMélanie Tremblay, Designer graphique | Portfolio
Mélanie Tremblay, Designer graphique | Portfolio
 
Colocación verbal metafórica
Colocación verbal metafóricaColocación verbal metafórica
Colocación verbal metafórica
 
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
La Puissance Du Web Communautaire,  par Eric Lamidieu 2008La Puissance Du Web Communautaire,  par Eric Lamidieu 2008
La Puissance Du Web Communautaire, par Eric Lamidieu 2008
 
Iphone6
Iphone6Iphone6
Iphone6
 
Nos formations Youpli : les médias sociaux (utilisation business)
Nos formations Youpli : les médias sociaux (utilisation business)Nos formations Youpli : les médias sociaux (utilisation business)
Nos formations Youpli : les médias sociaux (utilisation business)
 
I N F O R M E De Misiones
I N F O R M E De  MisionesI N F O R M E De  Misiones
I N F O R M E De Misiones
 
Mon avenir
Mon avenirMon avenir
Mon avenir
 
Mapas Y Minutos - Motivacion
Mapas Y Minutos - MotivacionMapas Y Minutos - Motivacion
Mapas Y Minutos - Motivacion
 

More from Arrow Group

Techday Arrow Group: Java 8
Techday Arrow Group: Java 8Techday Arrow Group: Java 8
Techday Arrow Group: Java 8Arrow Group
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataArrow Group
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3D
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3DTechday Arrow Group: Delphi Xe5 Android - une approche par la 3D
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3DArrow Group
 
Formation html5 css3 java script
Formation html5 css3 java scriptFormation html5 css3 java script
Formation html5 css3 java scriptArrow Group
 
Arrow Group: nos événements et recrutements en février / mars 2015
Arrow Group: nos événements et recrutements en février / mars 2015Arrow Group: nos événements et recrutements en février / mars 2015
Arrow Group: nos événements et recrutements en février / mars 2015Arrow Group
 
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...Arrow Group
 

More from Arrow Group (8)

Techday Arrow Group: Java 8
Techday Arrow Group: Java 8Techday Arrow Group: Java 8
Techday Arrow Group: Java 8
 
Techday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big DataTechday Arrow Group: Hadoop & le Big Data
Techday Arrow Group: Hadoop & le Big Data
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3D
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3DTechday Arrow Group: Delphi Xe5 Android - une approche par la 3D
Techday Arrow Group: Delphi Xe5 Android - une approche par la 3D
 
Advanced html5
Advanced html5Advanced html5
Advanced html5
 
Formation html5 css3 java script
Formation html5 css3 java scriptFormation html5 css3 java script
Formation html5 css3 java script
 
Arrow Group: nos événements et recrutements en février / mars 2015
Arrow Group: nos événements et recrutements en février / mars 2015Arrow Group: nos événements et recrutements en février / mars 2015
Arrow Group: nos événements et recrutements en février / mars 2015
 
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...
Arrow Institute: petit-déjeuner thématique autour de Bitcoin - Qu’est-ce que ...
 

Techday Arrow Group: Conférence Big Data à l'école 42

  • 1. 24 mars 2015 TechDay Big Data – Ecole 42 1 TechDay Big Data Philippe Barra & Stéphane Goumard
  • 2. 24 mars 2015 TechDay Big Data – Ecole 42 2 Qui est Arrow Group ?
  • 3. 24 mars 2015 TechDay Big Data – Ecole 42 3 www.arrow‐group.eu
  • 4. 24 mars 2015 TechDay Big Data – Ecole 42 4
  • 5. 24 mars 2015 TechDay Big Data – Ecole 42 5
  • 6. 24 mars 2015 TechDay Big Data – Ecole 42 6 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  • 7. 24 mars 2015 TechDay Big Data – Ecole 42 7 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  • 8. 24 mars 2015 TechDay Big Data – Ecole 42 8 Chaque minute sur Internet… source: http://pennystocks.la/internet-in-real-time/
  • 9. 24 mars 2015 TechDay Big Data – Ecole 42 9 Evolution du hardware exponentielle
  • 10. 24 mars 2015 TechDay Big Data – Ecole 42 10 Le Big Data, selon un rapport de recherche de Gartner de 2001 est une démarche consistant à extraire l’information pertinente d’un ensemble de données caractérisées par : Le Big Data
  • 11. 24 mars 2015 TechDay Big Data – Ecole 42 11 Le Big Data peut améliorer les performances dans ces domaines: • Recommandations : déjà utilisés par les géants de la vente en ligne • Analyse de sentiments : analyse des données non structurées pour déterminer le ressenti des utilisateurs face à un produit, une marque… • Modélisation des risques : meilleure détermination des risques par traitement croisé des données historiques et facteurs environnementaux, et simulation des scenarios potentiels • Détection de fraudes : détection de comportements inhabituels • Analyse des graphes sociaux : pour déterminer les clients les plus influents qui ne sont pas forcement ceux qui achètent le plus • Résiliation clients : détection des comportements amenant à la résiliation et amélioration des relations clients • … Que peut apporter le Big Data ?
  • 12. 24 mars 2015 TechDay Big Data – Ecole 42 12 • Un projet Big Data est un projet de R&D appliqué et non un projet d’informatisation de processus métiers. • Un projet Big Data dépend des données et non de spécifications. Le cahier des charges est remplacé par les cas d’utilisation des données. • La technologie et les mathématiques statistiques permettent aujourd’hui de rendre accessible des traitements en temps réel. Spécificités d’un projet Big Data
  • 13. 24 mars 2015 TechDay Big Data – Ecole 42 13 MétierMétier StatistiqueStatistiqueITIT Un projet Big Data est la mise en commun des trois compétences : Projet Big Data Projet Big Data Compétences indispensables
  • 14. 24 mars 2015 TechDay Big Data – Ecole 42 14 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  • 15. 24 mars 2015 TechDay Big Data – Ecole 42 15 Arrow Group a conçu une méthodologie Big Data Analytics conciliant la méthodologie de data mining CRISP-DM et la méthodologie agile Scrum : Méthodologie Big Data Analytics
  • 16. 24 mars 2015 TechDay Big Data – Ecole 42 16 Processus Big Data Analytics
  • 17. 24 mars 2015 TechDay Big Data – Ecole 42 17 Objectifs • Définir les objectifs client par cas d’usage • Identifier le besoin, les conditions de réussite, les données clients • Construire le périmètre, le cadrage, les conditions de collaboration entre le client et l’équipe projet Compréhension du Business – Cas d’usage Métier StatistiqueIT
  • 18. 24 mars 2015 TechDay Big Data – Ecole 42 18 Métier StatistiqueIT Objectifs • Identifier l’ensemble des données exploitables : données du client, de l’Open Data, des réseaux sociaux, du Web sémantique, des logs, des capteurs… • Elaborer les méthodes de collecte • Collecter les données Compréhension des Données
  • 19. 24 mars 2015 TechDay Big Data – Ecole 42 19 Objectifs • Auditer et améliorer la qualité des donnée • Elaborer les méthodes de fusion • Elaborer les règles de Privacy by Design à appliquer • Préparer les donner à analyser Audit des Données Métier StatistiqueIT
  • 20. 24 mars 2015 TechDay Big Data – Ecole 42 20 Objectifs • Sélection des méthodes d’analyse • Paramétrage des algorithmes • Application des techniques d’analyse Modélisation & Analyse Métier StatistiqueIT
  • 21. 24 mars 2015 TechDay Big Data – Ecole 42 21 Objectifs • Analyse des résultats • Vérification du respect des objectifs business Métier StatistiqueIT Evaluation
  • 22. 24 mars 2015 TechDay Big Data – Ecole 42 22 Objectifs • Elaboration de la présentation des résultats • Elaboration du retour d’expérience sur le développement du cas d’usage Métier StatistiqueIT Déploiement
  • 23. 24 mars 2015 TechDay Big Data – Ecole 42 23 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  • 24. 24 mars 2015 TechDay Big Data – Ecole 42 24 Square Predict vise à valoriser et monétiser l'énorme quantité de données dont les assureurs disposent depuis des années. Consortium : Métier StatistiqueIT Assureur français leader mondial
  • 25. 24 mars 2015 TechDay Big Data – Ecole 42 25 Assurance Multi-Risque Habitation : Sinistralité Incendie & Dégât des Eaux Evaluation en temps réel de la sévérité d’une catastrophe naturelle Exemples de cas d’usages
  • 26. 24 mars 2015 TechDay Big Data – Ecole 42 26 Compréhension & audit des données: Evaluation et déploiement: Assurance Multi-Risque Habitation – Sinistralité Incendie & Dégât des Eaux
  • 27. 24 mars 2015 TechDay Big Data – Ecole 42 27 Compréhension & audit des données • Base sinistres d’origine climatique • Base contrats (clients) • Sites Web alertes météo • Réseaux sociaux • Flux RSS d’information Evaluation et déploiement: Sévérité en temps réel d’une catastrophe climatique
  • 28. 24 mars 2015 TechDay Big Data – Ecole 42 28 Agenda • Qu’est-ce que le Big Data ? • Méthodologie • Square Predict • Hadoop
  • 29. 24 mars 2015 TechDay Big Data – Ecole 42 29 ● Qu’est ce que c’est ? ● Histoire. ● Architecture de référence. ● Système d’exploitation de la Donnée. ● le Coeur de Hadoop. o HDFS o Map Reduce. ● Demo o Réaliser un programme MapReduce Hadoop/Java. o Usine Logicielle SF4H. ● En bref : o YARN. o Hive. o Spark. Hadoop
  • 30. 24 mars 2015 TechDay Big Data – Ecole 42 30 ● Solution Open Source Big Data fournissant un socle o Distribué  Stockage.  Traitement. o Scalable  Scalabilité linéaire. ● Stockage local => Rapide et peu cher. o SAN => 2-10$ / Go o NAS => 1-5$ / Go o Local => 0.05$ / Go. ● Cluster de “commodity hardware” ● Open Source pour éviter le “vendor lock-in” Hadoop Qu’est ce que c’est ?
  • 31. 24 mars 2015 TechDay Big Data – Ecole 42 31 Hadoop Historique
  • 32. 24 mars 2015 TechDay Big Data – Ecole 42 32 Hadoop Architecture de référence BI
  • 33. 24 mars 2015 TechDay Big Data – Ecole 42 33 En 10 ans, son adoption ne fait plus aucun doute ! Hadoop Architecture de référence BI
  • 34. 24 mars 2015 TechDay Big Data – Ecole 42 34 Hadoop Système d’exploitation de la donnée
  • 35. 24 mars 2015 TechDay Big Data – Ecole 42 35 ● Système de fichier distribué. ● Scalable horizontale (ajout de noeuds) ● Tolérant aux pannes (réplication) ● Full Scan, Gros Fichier (--- lecture aléatoire) Replication Factor (3) Block Sise (128 Mo) #NameNode (SPOF, FAT, Master/Slave) Hadoop HDFS (Hadoop Distributed File System)
  • 36. 24 mars 2015 TechDay Big Data – Ecole 42 36 Hadoop MapReduce ● Framework de programmation o Parallélisation automatique des jobs Hadoop. o Gestion transparente du mode distribué. o Le traitement est envoyé là où résident les données. ● MapReduce = 2 fonctions. o map()  Convertir les données en entrée en une série de paires clé/valeur. o reduce()  Appliquer un traitement à l’ensemble des valeurs regroupées par leur clé.  Consolider les données issues du Mapper. MapReduce est un Framework => Structurant en terme de développement / conception. => Il faut rentrer dans le paradigme.
  • 37. 24 mars 2015 TechDay Big Data – Ecole 42 37 Hadoop Map Reduce
  • 38. 24 mars 2015 TechDay Big Data – Ecole 42 38 Hadoop Démo (WordCount)
  • 39. 24 mars 2015 TechDay Big Data – Ecole 42 39 Hadoop Démo (SF4H)
  • 40. 24 mars 2015 TechDay Big Data – Ecole 42 40 Hadoop Démo (Méthode) 1 - Créons. Créer un projet à l’aide de l’archetype. - Développer les Fonctions Map / Reduce et le Job. 2 - Développons. 3 - Testons. - Écrire un Test Unitaire. Simulation Cluster In Memory. 4 - Testons encore. - Tester dans le HDP en standalone. - Tester le projet sur la plateforme avec passage à l'échelle. 5 - Testons encore et encore.. - Mettre le projet sur le SCM. 6 - Partageons.
  • 41. 24 mars 2015 TechDay Big Data – Ecole 42 41 Hadoop Démo (Code)
  • 42. 24 mars 2015 TechDay Big Data – Ecole 42 42 Hadoop Démo (Code)
  • 43. 24 mars 2015 TechDay Big Data – Ecole 42 43 Hadoop Démo (Code)
  • 44. 24 mars 2015 TechDay Big Data – Ecole 42 44 Hadoop Démo (Vidéo)
  • 45. 24 mars 2015 TechDay Big Data – Ecole 42 45 Hadoop En Bref : Yarn YARN (Yet-Another-Resource-Negotiator) est aussi appelé MapReduce 2.0. Ce n’est pas une refonte mais une évolution du framework MapReduce. Des tâches Map sont en attente alors que des slots de tâche reduce sont libres. Valeurs codées en dur. JT NN TE DN TE DN TE DN ResourceManager AplicationMaster AM AM TE DN TE DN TE DN Avant Après Problème de limite de “Scalability” Problème d’allocation des resources
  • 46. 24 mars 2015 TechDay Big Data – Ecole 42 46 Hadoop se transforme en OS de la donnée ! ● Client et cluster peuvent utiliser des versions différentes. ● Des protocoles de communication standardisés et documentés. ● Évolution du framework progressive avec rétro-compatibilité sans destruction des services. Hadoop En Bref : Yarn
  • 47. 24 mars 2015 TechDay Big Data – Ecole 42 47 Hadoop En Bref : Hive ● Requêtage SQL sur Hadoop (HiveQL) ○ Permet d’accéder simplement aux données ○ Ouvre Hadoop aux habitués du SQL ○ Propose des drivers xDBC pour brancher des outils externes (Tableau, etc.) ● Origine : ○ Facebook (90% des Jobs Hadoop de Facebook sont générés avec Hive) ● Les Requêtes HiveQL sont compilés en jobs Map Reduce ○ Lenteur importante (latence des jobs Map Reduce) ● Faibles performances + ● Marché très important du BD SQL. ○ Impala ○ Spark SQL ○ Drill ○ Elatstic Search For Hadoop. Horton Works pousse à l'optimisation (stringer)
  • 48. 24 mars 2015 TechDay Big Data – Ecole 42 48 Hadoop En Bref : Spark ● Spark est un Moteur Map Reduce + évolué et + Rapide. ● Compatibilité Stockage, Moteur d'exécution ● +Rapide. Utilisation intensive de la mémoire (RDD) Langage de programmation fonctionnel orienté opération “lazyless”. ● Un EcoSystéme dédié au traitement analytique.
  • 49. 24 mars 2015 TechDay Big Data – Ecole 42 49 Philippe Barra pbarra@arrow-group.eu Stéphane Goumard sgoumard@arrow-group.eu Contact contact@arrow-group.eu Arrow Financial Consulting Arrow Group Recrutement @Arrow_Group1 Merci Questions ?