• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Datasio - Big Data Congress Paris 2012
 

Datasio - Big Data Congress Paris 2012

on

  • 1,053 views

These slides were presented at the Big Data Congress held in Paris on March 20-21st 2012. Concepts and uses cases of Big Data in geosciences were presented.

These slides were presented at the Big Data Congress held in Paris on March 20-21st 2012. Concepts and uses cases of Big Data in geosciences were presented.

Statistics

Views

Total Views
1,053
Views on SlideShare
826
Embed Views
227

Actions

Likes
0
Downloads
32
Comments
0

3 Embeds 227

http://www.datasio.com 223
http://localhost 3
http://127.0.0.1 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Datasio - Big Data Congress Paris 2012 Datasio - Big Data Congress Paris 2012 Presentation Transcript

    • BIG DATA en Sciences et Industries de l’Environnement Francois Royer ¸ www.datasio.com 21 mars 2012FR — Big Data Congress, Paris 2012 — 1/23
    • ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - ArgosFR — Big Data Congress, Paris 2012 — 2/23
    • ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 3/23
    • ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 4/23
    • `L’ere du ”Data Scientist” ´ ´L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.FR — Big Data Congress, Paris 2012 — 5/23
    • `L’ere du ”Data Scientist” ´ ´L’accumulation exponentielle de donnees transforme la demarche d’analyse 1960 E. Wigner, ”The Unreasonable Effectiveness of Mathematics in the Natural Sciences,” Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1–14. 2009 A. Halevy, P. Norvig, F. Pereira, ”The Unreasonable Effectiveness of Data,” IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12.FR — Big Data Congress, Paris 2012 — 5/23
    • All models are wrong, “ but some are useful. ” George BoxFR — Big Data Congress, Paris 2012 — 6/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • Data Scientist ´= nouveau metier? Ce qui ne change pas ´ Le besoin en competences statistiques ´ ´ (Bayesiennes, frequentistes etc...) ´ La demarche de questionnement et de critique ´ Les protocoles de collecte de donnees Ce qui change ´ Le stockage et le traitement de donnees ´ ´ L’interaction entre modelisateurs, ingenieurs ` ´ systemes et bases de donnees et ... le clientFR — Big Data Congress, Paris 2012 — 7/23
    • ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 8/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • ´Definition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour ` ´ ´ ´ Systemes geolocalises (vehicules, personnes) 100 MB/jour ` ´ ´ Modeles meteo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process ´ ´ ´ Donnees pre-traitees (GPS) Cout d’analyse - ˆ ´ Aggregation, contextualisation Cout d’analyse + ˆ Appels BD Cout d’analyse +++ ˆ Calculs en cascade Cout d’analyse +++ ˆFR — Big Data Congress, Paris 2012 — 9/23
    • Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
    • Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
    • Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
    • Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
    • Diagnostic Big Data `Docteur, ais-je un probleme Big Data? Oui, si : ´ Vous avez un reseau d’observation autonome ´ ´ (capteurs meteo, RFID, GPS, balises Argos, ´ ´ ` smartphones, telemetres, instruments sur satellites...) ´ ´ Vos donnees dependent d’une communaute ´ ´ ´ d’utilisateurs ou d’individus instrumentes (etude de la ´ ´ mobilite humaine, ecologie terrestre et marine etc... ) Votre budget, programme de recherche ou business ´ plan prevoit de ”mesurer d’abord, traiter ensuite” ` Ces systemes de collecte produisent des flots de ´ donnees plus vite que vous ne pouvez les traiterFR — Big Data Congress, Paris 2012 — 10/23
    • Diagnostic Big DataC’est grave, Docteur? Tout ira bien, “ je vais vous prescrire du DevOps et des calculs ´ distribues. ”FR — Big Data Congress, Paris 2012 — 11/23
    • Solutions Big DataFR — Big Data Congress, Paris 2012 — 12/23
    • Solutions Big Data DevFR — Big Data Congress, Paris 2012 — 12/23
    • Solutions Big Data ´ Operations DevFR — Big Data Congress, Paris 2012 — 12/23
    • Solutions Big Data ´ Operations QA DevFR — Big Data Congress, Paris 2012 — 12/23
    • Solutions Big Data ´ Operations DevOps QA DevFR — Big Data Congress, Paris 2012 — 12/23
    • Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
    • Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
    • Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
    • Solutions Big Data Hier Noeuds de stockage ´ ´ peripheriques Stockage sur plusieurs niveaux ”chaud”/”froid” Supercalculateur au centre Data -> CodeFR — Big Data Congress, Paris 2012 — 13/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Aujourd’hui ˆ ´ Noeuds de stockage sur meme reseau GB ´ Materiel milieu de gamme (100 - 1000 CPUs) ` ´ Systeme de fichiers distribues (DFS) ´ Gestion des jobs et donnees par des Master Nodes Code -> DataFR — Big Data Congress, Paris 2012 — 14/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) ´ Projet en maturation, communaute active ´ ˆ ´ Parallelisation de taches et donnees robuste ´ Standard de facto en analyse de donnees massives ´ ´ Bonne interoperabilite avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, ´ integration: IBM, Cloudera, AWS...)FR — Big Data Congress, Paris 2012 — 15/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big Data Pourquoi Hadoop? ` Difficile a ”tuner” pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce ´ Embauche et formation de developpeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...)FR — Big Data Congress, Paris 2012 — 16/23
    • Solutions Big DataFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Map Reduce HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Hive Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Hive Pig Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • Solutions Big Data Zookeeper Hive Pig Mahout Map Reduce HBase HDFSFR — Big Data Congress, Paris 2012 — 17/23
    • ´Points cles Vers une Science ultra-empirique? Big Data pour la Recherche et l’Industrie : mode d’emploi ´ ´ Hadoop et les donnees geographiques et temporellesFR — Big Data Congress, Paris 2012 — 18/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt ´ ´ou Hadoop et les donnees geographiques et temporelles Besoin ´ retraitement et fouille de donnees historiques ´ ´ (geographiques et series temporelles) ´ ´ ´ Accelerer la decouverte d’anomalies et l’extraction de ´ valeur ajoutee ´ Problematique ´ ` ´ ´ Donnees tres structurees - solution competitive? ´ ´ ´ ´ Donnees correlees = pb du traitement independant? ´ ´ Donnees stockees en fichiers binaires - distribution? ´ ` ´ Algorithmes metier a reutiliser - interface Java?FR — Big Data Congress, Paris 2012 — 19/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt Traitement d’images Extraction + tiling + rendering ` Calculs massivement paralleles = gain de temps +++FR — Big Data Congress, Paris 2012 — 20/23
    • Hadoop-xyt ´ ´Geolocalisation de vehiculesFR — Big Data Congress, Paris 2012 — 21/23
    • ´ Tracabilite ¸ ´ Oceanographie Transport terrestre Imagerie satellite ´ Transport aerien ´ ´ ´ Telemetrie - ArgosFR — Big Data Congress, Paris 2012 — 22/23
    • DatasioWe are Data Scientists Data Mining · Prototypage · Algorithmie · Detection d’anomalies · Prediction · Machine ´ ´ Learning · Spatial data · Time series Francois Royer ¸ froyer@datasio.com www.datasio.comFR — Big Data Congress, Paris 2012 — 23/23