BIGDATA                         ET DONNÉES SEO                                  Vincent Heuschling                        ...
AGENDA                         AFFINI-TECH                         SEO ?                         TRAITER et ANALYSER      ...
3 PILIERS              Méthodes projets                                                 Business             Outils de rep...
Collecter           Analyser       Présenter                         Stocker             Valoriser      Organiser         ...
SEO ?       Optimiser le trafic dun site web issu       des moteurs de recherche.          Définir quels éléments du site so...
CONTEXTE                         100 millions de visites par mois                         Patrimoine informationnel très r...
COMBIEN ?                         10 visites SEO (hors marque)                         30 visites SEO (marque)            ...
DÉMARCHE SEO                         Mesurer    Collecter                         Produire   Analysermercredi 5 décembre 12
TROUVER 400K NOUVELLES URLS                    À PROMOUVOIR PARMI 84M ?                             Similarités et Classifi...
OUTILS    Collecter             Traiter   Analyser                          Pigmercredi 5 décembre 12
TYPES DE REQUETES                         Analyse par zones de géographique                         Données socio-économiq...
PIPELINE                                           Data                                Insee                              ...
IMPACT DU CRAWL                  Projection et croisement de 2 sources                         Visites                    ...
LONG TAIL                     Très grosses concentrations d’activités sur                    certaines localités.         ...
HEATMAPS                                Départements                                    (96)                              ...
MESURER : RANKINGS                     Collecte des réponses Google (30x par                    recherche = dizaines de mi...
mercredi 5 décembre 12
OUTILS   Collecter             Traiter   Stocker   Visualiser                                              D3.js          ...
MONGODB            Base document            Stocker l’information avec son contexte            Données agrégées et leurs d...
RÉSULTATSmercredi 5 décembre 12
EVOLUTIONS ?           Plus de temps réel : Impala, Spark/Shark ?         Bases de données colonnes pour les données      ...
GENERALISATION                Scalabilité des outils de traitement de logs               Variation des besoins            ...
MERCI !                                             Vincent Heuschling                                             Gsm : 0...
Upcoming SlideShare
Loading in...5
×

Big Data et SEO, par Vincent Heuschling

4,179

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,179
On Slideshare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
18
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Big Data et SEO, par Vincent Heuschling

  1. 1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74mercredi 5 décembre 12
  2. 2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENSmercredi 5 décembre 12
  3. 3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3mercredi 5 décembre 12
  4. 4. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4mercredi 5 décembre 12
  5. 5. SEO ? Optimiser le trafic dun site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrencemercredi 5 décembre 12
  6. 6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SASmercredi 5 décembre 12
  7. 7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la sourcemercredi 5 décembre 12
  8. 8. DÉMARCHE SEO Mesurer Collecter Produire Analysermercredi 5 décembre 12
  9. 9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenDatamercredi 5 décembre 12
  10. 10. OUTILS Collecter Traiter Analyser Pigmercredi 5 décembre 12
  11. 11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visitesmercredi 5 décembre 12
  12. 12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seomercredi 5 décembre 12
  13. 13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TSmercredi 5 décembre 12
  14. 14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4mercredi 5 décembre 12
  15. 15. HEATMAPS Départements (96) Volume de visites Activités (10500)mercredi 5 décembre 12
  16. 16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques.mercredi 5 décembre 12
  17. 17. mercredi 5 décembre 12
  18. 18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analysermercredi 5 décembre 12
  19. 19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] }mercredi 5 décembre 12
  20. 20. RÉSULTATSmercredi 5 décembre 12
  21. 21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ?mercredi 5 décembre 12
  22. 22. GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR)mercredi 5 décembre 12
  23. 23. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24mercredi 5 décembre 12
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×