• Like
Big Data et SEO, par Vincent Heuschling
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Big Data et SEO, par Vincent Heuschling

  • 3,943 views
Published

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
3,943
On SlideShare
0
From Embeds
0
Number of Embeds
8

Actions

Shares
Downloads
18
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74mercredi 5 décembre 12
  • 2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENSmercredi 5 décembre 12
  • 3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3mercredi 5 décembre 12
  • 4. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4mercredi 5 décembre 12
  • 5. SEO ? Optimiser le trafic dun site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrencemercredi 5 décembre 12
  • 6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SASmercredi 5 décembre 12
  • 7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la sourcemercredi 5 décembre 12
  • 8. DÉMARCHE SEO Mesurer Collecter Produire Analysermercredi 5 décembre 12
  • 9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenDatamercredi 5 décembre 12
  • 10. OUTILS Collecter Traiter Analyser Pigmercredi 5 décembre 12
  • 11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visitesmercredi 5 décembre 12
  • 12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seomercredi 5 décembre 12
  • 13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TSmercredi 5 décembre 12
  • 14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4mercredi 5 décembre 12
  • 15. HEATMAPS Départements (96) Volume de visites Activités (10500)mercredi 5 décembre 12
  • 16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques.mercredi 5 décembre 12
  • 17. mercredi 5 décembre 12
  • 18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analysermercredi 5 décembre 12
  • 19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] }mercredi 5 décembre 12
  • 20. RÉSULTATSmercredi 5 décembre 12
  • 21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ?mercredi 5 décembre 12
  • 22. GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR)mercredi 5 décembre 12
  • 23. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24mercredi 5 décembre 12