Big Data et SEO, par Vincent Heuschling
Upcoming SlideShare
Loading in...5
×
 

Big Data et SEO, par Vincent Heuschling

on

  • 4,454 views

 

Statistics

Views

Total Views
4,454
Views on SlideShare
1,365
Embed Views
3,089

Actions

Likes
2
Downloads
13
Comments
0

10 Embeds 3,089

http://hugfrance.fr 2334
http://blog.affini-tech.com 728
http://beta.affini-tech.com 15
http://translate.googleusercontent.com 5
http://webcache.googleusercontent.com 2
http://localhost 1
https://www.google.fr 1
http://ranksit.com 1
http://prlog.ru 1
https://twitter.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big Data et SEO, par Vincent Heuschling Presentation Transcript

  • 1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74mercredi 5 décembre 12
  • 2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENSmercredi 5 décembre 12
  • 3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3mercredi 5 décembre 12
  • 4. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4mercredi 5 décembre 12
  • 5. SEO ? Optimiser le trafic dun site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrencemercredi 5 décembre 12
  • 6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SASmercredi 5 décembre 12
  • 7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la sourcemercredi 5 décembre 12
  • 8. DÉMARCHE SEO Mesurer Collecter Produire Analysermercredi 5 décembre 12
  • 9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenDatamercredi 5 décembre 12
  • 10. OUTILS Collecter Traiter Analyser Pigmercredi 5 décembre 12
  • 11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visitesmercredi 5 décembre 12
  • 12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seomercredi 5 décembre 12
  • 13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TSmercredi 5 décembre 12
  • 14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4mercredi 5 décembre 12
  • 15. HEATMAPS Départements (96) Volume de visites Activités (10500)mercredi 5 décembre 12
  • 16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques.mercredi 5 décembre 12
  • 17. mercredi 5 décembre 12
  • 18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analysermercredi 5 décembre 12
  • 19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] }mercredi 5 décembre 12
  • 20. RÉSULTATSmercredi 5 décembre 12
  • 21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ?mercredi 5 décembre 12
  • 22. GENERALISATION Scalabilité des outils de traitement de logs Variation des besoins Migration mySQL vers Hadoop/Hive : SQL Plateforme managée : "Simple as a Query" Avoir une boite à outils de Data-Analyse Dans un cloud mais local (FR)mercredi 5 décembre 12
  • 23. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24mercredi 5 décembre 12