• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Big-Data et données SEO par Affini-Tech
 

Big-Data et données SEO par Affini-Tech

on

  • 815 views

Comment les outils Big-Data (Hadoop, NOSQL, R, etc...) permettent de scaler les démarches SEO. Retours d'expérience de Affini-Tech

Comment les outils Big-Data (Hadoop, NOSQL, R, etc...) permettent de scaler les démarches SEO. Retours d'expérience de Affini-Tech

Statistics

Views

Total Views
815
Views on SlideShare
754
Embed Views
61

Actions

Likes
3
Downloads
3
Comments
0

2 Embeds 61

https://twitter.com 60
http://kred.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Big-Data et données SEO par Affini-Tech Big-Data et données SEO par Affini-Tech Presentation Transcript

    • BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74mercredi 5 décembre 12
    • AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENSmercredi 5 décembre 12
    • 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3mercredi 5 décembre 12
    • Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4mercredi 5 décembre 12
    • SEO ? Optimiser le trafic dun site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrencemercredi 5 décembre 12
    • CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SASmercredi 5 décembre 12
    • COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la sourcemercredi 5 décembre 12
    • DÉMARCHE SEO Mesurer Collecter Produire Analysermercredi 5 décembre 12
    • TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenDatamercredi 5 décembre 12
    • OUTILS Collecter Traiter Analyser Pigmercredi 5 décembre 12
    • TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visitesmercredi 5 décembre 12
    • PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seomercredi 5 décembre 12
    • IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TSmercredi 5 décembre 12
    • LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4mercredi 5 décembre 12
    • HEATMAPS Départements (96) Volume de visites Activités (10500)mercredi 5 décembre 12
    • MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques.mercredi 5 décembre 12
    • mercredi 5 décembre 12
    • OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analysermercredi 5 décembre 12
    • MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] }mercredi 5 décembre 12
    • RÉSULTATSmercredi 5 décembre 12
    • EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ?mercredi 5 décembre 12
    • MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24mercredi 5 décembre 12