SlideShare a Scribd company logo
1 of 23
Download to read offline
BIGDATA
                         ET DONNÉES SEO



                                  Vincent Heuschling
                                            @vhe74
mercredi 5 décembre 12
AGENDA
                         AFFINI-TECH
                         SEO ?
                         TRAITER et ANALYSER
                         MESURER
                         OUTILS
                         EVOLUTION DES MOYENS

mercredi 5 décembre 12
3 PILIERS
              Méthodes projets
                                                 Business
             Outils de reporting
                                                    &
             & Data-visualisation
                                                 Analyses


                         BigData                                  Modélisation
                         Hadoop              Technos   Sciences   Statistiques (R)
                         NoSQL                                    Machine Learning
                          Cloud

                    Intégration, Mise en Oeuvre, Conseil et Formation
                    Une démarche intégrée de bout en bout

  © 2012 Affini-Tech - Diffusion restreinte                                       3

mercredi 5 décembre 12
Collecter           Analyser       Présenter
                         Stocker             Valoriser      Organiser
                          Traiter


                                              Data-
                         BigData                            Décisionnel
                                             Science


                Votre infrastructure                     Notre Cloud




  © 2012 Affini-Tech - Diffusion restreinte                                4

mercredi 5 décembre 12
SEO ?
       Optimiser le trafic d'un site web issu
       des moteurs de recherche.
          Définir quels éléments du site sont à forte
       valeur et les promouvoir vers les moteurs de
       recherches
         Mesurer et étudier le positionnement du site
       sur des recherches vis à vis de sa concurrence

mercredi 5 décembre 12
CONTEXTE
                         100 millions de visites par mois
                         Patrimoine informationnel très riche
                         Business model basé sur la pub
                         Marché ultra concurrentiel
                         Plus de 15 Go de log par jour (sous-traités)
                         Appliance Teradata de 12 To compressés + SAS


mercredi 5 décembre 12
COMBIEN ?
                         10 visites SEO (hors marque)
                         30 visites SEO (marque)
                         90 visites non SEO
                         20 crawl
                         x7 à x10 au total (pages + ressources)
                         Nécessité de filtrer à la source

mercredi 5 décembre 12
DÉMARCHE SEO

                         Mesurer    Collecter


                         Produire   Analyser


mercredi 5 décembre 12
TROUVER 400K NOUVELLES URLS
                    À PROMOUVOIR PARMI 84M ?


                             Similarités et Classifications
                              Recommandation &
                           intelligence collective
                             OpenData



mercredi 5 décembre 12
OUTILS
    Collecter             Traiter   Analyser



                          Pig




mercredi 5 décembre 12
TYPES DE REQUETES
                         Analyse par zones de géographique
                         Données socio-économiques
                         Recherches de similarités
                         Analyse au niveau Url (granularité fine)
                         Impact du Crawl sur les visites


mercredi 5 décembre 12
PIPELINE
                                           Data
                                Insee
                                          géo-éco

                                Visites
                         Logs             Similarit.   Urls.
                                 seo

                                Crawl
                                 seo




mercredi 5 décembre 12
IMPACT DU CRAWL

                  Projection et croisement de 2 sources
                         Visites
                     Crawl
                  Pig COGROUP
                  Patterns sur TS




mercredi 5 décembre 12
LONG TAIL
                     Très grosses concentrations d’activités sur
                    certaines localités.
                         Map/Reduce !!                   1: 3003
                                                         2: 399
                                                         10: 243
                         PIG Skewed joins                50: 100
                                                         100: 54
                                                         500: 4




mercredi 5 décembre 12
HEATMAPS
                                Départements
                                    (96)




                                    Volume de
                                      visites
          Activités (10500)


mercredi 5 décembre 12
MESURER : RANKINGS

                     Collecte des réponses Google (30x par
                    recherche = dizaines de millions par mois)
                         Forte croissance de la volumétrie
                     Classifier et Segmenter par produit, par
                    thématiques.



mercredi 5 décembre 12
mercredi 5 décembre 12
OUTILS
   Collecter             Traiter   Stocker   Visualiser

                                              D3.js
                            Pig



        Analyser



mercredi 5 décembre 12
MONGODB
            Base document
            Stocker l’information avec son contexte
            Données agrégées et leurs détails
        Univers                Catégories   { univers : ‘‘restaurants’’,
       n                                      métrique : 250,
            n                 n               regions : [‘‘idf ’’, ‘‘paca’’],
                         Métriques            sousMétriques : [
                n                               {petitesVilles : 80},
                                                {moyennesVilles : 70},
            Localités
                                                {grandesVilles : 100},]
                                            }
mercredi 5 décembre 12
RÉSULTATS




mercredi 5 décembre 12
EVOLUTIONS ?

           Plus de temps réel : Impala, Spark/Shark ?
         Bases de données colonnes pour les données
        pure SQL ?
         Utilisation d’Elasticsearch pour indexer les
        données raffinées ?



mercredi 5 décembre 12
MERCI !

                                             Vincent Heuschling
                                             Gsm : 06 61 88 76 71
                                  Email : vhe@affini-tech.com
                          Web : http://www.affini-tech.com
                             Twitter : @affinitech & @vhe74




  © 2012 Affini-Tech - Diffusion restreinte                          24

mercredi 5 décembre 12
Big-Data et données SEO par Affini-Tech

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Big-Data et données SEO par Affini-Tech

  • 1. BIGDATA ET DONNÉES SEO Vincent Heuschling @vhe74 mercredi 5 décembre 12
  • 2. AGENDA AFFINI-TECH SEO ? TRAITER et ANALYSER MESURER OUTILS EVOLUTION DES MOYENS mercredi 5 décembre 12
  • 3. 3 PILIERS Méthodes projets Business Outils de reporting & & Data-visualisation Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout © 2012 Affini-Tech - Diffusion restreinte 3 mercredi 5 décembre 12
  • 4. Collecter Analyser Présenter Stocker Valoriser Organiser Traiter Data- BigData Décisionnel Science Votre infrastructure Notre Cloud © 2012 Affini-Tech - Diffusion restreinte 4 mercredi 5 décembre 12
  • 5. SEO ? Optimiser le trafic d'un site web issu des moteurs de recherche. Définir quels éléments du site sont à forte valeur et les promouvoir vers les moteurs de recherches Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa concurrence mercredi 5 décembre 12
  • 6. CONTEXTE 100 millions de visites par mois Patrimoine informationnel très riche Business model basé sur la pub Marché ultra concurrentiel Plus de 15 Go de log par jour (sous-traités) Appliance Teradata de 12 To compressés + SAS mercredi 5 décembre 12
  • 7. COMBIEN ? 10 visites SEO (hors marque) 30 visites SEO (marque) 90 visites non SEO 20 crawl x7 à x10 au total (pages + ressources) Nécessité de filtrer à la source mercredi 5 décembre 12
  • 8. DÉMARCHE SEO Mesurer Collecter Produire Analyser mercredi 5 décembre 12
  • 9. TROUVER 400K NOUVELLES URLS À PROMOUVOIR PARMI 84M ? Similarités et Classifications Recommandation & intelligence collective OpenData mercredi 5 décembre 12
  • 10. OUTILS Collecter Traiter Analyser Pig mercredi 5 décembre 12
  • 11. TYPES DE REQUETES Analyse par zones de géographique Données socio-économiques Recherches de similarités Analyse au niveau Url (granularité fine) Impact du Crawl sur les visites mercredi 5 décembre 12
  • 12. PIPELINE Data Insee géo-éco Visites Logs Similarit. Urls. seo Crawl seo mercredi 5 décembre 12
  • 13. IMPACT DU CRAWL Projection et croisement de 2 sources Visites Crawl Pig COGROUP Patterns sur TS mercredi 5 décembre 12
  • 14. LONG TAIL Très grosses concentrations d’activités sur certaines localités. Map/Reduce !! 1: 3003 2: 399 10: 243 PIG Skewed joins 50: 100 100: 54 500: 4 mercredi 5 décembre 12
  • 15. HEATMAPS Départements (96) Volume de visites Activités (10500) mercredi 5 décembre 12
  • 16. MESURER : RANKINGS Collecte des réponses Google (30x par recherche = dizaines de millions par mois) Forte croissance de la volumétrie Classifier et Segmenter par produit, par thématiques. mercredi 5 décembre 12
  • 18. OUTILS Collecter Traiter Stocker Visualiser D3.js Pig Analyser mercredi 5 décembre 12
  • 19. MONGODB Base document Stocker l’information avec son contexte Données agrégées et leurs détails Univers Catégories { univers : ‘‘restaurants’’, n métrique : 250, n n regions : [‘‘idf ’’, ‘‘paca’’], Métriques sousMétriques : [ n {petitesVilles : 80}, {moyennesVilles : 70}, Localités {grandesVilles : 100},] } mercredi 5 décembre 12
  • 21. EVOLUTIONS ? Plus de temps réel : Impala, Spark/Shark ? Bases de données colonnes pour les données pure SQL ? Utilisation d’Elasticsearch pour indexer les données raffinées ? mercredi 5 décembre 12
  • 22. MERCI ! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 © 2012 Affini-Tech - Diffusion restreinte 24 mercredi 5 décembre 12