De l’annuaire de sites à la recherche sociale: 15 ans d’évolution!
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

De l’annuaire de sites à la recherche sociale: 15 ans d’évolution!

  • 602 views
Uploaded on

Leçon académique intitulée "De l'annuaire de sites à la recherche sociale: 15 ans d'évolution!" donnée lors de la journée "Etudiant Polytech d'un jour" du 23/02/2012 sur le thème "L'informatique,......

Leçon académique intitulée "De l'annuaire de sites à la recherche sociale: 15 ans d'évolution!" donnée lors de la journée "Etudiant Polytech d'un jour" du 23/02/2012 sur le thème "L'informatique, une affaire d'ingénieur! Entre réseaux sociaux, vie privée et infrastructure". Le but de ces opérations est de donner une image plus concrète des études et métiers de l'ingénieur, en proposant aux jeunes de 5 et 6ème année d'assister à une leçon académique, suivie d'un exposé industriel, puis de visiter des entreprises.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
602
On Slideshare
600
From Embeds
2
Number of Embeds
2

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 2

http://www.robertviseur.be 1
https://www.linkedin.com 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Faculté PolytechniqueÉtudiant dun jour enPolytechDe lannuaire de sites à la recherche sociale: 15 ans dévolutionDr Ir Robert Viseurrobert.viseur@umons.ac.beEtudiant dun jour en Polytech - Linformatique, une affaire dingénieur! - Entreréseaux sociaux, vie privée et infrastructure.Mons, le 23 février 2012.
  • 2. De lannuaire à la recherche socialeUniversité de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 2
  • 3. 1994 : création de Yahoo! Yahoo! démarre comme annuaire de sites Internet.  Principe des « Pages Jaunes » adapté à la recherche de sites.  Problèmes ?  Fastidieux travail humain...  De classement des sites dans des catégories.  De mise à jour des informations (évolution des contenus, liens morts).  Pas de prise en compte du contenu textuel du site.  Croissance rapide du nombre de sites Internet.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 3
  • 4. 1995 : création dAltavista Premier moteur de recherche Web commercial.  Deux parties importantes :  Le « spider » qui parcourt le Web en passant de lien hypertexte en lien hypertexte, et découvre ainsi les pages Web disponibles.  L « indexeur » qui structure le texte contenu dans les pages Web dune manière qui facilite la recherche par mot-clef.  Points forts :  Il découvre les contenus et procède aux mises à jour de manière automatique.  Il permet la recherche « plein texte » (fulltext).  Pour chaque recherche, les documents sont classés en fonction de la fréquence dapparition du mot-clef recherché.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 4
  • 5. 1998 : création de Google Premier moteur de recherche prenant en compte la popularité des pages Web.  Même principe quAltavista mais...  Google analyse en plus les relations entre pages Web.  Les pages les plus souvent citées sont jugées plus intéressantes.  Chaque page est ainsi associée à un score dautorité (= Pagerank).  Pour chaque recherche, les pages sont classées en fonction de leur pertinence (fréquence dapparition du mot-clef recherché et Pagerank).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 5
  • 6. Les autres innovations de Google Cluster de PC :  Pour « motoriser » son moteur, Google renonce aux coûteux serveurs haut de gamme (serveurs « Alpha » chez Altavista) et utilise un cluster (groupe) dordinateurs standards à bas prix. « Light is better » :  Google passe dune page portail (Altavista) à une simple « boîte » de recherche. Publicité contextuelle :  Google comprend très vite lintérêt de proposer une publicité discrète et contextualisée.  Google AdWords est lancé en 2000 ; Google Adsense, en 2003.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 6
  • 7. Quelques raisons au succès initial de Google Une gestion raisonnable de la propriété industrielle.  Le brevet du Pagerank a été déposé par lUniversité Stanford en 1997. Une pertinence supérieure à celle des concurrents.  Google présente en 1998 une pertinence supérieure à son principal concurrent, Altavista. Une capacité dindexation supérieure à celle des concurrents.  Les performances de lalgorithme de classement et la flexibilité du cluster de PC permettent laugmentation rapide de la taille de lindex (nombre de pages enregistrées). Une rentabilité rapidement atteinte.  Google est rentable dès 1998 et dépasse les 100 millions de dollars de CA dès 2001.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 7
  • 8. Google aujourdhui Diversification des activités.  Moteurs spécialisés (Google News, Google Images, Google Books, Google Scholar,...).  Vidéos (achat de Youtube).  Cartographie (Google Maps).  Mails (Gmail) et bureautique en mode SaaS (Google Docs).  Outils : navigateur Chrome et OS mobile Android (maîtrise de lexpérience utilisateur).  ... Évolution continue de lalgorithme de classement.  Ajout de filtres, évolution du Pagerank (Trustrank ?), recherche universelle,... Un échec (?) : les réseaux sociaux.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 8
  • 9. 2004 : création de FacebookRéseau social (synchrone) permettant :  la création dun profil détaillé (plus ou moins privé),  la publication dinformations (statuts, vidéos, photos,...).Facebook pourrait atteindre 1 milliard dutilisateurs inscrits à lété 2012 !Microsoft commence à exploiter les « Like » / « Jaime » de Facebook.  But : personnaliser les résultats des recherches dans le moteur de recherche Bing...  Et améliorer la pertinence globale des résultats de recherche ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 9
  • 10. 2006 : création de Twitter (1/2) Twitter est un outil de réseau social (asymétrique) et de microblogage.  Les utilisateurs postent des messages de 140 caractères (max.).  Le « tweet » (gazouillis) est comparable à un SMS. Application du principe « Keep it Simple, Stupid ».  Twitter laisse les pratiques émerger (plutôt que de les « forcer »), et les accompagne.  Twitter permet aux utilisateurs de développer leurs propres services via une API publique.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 10
  • 11. 2006 : création de Twitter (2/2) De 2009 à 2011, Google a indexé les tweets publics. Surtout, Twitter a émergé comme plate-forme de recherche dinformation « temps réel »  Complément aux moteurs de recherche dactualités comme Google News.  Exemple : séisme du 12 janvier 2010 en Haïti.  Les informations « chaudes » sont « retweetées » (« RT », « hashtags »). La révolution égyptienne sur Twitter ↑Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 11
  • 12. Chercher... Oui, mais quoi, et comment ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 12
  • 13. Bien utiliser les outils de recherche Les outils de recherche sont :  diversifiés,  puissants,  éphémères (parfois). Donc, il faut être capable de :  les découvrir,  en exploiter les fonctionnalités cachées (ou peu connues),  croiser linformation.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 13
  • 14. Diversité des outils de recherche Exemples :  Infobel : annuaire de personnes et dentreprises.  Banque Carrefour des Entreprises : documents officiels des entreprises.  Who is : recherche dinformation sur les noms de domaine.  Facebook, Twitter, LinkedIn,... : recherche de profils utilisateurs.  Google Images : recherche avancée dimages et de photos.  Google Books : recherche dans les livres.  Google Scholar : recherche dans les articles scientifiques.  Google Web : recherche dinformations générales (principe de la « recherche universelle »).  Google Maps / Streetview : vue satellite / vidéo des villes.  ...Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 14
  • 15. Fonctions avancées des outils de recherche Exemple (Bing) :  Par défaut : recherche par mot-clef.  Opérateurs booléens : AND, OR, NOT.  Opérateurs avancés (support variable dans le temps!) :  « site: » : permet de cibler la recherche sur un site.  « filetype: » : permet de restreindre la recherche à un type de fichier.  « feed: » : permet de trouver des flux RSS.  « loc: » : permet de restreindre la recherche aux sites associés à un pays donné.  « ip: » : permet de lister les sites hébergés à la même adresse IP (= adresse associée à chaque ordinateur connecté).  ...Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 15
  • 16. Croisement dinformations Voir la recherche dinformations comme une enquête policière... Existence doutils intégrés.  Exemple: recherche dinformations personnelles.  123People (cf. www.123people.com ).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 16
  • 17. Exemple n°1 – Spam « Euro Software » (1/2) 280 euros sur une licence Windows Vista, 900 euros sur une licence Photoshop... Bonne affaire ou véritable arnaque ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 17
  • 18. Exemple n°1 – Spam « Euro Software » (2/2) Que dit whois.org ?  Le nom de domaine a été déposé le 16/05/2008 par un certain liu bin / wu han huoche zhan / 410214, semble-t-il basé à Beijing (Chine). Que dit loc8ip.com ?  Le site a pour adresse « 211.49.115.57 » et est hébergé en Corée du Sud. Que dit bing.com ?  Le serveur « 211.49.115.57 » (opérateur « ip: ») héberge des sites clones (comme zasofta.com ou dasofte.com) mais aussi plusieurs sites de casino en ligne (netgamemagic.com, eurocasinoajy.com, gamenetmagic.net, casinorichdot.net, www.eurocasinoajn.com,...). → conclusion : à éviter... [Test fait le 31 mai 2008]Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 18
  • 19. Exemple n°2 - « Voici laccusatrice de Koekelberg » (1/2) Sur DH.Net : « Voici laccusatrice de Koekelberg » (cf. shrl.be/000087).  Pas de nom, uniquement un prénom et une photo (avec un bandeau sur les yeux).  Anonymat respecté ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 19
  • 20. Exemple n°2 - « Voici laccusatrice de Koekelberg » (2/2) Procédure:  Ouvrir un onglet Google Images.  Transférer la photo dans la zone de recherche.  Prendre le premier résultat (page avec photo originale sans bandeau) : Laurence Vxxxxxxxxr GSM : 0476/6x.xx.x1 laurence.vxxxxxxxxr@rxxxxxxxxxxxxn.org  Remarque: la photo originale a depuis été retirée du site.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 20
  • 21. Du cluster au réseaux de fermes dordinateursUniversité de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 21
  • 22. Altavista en 1998 140 millions de documents indexés. 13 millions de requêtes par jour. 20 serveurs multiprocesseurs 64 bits Digital Alpha. (chiffres : wikipedia.org , searchenginewatch.com ) ← Évolution des citations dans les livres (via Google Books).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 22
  • 23. Google en 2011 40 milliards de pages indexées.  Contre 8 milliards de pages indexées et 1 billion dURLs traitées en 2008 Trafic : 1 milliard de requêtes par jour sur Google.com. Plus dun million de serveurs (ordinateurs).  Pour faire quoi ?  Gérer (= collecter, indexer, mettre à jour, etc.) le volume croissant de données.  Moteur de recherche mais aussi services annexes : Google Mail, Google Docs, Picassa, etc.  Répondre aux requêtes des utilisateurs.  A comparer aux 6.000 serveurs détenus en 2003, et 400.000 en 2006 (wikipedia.org).  Soit ~2% des ordinateurs au monde (!).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 23
  • 24. Datacenters Google Installation de Ghlin : plus de 250 millions dinvestissements locaux, et la mobilisation de multiples métiers de lingénieur !Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 24
  • 25. Pourquoi sinstaller à Ghlin ? Plus de 100ha de zoning encore disponibles. Zoning bien fourni en infrastructures.  Alimentation électrique, fibre optique,... Présence du canal en bordure de zoning.  Important pour le refroidissement !Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 25
  • 26. Un challenge : le refroidissement Comment refroidir 100.000 ordinateurs fonctionnant en parallèle ? Par de la climatisation ?  Trop coûteux !  Solution ?  Le refroidissement par eau !Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 26
  • 27. Linstallation près de leau Le datacenter est construit le long dun canal ou dun fleuve.  Leau y est pompée, puis épurée.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 27
  • 28. Lévacuation de la chaleur Les ordinateurs (modèle conçu par Google) sont installés dans des containers optimisant la circulation et lévacuation de la chaleur.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 28
  • 29. Lévacuation de la chaleur La chaleur des machines est extraite dans le datacenter via un système de refroidissement (air → eau), puis... Leau chaude est refroidie à lextérieur du datacenter via un système de refroidissement (eau → air).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 29
  • 30. La quête de lefficacité énergétique But de ce dispositif ?  Améliorer lefficacité énergétique du datacenter.  Cest-à-dire abaisser son PUE (Power Usage Effectiveness). Intérêt pour Google ?  Moins de CO² émis...  Et coûts dexploitation plus faibles !Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 30
  • 31. Que peut-on faire dautre ? Optimiser les logiciels utilisés dans les datacenters.  Exemple : Facebook (30.000 ordinateurs en 2011) utilise une version compilée du langage PHP (compilateur HipHop). Développer des ordinateurs ayant besoin de moins délectricité et chauffant moins.  Exemple : Google utilise son propre modèle de serveur. Placer au maximum les centres de données dans des pays froids, et y concentrer la charge.  Exemple : Google a récemment construit un datacenter à Hamina en Finlande (alimenté par leau de la mer). Investir dans les énergies renouvelables.  Exemple : OVH (Roubaix, France ; premier hébergeur européen) dispose déoliennes pour son datacenter de Strasbourg.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 31
  • 32. Et si vous expérimentiez par vous-mêmes ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 32
  • 33. Le Web en tant que plate- forme Évolution :  1995 : lutilisateur dInternet est un consommateur passif de contenu.  2005 : lutilisateur dInternet peut être co-producteur de contenus et de services (« Web 2.0 »).  Il est en contact permanent avec les autres utilisateurs  → Réseaux sociaux.  Il rédige des articles sur des journaux participatifs, poste des commentaires sur les blogs, alimente lencyclopédie collaborative Wikipédia, etc.  → Co-création, « User Generated Contents », « crowdsourcing », etc.  Il peut développer de nouveaux services en saidant des Interfaces de Programmation dApplications (APIs) proposée par certains sites Internet.  → Co-création, « Web as a Platform », mashups, etc.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 33
  • 34. Application Programming Interfaces ? La face cachée des moteurs de recherche...Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 34
  • 35. Bing API (1/2) Que permet de faire Bing API ?  Récupérer, sous une forme structurée, les résultats dune requête par mot-clef.  Adresse : code.google.com, www.bing.com/toolbox/bingdeveloper/ .  Les opérateurs, classiques ou avancés, des moteurs de recherche sont utilisables.  Exemples : « + », « - », « ip: », « loc: », etc.  Ces APIs fonctionnent généralement pour le Web (pages) mais aussi pour les actualités et les images.  Concurrents : Google Custom Search, Yahoo! Boss, etc.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 35
  • 36. Bing API (2/2) ↑ Étapes : - Récupérer les résultats dune recherche par mot-clef sur plusieurs moteurs de recherche. - Les fusionner (les plus fréquents, les plus populaires, etc.). - Afficher un nouveau classement des résultats (principe du « métamoteur »).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 36
  • 37. Twitter API (1/2) Que permet de faire la Twitter API ?  Piloter la plate-forme sociale Twitter (dev.twitter.com).  Exemples :  Récupérer les tweets postés sur la « timeline » en fonction de mots-clefs, dune langue ou dune zone géographique.  A condition de sêtre authentifié :  Poster un tweet sur un compte Twitter depuis une application extérieure.  Récupérer linformation relative à un profil utilisateur.  ...  Concurrent : Facebook API.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 37
  • 38. Twitter API (2/2) ← Étapes : - Collecte des tweets par API. - Identification des sujets (i.e. news citées dans les tweets via une URL raccourcie) les plus tweetés (ici : crash dun avion). - Sélection dutilisateurs (pour chaque sujet).Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 38
  • 39. HostIP.info API (1/2) Que permet de faire lAPI de Hostip.info ?  Récupérer la localisation associée à une adresse IP (www.hostip.info).  Ladresse IP identifie « grossièrement » votre ordinateur.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 39
  • 40. HostIP.info API (2/2) ← Étapes : - Localisation dun visiteur ou dun serveur Web sur base de lIP (ville et pays) avec HostIP. - Géolocalisation de la ville (longitude et latitude). - Affichage sur une carte Google Maps. - Autre usage possible : affichage de publicité locale sur un site Internet.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 40
  • 41. Google Maps API (1/2) Que permet de faire Google Maps API ?  Géolocaliser une adresse postale.  Afficher une carte localisant un point dintérêt à partir de ses coordonnées GPS.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 41
  • 42. Google Maps API (2/2) ← Étapes : - Pré-requis : base de données de terrils (RW). - Conversion des coordonnées géographiques (Lambert → WGS84). - Récupération des altitudes via lU.S. Geological Survey (API). - Affichage des terrils sur Google Maps. - Exemples dusage : trouver des terrils exploitables pour les schistes rouges (gravier décoratif), trouver des terrils hauts et chauves pour la photographie de panoramas,... ↓Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 42
  • 43. Pour passer à laction (1/2) Programmable Web (www.programmableweb.com).  Répertoire dAPIs (plus de 5000) et de « mashups » (plus de 6000). (mashups = combinaison dAPIs)Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 43
  • 44. Pour passer à laction (2/2) Il y a les APIs mais aussi :  Les logiciels Open Source (logiciels librement utilisables et modifiables).  Exemple : Apache Lucene (indexeur, permettant la création de moteurs de recherche personnalisés).  LOpen Data (bases de données téléchargeables et réutilisables).  Exemple : DBPedia, la version structurée (Web sémantique) de léncyclopédie en ligne Wikipédia.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 44
  • 45. ConclusionsUniversité de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 45
  • 46. Conclusions (1/2) Trois phases dans lhistoire des moteurs de recherche :  La collecte manuelle (annuaires).  Lindexation automatique de linformation (moteurs de recherche « plein texte »).  La mise en œuvre progressive de la recherche sociale. Les outils de recherche sont nombreux, parfois éphémères, et proposent des fonctionnalités de recherches souvent méconnues.Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 46
  • 47. Conclusions (2/2) La mise en œuvre dun moteur de recherche mondial suppose lexploitation dinfrastructures importantes et énergivores.  Ces infrastructures mobilisent plusieurs métiers de lingénieur :  production locale délectricité,  création dordinateurs économes,  optimisation des programmes informatiques,  conception de systèmes de refroidissement efficaces,  ... Les moteurs de recherche mettent souvent à disposition des interfaces de programmation dapplications.  Elles vous permettent, moyennant quelques compétences informatiques, dexpérimenter leur fonctionnement.  Elles permettent de répondre à des besoins diversifiés (pour des métiers parfois éloignés de linformatique). Et vous, quand commencez-vous ;-) ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 47
  • 48. Quizz Combien de serveurs étaient utilisés par le moteur de recherche Altavista en 1998 ?  Réponses : 20, 30 mille ou 100 mille ? Quel nombre dutilisateurs inscrits le réseau social Facebook devrait-il atteindre à lété 2012 ?  Réponses : 100 mille, 100 millions ou 1 milliard ? Combien dURLs le moteur de recherche Google traitait-t-il officiellement en 2008 ?  Réponses : 140 millions, 8 milliards ou 1 billion ? Comment les datacenters Google sont-ils refroidis ?  Réponses : Par évacuation naturelle de la chaleur (convection), avec des climatiseurs, avec de leau du robinet ou avec de leau « sale » ? Combien dAPIs publiques pouvez-vous utiliser sur Internet ?  Réponses : plus de 100, plus de 5 mille, ou plus de 100 mille ?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 48
  • 49. Merci pour votre attention. Des questions?Université de Mons Dr Ir R. Viseur | FPMs : Service dÉconomie et de Management de lInnovation 49