• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Apprentissage Automatique et moteurs de recherche
 

Apprentissage Automatique et moteurs de recherche

on

  • 2,333 views

Une introduction aux algorithmes d'apprentissage automatique, et à leur utilisation possible dans Panda, et la lutte contre le spamdexing

Une introduction aux algorithmes d'apprentissage automatique, et à leur utilisation possible dans Panda, et la lutte contre le spamdexing

Statistics

Views

Total Views
2,333
Views on SlideShare
2,333
Embed Views
0

Actions

Likes
1
Downloads
40
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Apprentissage Automatique et moteurs de recherche Apprentissage Automatique et moteurs de recherche Presentation Transcript

    • Machine Learning dans lesMoteurs de recherche8-9 mars 2012Philippe YONNETDirecteur SEO Internationalphilippe.yonnet@twenga.com
    • Pourquoi parler de ces algorithmes ? Il est fort possible que l’algorithme Panda soit un algorithme d’apprentissage automatique. Son auteur, un dénommé… Panda. Il y’a deux Panda connus chez Google, tous les deux ont travaillé sur des projets de Machine Learning…
    • L’apprentissage automatique Machine learning en anglais Conception et développement d’algorithmes capables de s’autoam
    • Applications classiques Reconnaissance de formes, reconnaissance de caractère Robotique Classification automatique
    • Les principaux types d’apprentissage Apprentissage supervisé  Présence d’un « oracle » qui fournit un jeu de réponses désirées (exemples ou contre-exemples) Apprentissage non supervisé  Classification automatique / Clustering  Lalgorithme doit découvrir par lui-même la structure plus ou moins cachée des données Apprentissage par renforcement  lalgorithme apprend un comportement étant donné une observation. Laction de lalgorithme sur lenvironnement produit une valeur de retour qui guide lalgorithme dapprentissage.On identifie d’autres types d’algorithmes : semi-supervisé,partiellement supervisé…
    • Quelques grandes catégories d’algorithmes Les algorithmes à bases d’arbres de décision  Data mining, entrepôts de données, aide à la décision, système experts, diagnostic Le boosting  Amélioration des systèmes de classification binaire Les réseaux de neurones artificiels Les algorithmes génétiques  Sélection naturelle des meilleurs programmes L’ILP (inductive logic programming) :  exemples positifs + exemples négatifs + base de connaissances = règles (utile en TAL) Les Support Vector Machines Les Réseaux Bayésiens  diagnostic (médical et industriel), lanalyse de risques, la détection des spams et le data mining.
    • L’apprentissage automatique et le spam SPAM Classification automatique utilisant l’apprentissage supervisé à partir de données étiquetées (classifiées) par un humain (« oracle »). L’objectif est de déterminer une fonction opérationnelle séparant correctement les points bleus et rouges (courbe verte)
    • Pourquoi ces algorithmes ont-ils été longtempssous-utilisés par les moteurs de recherche?Longtemps, l’utilisation de ces algorithmes a été bridée par troisproblèmes : La difficulté de création des données d’entrainement Le temps de calcul et les besoins en ressources La faisabilité pure des calculs
    • Définition d’un classifierUne première approche possible (et triviale) pour déterminer les lois régissantun ensemble de données : la régression. L’objectif est de déterminer une courbequi donne une approximation correcte des points mesurés. Dans l’exemple degauche, la courbe est droite affine y=ax+b. A droite un polynome plus complexe.
    • Les Support Vector Machines SVM Un des principes de la technique des SVM : il existe souvent plusieurs frontières permettant de « séparer » des échantillons de points. Les meilleures frontières sont celles qui maximisent la distance entre la frontière et les points (les « séparateurs à vastes marges »). L’algorithme SVM permet d’identifier les frontières donnant le minimum d’erreurs de classification.
    • SVM : La recherche d’un hyperplan « frontière »Recherche d’un hyperplan « frontière » dans la technique des SVM : la frontière ici estrelativement complexe si on la décrit dans l’espace à deux dimensions qui décrit lesdonnées d’entrainement. En transposant le problème dans un espace muldimensionnel (3dimensions sur le schéma) il peut être possible de trouver un hyperplan (ici un plan), simpleà décrire, qui permet de classifier facilement les données. Tiens tiens… J’ai déjà vu ça quelque part
    • Panda et les SVM Amit Singhal décrit l’algorithme ainsi dans une interview de Wired: « Vous pouvez imaginer dans un espace muldimensionnel un groupe de points, certains points sont rouges, certains points sont verts, and pour d’autres c’est un mélange des deux. Votre travail est de trouver un hyperplan qui indique que la plupart des choses d’un côté de ce plan sont rouges, et que la plupart des choses de l’autre côté sont le contraire de « rouge » ».
    • REFERENCES Machine Learning chez Google  http://research.google.com/pubs/MachineLearning.html  PLANET: Massively Parallel Learning of Tree Ensembles with MapReduce Biswanath Panda, Joshua S. Herbach, Sugato Basu, Roberto J. Bayardo, Google, Inc. http://www.bayardo.org/ps/vldb2009.pdf  KDX: An Indexer for Support Vector Machines Navneet Panda, Edward Y. Chang, Google Inc http://www.computer.org/portal/web/csdl/doi/10.1109/TKDE.2006.101  OASIS : Large Scale Online Learning of Image Similarity Through Ranking Gal Chechik , Varun Sharma, Samy Bengio, Google Inc & Uri Shalit, The Gonda brain research center, Bar Ilan University www.robots.ox.ac.uk/~vgg/rg/papers/rankingsimilarity.pdf
    • Références Machine Learning chez Bing!  http://research.microsoft.com/en-us/groups/ml/  http://research.microsoft.com/en-us/groups/mlp/  http://research.microsoft.com/en-us/groups/mlpml/ ... Beyond PageRank: Machine Learning for Static Ranking Matthew Richardson, Microsoft Research, Amit Prakash MSN, Eric Brill, Microsoft Research www.inf.unibz.it/~ricci/SDB/slides/fRank-Presentation.pdf Machine Learning chez Yahoo!  http://research.yahoo.com/Machine_Learning  Developing parallel sequential minimal optimization for fast training support vector machine. Yahoo Labs, Cao, L.J.; Keerthi, S.S.; Ong, C.J.; Uvaraj, P.; Fu, X.J.; Lee, H.P. http://research.yahoo.com/pub/951