Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
27/10/2009




 27 octobre 2009
 Medialab – Séminaire DIM




                     Bientôt 10 bougies

150 collaborateurs ...
27/10/2009




                         ENJEUX
                          DEFIS
                       INNOVATION




     ...
27/10/2009




          Les trois grands axes d’innovation Exalead

                                         Accroitre la...
27/10/2009




                      Vision à 360°
   Création d’interfaces de visualisation de résultats
  agrégeant les ...
27/10/2009




                     Moteur de recherche,
                               recherche,
                      l...
27/10/2009




                                    Solution : Pré-calculer

            Index-time

             • input :...
27/10/2009




             Moteurs V0 = Manipuler des Listes Inversées


     Opérations simples sur les listes inversées...
27/10/2009




Concrètement,
Concrètement, en 2009




                    Garder le contrôle




                        ...
27/10/2009




Qu’ont-
Qu’ont-ils en commun?
              commun?




                                9
27/10/2009




       10
27/10/2009




       11
27/10/2009




Collecter – Analyser – Connecter




                                          12
27/10/2009




                  Exalead Semantic Factory TM




  TRADUCTION




TEXTE




        Q&A




   Collecter &...
27/10/2009




                    Dépasser les problématiques de formats




                                            ...
27/10/2009




Donner du sens




          Catégoriser et quantifier




                                             15
27/10/2009




Monitorer le contenu non-structuré
                     non-




           Recherche Géo-spatiale
        ...
27/10/2009




Rechercher différemment




               Explorer




                                 17
27/10/2009




360°
360° Search Based Applications




                                        18
Upcoming SlideShare
Loading in …5
×

DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexation de grand corpus hétérogène

1,349 views

Published on

Published in: Education, Technology
  • DOWNLOAD THAT BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book that can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer that is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story That Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money That the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths that Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

DIM 11.09 - jean-Marc Lazard, Exalead Labs,les moteurs de recherche : indexation de grand corpus hétérogène

  1. 1. 27/10/2009 27 octobre 2009 Medialab – Séminaire DIM Bientôt 10 bougies 150 collaborateurs dans 7 pays et 30% des ressources en R&D Plus de 200 clients et des revenus multipliés par 5 en 3 ans 20 nouveaux partenaires intégrateurs en 2008 2008 2009 Visionnaires Challengers 1
  2. 2. 27/10/2009 ENJEUX DEFIS INNOVATION L’information dans les organisations Des enjeux divergents pour les approches “classiques” classiques” UTILISATEURS DONNÉES ORGANISATION ENVIRONNEMENT + exigeants + hétérogène + concurrentiel + de lois + matures + volumineux + instable + de réglements + de profils + de temps réel + connecté + de partenaires différenciés + de sécurité + de capitalisati° + de pression $ REDUCTION DE COUTS ET AGILITE 4 2
  3. 3. 27/10/2009 Les trois grands axes d’innovation Exalead Accroitre la Donner du SENS à Repenser les performance l’information interfaces Simplifier l’architecture Multi-sources Appliquer la Technologie Multi-formats simplicité du non-intrusive Sémantique web Indexation Structuration Recherche facile illimitée des données Accès unifié Scalabilité Une réponse, réponse, les “Search Based Applications” 3
  4. 4. 27/10/2009 Vision à 360° Création d’interfaces de visualisation de résultats agrégeant les résultats issus de différentes sources… Les « Search Based Applications » • Une infrastructure logicielle basée sur les moteurs d’indexation . End user applications End user applications BI BI Business processes Business processes High complexity/costs and low performance/reusability Low complexity/costs and high performance/reusability • … permettant de supporter une nouvelle génération d’applications 4
  5. 5. 27/10/2009 Moteur de recherche, recherche, la petite histoire Objectif : De la requête à la page de résultats “Je veux ma réponse en moins d'une seconde ... Comment fait le moteur pour explorer desd milliards de pages en si peu de temps ??” • Crawl temps réel ? • Copie du web ? 10 5
  6. 6. 27/10/2009 Solution : Pré-calculer Index-time • input : flot de documents • output : “données précalculées” Données précalculées = INDEX Query-time • input : mots • traitement à partir des “données précalculées” • output : liste de documents 11 INDEX = Listes Inversées Liste inversée = word -> doc[] Analogie avec l'index d'un livre Indexation = inversion • doc1 = titi toto doc2 = tata toto doc3 = toto toto titi • LI(titi) = [doc1, doc3] • LI(toto) = [doc1, doc2, doc3] • LI(tata) = [doc2] 12 6
  7. 7. 27/10/2009 Moteurs V0 = Manipuler des Listes Inversées Opérations simples sur les listes inversées • Intersection, union, exclusion • Exemple: toto AND titi = [doc1, doc3] Stockage des positions de mots • Recherche par proximité (près de, à côté de …) 13 Quid de la pertinence ? Il faut classer les résultats Critères : • nombre d'occurrences • présence du mot dans le titre • longueur de l'url • formatage du texte (taille de police, gras) • pondération des mots w(einstein) > w(albert) • Page Rank • Propagation du texte des liens Ranking(doc, query) = ... 14 7
  8. 8. 27/10/2009 Concrètement, Concrètement, en 2009 Garder le contrôle 8
  9. 9. 27/10/2009 Qu’ont- Qu’ont-ils en commun? commun? 9
  10. 10. 27/10/2009 10
  11. 11. 27/10/2009 11
  12. 12. 27/10/2009 Collecter – Analyser – Connecter 12
  13. 13. 27/10/2009 Exalead Semantic Factory TM TRADUCTION TEXTE Q&A Collecter & Analyser les documents 13
  14. 14. 27/10/2009 Dépasser les problématiques de formats Data Mining We came back to Bar Americain for a third visit and so far they are proving greatness. The food is always great, I mean really great!!! The chef Bobby Flay is doing a really good job. The Boston lettuce salad was so good!!! We always have the tasting from the raw bar, always good! Unfortunately, prices have gone up. My steak was 22$ and my martini glass costed $14 and they didn’t accept Mastercard!!! 14
  15. 15. 27/10/2009 Donner du sens Catégoriser et quantifier 15
  16. 16. 27/10/2009 Monitorer le contenu non-structuré non- Recherche Géo-spatiale Géo- 16
  17. 17. 27/10/2009 Rechercher différemment Explorer 17
  18. 18. 27/10/2009 360° 360° Search Based Applications 18

×