Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Modèles d\'Information CORIA\'2010

461 views

Published on

  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/yyxo9sk7 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Modèles d\'Information CORIA\'2010

  1. 1. Mod`les de RI fond´s sur l’information e e St´phane Clinchant e 1,2 Eric Gaussier 2 1 Xerox Research Centre Europe 2 Laboratoire d’Informatique de Grenoble Univ. Grenoble 1 18 Mars 2010S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 1 / 37
  2. 2. Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les edocuments P(X) −log P(X)Inf(x) = − log P(x|ΘC ) = Contenu InformatifEcart au comportement moyenS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  3. 3. Contenu InformatifUtiliser l’information de Shannon pour pond´rer les mots dans les edocuments P(X) −log P(X)Inf(x) = − log P(x|ΘC ) = Contenu InformatifEcart au comportement moyenObservation par Harter (70):Les mots ”Non-Fonctionnels” s’´cartent d’une distribution de Poisson. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 2 / 37
  4. 4. Mod`les fond´s sur l’information e eId´e Principale: e 1 Les fr´quences discr`tes des termes (x) sont renormalis´es en e e e valeurs continues (t(x)), du fait de la variabilit´ des longueurs de e documents. 2 Pour chaque terme w , on suppose que les valeurs t(x) suivent une distribution P de param`tre λw sur le corpus. e 3 Requˆtes et documents sont compar´s avec une mesure de surprise, e e une moyenne d’information de la forme: q d RSV (q, d) = −xw log Prob(Xw ≥ t(xw )|λw ) w ∈q∩dS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 3 / 37
  5. 5. Plan 1 Propri`t´s th´oriques des mod`les ee e e Contraintes Heuristiques des mod`les de R.I e Ph´nom`ne de Rafale e e 2 Exemples de Mod`les e Le mod`le log-logistique e Loi de Puissance liss´e e 3 Validation Experimentale 4 Extension au PRFS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 4 / 37
  6. 6. Contraintes Heuristiques (1)Une fonction d’ordonnancement en RI prend la forme suivante: q d RSV (q, d) = f (xw )h(xw , yd , zw , θ) w ∈q∩d q dxw fr´quence du mot dans la requete, xw dans le document eyd Longueur du document dzw = Fw ou zw = Nwθ param`tre du mod`le de RI. e eFw Frequence de w dans le corpus : Fw = d xw d dNw Fr´quence Documentaire de w : Nw = d I (xw > 0) eN Nombre de documents dans la collection⇒ Etude des propri`t´s de h eeS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 5 / 37
  7. 7. Contraintes Heuristiques (2)Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  8. 8. Contraintes Heuristiques (2)Hypoth`ses: e Condition 1: Les documents avec plus d’occurences d’un terme de la requˆte devraient avoir un score plus grand que ceux qui en ont e moins (Luhn) ∂h(x, y , z, θ) ∀(y , z, θ), > 0 (h est croissante en x) ∂x Condition 2: Cependant, la diff´rence de score devrait ˆtre plus e e petite pour de grandes fr´quences. Ex: 2→4, 50→ 52 e ∂ 2 h(x, y , z, θ) ∀(y , z, θ), < 0 (h est concave) ∂x 2S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 6 / 37
  9. 9. Contraintes Heuristiques (3)Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂yS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  10. 10. Contraintes Heuristiques (3)Hypoth`ses: e Condition 3: On devrait p´naliser les longs documents compar´s e e aux documents plus courts, car les longs documents sont suceptibles de couvrir diff´rents sujets e ∂h(x, y , z, θ) ∀(x, z, θ), < 0 (h d´croissante en y) e ∂y Condition 4: Enfin, il est important de diminuer l’importance des mots apparaissant dans beaucoup de documents (IDF) ∂h(x, y , z, θ) ∀(x, y , θ), < 0 (effet IDF) ∂zcf Fang et al, A Formal Study of Information Retrieval Heuristics, SIGIR’04S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 7 / 37
  11. 11. Ph´nom`ne de Rafale (Burstiness) e eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets 1 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  12. 12. Ph´nom`ne de Rafale (Burstiness) e eOn s’int´resse maintenant aux lois de probabilit´s sur les fr´quences: e e e Church et Gale 1 ont mis en ´vidence que le mod`le 2-Poisson e e s’ajuste mal aux donn´es. e Une explication possible: le comportement en rafale des mots, ou cr´pitement (burstiness). D´crit le fait que les mots, dans un e e document, tendent ` apparaˆ a ıtre par paquets Une fois que l’on a observ´ une occurrence d’un mot dans un e document, il est bien plus probable d’observer de nouvelles occurrences de ce mot 1 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 8 / 37
  13. 13. Ph´nom`ne de Rafale e eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n)est une suite strictement croissanteS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  14. 14. Ph´nom`ne de Rafale e eDefinition (Cas discret ECIR’08)Une distribution discr`te P est en rafale ou cr´pite ssi la suite: e e g (n) = P(X ≥ n + 1|X ≥ n)est une suite strictement croissanteDefinition (Cas g´n´ral) e eUne distribution continue P est en rafale ou cr´pite ssi ∀ > 0 la fonction eg: g (x) = P(X ≥ x + |X ≥ x)est une fonction strictement croissante en x.S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 9 / 37
  15. 15. Distribution En rafale Poisson Non Geometrique Neutre N´gative Binomiale e Oui si r < 1 Beta N´gative Binomiale e Oui Pareto Oui Log-Logistique OuiS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 10 / 37
  16. 16. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y .S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  17. 17. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  18. 18. Mod`les d’Information & Contraintes heuristiques: eMod`les d´finis par: e e Fonction h q d RSV (q, d) = xw − log Prob(X ≥ tw |λw ) (1) w ∈q∩d d tw fr´quences normalis´es: g´n´ralement croissante en x, d´croissante e e e e e en y . Condition 1 (h croissante) Direct Condition 3 (p´nalise longs documents) Direct. e Condition 2 (h concave)Th´or`me e eSi la distribution P est en rafale, alors le mod`le d’information d´fini avec e eP est concaveS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 11 / 37
  19. 19. Mod`les d’Information & Contraintes heuristiques: eSoit P une distribution de classe C 2 . Une condition n´cessaire pour que P esoit en rafale est : ∂ 2 log(P(X ≥ x)) >0 ∂x 2Or ∂ 2 log(P(X ≥ x)) Concavit´ ⇐⇒ e >0 ∂x 2 Condition 4 (effet IDF) et 2 Conditions d’ajustement suppl´mentaires e d´pendent du choix de la distribution P eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 12 / 37
  20. 20. Les mod`les log-logistique et loi de puissance liss´e e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 13 / 37
  21. 21. La distribution log-logistique On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) On se restreint ` cette forme ` cause de relations avec d’autres a a distributions (N´gative Binomiale, Beta N´gative Binomiale) e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 14 / 37
  22. 22. log P(X > x) Poisson et Log-Logistique r=0.001 Poisson r=0.001 0 r=0.01 Poisson r=0.01 r=0.1 Poisson r=0.1 −2 −4log P(X > x) −6 −8 −10 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 15 / 37
  23. 23. Ajustement aux donn´es ePour v´rifier l’ajustement aux donn´es, on a effectu´ un test du χ2 sous e e eces deux hypoth`ses: e ˆ Poisson: λw = Fw N Fw Log-Logistique: rˆ = w N⇒ La statistique du χ2 est bien meilleure pour la log-logistique(confirme des travaux pr´cedents) eLa loi log-logistique est un ”bon” mod`le de fr´quences sur le corpus e e(meilleur que Poisson, G´om´trique, Binomial et 2-Poisson). e eEst-ce un bon mod`le de RI ? eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 16 / 37
  24. 24. Mod`le Log-Logistique pour la RI (LGD) eLe mod`le LGD est d´fini par e e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi log-logistique de e Nw param`tre rw = N e 3 q Nw d Nw RSV (q, d) = xw log( + tw ) − log( ) N N w ∈q∩dRespecte toutes les conditions quels que soient les param`tres. eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 17 / 37
  25. 25. Loi de Puissance Liss´e (Smoothed Power Law SPL) eOn appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  26. 26. Loi de Puissance Liss´e (Smoothed Power Law SPL) eOn appelle loi de Puissance liss´e la distribution sur [0, +∞[ de param`tre e e0<λ<1: x λ x+1 − λ P(X > x|λ) = 1−λMod`le de RI: e d d m 1 Normalisation: tw = xw log(1 + c yd ) (N2 DFR) 2 e d Loi de fr´quences: Les tw sont distribu´s par une loi de puissance e Nw liss´e de param`tre rw = N e eRespecte aussi toutes les conditionsS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 18 / 37
  27. 27. Loi de Puissance Liss´e e lambda = 0.005 0 loglogistic spl −2 log P(X>x) −4 −6 −8 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 19 / 37
  28. 28. Caract´risation des mod`les d’information e e 1 Normalisation de fr´quences v´rifie: e e d ∂tw d ∂tw ∂ 2 xwd d > 0; < 0; ≥0 ∂xw ∂yd ∂(tw )2 d 2 Loi de Probabilit´ continue et en rafale e 3 Fonction d’Ordonnancement q d RSV (q, d) = −xw log Prob(Xw ≥ tw |λw ) w ∈q∩d 4 Param`tre sur la collection e F w Nw λw = or N NS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 20 / 37
  29. 29. Relations avec d’autres mod`les eRelation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  30. 30. Relations avec d’autres mod`les eRelation avec les mod`les de langues: e 1 d d m Normalisation: tw = xw c yd (N1 DFR) Fw 2 rw = N et Loi Log-Logistique 3 Mod`le = Mod`le de langues avec lissage de Jelinek-Mercer e eRelation avec les mod`les DFR: eLes mod`les DFR sont d´finis de la mani`re suivante: e e e q d d RSV (q, d) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩dProbl`mes: e Loi discr`tes avec valeurs continues e 2 Notions d’informations non ”homog`nes” e⇒ Nos mod`les reposent sur des lois continues et sur une seule notion ed’InformationS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 21 / 37
  31. 31. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  32. 32. Exp´riences e Comparaison avec mod`les de langues, BM25, mod`les DFR e e Corpus: ROBUST, CLEF03, GIRT avec requˆtes longues et courtes e 5 jeu de requˆtes: ROB-d , ROB-t , GIRT , CLEF-d , CLEF-t e Corpus # Requˆte e ROBUST 250 CLEF03 60 GIRT 75Divis´ en apprentissage/test eOptimise MAP ou P10 sur une grille de valeurs:Par exemple: k1 ∈ {0.3, 0.5, 0.8, 1.0, 1.2, 1.5, 1.8, 2, 2.2, 2.5} (BM25) c ∈ {0.25, 0.5, 0.8, 1, 2, 3, 5, 8, 10} (LGD,DFR) µ ∈ {10, 50, 100, 200, 500, 800, 1000, 1500, 2000, 5000, 10000} (LM)S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 22 / 37
  33. 33. Comparaison avec le lissage de Jelinek-MercerComparaison avec les mod`les de langues eTable: LM-Jelinek-Mercer vs Log-Logistique apr`s 10 divisions; en gras, les emeilleures performances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t LM 26.0 20.7 40.7 49.2 36.5 LGD 27.2∗ 22.5∗ 43.1∗ 50.0∗ 37.5∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t LM 43.8 35.5 67.5 33.0 26.2 LGD 46.0∗ 38.9∗ 69.4∗ 33.6∗ 26.6∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 23 / 37
  34. 34. Comparaison avec le lissage de DirichletTable: LMDirichlet vs Log-Logistique apr`s 10 divisions; en gras, les meilleures eperformances ; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 27.1 25.1 41.1 48.5 36.2 LGD 27.4∗ 25.0 42.1∗ 49.7∗ 36.8∗ P10 ROB-d ROB-t GIRT CLEF-d CLEF-t DIR 45.6 44.7∗ 68.6 33.8 28.4 LGD 46.2∗ 44.4 69.0 34.5∗ 28.6S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 24 / 37
  35. 35. Comparaison avec BM25BM25 optimis´ seulement avec le param`tre k1 e e MAP ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 26.8 22.4 39.8 34.9 46.8 LGD 28.2∗ 23.5∗ 41.4∗ 34.8 48.0 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d BM25 45.9 42.6 62.6 28.5 33.7 LGD 46.5 44.3∗ 66.6∗ 28.7 34.4S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 25 / 37
  36. 36. Comparaison avec les mod`les DFR eTable: INL2 et PL2 versus Log-Logistique apr`s 10 divisions; en gras, les emeilleures performances; ∗ d´note une diff´rence statistiquement significative e e MAP ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 27.7 24.8 42.5 47.7 37.5 LGD 28.5∗ 25.0∗ 43.1∗ 48.0 37.4 P10 ROB-d ROB-t GIRT CLEF-d CLEF-t INL2 47.7∗ 43.3 67.0 33.4 27.3 LGD 47.0 43.5 69.4∗ 33.3 27.2 MAP ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 27.3∗ 24.7 40.5 36.2 47.5 PL2 26.2 24.8 40.6 36.0 47.2 P10 ROB-d ROB-t GIRT CLEF-t CLEF-d LGD 46.6 43.2 66.7 28.5 33.7 PL2 46.4 44.1∗ 68.2∗ 28.7 33.1S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 26 / 37
  37. 37. Comparaison SPL avec le mod`le de langue Dirichlet eTable: SPL versus LM-Dirichlet after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d DIR 26.7 25.0 40.9 27.1 36.2 50.2 SPL 25.6 24.9 42.1 26.8 36.4 46.9 P10 ROB-d ROB-t GIR T3-t CL-t CL-d DIR 45.2 43.8 68.2 52.8 27.3 32.8 SPL 46.6 44.7 70.8 55.3 27.1 32.9S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 27 / 37
  38. 38. Comparaison SPL avec les mod`les InL2 et PL2 (DFR) eTable: SPL versus DFR models after 10 splits; bold indicates significant difference MAP ROB-d ROB-t GIR T3-t CL-t CL-d INL 26.9 24.3 40.4 24.8 35.5 49.4 SPL 26.6 24.6 40.7 25.4 34.6 48.1 P10 ROB-d ROB-t GIR T3-t CL-t CL-d INL 47.6 42.8 63.4 52.5 28.8 33.8 SPL 47.8 44.1 68.0 53.9 28.7 33.6 MAP ROB-d ROB-t GIR T3-t CL-t CL-d SPL 26.3 25.2 42.7 25.3 37.4 44.1 PL2 26.3 25.2 42.8 25.8 37.3 45.7 P10 ROB-d ROB-t GIR T3-t CL-t CL-d SPL 47.0 45.2 69.8 55.4 25.9 32.9 PL2 46.0 45.2 69.3 54.8 26.2 32.7S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 28 / 37
  39. 39. Extension au PRFMoyenne de l’information sur les premiers documents retourn´s: e 1 d Info(w ) = − log(P(Xw > tw ; λw )) n d∈RMise ` jour de la requˆte: (similaire au mod`le Bo2) a e e q q2 xw Info(w ) xw = q +β maxw xw maxw Info(w )Le mod`le de PRF et le mod`le de RI sont les mˆmes ! e e eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 29 / 37
  40. 40. ∗Table: MAP, d´note une diff´rence statistiquement significative avec LM et Bo2 e e Model n TC ROB-t GIRT TREC3-t CLEF-t LM+MIX 5 5 27.5 44.4 30.7 36.6 INL+Bo2 5 5 26.5 42.0 30.6 37.6 LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 LM+MIX 5 10 28.3 45.7∗ 33.6 37.4 INL+Bo2 5 10 27.5 42.7 32.6 37.5 LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ LM+MIX 10 10 28.4 45.5 31.8 37.6 INL+Bo2 10 10 27.2 43.0 32.3 37.4 LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 LM+MIX 10 20 29.0 46.2 33.7 38.2 INL+Bo2 10 20 27.7 43.5 33.8 37.7 LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 LM+MIX 20 20 28.6 47.9 32.9 37.8 INL+Bo2 20 20 27.4 44.3 33.5 36.8 LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 30 / 37
  41. 41. Table: Mean average precision of PRF experiments; bold indicates bestperformance, ∗ significant difference over LM and Bo2 models Model N TC ROB-t GIR T3-t CL-t LGD 5 5 28.3∗ 44.3 32.9∗ 37.6 SPL 5 5 28.9∗ 45.6∗ 32.9∗ 39.0∗ LGD 5 10 29.4∗ 44.9 35.0∗ 40.2∗ SPL 5 10 29.6∗ 47.0∗ 34.6∗ 39.5∗ LGD 10 10 30.0∗ 46.8∗ 35.5∗ 38.9 SPL 10 10 30.0∗ 48.9∗ 33.8∗ 39.1∗ LGD 10 20 30.3∗ 47.6∗ 37.4∗ 38.6 SPL 10 20 29.9∗ 50.2∗ 34.3 39.7∗ LGD 20 20 29.5∗ 48.9∗ 37.2∗ 41.0∗ SPL 20 20 28.8 50.3∗ 33.9 39.0∗S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 31 / 37
  42. 42. Conclusion Caract´risation analytique des contraintes heuristiques e Ph´nom`ne de rafale pour les lois continues e e Une nouvelle famille de mod`les de RI e ”En Rafale” ⇒ Mod`le concave e Extension au PRF Les mod`les log-logistique et loi de puissance liss´e e e LGD contient un mod`le de langue e LGD, SPL ≥ mod`le de langues e LGD,SPL ≈ DFR plus simple que les mod`les DFR e les meilleures performances en PRF Questions ?S.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 32 / 37
  43. 43. La distribution log-logistique Church et al. 2 ont propos´ la distribution N´gative Binomiale e e (m´lange infini de Poisson) pour mod´liser les fr´quences. e e e ⇒ ”meilleur” mod`le que 2-Poisson e Nous avons propos´ pr´cedemment la loi Beta-Negative Binomiale e e (BNB): BNB(x|r ) = Beta(θ|1, 1)Negbin(x|θ, r ) On consid`re ici une loi log-logistique contrainte: e r P(X > x|r ) = (r m´diane) e (x + r ) Cette log-logistique contrainte peut ˆtre vue comme une version e continue d’une Beta-N´gative Binomiale e 2 Poisson MixturesS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 33 / 37
  44. 44. Relation avec les Mod`les DFR eLes mod`les DFR sont d´finis de la mani`re suivante: e e e q d d q d dRSV (q, d) = xw Inf2 (tw )Inf1 (tw ) = −xw Inf2 (tw ) log Prob1 (tw ) w ∈q∩d w ∈q∩dOn peut montrer que : Inf2 rend les mod`les DFR concave (condition 2) e Sans Inf2 , les mod`les DFR obtiennent de mauvaises performances eS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 34 / 37
  45. 45. Experimental FitChi Square test on Robust collection, with terms appearing with documentfrequency ≥ 100; Frequency range divided into three intervals: [0, 3[,[3, 10[ and [10, 100[.Hypothesis ˆ Poisson: λw = Fw N ˆ Log-Logistic: λw = Fw NS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 35 / 37
  46. 46. Chi Square StatisticsS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 36 / 37
  47. 47. Comparaison des mod`les e r = 0.005 8 LGD 2 4 6 INL Weight SPL PL 0 0 5 10 15 x r = 5e−04 LGD 8 INL Weight SPL 4 PL 0 0 5 10 15 xS.Clinchant E.Gaussier (XRCE-LIG) Mod`les de RI fond´s sur l’information e e 18 Mars 2010 37 / 37

×