Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

chal

237 views

Published on

  • Be the first to comment

  • Be the first to like this

chal

  1. 1. Hodnotenie úspešnostiPrednáška z predmetuVyhľadávanie informácií22.10.2012 FIIT STUBABratislava
  2. 2. Hodnotiace charakteristiky• Softvérové systémy sa najčastejšie hodnotia podľasystémových charakteristík (performance evaluation)– čas za ktorý daný systém vykoná všetky potrebné operácie– priestor na disku alebo inom zariadení ktorý sa privykonávaní týchto operácií spotrebuje.• V prípade systémov ktoré získavajú dáta sú systémovécharakteristiky veľmi dôležité a asi aj najpodstatnejšie.• Ak ide o systém na vyhľadávanie informácií tak, okremčasu a priestoru vplývajú na úspešnosť systému aj inécharakteristiky (retrieval performance evaluation)– nakoľko je zoznam dokumentov vrátený systémom presný,resp. nakoľko sa to zhoduje s tým čo chcel používateľ
  3. 3. Retrieval performance evaluation• Máme množinu dokumentov (doménovo alebonedoménovo závislú)• Jedného alebo viacerých používateľov (môžeme ichopomenúť ale musíme mať množinu relevantnýchdokumentov)– Na základe požiadavky (query), vyberú množinu (podľanich) relevantných dokumentov– Vyhodnocovaný systém vytvorí vlastnú množinu– Následne sa tieto množiny porovnajú (množina vytvorenásystémom s množinami vytvorenými používateľmi)• Vyhodnotíme dve základné charakteristiky:– Presnosť (precision)– Pokrytie (recall)
  4. 4. Základné charakteristikyMáme skupiny dokumentov D={D1,D2,…,Dn} a požiadavku Q prektorú je R={R1,R2,…,Rr} množina relevantných dokumentov, kde|R|=r. Povedzme že, systém vráti na požiadavku Q množinudokumentov I={I1,I2,…,Ii} a teda počet získaných dokumentov je|I|=i. Ďalej definujeme množinu .RI R I= ∩
  5. 5. Základné charakteristiky• Presnosť (precision):–• Pokrytie (recall):–– P=tp/(tp+fp) R=tp/(tp+fn)RIPI=RIRR=Relevantné (R) NerelevantnéZískané (I) true positive (tp = RI) false positive (fp)Nezískané false negative (fn) true negative (tn)
  6. 6. • Accuracy = (tp + tn)/(tp + f p + f n + tn)– Pravdepodbnosť, že systém určí získané relevantné aj vylúči nerelevantnévýsledky• Specifity = tn/(tn + fp)– Pravdepodobnosť systému určiť/vylúčiť nesprávne výsledky• Fall-out = fp/(tn + fp)– Pravdepodobnosť, že systém vráti nesprávny výsledok• Rozdelenie čo sa týka relevantných a nerelevantných dokumentov prepožiadavku (query) Q je veľmi zošikmené (99.9% spadá do kategórienerelevantné).• Ak by systém chcel maximalizovať accuracy, specifity a minimalizovať fall-out,tak by každý dokument označil za nerelevantný!!!Ďaľšie charakteristikyRelevantné (R) NerelevantnéZískané (I) true positive (tp = RI) false positive (fp)Nezískané false negative (fn) true negative (tn)
  7. 7. Príklad• Predpokladajme, že máme množinu dokumentov D, ktoráobsahuje 100 dokumentov týkajúcich sa cestovnýchkancelárií. Máme dopyt Q ktorý hovorí, že požadujeme tiecestovné kancelárie, ktoré poskytujú dovolenky v Grécku a napriľahlých ostrovoch. Tím špecialistov vybral relevantnúmnožinu R obsahujúcu 10 dokumentov. Systém navyhľadávanie dovoleniek vrátil 15 dokumentov, z toho 6relevantných. Určte základné charakteristiky systému:presnosť, úplnosť, akurátnosť, pravdepodobnosť určiťnesprávne dokumenty a pravdepodobnosť, že systém vrátinesprávny dokument.
  8. 8. Riešenie• P=6/15=0,4=40%• R=6/10=0,6=60%• Accuracy=87/100=87%• Specifity=81/90=90%• Fall-out=9/90=10%  Relevantné (R = 10) Nerelevantné (90)Získané (I = 15) true positive (tp = RI = 6) false positive (fp = 9)Nezískané (85) false negative (fn = 4) true negative (tn = 81)
  9. 9. Vzťah medzi charakteristikami• Z uvedeného naozaj vidieť, že posledné 3 (Accuracy,Specifity a Fall-out) charakteristiky nadobúdajútakmer optimálne hodnoty a preto na vyhodnoteniesystémov na získavanie informácií je výhodnejšiepoužiť presnosť a úplnosť.• Medzi presnosťou a pokrytím je veľmi úzka spojitosťpretože zvyšovanie jednej prináša zvyčajne(spravidla) pokles druhej charakteristiky.• Žiadna sama o sebe nemôže vypovedať o úspešnostisystému na vyhľadávanie informácií.
  10. 10. Príklad• Máme množinu dokumentov D ktorá obsahuje 100 dokumentovtýkajúcich sa cestovných kancelárií. Máme dotaz Q ktorý hovorí žepožadujeme tie cestovné kancelárie ktoré poskytujú dovolenkyv Grécku a na priľahlých ostrovoch. Tým špecialistov alebopoužívateľov vybral relevantnú množinu R obsahujúcu 10dokumentov R={r45, r93, r22, r72, r3, r30, r65, r55, r34, r10} v tomto poradí (odnajrelevantnejšieho). Povedzme že systém vrátil 15 dokumentovdaných touto množinou: I={i3, i10, i44, i7, i17, i93, i5, i82, i22, i11, i13, i72, i2, i29, i55}.Následne po prieniku týchto dvoch množín dostávame RI={ri3, ri10,ri93, ri22, ri72, ri55}.• Ak by sme počítali presnosť a pokrytie po jednotlivýchdokumentoch prieniku pre prvý prienik by sme dostali P=100%(jeden výber a relevantný dokument) a R=10% (máme 1 relevantnýz 10-tich relevantných), pre druhý výber P=100% a R=20%, pre tretíP=50% (máme tri dokumenty správne zo šiestich vybraných – vmnožine I sme už na 6-tej pozícii) a R=30%, atď.
  11. 11. RiešeniePoradieRelevantnosť+/-1 + 1/1=100% 1/10=10%2 + 2/2=100% 2/10=20%3 - 2/3=66% 2/10=20%4 - 2/4=50% 2/10=20%5- 2/5=40% 2/10=20%6 + 3/6=50% 3/10=30%7 - 3/7=43% 3/10=30%8 - 3/8=38% 3/10=30%9 + 4/9=44% 4/10=40%10 - 4/10=40% 4/10=40%11 - 4/11=36% 4/10=40%12 + 5/12=42% 5/10=50%13 - 5/13=38% 5/10=50%14 - 5/14=36% 5/10=50%15 + 6/15=40% 6/10=60%
  12. 12. Interpolovaná presnosť• Interpolovaná presnosť Pinterp na určitej úrovni úplnostir je definovaná nasledovne: Pinterp(r)=maxr’≥rP(r’). Preúroveň úplnosti r=0 je Pinterp(0)=100%.• Aby sme obmedzili počet úrovni úplnosti vezmemedo úvahy iba niektoré úrovne. Pri vyhodnocovaníúspešnosti systémov na vyhľadávanie informácií sapoužíva štandardne 11 úrovní úplnosti: R={0%,10%,…100%}. Predchádzajúca definícia by sa dala rozšíriťnasledovne: j={0,1,2,…10}, kde Rj je úplnosť na úrovnij a Pinterp(r)=maxi≤r≤i+1P(r).
  13. 13. Pokračovanie riešenia
  14. 14. Záver príkladu• Pre určenie presnosti pre 0% pokrytie sme použilipredchádzajúcu definíciu a presnosť pre pokrytieväčšie ako 60% klesne na 0% pretože, nie všetkyrelevantné dokumenty boli systémom získané.• Vo všeobecnosti je vzťah medzi presnosťou a pokrytímpresne taký istý ako bol ukázaný na obr. Pokiaľ jednacharakteristika stúpa druhá klesá.• Otázkou zostáva podľa ktorej štatistiky vyhodnotiťúspešnosť systému na vyhľadávanie informácií a akonavzájom porovnávať rôzne systémy na získavanieinformácií!!!
  15. 15. Príklad porovnania dvoch systémov najednu a tú istú požiadavku. Kto jelepší?
  16. 16. Základné charakteristikyKde je priemernápresnosť pre úroveň pokrytia r, n je početpožiadaviek zaslaných do systému a jepresnosť na úrovni pokrytia r pre i-tupožiadavku.( )( )1niiP rP rn== ∑ ( )P r( )iP r
  17. 17. Čo ďaľej?• Ukázalo sa, že presnosť a pokrytie nie súcelkom dostačujúce–F1 štatistika (niekde uvádzaná iba ako Fštatistika)–E štatistika (uvedená prof. Rijsbergenom –zakladateľom vyhodnocovania IR systémov)
  18. 18. F1 štatistikakde, je harmonickýpriemer pre i-ty dokument v usporiadanomzozname, a R(i) a P(i) sú pokrytie a presnosťpre i-ty dokument v utriedenom zozname.Tento vzťah sa dá ešte prepísať nasledovnýmspôsobom: (vo viacerýchliteratúrach je používaný práve tento vzťah).( )( ) ( )121 1F iR i P i=+ ( )1F i( )( ) ( )( ) ( )12R i P iF iR i P i=+
  19. 19. E štatistikakde, E(i) je E štatistika pre i-tydokument v usporiadanom zozname, a R(i) a P(i) súpokrytie a presnosť pre i-ty dokument v utriedenomzozname a b je používateľom špecifikovaný parameterktorý vyjadruje relatívnu dôležitosť ktorú používateľprideľuje presnosti alebo pokrytiu.V prípade že parameter b=1 je E štatistika doplnkomk F1 štatistike. Ak je b>1 používateľ prikladá väčšiudôležitosť presnosti ako pokrytiu a naopak keď je b<1prikladá väčšiu váhu pokrytiu ako presnosti.( )( ) ( )22111bE ibR i P i+= −+

×