SlideShare a Scribd company logo
1 of 34
Download to read offline
Ocena efektywności
wyszukiwania informacji
Systemy informacyjne
Seminarium
Krzysztof Kusiak
Paweł Kosiński
W skrócie
● Wyszukiwanie dzisiaj - czyli igła w stogu siana.
○ Trudności jakie napotykamy poszukując informacji.
● Jak oceniać znalezione informacje?
○ Relewantność, testowanie efektywności wyszukiwania.
● Miary efektywności wyszukiwania informacji.
○ Dokładność, kompletność i inne.
● Kryteria oceny relewantności wyników.
2/33
Wyszukiwanie ogólnie
● Zadanie wyszukiwania polega na znajdowaniu
w kolekcji zasobów informacyjnych elementów
relewantnych (odpowiednich) w kontekście danej
potrzeby informacyjnej.
● Użytkownik próbuje wyrazić swoją potrzebę
informacyjną w postaci zapytania.
○ Może być ono precyzowane np. za pomocą
operatorów: AND, NOT, OR.
● Skuteczność zależy od algorytmu, indeksowania,
przeszukiwanego zbioru, charakteru zapytania...
Jak ocenić wyszukane elementy?
3/33
Pozyskiwanie informacji
System informacyjny
System
informatyczny
Ocena przez system,
wstępna selekcja informacji
dla użytkownika
Ocena wyników przez
użytkownika.
Wybór lub ponowne
wyszukiwanie
zapytanie
informacjedane
4/33
zapotrzebowanie na
informację
Rok 2010:
5/33
Rok
później
Źródła:
news.investors.com
royal.pingdom.com
blog.grovo.com
blog.hubspot.com
simplyzesty.com
pcworld.com
biztechmagazine.com
digby.com
6/33
Co przyniesie rok 2012?
THE WORLD'S INFORMATION IS DOUBLING
EVERY TWO YEARS wg mashable.com
zettabajt
eksabajt
petabajt
terabajt
gigabajt
7/33
Trudności w wyszukiwaniu
● Różne struktury danych
● Różne algorytmy wyszukiwania
● Duża ilość zasobów do przeszukania
● Różnorodność i dynamika zasobów
● Sprzeczne, nieścisłe informacje...
Ocena wyników
● Czy szukana informacja została
znaleziona?
8/33
Przykład: trudność wyszukiwania
informacji w Internecie
Zasoby WWW podlegają ciągłym zmianom
dokonywanym przez miliony użytkowników
● różne formaty i typy dokumentów,
● różne języki itp.
Konieczna jest nieustanna aktualizacja (reindeksacja) sieci
przez wyszukiwarki, aby dane dostarczane użytkownikowi
były jak najbardziej aktualne.
Sieć WWW można traktować jak bardzo dużą,
nieustrukturalizowaną i rozproszoną bazę danych
9/33
Aby zmierzyć efektywność
wyszukiwania, potrzebujemy:
Testowych potrzeb informacyjnych,
wyrażonych w postaci zapytań
Kolekcji dokumentów (do przeszukania)
Binarnej klasyfikacji dokumentów względem
przygotowanych zapytań
10/33
Kolekcje danych do oceny
systemów wyszukiwania
Istnieje wiele takich kolekcji, na przykład:
● Cranfield Collection
● TREC (Text Retrieval Conference)
● GOV2
● NTCIR
● CLEF (Cross Language Evaluation Forum)
11/33
Kolekcje danych do oceny
systemów wyszukiwania
● Cranfield Collection
○ powstała w latach 50. XX wieku
○ obecnie zbyt mała, nadaje się jedynie do najbardziej
podstawowych wczesnych testów
○ zawiera streszczenia artykułów naukowych
dotyczących aerodynamiki
○ 225 zapytań - dla każdego z nich ocena
relewantności wszystkich dokumentów w zestawie
● TREC (Text Retrieval Conference)
○ zawiera prawie dwa miliony dokumentów (materiały
prasowe itp.)
○ oceny relewantności dokumentów dla ponad 450
potrzeb informacyjnych
12/33
Kolekcje danych do oceny
systemów wyszukiwania
● GOV2
○ największa sposród łatwo dostępnych kolekcji do
celów naukowych (2009 r.)
○ ponad 25 milionów dokumentów głównie ze stron
rządowych (domena .gov)
● NTCIR (NII Test Collections for IR Systems)
○ teksty w językach wschodnioazjatyckich
○ nacisk kładziony na CLIR (ang. cross-language
information retrieval)
■ zapytanie w innym języku niż dokumenty w
przeszukiwanej kolekcji
● CLEF (Cross Language Evaluation Forum)
○ nacisk na języki europejskie oraz CLIR
13/33
Pojęcie relewantności informacji
Relewantny to pozostający w logicznym
związku, odnoszący się do, stosujący się do...
Relewantność jest oceniana przez
użytkowników subiektywnie, do jej
oceny stosuje się więc często
metody eksperymentalne.
Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach
internetowych i ich wykorzystanie do promocji witryn regionalnych
14/33
Relewantność z perspektywy
użytkownika
● Jak bardzo użyteczne okazały się wyniki wyszukiwania?
● Ile było użytecznych wyników wśród wszystkich stron
zwróconych przez wyszukiwarkę?
● Czy jakieś szczególnie użyteczne strony nie zostały
zwrócone?
● Czy kolejność wyników wyszukiwania ułatwiała
znalezienie żądanych informacji?
● Jak dobrze radzi sobie wyszukiwarka z
niejednoznacznością zapytania i jego subiektywnym
charakterem?
Czy potrzeby informacyjne użytkownika zostały
zaspokojone?
15/33
Relewantność a potrzeby
informacyjne
Relewantność jest oceniana w stosunku do potrzeby
informacyjnej, a nie zapytania.
Przykład
● Użytkownik chce dowiedzieć się, czy czerwone wino
skuteczniej niż wino białe pomaga zmniejszyć ryzyko
zawału.
● Może wprowadzić w tym celu różne zapytania, np.
○ wine AND red AND white AND heart AND attack AND
effective
○ white AND red AND wine AND "heart attack" AND risk
● Dokument jest relewantny, gdy zaspokaja potrzebę
informacyjną użytkownika (a nie dlatego, że zawiera
wszystkie słowa z zapytania).
16/33
Trudności w ustaleniu potrzeb
informacyjnych
● Użytkownik wpisuje zapytanie python.
● Mogą się za tym kryć różne potrzeby
informacyjne, np. chęć uzyskania
informacji o:
○ wężach z rodziny Pythonidae,
○ języku programowania Python.
17/33
Personalizacja, podpowiedzi?
Czym jest skuteczne wyszukiwanie?
Przedstawienie użytkownikowi nie dużej liczby wyników, a
ograniczonego zbioru wartościowych informacji
Przykład: fraza "Mars color", czyli informacja o...? ;)
VS
Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color
Result:
RGB Red: 0.59, Green: 0.38, Blue: 0.19
...
18/33
Miary efektywności wyszukiwania
● określa procent dokumentów relewantnych zawartych w odpowiedzi
spośród wszystkich dokumentów relewantnych zgromadzonych w
przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych)
kompletność (ang. recall) – tym większa, im więcej
relewantnych elementów zwraca danych algorytm
dokładność (ang. precision) – jak skuteczny jest dany
algorytm w zwracaniu wyłącznie relewantnych elementów
● procent relewantnych dokumentów w odpowiedzi systemu
wyszukiwania informacji
19/33
Miary efektywności wyszukiwania
Jeszcze inaczej:
Relewantne Nierelewantne
Zwrócone true positives (tp) false positives (fp)
Pominięte false negatives (fn) true negatives (tn)
20/33
Dokładność
(ang. precision)
Kompletność
(ang. recall)
Inne miary efektywności:
● Fall-out
Proporcja nierelewantnych dokumentów w wyniku
wyszukiwania, ze wszystkich nierelewantnych
● F-measure
Ważona średnia harmoniczna dokładności
i kompletności
α – waga dokładności z przedziału [0, 1]
β2
– określa, ile razy ważniejsza jest kompletność niż dokładność;
wartość z przedziału [0, ∞)
21/33
Przykłady wag F-measure
● miara zrównoważona (balanced F-measure)
○ α = 1/2, β2
= 1
○ kompletność i dokładność są jednakowo ważne
○ ogólny wzór na F upraszcza się do postaci:
● miary faworyzujące dokładność
○ β2
< 1
○ np. dla β2
= 0.5, dokładność jest 2 razy ważniejsza niż kompletność
● miary faworyzujące kompletność
○ β2
> 1
22/33
Jak mierzyć jakość
uporządkowanych wyników?
● Dokładność, kompletność, fall-out oraz miara F (F-
measure) nie biorą pod uwagę kolejności,
w której zwracane są wyniki.
● Potrzebujemy sposobu oceniania
uporządkowanych wyników wyszukiwania (ang.
ranked retrieval results).
○ obecnie większość systemów wyszukiwania
informacji prezentuje użytkownikom uporządkowane
listy wyników
○ nie wystarcza nam to, że zostały zwrócone
najlepsze dokumenty – chcemy, aby znalazły się
one jak najbliżej początku listy wyników
23/33
Inne miary efektywności
● Average precision
Uwzględnia kolejność zwracanych
wyników.
p(r) – dokładność jako funkcja
kompletności
● MAP (Mean Average Precision)
Średnia arytmetyczna przeciętnych
dokładności (average precision) liczona
dla danego zestawu zapytań.
Q – liczba zapytań
24/33
Inne miary efektywności
● R-precision
Zakładając, że mamy |Rel| dokumentów, dla danego
zapytania sprawdzamy najlepsze wyniki, aby znaleźć r
relewantnych - wówczas precyzję określić można jako
r/|Rel|, a kompletność jest jej równa.
● DCG (discounted cumulative gain)
Używa stopniowanej skali relewantności
dokumentów z wyników zapytania, aby
ocenić użyteczność dokumentu na
podstawie jego pozycji na liście wyników.
Założenie DCG: wysoce relewantne
dokumenty występujące na dalekich
pozycjach na liście wyników otrzymają
gorszą ocenę (będzie ona maleć
logarytmicznie na coraz dalszych
25/33
Problemy związane z klasycznymi
miarami efektywności wyszukiwania
● Ze względu na rozmiary zbiorów dokumentów
gromadzonych w internetowych systemach
wyszukiwania informacji pojawia się problem
z określeniem liczby wszystkich dokumentów
relewantnych dla danego zapytania
○ nie można zatem wprost wyliczyć ani kompletności,
ani dokładności
26/33
● W przypadku wyszukiwania w sieci WWW
nie jest możliwe określenie statycznego
zbioru dokumentów, których dotyczy
wyszukiwanie
Kryteria oceny relewantności
wyników
● statyczne
○ nie są bezpośrednio powiązane z zapytaniami
kierowanymi do wyszukiwarki przez użytkownika,
○ odzwierciedlają ważność stron internetowych,
○ przykładowy algorytm: PageRank stosowany przez
Google.
● dynamiczne
○ są bezpośrednio powiązane z zapytaniami
użytkownika:
■ wewnętrzne
■ zewnętrzne
27/33
● prosta idea: jakość dokumentu zależy od liczby
wskazujących na niego tekstów
○ dokument często cytowany jest najpewniej
wartościowy
● ulepszenie: im wyżej oceniony jest dokument
wskazujący na daną stronę, tym większe ma to
znaczenie podczas jego oceny
● ocena danego dokumentu rośnie jeszcze bardziej,
gdy wskazujące na niego odnośniki znajdują się na
relewantnych tematycznie stronach
Kryteria statyczne na przykładzie
algorytmu PageRank
28/33
● Służą do oceny strony pod kątem
występowania na niej słów kluczowych
relewantnych wobec potrzeb informacyjnych
wyrażonych w postaci kierowanych przez
użytkowników zapytań.
● Na ocenę strony wpływa występowanie słów
kluczowych w odpowiednich miejscach jej
kodu.
Kryteria dynamiczne wewnętrzne
29/33
Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w tytule strony – znacznik <title>
○ w opisie strony – metaznacznik description w
nagłówku
■ <meta name="description"
content="...">
○ w tekście na stronie
■ przyjmuje się, że nasycenie tekstu słowami
kluczowymi nie powinno przekraczać kilku
procent (3-7%)
○ w wyróżnionych fragmentach tekstu
30/33
Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w wyróżnionych fragmentach tekstu, takich jak:
■ znaczniki nagłówków <h1>, ..., <h6>
■ znaczniki <strong>, <em>, <b>, <i>
○ w opisach elementów strony
■ np. atrybut alt w znacznikach <img>
○ w adresach URL
■ np. http://en.wikipedia.org/wiki/Polish_language
31/33
Kryteria dynamiczne zewnętrzne
● Służą do oceny strony pod kątem relewantności innych
dokumentów na nią wskazujących
● Przykładowo: w algorytmie Google przyjmuje się, że
jeśli w odnośniku do strony zawarty jest jakiś tekst, to
istnieje prawdopodobieństwo, że zawiera ona
informacje związane z tym tekstem
● Im więcej podobnych odnośników, tym większe jest
szacowane prawdopodobieństwo
32/33
Bibliografia
1. Agnieszka Indyka-Piasecka, Model użytkownika w
internetowych systemach wyszukiwania informacji.
2. Ewa Białek, Kryteria oceny relewantności wyników w
wyszukiwarkach internetowych i ich wykorzystanie do
promocji witryn regionalnych.
3. Christopher D. Manning, Prabhakar Raghavan, Hinrich
Schütze, Introduction to Information Retrieval, Cambridge
University Press 2008.
33/33
Koniec
Dziękujemy za uwagę :)

More Related Content

What's hot

Bibliographic description an overview
Bibliographic description an overviewBibliographic description an overview
Bibliographic description an overviewDr. Utpal Das
 
The concept of information seeking behavior by using Wilsons’ (1996) revised ...
The concept of information seeking behavior by using Wilsons’ (1996) revised ...The concept of information seeking behavior by using Wilsons’ (1996) revised ...
The concept of information seeking behavior by using Wilsons’ (1996) revised ...Lucy Kasuke
 
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلمي
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلميعرض قياسات المكتبات وعلاقتها بقياسات النشاط العلمي
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلميosama gharieb
 
Review of search and retrieval strategies
Review of search and retrieval strategiesReview of search and retrieval strategies
Review of search and retrieval strategiesAbid Fakhre Alam
 
Information retrieval system!
Information retrieval system!Information retrieval system!
Information retrieval system!Jane Garay
 
INFORMATION RETRIEVAL Anandraj.L
INFORMATION RETRIEVAL Anandraj.LINFORMATION RETRIEVAL Anandraj.L
INFORMATION RETRIEVAL Anandraj.Lanujessy
 
basis of infromation retrival part 1 retrival tools
basis of infromation retrival part 1 retrival toolsbasis of infromation retrival part 1 retrival tools
basis of infromation retrival part 1 retrival toolsSaroj Suwal
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social MediaArjen de Vries
 
Information retrieval system
Information retrieval systemInformation retrieval system
Information retrieval systemLeslie Vargas
 
Metric Fields in Information Science
Metric Fields in Information ScienceMetric Fields in Information Science
Metric Fields in Information ScienceGladys Wakat
 
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 -
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 - 문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 -
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 - Baro Kim
 
Text Data Mining
Text Data MiningText Data Mining
Text Data MiningKU Leuven
 
ISO 15926 Reference Data Engineering Methodology
ISO 15926 Reference Data Engineering MethodologyISO 15926 Reference Data Engineering Methodology
ISO 15926 Reference Data Engineering MethodologyAnatoly Levenchuk
 
Ontology Engineering for Big Data
Ontology Engineering for Big DataOntology Engineering for Big Data
Ontology Engineering for Big DataKouji Kozaki
 
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...Databricks
 
FRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelFRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelMarcia Zeng
 

What's hot (20)

Bibliographic description an overview
Bibliographic description an overviewBibliographic description an overview
Bibliographic description an overview
 
CCO (Cataloging Cultural Objects): Why CCO?
CCO (Cataloging Cultural Objects): Why CCO?CCO (Cataloging Cultural Objects): Why CCO?
CCO (Cataloging Cultural Objects): Why CCO?
 
The concept of information seeking behavior by using Wilsons’ (1996) revised ...
The concept of information seeking behavior by using Wilsons’ (1996) revised ...The concept of information seeking behavior by using Wilsons’ (1996) revised ...
The concept of information seeking behavior by using Wilsons’ (1996) revised ...
 
Kwoc
KwocKwoc
Kwoc
 
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلمي
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلميعرض قياسات المكتبات وعلاقتها بقياسات النشاط العلمي
عرض قياسات المكتبات وعلاقتها بقياسات النشاط العلمي
 
Review of search and retrieval strategies
Review of search and retrieval strategiesReview of search and retrieval strategies
Review of search and retrieval strategies
 
Information retrieval system!
Information retrieval system!Information retrieval system!
Information retrieval system!
 
INFORMATION RETRIEVAL Anandraj.L
INFORMATION RETRIEVAL Anandraj.LINFORMATION RETRIEVAL Anandraj.L
INFORMATION RETRIEVAL Anandraj.L
 
basis of infromation retrival part 1 retrival tools
basis of infromation retrival part 1 retrival toolsbasis of infromation retrival part 1 retrival tools
basis of infromation retrival part 1 retrival tools
 
Information Retrieval and Social Media
Information Retrieval and Social MediaInformation Retrieval and Social Media
Information Retrieval and Social Media
 
Information retrieval system
Information retrieval systemInformation retrieval system
Information retrieval system
 
Metric Fields in Information Science
Metric Fields in Information ScienceMetric Fields in Information Science
Metric Fields in Information Science
 
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 -
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 - 문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 -
문화유산 오픈 아카이브 구현을 위한 데이터 모델 - 유로피아나 데이터 모델과 응용 사례 -
 
Pubmed Basics
Pubmed BasicsPubmed Basics
Pubmed Basics
 
ISBD
ISBDISBD
ISBD
 
Text Data Mining
Text Data MiningText Data Mining
Text Data Mining
 
ISO 15926 Reference Data Engineering Methodology
ISO 15926 Reference Data Engineering MethodologyISO 15926 Reference Data Engineering Methodology
ISO 15926 Reference Data Engineering Methodology
 
Ontology Engineering for Big Data
Ontology Engineering for Big DataOntology Engineering for Big Data
Ontology Engineering for Big Data
 
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...
Lessons in Linear Algebra at Scale with Apache Spark : Let's Make the Sparse ...
 
FRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data modelFRSAD Functional Requirements for Subject Authority Data model
FRSAD Functional Requirements for Subject Authority Data model
 

Ocena efektywności wyszukiwania informacji w Internecie

  • 1. Ocena efektywności wyszukiwania informacji Systemy informacyjne Seminarium Krzysztof Kusiak Paweł Kosiński
  • 2. W skrócie ● Wyszukiwanie dzisiaj - czyli igła w stogu siana. ○ Trudności jakie napotykamy poszukując informacji. ● Jak oceniać znalezione informacje? ○ Relewantność, testowanie efektywności wyszukiwania. ● Miary efektywności wyszukiwania informacji. ○ Dokładność, kompletność i inne. ● Kryteria oceny relewantności wyników. 2/33
  • 3. Wyszukiwanie ogólnie ● Zadanie wyszukiwania polega na znajdowaniu w kolekcji zasobów informacyjnych elementów relewantnych (odpowiednich) w kontekście danej potrzeby informacyjnej. ● Użytkownik próbuje wyrazić swoją potrzebę informacyjną w postaci zapytania. ○ Może być ono precyzowane np. za pomocą operatorów: AND, NOT, OR. ● Skuteczność zależy od algorytmu, indeksowania, przeszukiwanego zbioru, charakteru zapytania... Jak ocenić wyszukane elementy? 3/33
  • 4. Pozyskiwanie informacji System informacyjny System informatyczny Ocena przez system, wstępna selekcja informacji dla użytkownika Ocena wyników przez użytkownika. Wybór lub ponowne wyszukiwanie zapytanie informacjedane 4/33 zapotrzebowanie na informację
  • 7. Co przyniesie rok 2012? THE WORLD'S INFORMATION IS DOUBLING EVERY TWO YEARS wg mashable.com zettabajt eksabajt petabajt terabajt gigabajt 7/33
  • 8. Trudności w wyszukiwaniu ● Różne struktury danych ● Różne algorytmy wyszukiwania ● Duża ilość zasobów do przeszukania ● Różnorodność i dynamika zasobów ● Sprzeczne, nieścisłe informacje... Ocena wyników ● Czy szukana informacja została znaleziona? 8/33
  • 9. Przykład: trudność wyszukiwania informacji w Internecie Zasoby WWW podlegają ciągłym zmianom dokonywanym przez miliony użytkowników ● różne formaty i typy dokumentów, ● różne języki itp. Konieczna jest nieustanna aktualizacja (reindeksacja) sieci przez wyszukiwarki, aby dane dostarczane użytkownikowi były jak najbardziej aktualne. Sieć WWW można traktować jak bardzo dużą, nieustrukturalizowaną i rozproszoną bazę danych 9/33
  • 10. Aby zmierzyć efektywność wyszukiwania, potrzebujemy: Testowych potrzeb informacyjnych, wyrażonych w postaci zapytań Kolekcji dokumentów (do przeszukania) Binarnej klasyfikacji dokumentów względem przygotowanych zapytań 10/33
  • 11. Kolekcje danych do oceny systemów wyszukiwania Istnieje wiele takich kolekcji, na przykład: ● Cranfield Collection ● TREC (Text Retrieval Conference) ● GOV2 ● NTCIR ● CLEF (Cross Language Evaluation Forum) 11/33
  • 12. Kolekcje danych do oceny systemów wyszukiwania ● Cranfield Collection ○ powstała w latach 50. XX wieku ○ obecnie zbyt mała, nadaje się jedynie do najbardziej podstawowych wczesnych testów ○ zawiera streszczenia artykułów naukowych dotyczących aerodynamiki ○ 225 zapytań - dla każdego z nich ocena relewantności wszystkich dokumentów w zestawie ● TREC (Text Retrieval Conference) ○ zawiera prawie dwa miliony dokumentów (materiały prasowe itp.) ○ oceny relewantności dokumentów dla ponad 450 potrzeb informacyjnych 12/33
  • 13. Kolekcje danych do oceny systemów wyszukiwania ● GOV2 ○ największa sposród łatwo dostępnych kolekcji do celów naukowych (2009 r.) ○ ponad 25 milionów dokumentów głównie ze stron rządowych (domena .gov) ● NTCIR (NII Test Collections for IR Systems) ○ teksty w językach wschodnioazjatyckich ○ nacisk kładziony na CLIR (ang. cross-language information retrieval) ■ zapytanie w innym języku niż dokumenty w przeszukiwanej kolekcji ● CLEF (Cross Language Evaluation Forum) ○ nacisk na języki europejskie oraz CLIR 13/33
  • 14. Pojęcie relewantności informacji Relewantny to pozostający w logicznym związku, odnoszący się do, stosujący się do... Relewantność jest oceniana przez użytkowników subiektywnie, do jej oceny stosuje się więc często metody eksperymentalne. Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych 14/33
  • 15. Relewantność z perspektywy użytkownika ● Jak bardzo użyteczne okazały się wyniki wyszukiwania? ● Ile było użytecznych wyników wśród wszystkich stron zwróconych przez wyszukiwarkę? ● Czy jakieś szczególnie użyteczne strony nie zostały zwrócone? ● Czy kolejność wyników wyszukiwania ułatwiała znalezienie żądanych informacji? ● Jak dobrze radzi sobie wyszukiwarka z niejednoznacznością zapytania i jego subiektywnym charakterem? Czy potrzeby informacyjne użytkownika zostały zaspokojone? 15/33
  • 16. Relewantność a potrzeby informacyjne Relewantność jest oceniana w stosunku do potrzeby informacyjnej, a nie zapytania. Przykład ● Użytkownik chce dowiedzieć się, czy czerwone wino skuteczniej niż wino białe pomaga zmniejszyć ryzyko zawału. ● Może wprowadzić w tym celu różne zapytania, np. ○ wine AND red AND white AND heart AND attack AND effective ○ white AND red AND wine AND "heart attack" AND risk ● Dokument jest relewantny, gdy zaspokaja potrzebę informacyjną użytkownika (a nie dlatego, że zawiera wszystkie słowa z zapytania). 16/33
  • 17. Trudności w ustaleniu potrzeb informacyjnych ● Użytkownik wpisuje zapytanie python. ● Mogą się za tym kryć różne potrzeby informacyjne, np. chęć uzyskania informacji o: ○ wężach z rodziny Pythonidae, ○ języku programowania Python. 17/33 Personalizacja, podpowiedzi?
  • 18. Czym jest skuteczne wyszukiwanie? Przedstawienie użytkownikowi nie dużej liczby wyników, a ograniczonego zbioru wartościowych informacji Przykład: fraza "Mars color", czyli informacja o...? ;) VS Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color Result: RGB Red: 0.59, Green: 0.38, Blue: 0.19 ... 18/33
  • 19. Miary efektywności wyszukiwania ● określa procent dokumentów relewantnych zawartych w odpowiedzi spośród wszystkich dokumentów relewantnych zgromadzonych w przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych) kompletność (ang. recall) – tym większa, im więcej relewantnych elementów zwraca danych algorytm dokładność (ang. precision) – jak skuteczny jest dany algorytm w zwracaniu wyłącznie relewantnych elementów ● procent relewantnych dokumentów w odpowiedzi systemu wyszukiwania informacji 19/33
  • 20. Miary efektywności wyszukiwania Jeszcze inaczej: Relewantne Nierelewantne Zwrócone true positives (tp) false positives (fp) Pominięte false negatives (fn) true negatives (tn) 20/33 Dokładność (ang. precision) Kompletność (ang. recall)
  • 21. Inne miary efektywności: ● Fall-out Proporcja nierelewantnych dokumentów w wyniku wyszukiwania, ze wszystkich nierelewantnych ● F-measure Ważona średnia harmoniczna dokładności i kompletności α – waga dokładności z przedziału [0, 1] β2 – określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞) 21/33
  • 22. Przykłady wag F-measure ● miara zrównoważona (balanced F-measure) ○ α = 1/2, β2 = 1 ○ kompletność i dokładność są jednakowo ważne ○ ogólny wzór na F upraszcza się do postaci: ● miary faworyzujące dokładność ○ β2 < 1 ○ np. dla β2 = 0.5, dokładność jest 2 razy ważniejsza niż kompletność ● miary faworyzujące kompletność ○ β2 > 1 22/33
  • 23. Jak mierzyć jakość uporządkowanych wyników? ● Dokładność, kompletność, fall-out oraz miara F (F- measure) nie biorą pod uwagę kolejności, w której zwracane są wyniki. ● Potrzebujemy sposobu oceniania uporządkowanych wyników wyszukiwania (ang. ranked retrieval results). ○ obecnie większość systemów wyszukiwania informacji prezentuje użytkownikom uporządkowane listy wyników ○ nie wystarcza nam to, że zostały zwrócone najlepsze dokumenty – chcemy, aby znalazły się one jak najbliżej początku listy wyników 23/33
  • 24. Inne miary efektywności ● Average precision Uwzględnia kolejność zwracanych wyników. p(r) – dokładność jako funkcja kompletności ● MAP (Mean Average Precision) Średnia arytmetyczna przeciętnych dokładności (average precision) liczona dla danego zestawu zapytań. Q – liczba zapytań 24/33
  • 25. Inne miary efektywności ● R-precision Zakładając, że mamy |Rel| dokumentów, dla danego zapytania sprawdzamy najlepsze wyniki, aby znaleźć r relewantnych - wówczas precyzję określić można jako r/|Rel|, a kompletność jest jej równa. ● DCG (discounted cumulative gain) Używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników. Założenie DCG: wysoce relewantne dokumenty występujące na dalekich pozycjach na liście wyników otrzymają gorszą ocenę (będzie ona maleć logarytmicznie na coraz dalszych 25/33
  • 26. Problemy związane z klasycznymi miarami efektywności wyszukiwania ● Ze względu na rozmiary zbiorów dokumentów gromadzonych w internetowych systemach wyszukiwania informacji pojawia się problem z określeniem liczby wszystkich dokumentów relewantnych dla danego zapytania ○ nie można zatem wprost wyliczyć ani kompletności, ani dokładności 26/33 ● W przypadku wyszukiwania w sieci WWW nie jest możliwe określenie statycznego zbioru dokumentów, których dotyczy wyszukiwanie
  • 27. Kryteria oceny relewantności wyników ● statyczne ○ nie są bezpośrednio powiązane z zapytaniami kierowanymi do wyszukiwarki przez użytkownika, ○ odzwierciedlają ważność stron internetowych, ○ przykładowy algorytm: PageRank stosowany przez Google. ● dynamiczne ○ są bezpośrednio powiązane z zapytaniami użytkownika: ■ wewnętrzne ■ zewnętrzne 27/33
  • 28. ● prosta idea: jakość dokumentu zależy od liczby wskazujących na niego tekstów ○ dokument często cytowany jest najpewniej wartościowy ● ulepszenie: im wyżej oceniony jest dokument wskazujący na daną stronę, tym większe ma to znaczenie podczas jego oceny ● ocena danego dokumentu rośnie jeszcze bardziej, gdy wskazujące na niego odnośniki znajdują się na relewantnych tematycznie stronach Kryteria statyczne na przykładzie algorytmu PageRank 28/33
  • 29. ● Służą do oceny strony pod kątem występowania na niej słów kluczowych relewantnych wobec potrzeb informacyjnych wyrażonych w postaci kierowanych przez użytkowników zapytań. ● Na ocenę strony wpływa występowanie słów kluczowych w odpowiednich miejscach jej kodu. Kryteria dynamiczne wewnętrzne 29/33
  • 30. Kryteria dynamiczne wewnętrzne - szczegóły ● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.: ○ w tytule strony – znacznik <title> ○ w opisie strony – metaznacznik description w nagłówku ■ <meta name="description" content="..."> ○ w tekście na stronie ■ przyjmuje się, że nasycenie tekstu słowami kluczowymi nie powinno przekraczać kilku procent (3-7%) ○ w wyróżnionych fragmentach tekstu 30/33
  • 31. Kryteria dynamiczne wewnętrzne - szczegóły ● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.: ○ w wyróżnionych fragmentach tekstu, takich jak: ■ znaczniki nagłówków <h1>, ..., <h6> ■ znaczniki <strong>, <em>, <b>, <i> ○ w opisach elementów strony ■ np. atrybut alt w znacznikach <img> ○ w adresach URL ■ np. http://en.wikipedia.org/wiki/Polish_language 31/33
  • 32. Kryteria dynamiczne zewnętrzne ● Służą do oceny strony pod kątem relewantności innych dokumentów na nią wskazujących ● Przykładowo: w algorytmie Google przyjmuje się, że jeśli w odnośniku do strony zawarty jest jakiś tekst, to istnieje prawdopodobieństwo, że zawiera ona informacje związane z tym tekstem ● Im więcej podobnych odnośników, tym większe jest szacowane prawdopodobieństwo 32/33
  • 33. Bibliografia 1. Agnieszka Indyka-Piasecka, Model użytkownika w internetowych systemach wyszukiwania informacji. 2. Ewa Białek, Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych. 3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008. 33/33