Ocena efektywności
wyszukiwania informacji
Systemy informacyjne
Seminarium
Krzysztof Kusiak
Paweł Kosiński
W skrócie
● Wyszukiwanie dzisiaj - czyli igła w stogu siana.
○ Trudności jakie napotykamy poszukując informacji.
● Jak oceniać znalezione informacje?
○ Relewantność, testowanie efektywności wyszukiwania.
● Miary efektywności wyszukiwania informacji.
○ Dokładność, kompletność i inne.
● Kryteria oceny relewantności wyników.
2/33
Wyszukiwanie ogólnie
● Zadanie wyszukiwania polega na znajdowaniu
w kolekcji zasobów informacyjnych elementów
relewantnych (odpowiednich) w kontekście danej
potrzeby informacyjnej.
● Użytkownik próbuje wyrazić swoją potrzebę
informacyjną w postaci zapytania.
○ Może być ono precyzowane np. za pomocą
operatorów: AND, NOT, OR.
● Skuteczność zależy od algorytmu, indeksowania,
przeszukiwanego zbioru, charakteru zapytania...
Jak ocenić wyszukane elementy?
3/33
Pozyskiwanie informacji
System informacyjny
System
informatyczny
Ocena przez system,
wstępna selekcja informacji
dla użytkownika
Ocena wyników przez
użytkownika.
Wybór lub ponowne
wyszukiwanie
zapytanie
informacjedane
4/33
zapotrzebowanie na
informację
Rok 2010:
5/33
Rok
później
Źródła:
news.investors.com
royal.pingdom.com
blog.grovo.com
blog.hubspot.com
simplyzesty.com
pcworld.com
biztechmagazine.com
digby.com
6/33
Co przyniesie rok 2012?
THE WORLD'S INFORMATION IS DOUBLING
EVERY TWO YEARS wg mashable.com
zettabajt
eksabajt
petabajt
terabajt
gigabajt
7/33
Trudności w wyszukiwaniu
● Różne struktury danych
● Różne algorytmy wyszukiwania
● Duża ilość zasobów do przeszukania
● Różnorodność i dynamika zasobów
● Sprzeczne, nieścisłe informacje...
Ocena wyników
● Czy szukana informacja została
znaleziona?
8/33
Przykład: trudność wyszukiwania
informacji w Internecie
Zasoby WWW podlegają ciągłym zmianom
dokonywanym przez miliony użytkowników
● różne formaty i typy dokumentów,
● różne języki itp.
Konieczna jest nieustanna aktualizacja (reindeksacja) sieci
przez wyszukiwarki, aby dane dostarczane użytkownikowi
były jak najbardziej aktualne.
Sieć WWW można traktować jak bardzo dużą,
nieustrukturalizowaną i rozproszoną bazę danych
9/33
Aby zmierzyć efektywność
wyszukiwania, potrzebujemy:
Testowych potrzeb informacyjnych,
wyrażonych w postaci zapytań
Kolekcji dokumentów (do przeszukania)
Binarnej klasyfikacji dokumentów względem
przygotowanych zapytań
10/33
Kolekcje danych do oceny
systemów wyszukiwania
Istnieje wiele takich kolekcji, na przykład:
● Cranfield Collection
● TREC (Text Retrieval Conference)
● GOV2
● NTCIR
● CLEF (Cross Language Evaluation Forum)
11/33
Kolekcje danych do oceny
systemów wyszukiwania
● Cranfield Collection
○ powstała w latach 50. XX wieku
○ obecnie zbyt mała, nadaje się jedynie do najbardziej
podstawowych wczesnych testów
○ zawiera streszczenia artykułów naukowych
dotyczących aerodynamiki
○ 225 zapytań - dla każdego z nich ocena
relewantności wszystkich dokumentów w zestawie
● TREC (Text Retrieval Conference)
○ zawiera prawie dwa miliony dokumentów (materiały
prasowe itp.)
○ oceny relewantności dokumentów dla ponad 450
potrzeb informacyjnych
12/33
Kolekcje danych do oceny
systemów wyszukiwania
● GOV2
○ największa sposród łatwo dostępnych kolekcji do
celów naukowych (2009 r.)
○ ponad 25 milionów dokumentów głównie ze stron
rządowych (domena .gov)
● NTCIR (NII Test Collections for IR Systems)
○ teksty w językach wschodnioazjatyckich
○ nacisk kładziony na CLIR (ang. cross-language
information retrieval)
■ zapytanie w innym języku niż dokumenty w
przeszukiwanej kolekcji
● CLEF (Cross Language Evaluation Forum)
○ nacisk na języki europejskie oraz CLIR
13/33
Pojęcie relewantności informacji
Relewantny to pozostający w logicznym
związku, odnoszący się do, stosujący się do...
Relewantność jest oceniana przez
użytkowników subiektywnie, do jej
oceny stosuje się więc często
metody eksperymentalne.
Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach
internetowych i ich wykorzystanie do promocji witryn regionalnych
14/33
Relewantność z perspektywy
użytkownika
● Jak bardzo użyteczne okazały się wyniki wyszukiwania?
● Ile było użytecznych wyników wśród wszystkich stron
zwróconych przez wyszukiwarkę?
● Czy jakieś szczególnie użyteczne strony nie zostały
zwrócone?
● Czy kolejność wyników wyszukiwania ułatwiała
znalezienie żądanych informacji?
● Jak dobrze radzi sobie wyszukiwarka z
niejednoznacznością zapytania i jego subiektywnym
charakterem?
Czy potrzeby informacyjne użytkownika zostały
zaspokojone?
15/33
Relewantność a potrzeby
informacyjne
Relewantność jest oceniana w stosunku do potrzeby
informacyjnej, a nie zapytania.
Przykład
● Użytkownik chce dowiedzieć się, czy czerwone wino
skuteczniej niż wino białe pomaga zmniejszyć ryzyko
zawału.
● Może wprowadzić w tym celu różne zapytania, np.
○ wine AND red AND white AND heart AND attack AND
effective
○ white AND red AND wine AND "heart attack" AND risk
● Dokument jest relewantny, gdy zaspokaja potrzebę
informacyjną użytkownika (a nie dlatego, że zawiera
wszystkie słowa z zapytania).
16/33
Trudności w ustaleniu potrzeb
informacyjnych
● Użytkownik wpisuje zapytanie python.
● Mogą się za tym kryć różne potrzeby
informacyjne, np. chęć uzyskania
informacji o:
○ wężach z rodziny Pythonidae,
○ języku programowania Python.
17/33
Personalizacja, podpowiedzi?
Czym jest skuteczne wyszukiwanie?
Przedstawienie użytkownikowi nie dużej liczby wyników, a
ograniczonego zbioru wartościowych informacji
Przykład: fraza "Mars color", czyli informacja o...? ;)
VS
Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color
Result:
RGB Red: 0.59, Green: 0.38, Blue: 0.19
...
18/33
Miary efektywności wyszukiwania
● określa procent dokumentów relewantnych zawartych w odpowiedzi
spośród wszystkich dokumentów relewantnych zgromadzonych w
przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych)
kompletność (ang. recall) – tym większa, im więcej
relewantnych elementów zwraca danych algorytm
dokładność (ang. precision) – jak skuteczny jest dany
algorytm w zwracaniu wyłącznie relewantnych elementów
● procent relewantnych dokumentów w odpowiedzi systemu
wyszukiwania informacji
19/33
Miary efektywności wyszukiwania
Jeszcze inaczej:
Relewantne Nierelewantne
Zwrócone true positives (tp) false positives (fp)
Pominięte false negatives (fn) true negatives (tn)
20/33
Dokładność
(ang. precision)
Kompletność
(ang. recall)
Inne miary efektywności:
● Fall-out
Proporcja nierelewantnych dokumentów w wyniku
wyszukiwania, ze wszystkich nierelewantnych
● F-measure
Ważona średnia harmoniczna dokładności
i kompletności
α – waga dokładności z przedziału [0, 1]
β2
– określa, ile razy ważniejsza jest kompletność niż dokładność;
wartość z przedziału [0, ∞)
21/33
Przykłady wag F-measure
● miara zrównoważona (balanced F-measure)
○ α = 1/2, β2
= 1
○ kompletność i dokładność są jednakowo ważne
○ ogólny wzór na F upraszcza się do postaci:
● miary faworyzujące dokładność
○ β2
< 1
○ np. dla β2
= 0.5, dokładność jest 2 razy ważniejsza niż kompletność
● miary faworyzujące kompletność
○ β2
> 1
22/33
Jak mierzyć jakość
uporządkowanych wyników?
● Dokładność, kompletność, fall-out oraz miara F (F-
measure) nie biorą pod uwagę kolejności,
w której zwracane są wyniki.
● Potrzebujemy sposobu oceniania
uporządkowanych wyników wyszukiwania (ang.
ranked retrieval results).
○ obecnie większość systemów wyszukiwania
informacji prezentuje użytkownikom uporządkowane
listy wyników
○ nie wystarcza nam to, że zostały zwrócone
najlepsze dokumenty – chcemy, aby znalazły się
one jak najbliżej początku listy wyników
23/33
Inne miary efektywności
● Average precision
Uwzględnia kolejność zwracanych
wyników.
p(r) – dokładność jako funkcja
kompletności
● MAP (Mean Average Precision)
Średnia arytmetyczna przeciętnych
dokładności (average precision) liczona
dla danego zestawu zapytań.
Q – liczba zapytań
24/33
Inne miary efektywności
● R-precision
Zakładając, że mamy |Rel| dokumentów, dla danego
zapytania sprawdzamy najlepsze wyniki, aby znaleźć r
relewantnych - wówczas precyzję określić można jako
r/|Rel|, a kompletność jest jej równa.
● DCG (discounted cumulative gain)
Używa stopniowanej skali relewantności
dokumentów z wyników zapytania, aby
ocenić użyteczność dokumentu na
podstawie jego pozycji na liście wyników.
Założenie DCG: wysoce relewantne
dokumenty występujące na dalekich
pozycjach na liście wyników otrzymają
gorszą ocenę (będzie ona maleć
logarytmicznie na coraz dalszych
25/33
Problemy związane z klasycznymi
miarami efektywności wyszukiwania
● Ze względu na rozmiary zbiorów dokumentów
gromadzonych w internetowych systemach
wyszukiwania informacji pojawia się problem
z określeniem liczby wszystkich dokumentów
relewantnych dla danego zapytania
○ nie można zatem wprost wyliczyć ani kompletności,
ani dokładności
26/33
● W przypadku wyszukiwania w sieci WWW
nie jest możliwe określenie statycznego
zbioru dokumentów, których dotyczy
wyszukiwanie
Kryteria oceny relewantności
wyników
● statyczne
○ nie są bezpośrednio powiązane z zapytaniami
kierowanymi do wyszukiwarki przez użytkownika,
○ odzwierciedlają ważność stron internetowych,
○ przykładowy algorytm: PageRank stosowany przez
Google.
● dynamiczne
○ są bezpośrednio powiązane z zapytaniami
użytkownika:
■ wewnętrzne
■ zewnętrzne
27/33
● prosta idea: jakość dokumentu zależy od liczby
wskazujących na niego tekstów
○ dokument często cytowany jest najpewniej
wartościowy
● ulepszenie: im wyżej oceniony jest dokument
wskazujący na daną stronę, tym większe ma to
znaczenie podczas jego oceny
● ocena danego dokumentu rośnie jeszcze bardziej,
gdy wskazujące na niego odnośniki znajdują się na
relewantnych tematycznie stronach
Kryteria statyczne na przykładzie
algorytmu PageRank
28/33
● Służą do oceny strony pod kątem
występowania na niej słów kluczowych
relewantnych wobec potrzeb informacyjnych
wyrażonych w postaci kierowanych przez
użytkowników zapytań.
● Na ocenę strony wpływa występowanie słów
kluczowych w odpowiednich miejscach jej
kodu.
Kryteria dynamiczne wewnętrzne
29/33
Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w tytule strony – znacznik <title>
○ w opisie strony – metaznacznik description w
nagłówku
■ <meta name="description"
content="...">
○ w tekście na stronie
■ przyjmuje się, że nasycenie tekstu słowami
kluczowymi nie powinno przekraczać kilku
procent (3-7%)
○ w wyróżnionych fragmentach tekstu
30/33
Kryteria dynamiczne wewnętrzne -
szczegóły
● aby strona zajęła wysoką pozycję w
rankingu wyszukiwarki odpowiednie słowa
kluczowe powinny znaleźć się m.in.:
○ w wyróżnionych fragmentach tekstu, takich jak:
■ znaczniki nagłówków <h1>, ..., <h6>
■ znaczniki <strong>, <em>, <b>, <i>
○ w opisach elementów strony
■ np. atrybut alt w znacznikach <img>
○ w adresach URL
■ np. http://en.wikipedia.org/wiki/Polish_language
31/33
Kryteria dynamiczne zewnętrzne
● Służą do oceny strony pod kątem relewantności innych
dokumentów na nią wskazujących
● Przykładowo: w algorytmie Google przyjmuje się, że
jeśli w odnośniku do strony zawarty jest jakiś tekst, to
istnieje prawdopodobieństwo, że zawiera ona
informacje związane z tym tekstem
● Im więcej podobnych odnośników, tym większe jest
szacowane prawdopodobieństwo
32/33
Bibliografia
1. Agnieszka Indyka-Piasecka, Model użytkownika w
internetowych systemach wyszukiwania informacji.
2. Ewa Białek, Kryteria oceny relewantności wyników w
wyszukiwarkach internetowych i ich wykorzystanie do
promocji witryn regionalnych.
3. Christopher D. Manning, Prabhakar Raghavan, Hinrich
Schütze, Introduction to Information Retrieval, Cambridge
University Press 2008.
33/33
Koniec
Dziękujemy za uwagę :)

Ocena efektywności wyszukiwania informacji w Internecie

  • 1.
    Ocena efektywności wyszukiwania informacji Systemyinformacyjne Seminarium Krzysztof Kusiak Paweł Kosiński
  • 2.
    W skrócie ● Wyszukiwaniedzisiaj - czyli igła w stogu siana. ○ Trudności jakie napotykamy poszukując informacji. ● Jak oceniać znalezione informacje? ○ Relewantność, testowanie efektywności wyszukiwania. ● Miary efektywności wyszukiwania informacji. ○ Dokładność, kompletność i inne. ● Kryteria oceny relewantności wyników. 2/33
  • 3.
    Wyszukiwanie ogólnie ● Zadaniewyszukiwania polega na znajdowaniu w kolekcji zasobów informacyjnych elementów relewantnych (odpowiednich) w kontekście danej potrzeby informacyjnej. ● Użytkownik próbuje wyrazić swoją potrzebę informacyjną w postaci zapytania. ○ Może być ono precyzowane np. za pomocą operatorów: AND, NOT, OR. ● Skuteczność zależy od algorytmu, indeksowania, przeszukiwanego zbioru, charakteru zapytania... Jak ocenić wyszukane elementy? 3/33
  • 4.
    Pozyskiwanie informacji System informacyjny System informatyczny Ocenaprzez system, wstępna selekcja informacji dla użytkownika Ocena wyników przez użytkownika. Wybór lub ponowne wyszukiwanie zapytanie informacjedane 4/33 zapotrzebowanie na informację
  • 5.
  • 6.
  • 7.
    Co przyniesie rok2012? THE WORLD'S INFORMATION IS DOUBLING EVERY TWO YEARS wg mashable.com zettabajt eksabajt petabajt terabajt gigabajt 7/33
  • 8.
    Trudności w wyszukiwaniu ●Różne struktury danych ● Różne algorytmy wyszukiwania ● Duża ilość zasobów do przeszukania ● Różnorodność i dynamika zasobów ● Sprzeczne, nieścisłe informacje... Ocena wyników ● Czy szukana informacja została znaleziona? 8/33
  • 9.
    Przykład: trudność wyszukiwania informacjiw Internecie Zasoby WWW podlegają ciągłym zmianom dokonywanym przez miliony użytkowników ● różne formaty i typy dokumentów, ● różne języki itp. Konieczna jest nieustanna aktualizacja (reindeksacja) sieci przez wyszukiwarki, aby dane dostarczane użytkownikowi były jak najbardziej aktualne. Sieć WWW można traktować jak bardzo dużą, nieustrukturalizowaną i rozproszoną bazę danych 9/33
  • 10.
    Aby zmierzyć efektywność wyszukiwania,potrzebujemy: Testowych potrzeb informacyjnych, wyrażonych w postaci zapytań Kolekcji dokumentów (do przeszukania) Binarnej klasyfikacji dokumentów względem przygotowanych zapytań 10/33
  • 11.
    Kolekcje danych dooceny systemów wyszukiwania Istnieje wiele takich kolekcji, na przykład: ● Cranfield Collection ● TREC (Text Retrieval Conference) ● GOV2 ● NTCIR ● CLEF (Cross Language Evaluation Forum) 11/33
  • 12.
    Kolekcje danych dooceny systemów wyszukiwania ● Cranfield Collection ○ powstała w latach 50. XX wieku ○ obecnie zbyt mała, nadaje się jedynie do najbardziej podstawowych wczesnych testów ○ zawiera streszczenia artykułów naukowych dotyczących aerodynamiki ○ 225 zapytań - dla każdego z nich ocena relewantności wszystkich dokumentów w zestawie ● TREC (Text Retrieval Conference) ○ zawiera prawie dwa miliony dokumentów (materiały prasowe itp.) ○ oceny relewantności dokumentów dla ponad 450 potrzeb informacyjnych 12/33
  • 13.
    Kolekcje danych dooceny systemów wyszukiwania ● GOV2 ○ największa sposród łatwo dostępnych kolekcji do celów naukowych (2009 r.) ○ ponad 25 milionów dokumentów głównie ze stron rządowych (domena .gov) ● NTCIR (NII Test Collections for IR Systems) ○ teksty w językach wschodnioazjatyckich ○ nacisk kładziony na CLIR (ang. cross-language information retrieval) ■ zapytanie w innym języku niż dokumenty w przeszukiwanej kolekcji ● CLEF (Cross Language Evaluation Forum) ○ nacisk na języki europejskie oraz CLIR 13/33
  • 14.
    Pojęcie relewantności informacji Relewantnyto pozostający w logicznym związku, odnoszący się do, stosujący się do... Relewantność jest oceniana przez użytkowników subiektywnie, do jej oceny stosuje się więc często metody eksperymentalne. Białek E., Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych 14/33
  • 15.
    Relewantność z perspektywy użytkownika ●Jak bardzo użyteczne okazały się wyniki wyszukiwania? ● Ile było użytecznych wyników wśród wszystkich stron zwróconych przez wyszukiwarkę? ● Czy jakieś szczególnie użyteczne strony nie zostały zwrócone? ● Czy kolejność wyników wyszukiwania ułatwiała znalezienie żądanych informacji? ● Jak dobrze radzi sobie wyszukiwarka z niejednoznacznością zapytania i jego subiektywnym charakterem? Czy potrzeby informacyjne użytkownika zostały zaspokojone? 15/33
  • 16.
    Relewantność a potrzeby informacyjne Relewantnośćjest oceniana w stosunku do potrzeby informacyjnej, a nie zapytania. Przykład ● Użytkownik chce dowiedzieć się, czy czerwone wino skuteczniej niż wino białe pomaga zmniejszyć ryzyko zawału. ● Może wprowadzić w tym celu różne zapytania, np. ○ wine AND red AND white AND heart AND attack AND effective ○ white AND red AND wine AND "heart attack" AND risk ● Dokument jest relewantny, gdy zaspokaja potrzebę informacyjną użytkownika (a nie dlatego, że zawiera wszystkie słowa z zapytania). 16/33
  • 17.
    Trudności w ustaleniupotrzeb informacyjnych ● Użytkownik wpisuje zapytanie python. ● Mogą się za tym kryć różne potrzeby informacyjne, np. chęć uzyskania informacji o: ○ wężach z rodziny Pythonidae, ○ języku programowania Python. 17/33 Personalizacja, podpowiedzi?
  • 18.
    Czym jest skutecznewyszukiwanie? Przedstawienie użytkownikowi nie dużej liczby wyników, a ograniczonego zbioru wartościowych informacji Przykład: fraza "Mars color", czyli informacja o...? ;) VS Około 156 000 000 wyników (0,15 s) Input interpretation: Mars (planet) color Result: RGB Red: 0.59, Green: 0.38, Blue: 0.19 ... 18/33
  • 19.
    Miary efektywności wyszukiwania ●określa procent dokumentów relewantnych zawartych w odpowiedzi spośród wszystkich dokumentów relewantnych zgromadzonych w przeszukiwanej kolekcji (zarówno wyszukanych, jak i niewyszukanych) kompletność (ang. recall) – tym większa, im więcej relewantnych elementów zwraca danych algorytm dokładność (ang. precision) – jak skuteczny jest dany algorytm w zwracaniu wyłącznie relewantnych elementów ● procent relewantnych dokumentów w odpowiedzi systemu wyszukiwania informacji 19/33
  • 20.
    Miary efektywności wyszukiwania Jeszczeinaczej: Relewantne Nierelewantne Zwrócone true positives (tp) false positives (fp) Pominięte false negatives (fn) true negatives (tn) 20/33 Dokładność (ang. precision) Kompletność (ang. recall)
  • 21.
    Inne miary efektywności: ●Fall-out Proporcja nierelewantnych dokumentów w wyniku wyszukiwania, ze wszystkich nierelewantnych ● F-measure Ważona średnia harmoniczna dokładności i kompletności α – waga dokładności z przedziału [0, 1] β2 – określa, ile razy ważniejsza jest kompletność niż dokładność; wartość z przedziału [0, ∞) 21/33
  • 22.
    Przykłady wag F-measure ●miara zrównoważona (balanced F-measure) ○ α = 1/2, β2 = 1 ○ kompletność i dokładność są jednakowo ważne ○ ogólny wzór na F upraszcza się do postaci: ● miary faworyzujące dokładność ○ β2 < 1 ○ np. dla β2 = 0.5, dokładność jest 2 razy ważniejsza niż kompletność ● miary faworyzujące kompletność ○ β2 > 1 22/33
  • 23.
    Jak mierzyć jakość uporządkowanychwyników? ● Dokładność, kompletność, fall-out oraz miara F (F- measure) nie biorą pod uwagę kolejności, w której zwracane są wyniki. ● Potrzebujemy sposobu oceniania uporządkowanych wyników wyszukiwania (ang. ranked retrieval results). ○ obecnie większość systemów wyszukiwania informacji prezentuje użytkownikom uporządkowane listy wyników ○ nie wystarcza nam to, że zostały zwrócone najlepsze dokumenty – chcemy, aby znalazły się one jak najbliżej początku listy wyników 23/33
  • 24.
    Inne miary efektywności ●Average precision Uwzględnia kolejność zwracanych wyników. p(r) – dokładność jako funkcja kompletności ● MAP (Mean Average Precision) Średnia arytmetyczna przeciętnych dokładności (average precision) liczona dla danego zestawu zapytań. Q – liczba zapytań 24/33
  • 25.
    Inne miary efektywności ●R-precision Zakładając, że mamy |Rel| dokumentów, dla danego zapytania sprawdzamy najlepsze wyniki, aby znaleźć r relewantnych - wówczas precyzję określić można jako r/|Rel|, a kompletność jest jej równa. ● DCG (discounted cumulative gain) Używa stopniowanej skali relewantności dokumentów z wyników zapytania, aby ocenić użyteczność dokumentu na podstawie jego pozycji na liście wyników. Założenie DCG: wysoce relewantne dokumenty występujące na dalekich pozycjach na liście wyników otrzymają gorszą ocenę (będzie ona maleć logarytmicznie na coraz dalszych 25/33
  • 26.
    Problemy związane zklasycznymi miarami efektywności wyszukiwania ● Ze względu na rozmiary zbiorów dokumentów gromadzonych w internetowych systemach wyszukiwania informacji pojawia się problem z określeniem liczby wszystkich dokumentów relewantnych dla danego zapytania ○ nie można zatem wprost wyliczyć ani kompletności, ani dokładności 26/33 ● W przypadku wyszukiwania w sieci WWW nie jest możliwe określenie statycznego zbioru dokumentów, których dotyczy wyszukiwanie
  • 27.
    Kryteria oceny relewantności wyników ●statyczne ○ nie są bezpośrednio powiązane z zapytaniami kierowanymi do wyszukiwarki przez użytkownika, ○ odzwierciedlają ważność stron internetowych, ○ przykładowy algorytm: PageRank stosowany przez Google. ● dynamiczne ○ są bezpośrednio powiązane z zapytaniami użytkownika: ■ wewnętrzne ■ zewnętrzne 27/33
  • 28.
    ● prosta idea:jakość dokumentu zależy od liczby wskazujących na niego tekstów ○ dokument często cytowany jest najpewniej wartościowy ● ulepszenie: im wyżej oceniony jest dokument wskazujący na daną stronę, tym większe ma to znaczenie podczas jego oceny ● ocena danego dokumentu rośnie jeszcze bardziej, gdy wskazujące na niego odnośniki znajdują się na relewantnych tematycznie stronach Kryteria statyczne na przykładzie algorytmu PageRank 28/33
  • 29.
    ● Służą dooceny strony pod kątem występowania na niej słów kluczowych relewantnych wobec potrzeb informacyjnych wyrażonych w postaci kierowanych przez użytkowników zapytań. ● Na ocenę strony wpływa występowanie słów kluczowych w odpowiednich miejscach jej kodu. Kryteria dynamiczne wewnętrzne 29/33
  • 30.
    Kryteria dynamiczne wewnętrzne- szczegóły ● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.: ○ w tytule strony – znacznik <title> ○ w opisie strony – metaznacznik description w nagłówku ■ <meta name="description" content="..."> ○ w tekście na stronie ■ przyjmuje się, że nasycenie tekstu słowami kluczowymi nie powinno przekraczać kilku procent (3-7%) ○ w wyróżnionych fragmentach tekstu 30/33
  • 31.
    Kryteria dynamiczne wewnętrzne- szczegóły ● aby strona zajęła wysoką pozycję w rankingu wyszukiwarki odpowiednie słowa kluczowe powinny znaleźć się m.in.: ○ w wyróżnionych fragmentach tekstu, takich jak: ■ znaczniki nagłówków <h1>, ..., <h6> ■ znaczniki <strong>, <em>, <b>, <i> ○ w opisach elementów strony ■ np. atrybut alt w znacznikach <img> ○ w adresach URL ■ np. http://en.wikipedia.org/wiki/Polish_language 31/33
  • 32.
    Kryteria dynamiczne zewnętrzne ●Służą do oceny strony pod kątem relewantności innych dokumentów na nią wskazujących ● Przykładowo: w algorytmie Google przyjmuje się, że jeśli w odnośniku do strony zawarty jest jakiś tekst, to istnieje prawdopodobieństwo, że zawiera ona informacje związane z tym tekstem ● Im więcej podobnych odnośników, tym większe jest szacowane prawdopodobieństwo 32/33
  • 33.
    Bibliografia 1. Agnieszka Indyka-Piasecka,Model użytkownika w internetowych systemach wyszukiwania informacji. 2. Ewa Białek, Kryteria oceny relewantności wyników w wyszukiwarkach internetowych i ich wykorzystanie do promocji witryn regionalnych. 3. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press 2008. 33/33
  • 34.