Systemy Wyszukiwawcze

3,959 views

Published on

Wykład 3

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
3,959
On SlideShare
0
From Embeds
0
Number of Embeds
42
Actions
Shares
0
Downloads
67
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Systemy Wyszukiwawcze

  1. 1. Systemy wyszukiwawcze Dr Stanisław Skórka Systemy wyszukiwania informacji. Wykład 3
  2. 2. System wyszukiwania informacji <ul><li>S. wyszukiwawczy, s. informacyjno-wyszukiwawczy </li></ul><ul><li>System przetwarzający informację, który z informacji wejściowych (dokumentów, stron WWW) tworzy zbiór wyszukiwawczy poprzez odpowiednie transformacje, dokonując w nim przeszukiwania na podstawie określonej dla danego systemu relacji relewancji technicznej (dopasowania instrukcji wyszukiwawczej do elementów zbioru wyszukiwawczego) </li></ul>
  3. 3. Wyszukiwarka <ul><li>Usługa sieciowa umożliwiająca odnajdywanie w Internecie dowolnych informacji określonych za pomocą słów kluczowych i operatorów (instrukcji wyszukiwawczych, zapytań) </li></ul><ul><li>baza danych tworzona </li></ul><ul><li>automatycznie </li></ul><ul><li>ang. search engine </li></ul>
  4. 4. Wyszukiwanie : pojęcia <ul><li>wyrażenie – ciąg znaków w postaci słowa lub skrótu, </li></ul><ul><li>słowo kluczowe – wyrażenie odzwierciedlające potrzebę informacyjną zawartą w zadaniu wyszukiwawczym, np. kufi, </li></ul><ul><li>zapytanie – jedno lub więcej wyrażeń skierowanych do wyszukiwarki, mogące zawierać m.in. operatory logiczne lub modyfikatory, </li></ul><ul><li>strona wynikowa – strona WWW zawierająca adresy do dokumentów wzbogacone streszczeniem ich zawartości odpowiadającej wysłanemu zapytaniu (trafienia). </li></ul>
  5. 5. Wyszukiwanie według użytkownika Zapytanie Instrukcja wyszukiwawcza Czarna magia (przetwarzanie) Wynik Informacja wyjściowa
  6. 6. S.w. wczoraj 1994 - powstaje WebCrawler prekursor dzisiejszych wyszukiwarek 1996 r. 2007 r.
  7. 7. <ul><li>Posługiwanie się wyszukiwarką do odnajdywania informacji uznaje się za tradycyjną metodę poszukiwania, gdyż stosowana jest od wielu lat w bazach danych oraz zintegrowanych systemach bibliotecznych… </li></ul>
  8. 8. <ul><li>… jednak jej skuteczność nie jest tak wysoka. Powodem jest brak jednolitej struktury dokumentów hipertekstowych, w przeciwieństwie do baz danych, zbudowanych z rekordów, pól i podpól oraz przechowywanie w swojej strukturze wielu form przekazu (tekst, grafika i dźwięk). </li></ul>
  9. 9. Anatomia s.w. Morville, Rosenfeld, s. 163
  10. 10. Elementy budowy wyszukiwarki <ul><li>robot (pajączek), który jest programem przeszukującym strony internetowe i umieszczającym je w bazie danych wyszukiwarki </li></ul><ul><li>baza danych (indeks) , przechowuje strony znalezione przez pajączka </li></ul><ul><li>moduł wyszukujący , przegląda bazę danych w poszukiwaniu stron odpowiadających zapytaniu użytkownika </li></ul>
  11. 11. Działanie wyszukiwarki Indeksowanie
  12. 12. Architektura informacji a wyszukiwanie <ul><li>Interfejs </li></ul><ul><li>Strefy wyszukiwania </li></ul><ul><li>Metody przeszukiwania </li></ul><ul><li>Prezentacja wyników </li></ul><ul><li>Efektywność wyszukiwania </li></ul>
  13. 13. 1. Interfejs
  14. 14. Interfejsy proste
  15. 15. Interfejsy zaawansowane
  16. 16. 2. Strefy wyszukiwania
  17. 17. <ul><li>podzbiory serwisu indeksowane oddzielnie </li></ul><ul><li>możliwość zwiększenia precyzji wyszukiwania </li></ul><ul><li>zaczerpnięte z baz danych (pola indexowane) </li></ul>
  18. 18. Kryteria wyboru <ul><li>typ zawartości </li></ul><ul><li>audytorium </li></ul><ul><li>rola / funkcja </li></ul><ul><li>geografia </li></ul><ul><li>chronologia </li></ul><ul><li>autor </li></ul><ul><li>dział / jednostka organizacyjna </li></ul>
  19. 19. Strefy wyszukiwania
  20. 20. 3. Metody przeszukiwania
  21. 21. Modele klasyczne <ul><li>boolowski : oparty na algebrze Boole’a, dokumenty i zapytania reprezentowane są przez terminy indeksowe (dokumenty relewantne i nierelewantne) </li></ul><ul><li>zalety : jasno sformułowane kryteria przeszukiwnia </li></ul><ul><li>wady : zbyt dokładne dopasowywanie, przejawiające się zbyt małą lub zbyt dużą liczbą trafień </li></ul>
  22. 22. Modele klasyczne <ul><li>wektorowy : dokumenty i zapytania uważane są za wektory w wielowymiarowej przestrzeni (stosuje tzw. dopasowanie częściowe ) </li></ul><ul><li>zalety : stosuje schemat tzw. ważenia terminów, częściowe dopasowanie pozwala odszukać dokumenty przybliżone tematyką do zapytania, jest elastyczny w stosowaniu strategii rankingowej </li></ul><ul><li>popularny wśród projektujących </li></ul>
  23. 23. Modele <ul><li>probabilistyczny : oparty na teorii prawdopodbieństwa, </li></ul><ul><li>zaleta : porządkuje wyniki według prawdopodobnej relewancji </li></ul><ul><li>wady : konieczność rozpoznawania dokumentów relewantnych od nierelewantnych, nie analizuje frekwencyjności terminów w treści, </li></ul>
  24. 24. 4. Prezentacja wyników
  25. 25. Metody porządkowania trafień <ul><li>Sortowanie </li></ul><ul><li>wg kryteriów formalnych: chronologicznie, alfabetyczne </li></ul><ul><li>Ranking </li></ul><ul><li>oparty na ocenie zgodności z zapytaniem </li></ul>
  26. 26. Elementy składowe trafienia <ul><li>nagłówek (link) </li></ul><ul><li>opis (2-3 wiersze) </li></ul><ul><li>adres URL </li></ul>
  27. 27. Prezentacja wyników
  28. 28. Prezentacja wyników (2)
  29. 29. 5. Skuteczność wyszukiwania
  30. 30. 5. Skuteczność wyszukiwania <ul><li>odpowiedź = liczba wyszukanych relewantnych dokumentów / liczba wszystkich relewantnych dokumentów </li></ul><ul><li>precyzja = liczba wyszukanych relewantnych dokumentów / liczba wszystkich wyszukanych dokumentów </li></ul>
  31. 31. Opcje, ułatwienia
  32. 32. Wskazówki <ul><li>Użytkownicy oczekują od wyszukiwarek: </li></ul><ul><ul><li>pola do wpisania instrukcji wyszukiwawczej </li></ul></ul><ul><ul><li>przycisku z etykietą Szukaj </li></ul></ul><ul><ul><li>listy najlepszych wyników, ułożonych liniowo i ws sposób priorytetowy na nowej stronie </li></ul></ul>
  33. 33. Wskazówki (2) <ul><li>Pole wyszukiwania (hasłowe) powinno mieć szerokość 27 znaków, co zapewni 90% uzytkownikom wpisanie całej instrukcji wyszukiwawczej </li></ul><ul><li>niewielu użytkowników używa opcji wyszukiwania zaawansowanego – unikaj jej na pierwszej stronie </li></ul><ul><li>Stosuj opcję Czy chodziło ci o… </li></ul><ul><li>Użytkownicy najczęściej stosują zapytania złożone – uwzgledniaj to w sekcji opisie strony </li></ul>
  34. 34. <ul><li>Zasada „ Najlepszego strzału ” (nazwa produktu, nazwisko dyrektora, nazwa kategorii) </li></ul><ul><li>Specjalista od SEO ( Search Engine Optimization ) </li></ul><ul><li>Sztuczki oszustów (cloacking, spam wyszukujący, fałszywe komentarze, farmy odnośników) </li></ul>Wskazówki (3)
  35. 35. Literatura <ul><li>J. Nielsen, H. Loranger, Optymalizacja funkcjonalności serwsów internetowych . Gliwice 2007. </li></ul><ul><li>R. Baeza-Yates, B.Ribeiro-Neto, Modern Information Retrieval . Addison Wesley 1999. </li></ul><ul><li>L. Rosenfeld, P. Morville, Architektura informacji… , s. 159-206. </li></ul><ul><li>Wykład prof. R. Tadeusiewicza: http://www.ap.krakow.pl/iinib/spai/wyklady/ </li></ul>

×