SlideShare a Scribd company logo
1 of 15
„Szukanie informacji w Sieci - ukryte zasoby WEB”




Część II




Co to jest ukryty Web?




Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy




Definicje i terminy




Roboty standardowych wyszukiwarek (Google, Netsprint) indeksują tylko te strony (najczęściej statyczne
HTML), do których odnośniki znajdują się na innych witrynach albo zostały zgłoszone do wyszukiwarek przez
użytkowników. Tę część sieci – rozpoznawalną przez wyszukiwarki - określa się jako widoczną / płytką /
indeksowaną (ang. surface web, visible web, indexable web). Pozostałe zasoby sieci - trudno dostępne dla
standardowych wyszukiwarek – nazywane są ukryty Web / niewidoczny web / głęboki web (ang. hidden web,
deep web, invisible web). Terminu „invisible Web” użył po raz pierwszy w 1994 r. Jill Ellsworth dla określenia
informacji „niewidzialnych” dla konwencjonalnych wyszukiwarek. Najczęściej cytowane definicje ukrytej sieci to:

wg C. Shermana i G. Price’a (2001) - Invisible Web – dostępne w sieci i często bardzo wartościowe strony
tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują
ogólne wyszukiwarki;
wg M. K. Bergmana (2001) – Deep web – strony www tworzone dynamicznie jako wyniki specjalistycznych
wyszukiwań w bazach danych.
Zasoby deep Web




Typy zasobów deep Web

W Cz. I wykładu przedstawiono działanie robotów wyszukiwarek i zasobów sieci przez nie penetrowanych.
Zgodnie z w/w definiajmi ukryty Web to zasoby sieciowe nie wyszukiwane przy pomocy standardowych
wyszukiwarek. Jakie to zatem typy zasobów?

zawartość publicznie dostępnych baz danych

    Większość zasobów sieci ukrytej stanowią bazy danych (głównie relacyjne), których zawartości nie jest w
    stanie spenetrować robot konwencjonalnej wyszukiwarki. Znajdzie on jedynie stronę główną bazy, gdzie
    następnym krokiem jest zadanie pytania bazie danych, czego wyszukiwarka już nie potrafi. Tak więc
    ogromne zasoby (miliardy rekordów, pełnych tekstów publikacji) pozostają „w ukryciu”, choć są dostępne w
    sieci i to często jako strony HTML, ale wygenerowane po zadaniu pytania bezpośrednio bazie danych. W tej
    grupie zasobów ukrytej sieci mieści się również zdecydowa większość katalogów bibliotecznych
    bibliotecznych i innych baz danych tworzonych przez biblioteki, np. bibliografii publikacji pracowników1. W tej
    grupie są również archiwa gazet i czasopism, słowniki, książki telefoniczne itp. Ale oczywiście nie jest to
    regułą. Wszystko zależy od technologii, w której tworzona jest baza danych i jak współpracuje z robotem
    konkretnej wyszukiwarki.

strony i pliki nietekstowe, w innych formatach niż HTML

    Raport Bergmana i praca C. Shermana i G. Price’a powstały w czasie, gdy roboty wyszukiwarek nie radziły
    sobie z indeksowaniem stron i plików zapisanych w formatach innych niż HTML. Do zasobów ukrytych
    zaliczano więc wszystkie inne materiały, np.

dokumenty PDF, Postscript, PHP, doc, xls, ppt, rtf


witryny czy elementy prezentacji stworzone w technologii Flash
czy JavaScript
pliki multimedialne, nagrania dźwiękowe, obrazy, pliki video
struktury substancji chemicznych
programy
pliki skompresowane (np. *zip, *tar)

    Obecnie najlepsze wyszukiwarki bez trudu znajdują strony zapisane w PDF, Postscript, doc, xls, ppt, rtf, o ile
    spełniają inne kryteria robotów. Problemem nadal pozostają witryny stworzone w całości lub częściowo w
    technologii Flash2, które dla większości robotów są nieczytelne, a więc treści na nich zawarte – często
    wartościowe – pozostają częściowo „w ukryciu”. Roboty nie radzą sobie też plikami graficznymi,
    dźwiękowymi, video. Dostępne są wprawdzie opcje przeszukiwania grafiki, audio czy video, ale np. robot
    Google nie rozpoznaje tekstu zawartego w grafice – wyszuka obrazek tylko wtedy, gdy nazwa pliku lub tekst
    w jego pobliżu w kodzie źródłowym odpowiada naszemu zapytaniu.

strony, do których nie prowadzą odsyłacze z innych witryn

    Zgodnie z jedną z zasad działania robotów wyszukiwarek – indeksowania stron, do których prowadzi
    przynajmniej jeden link z innej strony - do indeksów wyszukiwarek nie zostaną włączone strony, do których
    brak odsyłaczy z innych stron i pozostaną „w ukryciu”.
strony internetowe wyłączone z procesu indeksacji przez twórców

Niektóre serwisy (w tym komercyjne bazy danych) wymagają płatnej rejestracji bądź są dostępne dla
subskrybentów po dokonaniu autoryzacji, więc ze względów oczywistych takie zasoby muszą byćwyłączone z
procesu indeksacji przez wyszukiwarki. Roboty nie są również w stanie, z powodów technicznych, zalogować się
do serwisów wymagających bezpłatnej rejestracji. Te dwa rodzaje zasobów tworzą tzw. Sieć zastrzeżoną, której
pokaźną częścią są cenne zasoby naukowych baz danych, np. Inspec, ESSCO. Niektórzy dostawcy3 ujawniają
dla Gogle informacje ze swoich baz do poziomu np. opisu bibliograficznego, a reszta (abstrakt, pełen tekst) jest
zastrzeżona. Druga grupa stron wyłączonych z indeksacji to te, których twórcy zabronili robotom wyszukiwarek
indeksowania treści dokumentów i zamieścili pliki robot.txt w kodzie źródłowym strony.
strony i pliki tworzone dynamicznie lub w czasie rzeczywistym

    Strony generowane dynamicznie, w ramach zazwyczaj dużych serwisów internetowych tworzonych przy
    pomocy np. technologii ASP czy PHP, powstają po zainicjowaniu pewnej „akcji” przez użytkownika, np.
    zadanie pytania bazie danych albo wyszukiwarce serwisu, wypełnienie formularza czy ustawianiu własnych
    preferencji. Jest to więc informacja generowana „w locie” i tworzona przez specjalne skrypty, zgodnie z
    potrzebami konkretnego użytkownika strony i niekoniecznie istotna dla innego użytkownika. Adres URL
    stron tworzonych dynamicznie jest zazwyczaj bardzo długi i zawiera „?”. Nie każdy robot wyszukiwarki
    odnajdzie taką stronę, a te które znajdują często nie zamieszczają w swoich indeksach. Kolejnym
    problemem dla standardowych wyszukiwarek są strony tworzone w czasie rzeczywistym, których zawartość
    zmienia się prawie każdego dnia, np. notowania giełdowe, prognozy pogody, rozkłady lotów. Roboty często
    celowo rezygnują z ich indeksowania, gdyż są to dane “ulotne”, krótkotrwałe, a przede wszystkim w wielkich
    ilościach.




Rodzaje informacji w deep web

Wymienione wyżej typy zasobów trudno dostępnych dla standardowych wyszukiwarek wyszczególniono w
punktu widzenia technicznego, technologicznego bądź prawnego, biorąc pod uwagę rodzaje formatów i metody
tworzenia zasobów. Jakie natomiast rodzaje informacji kryją się w sieci pozornie niewidzialnej? Autorzy wielu
publikacji na ten temat zgodnie podkreślają, że większość stanowią bardzo wartościowe materiały, a pośród
nich:

publikacje i raporty naukowe, dysertacje (pełne teksty lub abstrakty)
artykuły z gazet i czasopism (pełne teksty lub abstrakty)
dokumenty rządowe
archiwa materiałów źródłowych i referencyjnych

zasoby biblioteczne (katalogi, zbiory digitalizowane, publikacje pracowników uczelni)
niektóre repozytoria Open Access

szara literatura

dane, wzory, grafiki

słowniki i encyklopedie, bazy teleadresowe
i wiele, wiele innych

W tej grupie dokumentów przeważająca część to materiały przydatne dla nauki i edukacji. D. Lewandowski i P.
Mayr (2006) zaproponowali nawet termin „Naukowa Sieć Niewidzialna” dla określenia baz danych i kolekcji o
istotnym znaczeniu dla środowisk naukowych, bibliotekarzy i specjalistów informacji, a nie wyszukiwalnych przez
standardowe wyszukiwarki. Naukowa Sieć Niewidzialna zawiera literaturę (np. artykuły, rozprawy, raporty,
książki), dane (np. dane z badań), materiały wyłącznie online (np. dokumenty Open Access). Głównymi
dostarczycielami tych zasobów są: twórcy i sprzedawcy baz danych i innych serwisów (np. document delivery),
biblioteki, wydawcy komercyjni, uczelnie i instytucje naukowe, stowarzyszenie i organizacje.




Wielkość zasobów ukrytych w porównaniu z siecią „płytką”




Powszechnie wiadomo, że nie da się zliczyć wszystkich stron WWW na świecie, ani też nie da się zliczyć tego
co „widzą” wyszukiwarki. Same największe wyszukiwarki przestały nawet publicznie informować ile dokumentów
liczą ich indeksy. Mimo to, co pewien czas podejmowana są badania, w których naukowcy starają się
oszacować wielkość surfach Web czy deep Web. Poniżej wybrane wyniki badań od 1999 r.




NEC Research Institute, 1999 r.:

publicznie dostępne zasoby sieci indeksowane przez wyszukiwarki liczyły 800 mln dokumentów (18700 GB)
wyszukiwarki indeksowały średnio zaledwie 16% wszystkich stron internetowych

Cyveillance Corporation, 2000 r.:

zasoby tzw. "płytkie", liczyły 2,5 mld dokumentów (1 mld stron WWW) o łącznej wielkości ok. 19 terabajtów
dziennie przybywało średnio 7,3 mln dokumentów

Bright Planet, 2001 r. (Bergman, 2001) – praca szeroko cytowana; wiele innych badań bazuje na jej
wynikach

deep web jest ok. 400-550 razy większy niż zasoby indeksowane przez wyszukiwarki i liczy ok. 550 mld
dokumentów (7.500 terabajtów)
60 największych baz danych ukrytego Internetu zawiera 750 TB danych
ok. 95% zasobów "ukrytych" jest dostępnych publicznie, bezpłatnie
ponad połowa to tematyczne bazy danych
zasoby deep web są odwiedzane przez użytkowników o 50% częściej niż zasoby „płytkie”

Sherman, C., 2001

ukryty web jest ok. 2-50 razy większy niż zasoby indeksowane przez wyszukiwarki

Lyman, P., Hal R. V. "How Much Information", 2003

Surface Web – 167 TB (na podstawie analizy 9800 witryn)
Deep Web - 91,850 TB (na podst. wyników badań Bright Planet)

Gulli, A., Signorini, A. (2005)

wielkość sieci indeksowanej przez wyszukiwarki (surfach Web) - 11,5 mld stron
ok. 9,36 mld stron jest dostępnych w indeksach 4 największych wyszukiwarek (Google, Yahoo, MSN, Ask)
przeciętnie ok. 70% zasobów surface web można było uzyskać za pomocą w/wwyszukiwarek (np. Google 76%)
część wspólna indeksów 4 w/w wyszukiwarek wynosi 2,7 mld stron (28,85%)

Lewandowski, D., Mayr, P. (2006)

podważają szacunki Bergmana (2001) dotyczące wielkości sieci ukrytej i uznają je za bardzo zawyżone z
powodu:

błędu statystycznego - korzystania ze średniej zamiast mediany
liczenia rozmiaru baz w GB zamiast rekordach
rozmiar „naukowej sieci ukrytej” szacują na ok. 20-100 mld dokumentów




W kierunku “uwidaczniania” (naukowych) zasobów ukrytych




                        „Czy określenia „Głęboki” i „niewidoczny” Internet mają jeszcze sens? Wszak i
                        wyszukiwarki są coraz sprytniejsze, i ludzie potrafią efektywniej korzystać z Internetu.
                        Wielu z nich intuicyjnie korzysta z owych baz danych głębokiego Internetu i pewnie do
                        głowy im nie przyjdzie, że korzystają z czegoś „ukrytego”. A i głeboki Internet coraz
                        częściej wypływa na powierzchnię za sprawą ulepszonych wyszukiwarek globalnych.
                        Czy zostanie całkowicie odsłonięty? Czy może wtedy przyjdzie czas na odsłanianie
                        jeszcze głębszego Internetu?”

                                                                                        Szumilas, D. (2005)




Wszystkich zasobów Web nie da się do końca „uwidocznić”. A nawet jeśli tak, żadna wyszukiwarka nie obejmuje
swym zasięgiem całego surfach Web, więc problem pozostanie. Warto więc podejmować pewne działania
zmierzające z jednej strony starania do wzajemnej „współpracy” tworzonych zasobów (szczególnie
bazodanowych i repozytoriów OA) oraz ich „współpracy” i ze standardowymi wyszukiwarkami, z drugiej –
uświadamiania użytkownikom internetu istnienia ukrytego web. Działania te powinni podejmować zarówno
twórcy baz danych, wydawcy, biblioteki (razem!), ale i też twórcy wyszukiwarek. I tak właśnie się dzieje, co
można zilustrować wybranymi dobrymi przykładami:

Konwersja bazy danych do regularnych stron HTML, np. w Amazon.com, każdy rekord jest konwertowany do
HTML i „widoczny” dla robotów wyszukiwarek (można to sprawdzić porównując URL konkretnego rekordu
wyszukanego bezpośrednio w Amazon.com i potem tego samego tytułu wyszukanego w Gogle).
Stosowanie protokołów Z39.50 i/lub OAI-PMH4 w celu umożliwienia jednoczesnego przeszukiwania (cross
rerach) wielu serwisów i baz danych, tych ukrytych i dostępnych dla wyszukiwarek. Doskonałym przykładem jest
brytyjski serwis TechXtra http://www.techxtra.ac.uk/ ukierunkowany na inżynierię i technikę, przeszukujący 4 mln
rekordów z 29 baz danych, serwisów tematycznych, repozytoriów OA i innych. Innym ciekawym przykładem jest
E-Print Network http://eprints.osti.gov/ - serwis przeszukujący repozytoria e-printów z zakresu nauki I techniki.
Stosowanie protokołu OAI-PMH w celu wspólnego wyszukiwania w zasobach bibliotek cyfrowych oraz ich
uwidaczniania w wyszukiwarkach (Heliński, M. i inni 2005). Dzięki temu zasoby bibliotek polskich stosujących
oprogramowanie dLibra http://dlibra.psnc.pl/ (zob. Wdrożenia) mogą być przeszukiwane jednocześnie (opcja
„Przeszukaj zdalne biblioteki” na stronie którejkolwiek z nich), są „widoczne” w Google i wyszukiwarkach
specjalistycznych, np. OAIster http://oaister.umdl.umich.edu/o/oaister/.
Tworzenie specjalistycznych multiwyszukiwarek uwzględniających również zasoby ukryte, np. wersja beta
GoshMe http://www.goshme.com/, multiwyszukiwarki przeszukującej 2590 wyszukiwarek I baz danych (obecnie
wymagana bezpłatne rejestracja), Turbo10 http://turbo10.com albo Alacra http://www.alacrastore.com/
przeszukująca (bezpłatnie) ponad 200 mln (płatnych) raportów firm oraz artykułów z czasopism biznesowych.
Oferowanie przez standardowe wyszukiwarki usług specjalnych i dających dostęp do również do obszarów deep
Web. Dobrym przykładem są znane wszystkim Google Scholar i Google Books, umożliwiające nie tylko
wyszukiwanie, ale również możliwość sprawdzenia dostępności książek w wielu bibliotekach (w tym NUKAT –
opcja „Find In NUKAT”w Google Scholar), dzięki współpracy z WorldCat OCLC czy zamówienia kopii w artykułu
w British Library. Z innych warto wymienić Google Patent Serach http://www.google.com/patents (7 mln
patentów USA).
Ujawnianie, chociażby do poziomu abstraktów, zawartości komercyjnych baz danych i czasopism w
standardowych wyszukiwarkach. Użytkownik uprawniony do pełnego korzystania z tych serwisów mógłby
uzyskać dostęp do pełnych tekstów publikacji. Np. zasoby IEEE Xplore są w taki sposów wyszukiwalne w
Google, dziesiątki wydawców w Live Search (MSN) – Academic - http://search.live.com/ i serwisy wybranych
wydawców (np. LexisNexis) w Yahoo! Search Subscriptions http://search.yahoo.com/subscriptions.
Tworzenie usystematyzowanych wg kategorii tematycznych i przeszukiwalnych „bram dostępu” do zasobów
ukrytych, np. serwisów typu subject gateways (Derfert-Wolf, L. 2004), np. niemiecka Vascoda
http://www.vascoda.de/.
Ułatwienie użytkownikom poruszania się po witrynach bibliotecznych, coraz bardziej „obładowanych”
informacjami i dostępami do wielu katalogów, baz danych, pełnych tekstów artykułów, bibliotek cyfrowych i
innych repozytoriów. Często te materiały są „niewidoczne” dla użytkowników, bo …. jest ich bardzo dużo i linki
do nich zamieszczane są w różnych działach, pod nazwami nie zawsze zrozumiałymi. Doskonałym
rozwiązaniem jest przeszukiwanie WSZYSTKICH zasobów elektronicznych danej biblioteki (lokalnych i
zdalnych) przy pomocy jednego interfejsu. Oczywiście dostęp do zasobów komercyjnych mają wtedy wyłącznie
zarejestrowani użytkownicy. Istnieje wiele rozwiązań tego typu. Listę programów zwanych federated search
systems znaleźć można m.in. na stronie http://www.loc.gov/catdir/lcpaig/portalproducts.html.
Szkolenie użytkowników sieci:

uświadamianie istnienia ukrytego Web i pokazywanie na przykładach czego Google nie wyszuka
upowszechnianie wiedzy o ukrytych zasobach Web
wskazywanie sposobów poszukiwań tych zasobów w sieci.
„Szukanie informacji w Sieci - ukryte zasoby WEB”




Część III




Jak szukać w zasobach ukrytych?




Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy




                                     Owe zasoby [deep Web] są wszak dostępne i widoczne, tylko trzeba wiedzieć,
                                     jak do nich dotrzeć. Są po prostu głębiej schowane. Szumilas, D. (2005)




       Dlaczego warto nie poprzestawać na Gogle?

standardowe wyszukiwarki pomijają wiele zasobów deep web
informacje w ramach jednego serwisu deep web rzadko się powielają, co w standardowych wyszukiwarkach jest
powszechne
ukryty web to źródła o wysokiej jakości
wartościowe materiały powstające w dzięki uczelniom i instytucjom naukowym, bibliotekom, instytucjom
rządowym i międzynarodowym
selekcjonowane, sprawdzone i ocenione przez specjalistów
kontrolowane pod względem aktualności
dane w serwisach deep web są często pogrupowane tematycznie i wyszukiwane wg potrzeb użytkownika
wyszukiwanie bardzo specjalistycznych informacji (nawet tych „widzialnych”) da lepsze rezultaty w bazach
danych niż w wyszukiwarkach




Jak szukać?

W związku z powyższym nie warto poprzestawać na Gogle, a zasobów „widzialnych” przez Gogle lepiej nieraz
szukać gdzie indziej. Wyszukiwanie będzie bardziej efektywne i da lepsze rezultaty. Oto kilka sposobów
penetrowania ukrytych - i nie tylko - zasobów Web:

znajomość przydatnych baz danych
Najprostszym sposobem jest bezpośredni dostęp do ważnych baz danych i innych serwisów z interesującej nas
dziedziny. Wszystkich oczywiście nie jesteśmy w stanie spamiętać, ale warto tworzyć takie wykazy w
bookmarkach czy na prywatnych stronach internetowych. Strony różnych instytucji i bibliotek oferują bogate
wykazy linków do przydatnych baz danych.

wyszukiwanie baz danych i innych serwisów w standardowych wyszukiwarkach

Drugim sposobem jest skorzystanie z wyszukiwarki (np. Google) i połączenie odpowiedniego słowa kluczowego
ze słowem baza lub wyrażeniem "baza danych" (np. „baza danych” film). Szukając serwisów w innych językach
pytanie zadajemy we właściwym języku. Podobnie postępujemy szukając wyszukiwarek specjalistycznych.
Możemy w Google wpisać np. environment "search engine" albo wyszukiwarka mp3.

bazy baz

Trzecim sposobem jest skorzystanie ze specjalnych metabaz, które wyszukują odpowiednie profesjonalne bazy
danych. Przykładem jest CompletePlanet. Takie metabazy można przeglądać wg dziedzin lub przeszukiwać wg
słów kluczowych. W rezultacie otrzymamy linki do odpowiednich baz danych, a często bezpośrednie połączenie
do formularza wyszukiwawczego w danej bazie.

katalogi tematyczne, subject gateways, portale tematyczne

Kolejną metodą dostępu do ukrytych zasobów web jest wertowanie specjalnych katalogów ukierunkowanych na
konkretne dziedziny wiedzy lub przeznaczonych dla określonych grup odbiorców. Nie chodzi tu o katalogi
omawiane w I części wykładu, a raczej o specjalistyczne bazy zasobów sieciowych, usystematyzowane wg
dziedzin wiedzy i oceniane przez specjalistów dziedzinowych. Najlepszymi przykładami są serwisty typu subject
gateways, np. brytyjski INTUTE, niemiecka Vascoda czy amerykański Infomine, przeznaczone dla środowisk
naukowych, uczniów i studentów. Przeszukując te serwisy można trafić na ciekawe bazy danych lub po prostu
można im zadać pytanie, np. history database, gdyż większość z nich jest zazwyczaj zaopatrzonych w
wyszukiwarkę zasobów.

wyszukiwarki specjalistyczne

Bezpośrednie dotarcie do określonych zasobów ukrytych czy to pod względem treści czy typów danych ułatwią
wyszukiwarki specjalistyczne, np. publikacji naukowych – Scirus czy Gogle Scholar, zasobów edukacyjnych -
Eric, repozytoriów OA – OpenDOAR, plików dźwiękowych – Singingfish. Powstają również interdyscyplinarne
wyszukiwarki zasobów ukrytych, np. Turbo10.

Omówionych w tej części narzędzi wyszukiwawczych jest bardzo dużo. Nie sposób wymienić kilku najlepszych.
Prezentowana poniżej lista zawiera najczęściej cytowane zbiorcze wykazy baz danych i wyszukiwarek
specjalistycznych oraz zasobów deep web. Serwisy najczęściej powtarzające się na tych wykazach i
przeznaczone głównie dla nauki i edukacji zamieszczono w Tab. 1.




Zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web:

About.com - Find Out More About The Deep Web - Deep Web Search
http://websearch.about.com/od/invisibleweb/
Deep Web Research – M. Zillman`s Blog http://www.deepwebresearch.info/
Derfert-Wolf L.: Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways. Wykaz.
http://ebib.oss.wroc.pl/2004/57/wykaz.php
Gruchawka, S. R. Using the Deep Web : A How-to Guide for IT Professionals. http://www.techdeepweb.com
Katalogi kwalifikowanych zasobów internetowych (UMCS) http://www.bg.umcs.lublin.pl/nowa/deep.php
Kay B. Discovering The Invisible Web. http://lakenet.org/net_ref/manuals/invisible.html
Lackie R. J. Those Dark Hiding Places: The Invisible Web Revealed. Rider University.
http://www.robertlackie.com/invisible/index.html
Pinakes - Heriot-Watt University Library http://www.hw.ac.uk/libWWW/irn/pinakes/pinakes.html
Price G. Direct search. http://www.freepint.com/gary/direct.htm

10.Research Beyond Google: 119 Authoritative, Invisible, and Comprehensive Resources.
http://oedb.org/library/college-basics/research-beyond-google

Specialised search engines. Tilburg University.
http://www.tilburguniversity.nl/services/library/instruction/www/onlinecourse/special.html
Zillman, M. P. Academic and Scholar Search Engines and Sources – An Internet MiniGuide Annotated Link
Compilation. http://whitepapers.virtualprivatelibrary.net/Scholar.pdf
Zillman, M. P. Deep Web Research Research 2007. http://www.llrx.com/features/deepweb2007.htm




Tab. 1 Wyszukiwarki Deep Web, wyszukiwarki specjalistyczne, katalogi tematyczne (głównie naukowe)




Academic Info http://www.academicinfo.net/                            Katalog tematyczny dla uczniów i
                                                                      studentów zawierający 25 tys.
                                                                      Wyselekcjonowanych źródeł sieciowych.

Bartleby.com http://www.bartleby.com/                                 Wyszukiwarka haseł ze słowników i
                                                                      encyklopedii, cytatów oraz informacji o
                                                                      popularnych pisarzach i poetach wraz z
                                                                      tekstami ich prac.

BUBL http://bubl.ac.uk/                                               Katalog źródeł internetowych ze
                                                                      wszystkich dziedzin wiedzy akademickiej
                                                                      tworzony przez bibliotekarzy
                                                                      (Strathclyde University, UK). Możliwość
                                                                      przeglądania wg Klasyfikacji Dziesiętnej
                                                                      Deweya typów dokumentów oraz krajów
                                                                      i wyszukiwania wg słów kluczowych.

CiteSeer – Scientific Literature Digital Library                      Wyszukiwarka naukowa działająca na
http://citeseer.ist.psu.edu/                                          zasadzie indeksu cytowań. Baza
                                                                      CiteSeer zawiera ok. 770 tys.
                                                                      dokumentów.

CompletePlanet http://www.completeplanet.com/                         Wyszukiwarka baz danych. Daje dostęp
                                                                      do ponad 70 tys. baz i serwisów
                                                                      wyszukiwawczych. Możliwość
                                                                      wyszukiwania wg słów kluczowych lub
                                                                      przeglądania wg kategorii tematycznych.

Digital Librarian http://www.digital-librarian.com/                   Katalog zasobów sieciowych wg
                                                                      dziedzin, opracowywany na bieżąco
                                                                      przez bibliotekarzy amerykańskich.

DOAJ http://www.doaj.org/                                             Directory of Open Access Journals.
Pełne teksty artykułów z ponad 2500
                                             naukowych czasopism elektronicznych,
                                             dostępnych bezpłatnie w sieci.

ERIC http://www.eric.ed.gov/                 Centrum informacji I biblioteka cyfrowa
                                             źródeł edukacyjnych. Dostęp do ponad
                                             1,2 mln rekordów bibliograficznych
                                             artykułów z czasopism i innych źródeł, z
                                             których wiele kieruje do pełnych tekstów
                                             publikacji.

Find Articles http://www.findarticles.com/   Wyszukiwarka milionów artykułów ze
                                             znanych czasopism – większość
                                             dostępna w pełnych tekstach.

Galaxy http://www.galaxy.com                 Wyszukiwarka i katalog tematyczny
                                             źródeł naukowych ze wszystkich
                                             dziedzin wiedzy.

Geniusfind http://www.geniusfind.com/        Katalog tematyczny wyszukiwarek
                                             specjalistycznych I baz danych.

Google Scholar http://scholar.google.com     Wersja beta specjalistycznej
                                             wyszukiwarki Gogle rejestrującej pełne
                                             teksty lub abstrakty prac naukowych
                                             (artykułów, raportów, książek) ze
                                             wszystkich dziedzin wiedzy.
                                             Przedstawiciele firmy Google nawiązali
                                             także współpracę z wydawcami
                                             komercyjnych baz i zasobów
                                             elektronicznych, w wyniku czego Google
                                             Scholar uzyskał dostęp do tych
                                             materiałów, które dla indywidualnych
                                             użytkowników sieci WWW są
                                             niedostępne, niewidzialne. Wymagają
                                             nabycia subskrypcji i chronione są
                                             odpowiednim hasłem dostępu. Dzięki
                                             temu użytkownicy serwisu mają dostęp
                                             do znacznie bogatszych zasobów
                                             informacji oraz łatwiej mogą
                                             zlokalizować określony materiał.
                                             Oczywiście pełne teksty nadal dostępne
                                             są tylko subskrybentom, dla
                                             użytkowników Google Scholar dostępne
                                             są natomiast informacje bibliograficzne
                                             oraz abstrakty. Jest to jedno z wymagań
                                             stawianych przez Google względem
                                             wydawców w podpisanej przez obie
                                             strony umowie[3]. Gdy jednak
                                             użytkownik pragnie dotrzeć do pełnego
                                             tekstu dokumentu, wyszukiwarka,
                                             poprzez łącze Library Search wskazuje
                                             najbliższą bibliotekę akademicką jako
                                             miejsce dostępu bądź sugeruje kupno
                                             publikacji bezpośrednio od wydawcy
                                             (Weryho, 2005).
GrayLIT Network http://graylit.osti.gov/            Wyszukiwarka raportów technicznych.
                                                    Przeszukuje kilka różnych baz danych
                                                    jednocześnie.

HighWire Press http://highwire.stanford.edu/        Repozytorium zawrtości ponad tysiąca
                                                    czasopism naukowych i ponad 4 tys.
                                                    artykułów ze 130 wydawnictw
                                                    uniwersyteckich. OK. 1,5 mln artykułów
                                                    występuje w wersji pełnotekstowej
                                                    (bezpłatnie).

INCYWINCY http://www.incywincy.com/                 Multiwyszukiwarka zasobów „głębokich”
                                                    i„płytkich”. Wyszukuje w Open Direktory
                                                    Project, kilku standardowych
                                                    wyszukiwarkach i ponad milionie portali
                                                    tematycznych.

Infomine http://infomine.ucr.edu/                   Kolekcja źródeł internetowych (biblioteka
                                                    wirtualna) ukierunkowana na środowiska
                                                    akademickie, tworzona przez
                                                    bibliotekarzy. Rejestruje bazy danych,
                                                    czasopisma elektroniczne, książki
                                                    elektroniczne, biuletyny elektroniczne,
                                                    listy dyskusyjne, katalogi biblioteczne,
                                                    artykuły, wykazy naukowców i wiele
                                                    innych. Możliwość wertowania katalogu
                                                    wg dziedzin bądź wyszukiwania źródeł
                                                    wg wielu kryteriów.

Internet Archive http://www.archive.org/index.php   Biblioteka internetowa dla naukowców,
                                                    głównie historyków, oferująca dostęp do
                                                    kolekcji historycznych w postaci
                                                    cyfrowej. Zawiera teksty Open-Access,
                                                    pliki audio, filmy i programy.

Internet Public Library (IPL) http://www.ipl.org/   Publiczna “biblioteka internetowa”
                                                    tworzona przez University of Michigan
                                                    School of Information. Kolekcja
                                                    wiarygodnych żródeł internetowych
                                                    pogrupowanych w kilku kategoriach.
                                                    Składa się z: kolekcji linków
                                                    sprawdznych i zatwierdzanych przez
                                                    bibliotekarzy oraz usługi informacyjnej
                                                    typu “ASK A QUESTION”. IPL zawiera
                                                    ponadto ponad 20 tys. Pełnych tekstów
                                                    książek.

Intute http://www.intute.ac.uk/                     Serwis typu subject gateway tworzony
                                                    przez uniwersytety brytyjskie, dający
                                                    dostęp do najlepszych,
                                                    wyselekcjonowanych i zrecenzowanych
                                                    przez specjalistów, źródeł sieciowych
                                                    przeznaczonych dla nauki i edukacji w 4
                                                    głównych dziedzinach: nauka i technika,
                                                    sztuka i nauki humanistyczne, nauki
                                                    społeczne, medycyna i przyroda. Baza
                                                    danych zawiera ok. 115 tys. rekordów.
Serwis to dawny Resource Discovery
                                                             Network. (SOSIG, EEVL i inne).

Invisible Web Directory http://www.invisible-web.net/        Prtzebudowywany obecnie catalog
                                                             zasobów deep Web. Twórcy zapewniają,
                                                             że wkrótce będzie dostępny.

Librarians’ Internet Index (LII) http://lii.org/             Serwis tworzony przez bibliotekarzy
                                                             amerykańskich dla potrzeb
                                                             użytkowników bibliotek publicznych.
                                                             Rejestruje ponad 20 tys. źródeł
                                                             internetowych w układzie
                                                             przedmiotowym. Wyszukiwanie ułatwia
                                                             interfejs do zadawania pytań według
                                                             różnych kryteriów formalnych i
                                                             rzeczowych.

                                                             Centrum sieciowych zasobów
Library Spot http://www.libraryspot.com/                     bibliotecznych i informacyjnych dla
                                                             nauczycieli, uczniów, bibliotekarzy i
                                                             innych zainteresowanych. Źródła są
                                                             selekcjonowane i oceniane przez zespół
                                                             redaktorów.

Live Search (MSN) – Academic http://search.live.com/         Usługa Live Academic Serach
                                                             wyszukiwarki MSN, umożliwiająca
                                                             wyszukiwanie pubikacji naukowych z
                                                             czasopism i repozytoriów OA. W
                                                             rezultacie otrzymujemy opisy
                                                             bibliograficzne ze streszczeniami.
                                                             Academic Search współpracuje z
                                                             bibliotekami i instytucjami, aby umożliwić
                                                             im dostęp do pełnych tekstów publikacji,
                                                             których są subskrybentami.

MagPortal.com http://magportal.com/                          Wyszukiwarka i katalog tematyczny
                                                             artykułów z gazet, tygodników I
                                                             czasopism popularno-naukowych.

OAIster http://oaister.umdl.umich.edu/o/oaister/             Projekt University of Michigan, którego
                                                             celem jest połączenie różnych kolekcji
                                                             cyfrowych, trudno dostępnych dla
                                                             wyszukiwarek. Zasoby zawierają
                                                             obecnie ponad 9,9 mln rekordów z 726
                                                             instytucji (w tym kilku polskich). W bazie
                                                             danych zgromadzone są zasoby
                                                             bibliotek cyfrowych różnych instytucji,
                                                             repozytoriów instytucjonalnych i
                                                             czasopisma elektronicznych.

On-Line Books Page http://digital.library.upenn.edu/books/   Wykaz i wyszukiwarka ponad 25 tys.
                                                             książek dostępnych w sieci bezpłatnie.

OpenDOAR directory of open access repositories               Kontrolowany katalog akademickich
http://www.opendoar.org/                                     repozytoriów Open Access. Możliwość
                                                             przeglądaniawg kontynentów,
                                                             wyszukiwania repozytorium wg różnych
kryteriów i przeszukiwania zasobów
                                                          wszystkich repozytoriów.

Picsearch http://www.picsearch.com/                       Wyszukiwarka grafik (ponad 1,7 mld
                                                          obrazków w bazie)

                                                          Serwis redagowany pod kierunkiem G.
ResourceShelf http://www.resourceshelf.com/               Price’a, informujący codziennie o
                                                          ciekawych źródłach sieciowych, w tym
                                                          bazach danych, katalogach,
                                                          multimediach. Możliwość bezpłatnej
                                                          prenumeraty newslettera ukazującego
                                                          się co tydzień.

                                                          Archiwum ok. 800 repozytoriów OA (w
ROAR Registry of Open Access Repositories                 tym też bibliotek cyfrowych). Możliwość
http://roar.eprints.org/index.php                         przeglądania wg krajów,
                                                          oprogramowania, typów zawartości oraz
                                                          przeszukiwania treści repozytoriów wg
                                                          słów z publikacji, autorów itp..

Science.gov http://www.science.gov/                       Katalog i wyszukiwarka zasobów
                                                          naukowych tworonych przez organizacje
                                                          rządowe USA.

ScienceResearch.com http://www.scienceresearch.com        Portal firmy Deep Web Technologies
                                                          umożliwiający dostęp do wielu
                                                          naukowych czasopism i baz danych
                                                          (częściowo płatnych).

Scirus www.scirus.com                                     Wyszukiwarka naukowa umożlwiająca
                                                          dostęp do ponad 300 mln stron
                                                          internetowych, w tym: 1) odnośników do
                                                          witryn naukowych, uczelnianych,
                                                          technicznych i medycznych, 2) raportów,
                                                          artykułów recenzowanych, opisów
                                                          patentowych, preprintów i czasopism.

Scout Archives http://scout.wisc.edu/Archives/index.php   Kontrolowany pod względem jakości
                                                          catalog zasobów sieciowych I list
                                                          dyskusyjnych, zawierający 23,174
                                                          rekordów ze streszczeniami. Możliwość
                                                          wyszukiwani oraz przegląfania wg
                                                          klasyfikacji Biblioteki Kongresu.

Singingfish http://www.singingfish.com                    Wyszukiwarka plików audio i wideo.

Turbo10 Search Engine http://turbo10.com/                 Multiwyszukiwarka przeglądająca
                                                          domyślnie indeksy: about.com, ask.com,
                                                          dmoz.org, mirago.co.uk,
                                                          search.msn.com, webfinder.com,
                                                          wisenut.com, yahoo.com, yell.com.
                                                          Możliwość dodania dowolnej
                                                          wyszukiwarki (w tym deep web) z listy
                                                          ok. 800, w tym Scirus i inne – opcja Edit
                                                          My Collections.
Vascoda http://www.vascoda.de/                                         Portal typu subject gateway tworzony
                                                                       przez Bibliotekę Uniwersytecką w
                                                                       Hannowerze, oferujący dostęp do
                                                                       informacji naukowej z różnych dziedzin,
                                                                       w tym zasobów ukrytych.

Weblens - The Invisible Web http://www.weblens.org/invisible.html      “Brama” do tysięcy narzędzi
                                                                       wyszukiwawczych i źródeł, w tym:
                                                                       wyszukiwarek, katlogów tematycznych,
                                                                       multiwyszukiwarek, wyszukiwarek plików
                                                                       dźwiękowych i graficznych,
                                                                       wyszukiwarek ludzi i firm, informatorów,
                                                                       baz danych miejsc pracy, wyszukiwarek
                                                                       naukowych I innych.




„Szukanie informacji w Sieci - ukryte zasoby WEB”

Literatura

Battelle, J. Szukaj. Jak Google i konkurencja wywołali biznesową i kulturową rewolucję, PWN 2006.
Bergman M. K.: The Deep Web: surfacing hidden value [online]. The Journal of Electronic Publishing, vol. 7,
issue 1 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.press.umich.edu/jep/07-01/bergman.html.
Bugajska M., Chabiński A. Zamiast szukać, znajdź! [online] Chip 2002 nr 2. [dostęp 22.12.2006]. Dostępny w
Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18159.html.
Calishain, T., Dornfest, R. 100 sposobów na Google, Helion, 2003.
Chabiński A. Odmęty Sieci. [online] Chip 2002 nr 2 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.chip.pl/arts/archiwum/n/articlear_18160.html.
Cohen, L. The Deep Web. [online] University at Albany, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://
www.internettutorials.net/deepweb.html.
Deep web. [online] Wikipedia, The Free Encyclopedia, 2006 [dostęp 22.12.2006]. Dostępny w Internecie:
http://en.wikipedia.org/w/index.php?title=Deep_web&oldid=95397547.
Derfert-Wolf L. Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways [online]. Biuletyn
EBIB 2004/6 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2004/57/derfert.php.
Dworniczak M. Google potrafi (prawie) wszystko! Magazyn Internet, kwiecień 2005, s. 66—69.
Gulli, A., Signorini, A. The Indexable Web is More than 11.5 billion pages. [online] 2005 [dostęp 22.12.2006].
Dostępny w Internecie: http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf.
Heliński, M., Mazurek, C., Parkoła, T., Werla, M. Biblioteka cyfrowa jako otwarte, internetowe repozytorium
publikacji. W:III konferencja: Internet w bibliotekach. Zasoby elektroniczne: podaż i popyt. [online] Wrocław,
12-14 grudnia 2005 roku. http://www.ebib.info/publikacje/matkonf/iwb3/artykul.php?f
Lewandowski, D. Web searching, search enginges and Information Retrieval. [online] Preprint, 2005 [dostęp
22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/isu2005.php.
Lewandowski, D., Mayr, P. Exploring the Academic Invisible Web. [online] Preprint, 2006 [dostęp 22.12.2006].
Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/LHT_Preprint.pdf.
Lyman, P., Hal R. V. How Much Information. [online] 2003 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.sims.berkeley.edu/how-much-info-2003.
Łamek A. Ukryty Internet. Magazyn Internet 2002 nr 7. s. 58-60.
Mirecka, E. Ocena jakości i przydatności znalezionych informacji. [online] Eduseek [dostęp 22.12.2006].
Dostępny w Internecie:http://eduseek.interklasa.pl/artykuly/artykul/ida/3874/idc/1/.
Mróz D. Sieć dla eksperta. [online] CHIP nr 10/2005 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.chip.pl/arts/archiwum/n/articlear_150306.html.
Pamuła-Cieślak N. Typologia zasobów Ukrytego Internetu. Przegląd Biblioteczny 2006 z. 2, s. 153-164.
Pamuła-Cieślak N. Zjawisko Ukrytego Internetu – rola bibliotek w upowszechnianiu jego zasobów [online] 2006
[dostęp 22.12.2006]. Dostępny w Internecie: http://bg.p.lodz.pl/konferencja2006/materialy/Natalia_Pamula.pdf.
Sherman, C. Search for the Invisible Web. [online] Guardian Unlimited 6.9.2001 [dostęp 22.12.2006]. Dostępny
w Internecie: http://www.guardian.co.uk/online/story/0,3605,547140,00.html.
Sherman, C., Price, G. The Invisible Web: Uncovering Information Sources Search Engines Can't See. Medford,
NJ: Information Today, 2001.
Szumilas, D. Kop głębiej! Google to nie wszystko. Magazyn Internet - sierpień 2005, s. 60-63.
Weryho M. Stań na ramionach gigantów, czyli Google Scholar. [online] EBIB 2005, nr 2 [dostęp 22.12.2006].
Dostępny w Internecie: http://ebib.oss.wroc.pl/2005/63/weryho.php.
Zimnicki M. Kto szuka nie błądzi. Magazyn Internet, styczeń 2006, s. 24-31.




1 Zasoby baz publikacji pracowników tworzonych przez biblioteki np. w Expertusie, ALEPH nie są indeksowane przez Google

2 Np. robot Gooru - jeśli pierwsza strona serwisu jest w całości wykonana we Flash'u i do kolejnych podstron nie prowadzi żaden link w formacie
HTML robot nie znajdzie pozostałych stron w serwisie.




3 Np. IEEE Xplore

4 Open Archives Initiative Protocol for Metadata Harvesting. Zob. więcej na stronie Libra: http://dlibra.psnc.pl/index.php?
option=com_content&task=view&id=62&Itemid=62&lang=pl

More Related Content

What's hot

Internet w nauce 21 wieku
Internet w nauce 21 wiekuInternet w nauce 21 wieku
Internet w nauce 21 wiekuSabina Cisek
 
Architektura informacji elektronicznego katalogu biblioteki (OPAC)
Architektura informacji elektronicznego katalogu biblioteki (OPAC)Architektura informacji elektronicznego katalogu biblioteki (OPAC)
Architektura informacji elektronicznego katalogu biblioteki (OPAC)Stanislaw Skorka
 
Ukryty Internet - naukowe badanie podziemia sieci
Ukryty Internet - naukowe badanie podziemia sieciUkryty Internet - naukowe badanie podziemia sieci
Ukryty Internet - naukowe badanie podziemia sieciIwo Jabłoński
 
Internet jako środowisko informacyjne
Internet jako środowisko informacyjneInternet jako środowisko informacyjne
Internet jako środowisko informacyjnemalineczka
 
TI- internet-wyklad
TI- internet-wykladTI- internet-wyklad
TI- internet-wykladEwaB
 
Szukanie odpowiedzi: wyszukiwarki trzeciej generacji
Szukanie odpowiedzi: wyszukiwarki trzeciej generacjiSzukanie odpowiedzi: wyszukiwarki trzeciej generacji
Szukanie odpowiedzi: wyszukiwarki trzeciej generacjiKnowledge Hives
 

What's hot (6)

Internet w nauce 21 wieku
Internet w nauce 21 wiekuInternet w nauce 21 wieku
Internet w nauce 21 wieku
 
Architektura informacji elektronicznego katalogu biblioteki (OPAC)
Architektura informacji elektronicznego katalogu biblioteki (OPAC)Architektura informacji elektronicznego katalogu biblioteki (OPAC)
Architektura informacji elektronicznego katalogu biblioteki (OPAC)
 
Ukryty Internet - naukowe badanie podziemia sieci
Ukryty Internet - naukowe badanie podziemia sieciUkryty Internet - naukowe badanie podziemia sieci
Ukryty Internet - naukowe badanie podziemia sieci
 
Internet jako środowisko informacyjne
Internet jako środowisko informacyjneInternet jako środowisko informacyjne
Internet jako środowisko informacyjne
 
TI- internet-wyklad
TI- internet-wykladTI- internet-wyklad
TI- internet-wyklad
 
Szukanie odpowiedzi: wyszukiwarki trzeciej generacji
Szukanie odpowiedzi: wyszukiwarki trzeciej generacjiSzukanie odpowiedzi: wyszukiwarki trzeciej generacji
Szukanie odpowiedzi: wyszukiwarki trzeciej generacji
 

Viewers also liked

Agresywne metody zwiększenia sprzedaży on-line
Agresywne metody zwiększenia sprzedaży on-lineAgresywne metody zwiększenia sprzedaży on-line
Agresywne metody zwiększenia sprzedaży on-lineDivante
 
Polityka gromadzenia w dobie zasobów elektronicznych
Polityka gromadzenia w dobie zasobów elektronicznychPolityka gromadzenia w dobie zasobów elektronicznych
Polityka gromadzenia w dobie zasobów elektronicznychMarcin Malinowski
 
Trendy oraz nowe inicjatywy mooc w europie. Przegląd
Trendy oraz nowe inicjatywy mooc w europie. PrzeglądTrendy oraz nowe inicjatywy mooc w europie. Przegląd
Trendy oraz nowe inicjatywy mooc w europie. Przeglądbmuczynski
 
Permanentna inwigilacja. Podstawy analityki w WordPressie
Permanentna inwigilacja. Podstawy analityki w WordPressiePermanentna inwigilacja. Podstawy analityki w WordPressie
Permanentna inwigilacja. Podstawy analityki w WordPressieTomasz Kołkiewicz
 
3camp - Lucene pod presją?
3camp - Lucene pod presją?  3camp - Lucene pod presją?
3camp - Lucene pod presją? Wirtualna Polska
 
Sc metody i narzędzia
Sc metody i narzędziaSc metody i narzędzia
Sc metody i narzędziaSabina Cisek
 
Open source intelligence information gathering (OSINT)
Open source intelligence information gathering (OSINT)Open source intelligence information gathering (OSINT)
Open source intelligence information gathering (OSINT)phexcom1
 

Viewers also liked (11)

Twitter w polsce
Twitter w polsceTwitter w polsce
Twitter w polsce
 
Agresywne metody zwiększenia sprzedaży on-line
Agresywne metody zwiększenia sprzedaży on-lineAgresywne metody zwiększenia sprzedaży on-line
Agresywne metody zwiększenia sprzedaży on-line
 
Polityka gromadzenia w dobie zasobów elektronicznych
Polityka gromadzenia w dobie zasobów elektronicznychPolityka gromadzenia w dobie zasobów elektronicznych
Polityka gromadzenia w dobie zasobów elektronicznych
 
Trendy oraz nowe inicjatywy mooc w europie. Przegląd
Trendy oraz nowe inicjatywy mooc w europie. PrzeglądTrendy oraz nowe inicjatywy mooc w europie. Przegląd
Trendy oraz nowe inicjatywy mooc w europie. Przegląd
 
Permanentna inwigilacja. Podstawy analityki w WordPressie
Permanentna inwigilacja. Podstawy analityki w WordPressiePermanentna inwigilacja. Podstawy analityki w WordPressie
Permanentna inwigilacja. Podstawy analityki w WordPressie
 
Twitter in poland
Twitter in polandTwitter in poland
Twitter in poland
 
3camp - Lucene pod presją?
3camp - Lucene pod presją?  3camp - Lucene pod presją?
3camp - Lucene pod presją?
 
Sc metody i narzędzia
Sc metody i narzędziaSc metody i narzędzia
Sc metody i narzędzia
 
Open source intelligence information gathering (OSINT)
Open source intelligence information gathering (OSINT)Open source intelligence information gathering (OSINT)
Open source intelligence information gathering (OSINT)
 
Занятия
ЗанятияЗанятия
Занятия
 
Optymalizacja WP pod SEO
Optymalizacja WP pod SEOOptymalizacja WP pod SEO
Optymalizacja WP pod SEO
 

Similar to Głęboka sieć - LDW

Web2 0 - Definicja, Aplikacje
Web2 0 - Definicja, AplikacjeWeb2 0 - Definicja, Aplikacje
Web2 0 - Definicja, AplikacjeZuza Wiorogórska
 
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...Filip Dębowski
 
Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Marcin Roszkowski
 
Wyszukiwarki ogólne i specjalistyczne
Wyszukiwarki ogólne i specjalistyczneWyszukiwarki ogólne i specjalistyczne
Wyszukiwarki ogólne i specjalistycznemarecki_wepa_1982
 
Metadane i społeczeństwo a zarządzanie wiedzą
Metadane i społeczeństwo a zarządzanie wiedząMetadane i społeczeństwo a zarządzanie wiedzą
Metadane i społeczeństwo a zarządzanie wiedzą3camp
 
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecPorównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecAnna Mielec
 
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl PROIDEA
 
Narzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiNarzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiAgnieszka Michalska
 
Narzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiNarzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiAgnieszka Michalska
 
Rewolucja W Sieciach Społecznych
Rewolucja W Sieciach SpołecznychRewolucja W Sieciach Społecznych
Rewolucja W Sieciach SpołecznychMMP
 
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednika
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednikaRewolucja w sieciach społecznych czyli jak wyciąć pośrednika
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednikaSebastian Kwiecien
 
Wyszukiwanie informacji w Internecie
Wyszukiwanie informacji w InternecieWyszukiwanie informacji w Internecie
Wyszukiwanie informacji w InternecieD-I-J user
 
Narzędzia pomagające humanistom w badaniach naukowych
Narzędzia pomagające humanistom w badaniach naukowychNarzędzia pomagające humanistom w badaniach naukowych
Narzędzia pomagające humanistom w badaniach naukowychpik90
 
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Krzysztof Binkowski
 
Zastosowania OpenSource w technologiach Web
Zastosowania OpenSource w technologiach WebZastosowania OpenSource w technologiach Web
Zastosowania OpenSource w technologiach Webblazej
 
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...Agnieszka Koszowska
 
Skorka Stanislaw, AI Dziedzina czy rzemiosło
Skorka Stanislaw, AI Dziedzina czy rzemiosłoSkorka Stanislaw, AI Dziedzina czy rzemiosło
Skorka Stanislaw, AI Dziedzina czy rzemiosłoStanislaw Skorka
 
MARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniaMARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniabartekel
 
Four Slupsk Lectures. II. Semantic Web
Four Slupsk Lectures. II. Semantic WebFour Slupsk Lectures. II. Semantic Web
Four Slupsk Lectures. II. Semantic Websopekmir
 

Similar to Głęboka sieć - LDW (20)

Web2 0 - Definicja, Aplikacje
Web2 0 - Definicja, AplikacjeWeb2 0 - Definicja, Aplikacje
Web2 0 - Definicja, Aplikacje
 
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
KrakSpot #13 Jaromir Działo - Działaj globalnie, czyli Topicmarks w dolinie k...
 
Nukat2014
Nukat2014Nukat2014
Nukat2014
 
Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)
 
Wyszukiwarki ogólne i specjalistyczne
Wyszukiwarki ogólne i specjalistyczneWyszukiwarki ogólne i specjalistyczne
Wyszukiwarki ogólne i specjalistyczne
 
Metadane i społeczeństwo a zarządzanie wiedzą
Metadane i społeczeństwo a zarządzanie wiedząMetadane i społeczeństwo a zarządzanie wiedzą
Metadane i społeczeństwo a zarządzanie wiedzą
 
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecPorównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
 
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl
PLNOG 5: Janusz Dziemidowicz - OpenSocial w nk.pl
 
Narzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiNarzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografii
 
Narzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografiiNarzędzia internetowe do wyszukiwania bibliografii
Narzędzia internetowe do wyszukiwania bibliografii
 
Rewolucja W Sieciach Społecznych
Rewolucja W Sieciach SpołecznychRewolucja W Sieciach Społecznych
Rewolucja W Sieciach Społecznych
 
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednika
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednikaRewolucja w sieciach społecznych czyli jak wyciąć pośrednika
Rewolucja w sieciach społecznych czyli jak wyciąć pośrednika
 
Wyszukiwanie informacji w Internecie
Wyszukiwanie informacji w InternecieWyszukiwanie informacji w Internecie
Wyszukiwanie informacji w Internecie
 
Narzędzia pomagające humanistom w badaniach naukowych
Narzędzia pomagające humanistom w badaniach naukowychNarzędzia pomagające humanistom w badaniach naukowych
Narzędzia pomagające humanistom w badaniach naukowych
 
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
Co w Facebook’u piszczy, czyli media społecznościowe z perspektywy informatyk...
 
Zastosowania OpenSource w technologiach Web
Zastosowania OpenSource w technologiach WebZastosowania OpenSource w technologiach Web
Zastosowania OpenSource w technologiach Web
 
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...
Biblioteka 2.0 - usługi biblioteczne z wykorzystaniem technologii i narzędzi ...
 
Skorka Stanislaw, AI Dziedzina czy rzemiosło
Skorka Stanislaw, AI Dziedzina czy rzemiosłoSkorka Stanislaw, AI Dziedzina czy rzemiosło
Skorka Stanislaw, AI Dziedzina czy rzemiosło
 
MARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowaniaMARKOS – semantyczne repozytorium otwartego oprogramowania
MARKOS – semantyczne repozytorium otwartego oprogramowania
 
Four Slupsk Lectures. II. Semantic Web
Four Slupsk Lectures. II. Semantic WebFour Slupsk Lectures. II. Semantic Web
Four Slupsk Lectures. II. Semantic Web
 

More from Bogdan Miś

Dziennikarstwo internetowe - program
Dziennikarstwo internetowe - programDziennikarstwo internetowe - program
Dziennikarstwo internetowe - programBogdan Miś
 
Biznes zerka na Sieć
Biznes zerka na SiećBiznes zerka na Sieć
Biznes zerka na SiećBogdan Miś
 
Wielkie Twierdzenie Fermata
Wielkie Twierdzenie FermataWielkie Twierdzenie Fermata
Wielkie Twierdzenie FermataBogdan Miś
 
Zadania z wyszukiwania
Zadania z wyszukiwaniaZadania z wyszukiwania
Zadania z wyszukiwaniaBogdan Miś
 
Bezpieczeństwo w sieci Internet
Bezpieczeństwo w sieci InternetBezpieczeństwo w sieci Internet
Bezpieczeństwo w sieci InternetBogdan Miś
 
Historia Chrześćjaństwa ciekawe
Historia Chrześćjaństwa ciekaweHistoria Chrześćjaństwa ciekawe
Historia Chrześćjaństwa ciekaweBogdan Miś
 
Superkomputery - lista TOP500 2009
Superkomputery - lista TOP500 2009Superkomputery - lista TOP500 2009
Superkomputery - lista TOP500 2009Bogdan Miś
 
Program szkolenia infobrokerskiego
Program szkolenia infobrokerskiegoProgram szkolenia infobrokerskiego
Program szkolenia infobrokerskiegoBogdan Miś
 
Recenzja dla Forum Klubowego
Recenzja dla Forum KlubowegoRecenzja dla Forum Klubowego
Recenzja dla Forum KlubowegoBogdan Miś
 
Urok nowej techniki
Urok nowej technikiUrok nowej techniki
Urok nowej technikiBogdan Miś
 
Być racjonalistą
Być racjonalistąByć racjonalistą
Być racjonalistąBogdan Miś
 
Historia informatyki
Historia informatykiHistoria informatyki
Historia informatykiBogdan Miś
 
Dziennikarstwo internetowea
Dziennikarstwo internetoweaDziennikarstwo internetowea
Dziennikarstwo internetoweaBogdan Miś
 

More from Bogdan Miś (20)

Dziennikarstwo internetowe - program
Dziennikarstwo internetowe - programDziennikarstwo internetowe - program
Dziennikarstwo internetowe - program
 
Biznes zerka na Sieć
Biznes zerka na SiećBiznes zerka na Sieć
Biznes zerka na Sieć
 
Wielkie Twierdzenie Fermata
Wielkie Twierdzenie FermataWielkie Twierdzenie Fermata
Wielkie Twierdzenie Fermata
 
Swiatłowód
SwiatłowódSwiatłowód
Swiatłowód
 
laser
laserlaser
laser
 
Zadania z wyszukiwania
Zadania z wyszukiwaniaZadania z wyszukiwania
Zadania z wyszukiwania
 
Bezpieczeństwo w sieci Internet
Bezpieczeństwo w sieci InternetBezpieczeństwo w sieci Internet
Bezpieczeństwo w sieci Internet
 
Historia Chrześćjaństwa ciekawe
Historia Chrześćjaństwa ciekaweHistoria Chrześćjaństwa ciekawe
Historia Chrześćjaństwa ciekawe
 
Superkomputery - lista TOP500 2009
Superkomputery - lista TOP500 2009Superkomputery - lista TOP500 2009
Superkomputery - lista TOP500 2009
 
wordpress
wordpresswordpress
wordpress
 
Program szkolenia infobrokerskiego
Program szkolenia infobrokerskiegoProgram szkolenia infobrokerskiego
Program szkolenia infobrokerskiego
 
Recenzja dla Forum Klubowego
Recenzja dla Forum KlubowegoRecenzja dla Forum Klubowego
Recenzja dla Forum Klubowego
 
StronySłownik
StronySłownikStronySłownik
StronySłownik
 
Urok nowej techniki
Urok nowej technikiUrok nowej techniki
Urok nowej techniki
 
Netykieta
NetykietaNetykieta
Netykieta
 
Zegar atomowy
Zegar atomowyZegar atomowy
Zegar atomowy
 
Być racjonalistą
Być racjonalistąByć racjonalistą
Być racjonalistą
 
Historia informatyki
Historia informatykiHistoria informatyki
Historia informatyki
 
Dziennikarstwo internetowea
Dziennikarstwo internetoweaDziennikarstwo internetowea
Dziennikarstwo internetowea
 
Laser i maser
Laser i maserLaser i maser
Laser i maser
 

Głęboka sieć - LDW

  • 1. „Szukanie informacji w Sieci - ukryte zasoby WEB” Część II Co to jest ukryty Web? Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy Definicje i terminy Roboty standardowych wyszukiwarek (Google, Netsprint) indeksują tylko te strony (najczęściej statyczne HTML), do których odnośniki znajdują się na innych witrynach albo zostały zgłoszone do wyszukiwarek przez użytkowników. Tę część sieci – rozpoznawalną przez wyszukiwarki - określa się jako widoczną / płytką / indeksowaną (ang. surface web, visible web, indexable web). Pozostałe zasoby sieci - trudno dostępne dla standardowych wyszukiwarek – nazywane są ukryty Web / niewidoczny web / głęboki web (ang. hidden web, deep web, invisible web). Terminu „invisible Web” użył po raz pierwszy w 1994 r. Jill Ellsworth dla określenia informacji „niewidzialnych” dla konwencjonalnych wyszukiwarek. Najczęściej cytowane definicje ukrytej sieci to: wg C. Shermana i G. Price’a (2001) - Invisible Web – dostępne w sieci i często bardzo wartościowe strony tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują ogólne wyszukiwarki; wg M. K. Bergmana (2001) – Deep web – strony www tworzone dynamicznie jako wyniki specjalistycznych wyszukiwań w bazach danych.
  • 2. Zasoby deep Web Typy zasobów deep Web W Cz. I wykładu przedstawiono działanie robotów wyszukiwarek i zasobów sieci przez nie penetrowanych. Zgodnie z w/w definiajmi ukryty Web to zasoby sieciowe nie wyszukiwane przy pomocy standardowych wyszukiwarek. Jakie to zatem typy zasobów? zawartość publicznie dostępnych baz danych Większość zasobów sieci ukrytej stanowią bazy danych (głównie relacyjne), których zawartości nie jest w stanie spenetrować robot konwencjonalnej wyszukiwarki. Znajdzie on jedynie stronę główną bazy, gdzie następnym krokiem jest zadanie pytania bazie danych, czego wyszukiwarka już nie potrafi. Tak więc ogromne zasoby (miliardy rekordów, pełnych tekstów publikacji) pozostają „w ukryciu”, choć są dostępne w sieci i to często jako strony HTML, ale wygenerowane po zadaniu pytania bezpośrednio bazie danych. W tej grupie zasobów ukrytej sieci mieści się również zdecydowa większość katalogów bibliotecznych bibliotecznych i innych baz danych tworzonych przez biblioteki, np. bibliografii publikacji pracowników1. W tej grupie są również archiwa gazet i czasopism, słowniki, książki telefoniczne itp. Ale oczywiście nie jest to regułą. Wszystko zależy od technologii, w której tworzona jest baza danych i jak współpracuje z robotem konkretnej wyszukiwarki. strony i pliki nietekstowe, w innych formatach niż HTML Raport Bergmana i praca C. Shermana i G. Price’a powstały w czasie, gdy roboty wyszukiwarek nie radziły sobie z indeksowaniem stron i plików zapisanych w formatach innych niż HTML. Do zasobów ukrytych zaliczano więc wszystkie inne materiały, np. dokumenty PDF, Postscript, PHP, doc, xls, ppt, rtf witryny czy elementy prezentacji stworzone w technologii Flash czy JavaScript pliki multimedialne, nagrania dźwiękowe, obrazy, pliki video struktury substancji chemicznych programy pliki skompresowane (np. *zip, *tar) Obecnie najlepsze wyszukiwarki bez trudu znajdują strony zapisane w PDF, Postscript, doc, xls, ppt, rtf, o ile spełniają inne kryteria robotów. Problemem nadal pozostają witryny stworzone w całości lub częściowo w technologii Flash2, które dla większości robotów są nieczytelne, a więc treści na nich zawarte – często wartościowe – pozostają częściowo „w ukryciu”. Roboty nie radzą sobie też plikami graficznymi, dźwiękowymi, video. Dostępne są wprawdzie opcje przeszukiwania grafiki, audio czy video, ale np. robot Google nie rozpoznaje tekstu zawartego w grafice – wyszuka obrazek tylko wtedy, gdy nazwa pliku lub tekst w jego pobliżu w kodzie źródłowym odpowiada naszemu zapytaniu. strony, do których nie prowadzą odsyłacze z innych witryn Zgodnie z jedną z zasad działania robotów wyszukiwarek – indeksowania stron, do których prowadzi przynajmniej jeden link z innej strony - do indeksów wyszukiwarek nie zostaną włączone strony, do których brak odsyłaczy z innych stron i pozostaną „w ukryciu”.
  • 3. strony internetowe wyłączone z procesu indeksacji przez twórców Niektóre serwisy (w tym komercyjne bazy danych) wymagają płatnej rejestracji bądź są dostępne dla subskrybentów po dokonaniu autoryzacji, więc ze względów oczywistych takie zasoby muszą byćwyłączone z procesu indeksacji przez wyszukiwarki. Roboty nie są również w stanie, z powodów technicznych, zalogować się do serwisów wymagających bezpłatnej rejestracji. Te dwa rodzaje zasobów tworzą tzw. Sieć zastrzeżoną, której pokaźną częścią są cenne zasoby naukowych baz danych, np. Inspec, ESSCO. Niektórzy dostawcy3 ujawniają dla Gogle informacje ze swoich baz do poziomu np. opisu bibliograficznego, a reszta (abstrakt, pełen tekst) jest zastrzeżona. Druga grupa stron wyłączonych z indeksacji to te, których twórcy zabronili robotom wyszukiwarek indeksowania treści dokumentów i zamieścili pliki robot.txt w kodzie źródłowym strony. strony i pliki tworzone dynamicznie lub w czasie rzeczywistym Strony generowane dynamicznie, w ramach zazwyczaj dużych serwisów internetowych tworzonych przy pomocy np. technologii ASP czy PHP, powstają po zainicjowaniu pewnej „akcji” przez użytkownika, np. zadanie pytania bazie danych albo wyszukiwarce serwisu, wypełnienie formularza czy ustawianiu własnych preferencji. Jest to więc informacja generowana „w locie” i tworzona przez specjalne skrypty, zgodnie z potrzebami konkretnego użytkownika strony i niekoniecznie istotna dla innego użytkownika. Adres URL stron tworzonych dynamicznie jest zazwyczaj bardzo długi i zawiera „?”. Nie każdy robot wyszukiwarki odnajdzie taką stronę, a te które znajdują często nie zamieszczają w swoich indeksach. Kolejnym problemem dla standardowych wyszukiwarek są strony tworzone w czasie rzeczywistym, których zawartość zmienia się prawie każdego dnia, np. notowania giełdowe, prognozy pogody, rozkłady lotów. Roboty często celowo rezygnują z ich indeksowania, gdyż są to dane “ulotne”, krótkotrwałe, a przede wszystkim w wielkich ilościach. Rodzaje informacji w deep web Wymienione wyżej typy zasobów trudno dostępnych dla standardowych wyszukiwarek wyszczególniono w punktu widzenia technicznego, technologicznego bądź prawnego, biorąc pod uwagę rodzaje formatów i metody tworzenia zasobów. Jakie natomiast rodzaje informacji kryją się w sieci pozornie niewidzialnej? Autorzy wielu publikacji na ten temat zgodnie podkreślają, że większość stanowią bardzo wartościowe materiały, a pośród nich: publikacje i raporty naukowe, dysertacje (pełne teksty lub abstrakty) artykuły z gazet i czasopism (pełne teksty lub abstrakty) dokumenty rządowe archiwa materiałów źródłowych i referencyjnych zasoby biblioteczne (katalogi, zbiory digitalizowane, publikacje pracowników uczelni) niektóre repozytoria Open Access szara literatura dane, wzory, grafiki słowniki i encyklopedie, bazy teleadresowe i wiele, wiele innych W tej grupie dokumentów przeważająca część to materiały przydatne dla nauki i edukacji. D. Lewandowski i P. Mayr (2006) zaproponowali nawet termin „Naukowa Sieć Niewidzialna” dla określenia baz danych i kolekcji o istotnym znaczeniu dla środowisk naukowych, bibliotekarzy i specjalistów informacji, a nie wyszukiwalnych przez standardowe wyszukiwarki. Naukowa Sieć Niewidzialna zawiera literaturę (np. artykuły, rozprawy, raporty, książki), dane (np. dane z badań), materiały wyłącznie online (np. dokumenty Open Access). Głównymi
  • 4. dostarczycielami tych zasobów są: twórcy i sprzedawcy baz danych i innych serwisów (np. document delivery), biblioteki, wydawcy komercyjni, uczelnie i instytucje naukowe, stowarzyszenie i organizacje. Wielkość zasobów ukrytych w porównaniu z siecią „płytką” Powszechnie wiadomo, że nie da się zliczyć wszystkich stron WWW na świecie, ani też nie da się zliczyć tego co „widzą” wyszukiwarki. Same największe wyszukiwarki przestały nawet publicznie informować ile dokumentów liczą ich indeksy. Mimo to, co pewien czas podejmowana są badania, w których naukowcy starają się oszacować wielkość surfach Web czy deep Web. Poniżej wybrane wyniki badań od 1999 r. NEC Research Institute, 1999 r.: publicznie dostępne zasoby sieci indeksowane przez wyszukiwarki liczyły 800 mln dokumentów (18700 GB) wyszukiwarki indeksowały średnio zaledwie 16% wszystkich stron internetowych Cyveillance Corporation, 2000 r.: zasoby tzw. "płytkie", liczyły 2,5 mld dokumentów (1 mld stron WWW) o łącznej wielkości ok. 19 terabajtów dziennie przybywało średnio 7,3 mln dokumentów Bright Planet, 2001 r. (Bergman, 2001) – praca szeroko cytowana; wiele innych badań bazuje na jej wynikach deep web jest ok. 400-550 razy większy niż zasoby indeksowane przez wyszukiwarki i liczy ok. 550 mld dokumentów (7.500 terabajtów) 60 największych baz danych ukrytego Internetu zawiera 750 TB danych ok. 95% zasobów "ukrytych" jest dostępnych publicznie, bezpłatnie ponad połowa to tematyczne bazy danych zasoby deep web są odwiedzane przez użytkowników o 50% częściej niż zasoby „płytkie” Sherman, C., 2001 ukryty web jest ok. 2-50 razy większy niż zasoby indeksowane przez wyszukiwarki Lyman, P., Hal R. V. "How Much Information", 2003 Surface Web – 167 TB (na podstawie analizy 9800 witryn) Deep Web - 91,850 TB (na podst. wyników badań Bright Planet) Gulli, A., Signorini, A. (2005) wielkość sieci indeksowanej przez wyszukiwarki (surfach Web) - 11,5 mld stron ok. 9,36 mld stron jest dostępnych w indeksach 4 największych wyszukiwarek (Google, Yahoo, MSN, Ask) przeciętnie ok. 70% zasobów surface web można było uzyskać za pomocą w/wwyszukiwarek (np. Google 76%)
  • 5. część wspólna indeksów 4 w/w wyszukiwarek wynosi 2,7 mld stron (28,85%) Lewandowski, D., Mayr, P. (2006) podważają szacunki Bergmana (2001) dotyczące wielkości sieci ukrytej i uznają je za bardzo zawyżone z powodu: błędu statystycznego - korzystania ze średniej zamiast mediany liczenia rozmiaru baz w GB zamiast rekordach rozmiar „naukowej sieci ukrytej” szacują na ok. 20-100 mld dokumentów W kierunku “uwidaczniania” (naukowych) zasobów ukrytych „Czy określenia „Głęboki” i „niewidoczny” Internet mają jeszcze sens? Wszak i wyszukiwarki są coraz sprytniejsze, i ludzie potrafią efektywniej korzystać z Internetu. Wielu z nich intuicyjnie korzysta z owych baz danych głębokiego Internetu i pewnie do głowy im nie przyjdzie, że korzystają z czegoś „ukrytego”. A i głeboki Internet coraz częściej wypływa na powierzchnię za sprawą ulepszonych wyszukiwarek globalnych. Czy zostanie całkowicie odsłonięty? Czy może wtedy przyjdzie czas na odsłanianie jeszcze głębszego Internetu?” Szumilas, D. (2005) Wszystkich zasobów Web nie da się do końca „uwidocznić”. A nawet jeśli tak, żadna wyszukiwarka nie obejmuje swym zasięgiem całego surfach Web, więc problem pozostanie. Warto więc podejmować pewne działania zmierzające z jednej strony starania do wzajemnej „współpracy” tworzonych zasobów (szczególnie bazodanowych i repozytoriów OA) oraz ich „współpracy” i ze standardowymi wyszukiwarkami, z drugiej – uświadamiania użytkownikom internetu istnienia ukrytego web. Działania te powinni podejmować zarówno twórcy baz danych, wydawcy, biblioteki (razem!), ale i też twórcy wyszukiwarek. I tak właśnie się dzieje, co można zilustrować wybranymi dobrymi przykładami: Konwersja bazy danych do regularnych stron HTML, np. w Amazon.com, każdy rekord jest konwertowany do HTML i „widoczny” dla robotów wyszukiwarek (można to sprawdzić porównując URL konkretnego rekordu wyszukanego bezpośrednio w Amazon.com i potem tego samego tytułu wyszukanego w Gogle). Stosowanie protokołów Z39.50 i/lub OAI-PMH4 w celu umożliwienia jednoczesnego przeszukiwania (cross rerach) wielu serwisów i baz danych, tych ukrytych i dostępnych dla wyszukiwarek. Doskonałym przykładem jest brytyjski serwis TechXtra http://www.techxtra.ac.uk/ ukierunkowany na inżynierię i technikę, przeszukujący 4 mln rekordów z 29 baz danych, serwisów tematycznych, repozytoriów OA i innych. Innym ciekawym przykładem jest E-Print Network http://eprints.osti.gov/ - serwis przeszukujący repozytoria e-printów z zakresu nauki I techniki. Stosowanie protokołu OAI-PMH w celu wspólnego wyszukiwania w zasobach bibliotek cyfrowych oraz ich uwidaczniania w wyszukiwarkach (Heliński, M. i inni 2005). Dzięki temu zasoby bibliotek polskich stosujących oprogramowanie dLibra http://dlibra.psnc.pl/ (zob. Wdrożenia) mogą być przeszukiwane jednocześnie (opcja „Przeszukaj zdalne biblioteki” na stronie którejkolwiek z nich), są „widoczne” w Google i wyszukiwarkach specjalistycznych, np. OAIster http://oaister.umdl.umich.edu/o/oaister/. Tworzenie specjalistycznych multiwyszukiwarek uwzględniających również zasoby ukryte, np. wersja beta GoshMe http://www.goshme.com/, multiwyszukiwarki przeszukującej 2590 wyszukiwarek I baz danych (obecnie
  • 6. wymagana bezpłatne rejestracja), Turbo10 http://turbo10.com albo Alacra http://www.alacrastore.com/ przeszukująca (bezpłatnie) ponad 200 mln (płatnych) raportów firm oraz artykułów z czasopism biznesowych. Oferowanie przez standardowe wyszukiwarki usług specjalnych i dających dostęp do również do obszarów deep Web. Dobrym przykładem są znane wszystkim Google Scholar i Google Books, umożliwiające nie tylko wyszukiwanie, ale również możliwość sprawdzenia dostępności książek w wielu bibliotekach (w tym NUKAT – opcja „Find In NUKAT”w Google Scholar), dzięki współpracy z WorldCat OCLC czy zamówienia kopii w artykułu w British Library. Z innych warto wymienić Google Patent Serach http://www.google.com/patents (7 mln patentów USA). Ujawnianie, chociażby do poziomu abstraktów, zawartości komercyjnych baz danych i czasopism w standardowych wyszukiwarkach. Użytkownik uprawniony do pełnego korzystania z tych serwisów mógłby uzyskać dostęp do pełnych tekstów publikacji. Np. zasoby IEEE Xplore są w taki sposów wyszukiwalne w Google, dziesiątki wydawców w Live Search (MSN) – Academic - http://search.live.com/ i serwisy wybranych wydawców (np. LexisNexis) w Yahoo! Search Subscriptions http://search.yahoo.com/subscriptions. Tworzenie usystematyzowanych wg kategorii tematycznych i przeszukiwalnych „bram dostępu” do zasobów ukrytych, np. serwisów typu subject gateways (Derfert-Wolf, L. 2004), np. niemiecka Vascoda http://www.vascoda.de/. Ułatwienie użytkownikom poruszania się po witrynach bibliotecznych, coraz bardziej „obładowanych” informacjami i dostępami do wielu katalogów, baz danych, pełnych tekstów artykułów, bibliotek cyfrowych i innych repozytoriów. Często te materiały są „niewidoczne” dla użytkowników, bo …. jest ich bardzo dużo i linki do nich zamieszczane są w różnych działach, pod nazwami nie zawsze zrozumiałymi. Doskonałym rozwiązaniem jest przeszukiwanie WSZYSTKICH zasobów elektronicznych danej biblioteki (lokalnych i zdalnych) przy pomocy jednego interfejsu. Oczywiście dostęp do zasobów komercyjnych mają wtedy wyłącznie zarejestrowani użytkownicy. Istnieje wiele rozwiązań tego typu. Listę programów zwanych federated search systems znaleźć można m.in. na stronie http://www.loc.gov/catdir/lcpaig/portalproducts.html. Szkolenie użytkowników sieci: uświadamianie istnienia ukrytego Web i pokazywanie na przykładach czego Google nie wyszuka upowszechnianie wiedzy o ukrytych zasobach Web wskazywanie sposobów poszukiwań tych zasobów w sieci.
  • 7. „Szukanie informacji w Sieci - ukryte zasoby WEB” Część III Jak szukać w zasobach ukrytych? Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy Owe zasoby [deep Web] są wszak dostępne i widoczne, tylko trzeba wiedzieć, jak do nich dotrzeć. Są po prostu głębiej schowane. Szumilas, D. (2005) Dlaczego warto nie poprzestawać na Gogle? standardowe wyszukiwarki pomijają wiele zasobów deep web informacje w ramach jednego serwisu deep web rzadko się powielają, co w standardowych wyszukiwarkach jest powszechne ukryty web to źródła o wysokiej jakości wartościowe materiały powstające w dzięki uczelniom i instytucjom naukowym, bibliotekom, instytucjom rządowym i międzynarodowym selekcjonowane, sprawdzone i ocenione przez specjalistów kontrolowane pod względem aktualności dane w serwisach deep web są często pogrupowane tematycznie i wyszukiwane wg potrzeb użytkownika wyszukiwanie bardzo specjalistycznych informacji (nawet tych „widzialnych”) da lepsze rezultaty w bazach danych niż w wyszukiwarkach Jak szukać? W związku z powyższym nie warto poprzestawać na Gogle, a zasobów „widzialnych” przez Gogle lepiej nieraz szukać gdzie indziej. Wyszukiwanie będzie bardziej efektywne i da lepsze rezultaty. Oto kilka sposobów penetrowania ukrytych - i nie tylko - zasobów Web: znajomość przydatnych baz danych
  • 8. Najprostszym sposobem jest bezpośredni dostęp do ważnych baz danych i innych serwisów z interesującej nas dziedziny. Wszystkich oczywiście nie jesteśmy w stanie spamiętać, ale warto tworzyć takie wykazy w bookmarkach czy na prywatnych stronach internetowych. Strony różnych instytucji i bibliotek oferują bogate wykazy linków do przydatnych baz danych. wyszukiwanie baz danych i innych serwisów w standardowych wyszukiwarkach Drugim sposobem jest skorzystanie z wyszukiwarki (np. Google) i połączenie odpowiedniego słowa kluczowego ze słowem baza lub wyrażeniem "baza danych" (np. „baza danych” film). Szukając serwisów w innych językach pytanie zadajemy we właściwym języku. Podobnie postępujemy szukając wyszukiwarek specjalistycznych. Możemy w Google wpisać np. environment "search engine" albo wyszukiwarka mp3. bazy baz Trzecim sposobem jest skorzystanie ze specjalnych metabaz, które wyszukują odpowiednie profesjonalne bazy danych. Przykładem jest CompletePlanet. Takie metabazy można przeglądać wg dziedzin lub przeszukiwać wg słów kluczowych. W rezultacie otrzymamy linki do odpowiednich baz danych, a często bezpośrednie połączenie do formularza wyszukiwawczego w danej bazie. katalogi tematyczne, subject gateways, portale tematyczne Kolejną metodą dostępu do ukrytych zasobów web jest wertowanie specjalnych katalogów ukierunkowanych na konkretne dziedziny wiedzy lub przeznaczonych dla określonych grup odbiorców. Nie chodzi tu o katalogi omawiane w I części wykładu, a raczej o specjalistyczne bazy zasobów sieciowych, usystematyzowane wg dziedzin wiedzy i oceniane przez specjalistów dziedzinowych. Najlepszymi przykładami są serwisty typu subject gateways, np. brytyjski INTUTE, niemiecka Vascoda czy amerykański Infomine, przeznaczone dla środowisk naukowych, uczniów i studentów. Przeszukując te serwisy można trafić na ciekawe bazy danych lub po prostu można im zadać pytanie, np. history database, gdyż większość z nich jest zazwyczaj zaopatrzonych w wyszukiwarkę zasobów. wyszukiwarki specjalistyczne Bezpośrednie dotarcie do określonych zasobów ukrytych czy to pod względem treści czy typów danych ułatwią wyszukiwarki specjalistyczne, np. publikacji naukowych – Scirus czy Gogle Scholar, zasobów edukacyjnych - Eric, repozytoriów OA – OpenDOAR, plików dźwiękowych – Singingfish. Powstają również interdyscyplinarne wyszukiwarki zasobów ukrytych, np. Turbo10. Omówionych w tej części narzędzi wyszukiwawczych jest bardzo dużo. Nie sposób wymienić kilku najlepszych. Prezentowana poniżej lista zawiera najczęściej cytowane zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web. Serwisy najczęściej powtarzające się na tych wykazach i przeznaczone głównie dla nauki i edukacji zamieszczono w Tab. 1. Zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web: About.com - Find Out More About The Deep Web - Deep Web Search http://websearch.about.com/od/invisibleweb/ Deep Web Research – M. Zillman`s Blog http://www.deepwebresearch.info/ Derfert-Wolf L.: Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways. Wykaz. http://ebib.oss.wroc.pl/2004/57/wykaz.php Gruchawka, S. R. Using the Deep Web : A How-to Guide for IT Professionals. http://www.techdeepweb.com Katalogi kwalifikowanych zasobów internetowych (UMCS) http://www.bg.umcs.lublin.pl/nowa/deep.php Kay B. Discovering The Invisible Web. http://lakenet.org/net_ref/manuals/invisible.html
  • 9. Lackie R. J. Those Dark Hiding Places: The Invisible Web Revealed. Rider University. http://www.robertlackie.com/invisible/index.html Pinakes - Heriot-Watt University Library http://www.hw.ac.uk/libWWW/irn/pinakes/pinakes.html Price G. Direct search. http://www.freepint.com/gary/direct.htm 10.Research Beyond Google: 119 Authoritative, Invisible, and Comprehensive Resources. http://oedb.org/library/college-basics/research-beyond-google Specialised search engines. Tilburg University. http://www.tilburguniversity.nl/services/library/instruction/www/onlinecourse/special.html Zillman, M. P. Academic and Scholar Search Engines and Sources – An Internet MiniGuide Annotated Link Compilation. http://whitepapers.virtualprivatelibrary.net/Scholar.pdf Zillman, M. P. Deep Web Research Research 2007. http://www.llrx.com/features/deepweb2007.htm Tab. 1 Wyszukiwarki Deep Web, wyszukiwarki specjalistyczne, katalogi tematyczne (głównie naukowe) Academic Info http://www.academicinfo.net/ Katalog tematyczny dla uczniów i studentów zawierający 25 tys. Wyselekcjonowanych źródeł sieciowych. Bartleby.com http://www.bartleby.com/ Wyszukiwarka haseł ze słowników i encyklopedii, cytatów oraz informacji o popularnych pisarzach i poetach wraz z tekstami ich prac. BUBL http://bubl.ac.uk/ Katalog źródeł internetowych ze wszystkich dziedzin wiedzy akademickiej tworzony przez bibliotekarzy (Strathclyde University, UK). Możliwość przeglądania wg Klasyfikacji Dziesiętnej Deweya typów dokumentów oraz krajów i wyszukiwania wg słów kluczowych. CiteSeer – Scientific Literature Digital Library Wyszukiwarka naukowa działająca na http://citeseer.ist.psu.edu/ zasadzie indeksu cytowań. Baza CiteSeer zawiera ok. 770 tys. dokumentów. CompletePlanet http://www.completeplanet.com/ Wyszukiwarka baz danych. Daje dostęp do ponad 70 tys. baz i serwisów wyszukiwawczych. Możliwość wyszukiwania wg słów kluczowych lub przeglądania wg kategorii tematycznych. Digital Librarian http://www.digital-librarian.com/ Katalog zasobów sieciowych wg dziedzin, opracowywany na bieżąco przez bibliotekarzy amerykańskich. DOAJ http://www.doaj.org/ Directory of Open Access Journals.
  • 10. Pełne teksty artykułów z ponad 2500 naukowych czasopism elektronicznych, dostępnych bezpłatnie w sieci. ERIC http://www.eric.ed.gov/ Centrum informacji I biblioteka cyfrowa źródeł edukacyjnych. Dostęp do ponad 1,2 mln rekordów bibliograficznych artykułów z czasopism i innych źródeł, z których wiele kieruje do pełnych tekstów publikacji. Find Articles http://www.findarticles.com/ Wyszukiwarka milionów artykułów ze znanych czasopism – większość dostępna w pełnych tekstach. Galaxy http://www.galaxy.com Wyszukiwarka i katalog tematyczny źródeł naukowych ze wszystkich dziedzin wiedzy. Geniusfind http://www.geniusfind.com/ Katalog tematyczny wyszukiwarek specjalistycznych I baz danych. Google Scholar http://scholar.google.com Wersja beta specjalistycznej wyszukiwarki Gogle rejestrującej pełne teksty lub abstrakty prac naukowych (artykułów, raportów, książek) ze wszystkich dziedzin wiedzy. Przedstawiciele firmy Google nawiązali także współpracę z wydawcami komercyjnych baz i zasobów elektronicznych, w wyniku czego Google Scholar uzyskał dostęp do tych materiałów, które dla indywidualnych użytkowników sieci WWW są niedostępne, niewidzialne. Wymagają nabycia subskrypcji i chronione są odpowiednim hasłem dostępu. Dzięki temu użytkownicy serwisu mają dostęp do znacznie bogatszych zasobów informacji oraz łatwiej mogą zlokalizować określony materiał. Oczywiście pełne teksty nadal dostępne są tylko subskrybentom, dla użytkowników Google Scholar dostępne są natomiast informacje bibliograficzne oraz abstrakty. Jest to jedno z wymagań stawianych przez Google względem wydawców w podpisanej przez obie strony umowie[3]. Gdy jednak użytkownik pragnie dotrzeć do pełnego tekstu dokumentu, wyszukiwarka, poprzez łącze Library Search wskazuje najbliższą bibliotekę akademicką jako miejsce dostępu bądź sugeruje kupno publikacji bezpośrednio od wydawcy (Weryho, 2005).
  • 11. GrayLIT Network http://graylit.osti.gov/ Wyszukiwarka raportów technicznych. Przeszukuje kilka różnych baz danych jednocześnie. HighWire Press http://highwire.stanford.edu/ Repozytorium zawrtości ponad tysiąca czasopism naukowych i ponad 4 tys. artykułów ze 130 wydawnictw uniwersyteckich. OK. 1,5 mln artykułów występuje w wersji pełnotekstowej (bezpłatnie). INCYWINCY http://www.incywincy.com/ Multiwyszukiwarka zasobów „głębokich” i„płytkich”. Wyszukuje w Open Direktory Project, kilku standardowych wyszukiwarkach i ponad milionie portali tematycznych. Infomine http://infomine.ucr.edu/ Kolekcja źródeł internetowych (biblioteka wirtualna) ukierunkowana na środowiska akademickie, tworzona przez bibliotekarzy. Rejestruje bazy danych, czasopisma elektroniczne, książki elektroniczne, biuletyny elektroniczne, listy dyskusyjne, katalogi biblioteczne, artykuły, wykazy naukowców i wiele innych. Możliwość wertowania katalogu wg dziedzin bądź wyszukiwania źródeł wg wielu kryteriów. Internet Archive http://www.archive.org/index.php Biblioteka internetowa dla naukowców, głównie historyków, oferująca dostęp do kolekcji historycznych w postaci cyfrowej. Zawiera teksty Open-Access, pliki audio, filmy i programy. Internet Public Library (IPL) http://www.ipl.org/ Publiczna “biblioteka internetowa” tworzona przez University of Michigan School of Information. Kolekcja wiarygodnych żródeł internetowych pogrupowanych w kilku kategoriach. Składa się z: kolekcji linków sprawdznych i zatwierdzanych przez bibliotekarzy oraz usługi informacyjnej typu “ASK A QUESTION”. IPL zawiera ponadto ponad 20 tys. Pełnych tekstów książek. Intute http://www.intute.ac.uk/ Serwis typu subject gateway tworzony przez uniwersytety brytyjskie, dający dostęp do najlepszych, wyselekcjonowanych i zrecenzowanych przez specjalistów, źródeł sieciowych przeznaczonych dla nauki i edukacji w 4 głównych dziedzinach: nauka i technika, sztuka i nauki humanistyczne, nauki społeczne, medycyna i przyroda. Baza danych zawiera ok. 115 tys. rekordów.
  • 12. Serwis to dawny Resource Discovery Network. (SOSIG, EEVL i inne). Invisible Web Directory http://www.invisible-web.net/ Prtzebudowywany obecnie catalog zasobów deep Web. Twórcy zapewniają, że wkrótce będzie dostępny. Librarians’ Internet Index (LII) http://lii.org/ Serwis tworzony przez bibliotekarzy amerykańskich dla potrzeb użytkowników bibliotek publicznych. Rejestruje ponad 20 tys. źródeł internetowych w układzie przedmiotowym. Wyszukiwanie ułatwia interfejs do zadawania pytań według różnych kryteriów formalnych i rzeczowych. Centrum sieciowych zasobów Library Spot http://www.libraryspot.com/ bibliotecznych i informacyjnych dla nauczycieli, uczniów, bibliotekarzy i innych zainteresowanych. Źródła są selekcjonowane i oceniane przez zespół redaktorów. Live Search (MSN) – Academic http://search.live.com/ Usługa Live Academic Serach wyszukiwarki MSN, umożliwiająca wyszukiwanie pubikacji naukowych z czasopism i repozytoriów OA. W rezultacie otrzymujemy opisy bibliograficzne ze streszczeniami. Academic Search współpracuje z bibliotekami i instytucjami, aby umożliwić im dostęp do pełnych tekstów publikacji, których są subskrybentami. MagPortal.com http://magportal.com/ Wyszukiwarka i katalog tematyczny artykułów z gazet, tygodników I czasopism popularno-naukowych. OAIster http://oaister.umdl.umich.edu/o/oaister/ Projekt University of Michigan, którego celem jest połączenie różnych kolekcji cyfrowych, trudno dostępnych dla wyszukiwarek. Zasoby zawierają obecnie ponad 9,9 mln rekordów z 726 instytucji (w tym kilku polskich). W bazie danych zgromadzone są zasoby bibliotek cyfrowych różnych instytucji, repozytoriów instytucjonalnych i czasopisma elektronicznych. On-Line Books Page http://digital.library.upenn.edu/books/ Wykaz i wyszukiwarka ponad 25 tys. książek dostępnych w sieci bezpłatnie. OpenDOAR directory of open access repositories Kontrolowany katalog akademickich http://www.opendoar.org/ repozytoriów Open Access. Możliwość przeglądaniawg kontynentów, wyszukiwania repozytorium wg różnych
  • 13. kryteriów i przeszukiwania zasobów wszystkich repozytoriów. Picsearch http://www.picsearch.com/ Wyszukiwarka grafik (ponad 1,7 mld obrazków w bazie) Serwis redagowany pod kierunkiem G. ResourceShelf http://www.resourceshelf.com/ Price’a, informujący codziennie o ciekawych źródłach sieciowych, w tym bazach danych, katalogach, multimediach. Możliwość bezpłatnej prenumeraty newslettera ukazującego się co tydzień. Archiwum ok. 800 repozytoriów OA (w ROAR Registry of Open Access Repositories tym też bibliotek cyfrowych). Możliwość http://roar.eprints.org/index.php przeglądania wg krajów, oprogramowania, typów zawartości oraz przeszukiwania treści repozytoriów wg słów z publikacji, autorów itp.. Science.gov http://www.science.gov/ Katalog i wyszukiwarka zasobów naukowych tworonych przez organizacje rządowe USA. ScienceResearch.com http://www.scienceresearch.com Portal firmy Deep Web Technologies umożliwiający dostęp do wielu naukowych czasopism i baz danych (częściowo płatnych). Scirus www.scirus.com Wyszukiwarka naukowa umożlwiająca dostęp do ponad 300 mln stron internetowych, w tym: 1) odnośników do witryn naukowych, uczelnianych, technicznych i medycznych, 2) raportów, artykułów recenzowanych, opisów patentowych, preprintów i czasopism. Scout Archives http://scout.wisc.edu/Archives/index.php Kontrolowany pod względem jakości catalog zasobów sieciowych I list dyskusyjnych, zawierający 23,174 rekordów ze streszczeniami. Możliwość wyszukiwani oraz przegląfania wg klasyfikacji Biblioteki Kongresu. Singingfish http://www.singingfish.com Wyszukiwarka plików audio i wideo. Turbo10 Search Engine http://turbo10.com/ Multiwyszukiwarka przeglądająca domyślnie indeksy: about.com, ask.com, dmoz.org, mirago.co.uk, search.msn.com, webfinder.com, wisenut.com, yahoo.com, yell.com. Możliwość dodania dowolnej wyszukiwarki (w tym deep web) z listy ok. 800, w tym Scirus i inne – opcja Edit My Collections.
  • 14. Vascoda http://www.vascoda.de/ Portal typu subject gateway tworzony przez Bibliotekę Uniwersytecką w Hannowerze, oferujący dostęp do informacji naukowej z różnych dziedzin, w tym zasobów ukrytych. Weblens - The Invisible Web http://www.weblens.org/invisible.html “Brama” do tysięcy narzędzi wyszukiwawczych i źródeł, w tym: wyszukiwarek, katlogów tematycznych, multiwyszukiwarek, wyszukiwarek plików dźwiękowych i graficznych, wyszukiwarek ludzi i firm, informatorów, baz danych miejsc pracy, wyszukiwarek naukowych I innych. „Szukanie informacji w Sieci - ukryte zasoby WEB” Literatura Battelle, J. Szukaj. Jak Google i konkurencja wywołali biznesową i kulturową rewolucję, PWN 2006. Bergman M. K.: The Deep Web: surfacing hidden value [online]. The Journal of Electronic Publishing, vol. 7, issue 1 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.press.umich.edu/jep/07-01/bergman.html. Bugajska M., Chabiński A. Zamiast szukać, znajdź! [online] Chip 2002 nr 2. [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18159.html. Calishain, T., Dornfest, R. 100 sposobów na Google, Helion, 2003. Chabiński A. Odmęty Sieci. [online] Chip 2002 nr 2 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18160.html. Cohen, L. The Deep Web. [online] University at Albany, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http:// www.internettutorials.net/deepweb.html. Deep web. [online] Wikipedia, The Free Encyclopedia, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://en.wikipedia.org/w/index.php?title=Deep_web&oldid=95397547. Derfert-Wolf L. Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways [online]. Biuletyn EBIB 2004/6 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2004/57/derfert.php. Dworniczak M. Google potrafi (prawie) wszystko! Magazyn Internet, kwiecień 2005, s. 66—69. Gulli, A., Signorini, A. The Indexable Web is More than 11.5 billion pages. [online] 2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf. Heliński, M., Mazurek, C., Parkoła, T., Werla, M. Biblioteka cyfrowa jako otwarte, internetowe repozytorium publikacji. W:III konferencja: Internet w bibliotekach. Zasoby elektroniczne: podaż i popyt. [online] Wrocław, 12-14 grudnia 2005 roku. http://www.ebib.info/publikacje/matkonf/iwb3/artykul.php?f Lewandowski, D. Web searching, search enginges and Information Retrieval. [online] Preprint, 2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/isu2005.php. Lewandowski, D., Mayr, P. Exploring the Academic Invisible Web. [online] Preprint, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/LHT_Preprint.pdf. Lyman, P., Hal R. V. How Much Information. [online] 2003 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.sims.berkeley.edu/how-much-info-2003. Łamek A. Ukryty Internet. Magazyn Internet 2002 nr 7. s. 58-60. Mirecka, E. Ocena jakości i przydatności znalezionych informacji. [online] Eduseek [dostęp 22.12.2006]. Dostępny w Internecie:http://eduseek.interklasa.pl/artykuly/artykul/ida/3874/idc/1/. Mróz D. Sieć dla eksperta. [online] CHIP nr 10/2005 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.chip.pl/arts/archiwum/n/articlear_150306.html.
  • 15. Pamuła-Cieślak N. Typologia zasobów Ukrytego Internetu. Przegląd Biblioteczny 2006 z. 2, s. 153-164. Pamuła-Cieślak N. Zjawisko Ukrytego Internetu – rola bibliotek w upowszechnianiu jego zasobów [online] 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://bg.p.lodz.pl/konferencja2006/materialy/Natalia_Pamula.pdf. Sherman, C. Search for the Invisible Web. [online] Guardian Unlimited 6.9.2001 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.guardian.co.uk/online/story/0,3605,547140,00.html. Sherman, C., Price, G. The Invisible Web: Uncovering Information Sources Search Engines Can't See. Medford, NJ: Information Today, 2001. Szumilas, D. Kop głębiej! Google to nie wszystko. Magazyn Internet - sierpień 2005, s. 60-63. Weryho M. Stań na ramionach gigantów, czyli Google Scholar. [online] EBIB 2005, nr 2 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2005/63/weryho.php. Zimnicki M. Kto szuka nie błądzi. Magazyn Internet, styczeń 2006, s. 24-31. 1 Zasoby baz publikacji pracowników tworzonych przez biblioteki np. w Expertusie, ALEPH nie są indeksowane przez Google 2 Np. robot Gooru - jeśli pierwsza strona serwisu jest w całości wykonana we Flash'u i do kolejnych podstron nie prowadzi żaden link w formacie HTML robot nie znajdzie pozostałych stron w serwisie. 3 Np. IEEE Xplore 4 Open Archives Initiative Protocol for Metadata Harvesting. Zob. więcej na stronie Libra: http://dlibra.psnc.pl/index.php? option=com_content&task=view&id=62&Itemid=62&lang=pl