1. „Szukanie informacji w Sieci - ukryte zasoby WEB”
Część II
Co to jest ukryty Web?
Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy
Definicje i terminy
Roboty standardowych wyszukiwarek (Google, Netsprint) indeksują tylko te strony (najczęściej statyczne
HTML), do których odnośniki znajdują się na innych witrynach albo zostały zgłoszone do wyszukiwarek przez
użytkowników. Tę część sieci – rozpoznawalną przez wyszukiwarki - określa się jako widoczną / płytką /
indeksowaną (ang. surface web, visible web, indexable web). Pozostałe zasoby sieci - trudno dostępne dla
standardowych wyszukiwarek – nazywane są ukryty Web / niewidoczny web / głęboki web (ang. hidden web,
deep web, invisible web). Terminu „invisible Web” użył po raz pierwszy w 1994 r. Jill Ellsworth dla określenia
informacji „niewidzialnych” dla konwencjonalnych wyszukiwarek. Najczęściej cytowane definicje ukrytej sieci to:
wg C. Shermana i G. Price’a (2001) - Invisible Web – dostępne w sieci i często bardzo wartościowe strony
tekstowe, pliki czy inne informacje, których z przyczyn technicznych bądź innych ograniczeń nie indeksują
ogólne wyszukiwarki;
wg M. K. Bergmana (2001) – Deep web – strony www tworzone dynamicznie jako wyniki specjalistycznych
wyszukiwań w bazach danych.
2. Zasoby deep Web
Typy zasobów deep Web
W Cz. I wykładu przedstawiono działanie robotów wyszukiwarek i zasobów sieci przez nie penetrowanych.
Zgodnie z w/w definiajmi ukryty Web to zasoby sieciowe nie wyszukiwane przy pomocy standardowych
wyszukiwarek. Jakie to zatem typy zasobów?
zawartość publicznie dostępnych baz danych
Większość zasobów sieci ukrytej stanowią bazy danych (głównie relacyjne), których zawartości nie jest w
stanie spenetrować robot konwencjonalnej wyszukiwarki. Znajdzie on jedynie stronę główną bazy, gdzie
następnym krokiem jest zadanie pytania bazie danych, czego wyszukiwarka już nie potrafi. Tak więc
ogromne zasoby (miliardy rekordów, pełnych tekstów publikacji) pozostają „w ukryciu”, choć są dostępne w
sieci i to często jako strony HTML, ale wygenerowane po zadaniu pytania bezpośrednio bazie danych. W tej
grupie zasobów ukrytej sieci mieści się również zdecydowa większość katalogów bibliotecznych
bibliotecznych i innych baz danych tworzonych przez biblioteki, np. bibliografii publikacji pracowników1. W tej
grupie są również archiwa gazet i czasopism, słowniki, książki telefoniczne itp. Ale oczywiście nie jest to
regułą. Wszystko zależy od technologii, w której tworzona jest baza danych i jak współpracuje z robotem
konkretnej wyszukiwarki.
strony i pliki nietekstowe, w innych formatach niż HTML
Raport Bergmana i praca C. Shermana i G. Price’a powstały w czasie, gdy roboty wyszukiwarek nie radziły
sobie z indeksowaniem stron i plików zapisanych w formatach innych niż HTML. Do zasobów ukrytych
zaliczano więc wszystkie inne materiały, np.
dokumenty PDF, Postscript, PHP, doc, xls, ppt, rtf
witryny czy elementy prezentacji stworzone w technologii Flash
czy JavaScript
pliki multimedialne, nagrania dźwiękowe, obrazy, pliki video
struktury substancji chemicznych
programy
pliki skompresowane (np. *zip, *tar)
Obecnie najlepsze wyszukiwarki bez trudu znajdują strony zapisane w PDF, Postscript, doc, xls, ppt, rtf, o ile
spełniają inne kryteria robotów. Problemem nadal pozostają witryny stworzone w całości lub częściowo w
technologii Flash2, które dla większości robotów są nieczytelne, a więc treści na nich zawarte – często
wartościowe – pozostają częściowo „w ukryciu”. Roboty nie radzą sobie też plikami graficznymi,
dźwiękowymi, video. Dostępne są wprawdzie opcje przeszukiwania grafiki, audio czy video, ale np. robot
Google nie rozpoznaje tekstu zawartego w grafice – wyszuka obrazek tylko wtedy, gdy nazwa pliku lub tekst
w jego pobliżu w kodzie źródłowym odpowiada naszemu zapytaniu.
strony, do których nie prowadzą odsyłacze z innych witryn
Zgodnie z jedną z zasad działania robotów wyszukiwarek – indeksowania stron, do których prowadzi
przynajmniej jeden link z innej strony - do indeksów wyszukiwarek nie zostaną włączone strony, do których
brak odsyłaczy z innych stron i pozostaną „w ukryciu”.
3. strony internetowe wyłączone z procesu indeksacji przez twórców
Niektóre serwisy (w tym komercyjne bazy danych) wymagają płatnej rejestracji bądź są dostępne dla
subskrybentów po dokonaniu autoryzacji, więc ze względów oczywistych takie zasoby muszą byćwyłączone z
procesu indeksacji przez wyszukiwarki. Roboty nie są również w stanie, z powodów technicznych, zalogować się
do serwisów wymagających bezpłatnej rejestracji. Te dwa rodzaje zasobów tworzą tzw. Sieć zastrzeżoną, której
pokaźną częścią są cenne zasoby naukowych baz danych, np. Inspec, ESSCO. Niektórzy dostawcy3 ujawniają
dla Gogle informacje ze swoich baz do poziomu np. opisu bibliograficznego, a reszta (abstrakt, pełen tekst) jest
zastrzeżona. Druga grupa stron wyłączonych z indeksacji to te, których twórcy zabronili robotom wyszukiwarek
indeksowania treści dokumentów i zamieścili pliki robot.txt w kodzie źródłowym strony.
strony i pliki tworzone dynamicznie lub w czasie rzeczywistym
Strony generowane dynamicznie, w ramach zazwyczaj dużych serwisów internetowych tworzonych przy
pomocy np. technologii ASP czy PHP, powstają po zainicjowaniu pewnej „akcji” przez użytkownika, np.
zadanie pytania bazie danych albo wyszukiwarce serwisu, wypełnienie formularza czy ustawianiu własnych
preferencji. Jest to więc informacja generowana „w locie” i tworzona przez specjalne skrypty, zgodnie z
potrzebami konkretnego użytkownika strony i niekoniecznie istotna dla innego użytkownika. Adres URL
stron tworzonych dynamicznie jest zazwyczaj bardzo długi i zawiera „?”. Nie każdy robot wyszukiwarki
odnajdzie taką stronę, a te które znajdują często nie zamieszczają w swoich indeksach. Kolejnym
problemem dla standardowych wyszukiwarek są strony tworzone w czasie rzeczywistym, których zawartość
zmienia się prawie każdego dnia, np. notowania giełdowe, prognozy pogody, rozkłady lotów. Roboty często
celowo rezygnują z ich indeksowania, gdyż są to dane “ulotne”, krótkotrwałe, a przede wszystkim w wielkich
ilościach.
Rodzaje informacji w deep web
Wymienione wyżej typy zasobów trudno dostępnych dla standardowych wyszukiwarek wyszczególniono w
punktu widzenia technicznego, technologicznego bądź prawnego, biorąc pod uwagę rodzaje formatów i metody
tworzenia zasobów. Jakie natomiast rodzaje informacji kryją się w sieci pozornie niewidzialnej? Autorzy wielu
publikacji na ten temat zgodnie podkreślają, że większość stanowią bardzo wartościowe materiały, a pośród
nich:
publikacje i raporty naukowe, dysertacje (pełne teksty lub abstrakty)
artykuły z gazet i czasopism (pełne teksty lub abstrakty)
dokumenty rządowe
archiwa materiałów źródłowych i referencyjnych
zasoby biblioteczne (katalogi, zbiory digitalizowane, publikacje pracowników uczelni)
niektóre repozytoria Open Access
szara literatura
dane, wzory, grafiki
słowniki i encyklopedie, bazy teleadresowe
i wiele, wiele innych
W tej grupie dokumentów przeważająca część to materiały przydatne dla nauki i edukacji. D. Lewandowski i P.
Mayr (2006) zaproponowali nawet termin „Naukowa Sieć Niewidzialna” dla określenia baz danych i kolekcji o
istotnym znaczeniu dla środowisk naukowych, bibliotekarzy i specjalistów informacji, a nie wyszukiwalnych przez
standardowe wyszukiwarki. Naukowa Sieć Niewidzialna zawiera literaturę (np. artykuły, rozprawy, raporty,
książki), dane (np. dane z badań), materiały wyłącznie online (np. dokumenty Open Access). Głównymi
4. dostarczycielami tych zasobów są: twórcy i sprzedawcy baz danych i innych serwisów (np. document delivery),
biblioteki, wydawcy komercyjni, uczelnie i instytucje naukowe, stowarzyszenie i organizacje.
Wielkość zasobów ukrytych w porównaniu z siecią „płytką”
Powszechnie wiadomo, że nie da się zliczyć wszystkich stron WWW na świecie, ani też nie da się zliczyć tego
co „widzą” wyszukiwarki. Same największe wyszukiwarki przestały nawet publicznie informować ile dokumentów
liczą ich indeksy. Mimo to, co pewien czas podejmowana są badania, w których naukowcy starają się
oszacować wielkość surfach Web czy deep Web. Poniżej wybrane wyniki badań od 1999 r.
NEC Research Institute, 1999 r.:
publicznie dostępne zasoby sieci indeksowane przez wyszukiwarki liczyły 800 mln dokumentów (18700 GB)
wyszukiwarki indeksowały średnio zaledwie 16% wszystkich stron internetowych
Cyveillance Corporation, 2000 r.:
zasoby tzw. "płytkie", liczyły 2,5 mld dokumentów (1 mld stron WWW) o łącznej wielkości ok. 19 terabajtów
dziennie przybywało średnio 7,3 mln dokumentów
Bright Planet, 2001 r. (Bergman, 2001) – praca szeroko cytowana; wiele innych badań bazuje na jej
wynikach
deep web jest ok. 400-550 razy większy niż zasoby indeksowane przez wyszukiwarki i liczy ok. 550 mld
dokumentów (7.500 terabajtów)
60 największych baz danych ukrytego Internetu zawiera 750 TB danych
ok. 95% zasobów "ukrytych" jest dostępnych publicznie, bezpłatnie
ponad połowa to tematyczne bazy danych
zasoby deep web są odwiedzane przez użytkowników o 50% częściej niż zasoby „płytkie”
Sherman, C., 2001
ukryty web jest ok. 2-50 razy większy niż zasoby indeksowane przez wyszukiwarki
Lyman, P., Hal R. V. "How Much Information", 2003
Surface Web – 167 TB (na podstawie analizy 9800 witryn)
Deep Web - 91,850 TB (na podst. wyników badań Bright Planet)
Gulli, A., Signorini, A. (2005)
wielkość sieci indeksowanej przez wyszukiwarki (surfach Web) - 11,5 mld stron
ok. 9,36 mld stron jest dostępnych w indeksach 4 największych wyszukiwarek (Google, Yahoo, MSN, Ask)
przeciętnie ok. 70% zasobów surface web można było uzyskać za pomocą w/wwyszukiwarek (np. Google 76%)
5. część wspólna indeksów 4 w/w wyszukiwarek wynosi 2,7 mld stron (28,85%)
Lewandowski, D., Mayr, P. (2006)
podważają szacunki Bergmana (2001) dotyczące wielkości sieci ukrytej i uznają je za bardzo zawyżone z
powodu:
błędu statystycznego - korzystania ze średniej zamiast mediany
liczenia rozmiaru baz w GB zamiast rekordach
rozmiar „naukowej sieci ukrytej” szacują na ok. 20-100 mld dokumentów
W kierunku “uwidaczniania” (naukowych) zasobów ukrytych
„Czy określenia „Głęboki” i „niewidoczny” Internet mają jeszcze sens? Wszak i
wyszukiwarki są coraz sprytniejsze, i ludzie potrafią efektywniej korzystać z Internetu.
Wielu z nich intuicyjnie korzysta z owych baz danych głębokiego Internetu i pewnie do
głowy im nie przyjdzie, że korzystają z czegoś „ukrytego”. A i głeboki Internet coraz
częściej wypływa na powierzchnię za sprawą ulepszonych wyszukiwarek globalnych.
Czy zostanie całkowicie odsłonięty? Czy może wtedy przyjdzie czas na odsłanianie
jeszcze głębszego Internetu?”
Szumilas, D. (2005)
Wszystkich zasobów Web nie da się do końca „uwidocznić”. A nawet jeśli tak, żadna wyszukiwarka nie obejmuje
swym zasięgiem całego surfach Web, więc problem pozostanie. Warto więc podejmować pewne działania
zmierzające z jednej strony starania do wzajemnej „współpracy” tworzonych zasobów (szczególnie
bazodanowych i repozytoriów OA) oraz ich „współpracy” i ze standardowymi wyszukiwarkami, z drugiej –
uświadamiania użytkownikom internetu istnienia ukrytego web. Działania te powinni podejmować zarówno
twórcy baz danych, wydawcy, biblioteki (razem!), ale i też twórcy wyszukiwarek. I tak właśnie się dzieje, co
można zilustrować wybranymi dobrymi przykładami:
Konwersja bazy danych do regularnych stron HTML, np. w Amazon.com, każdy rekord jest konwertowany do
HTML i „widoczny” dla robotów wyszukiwarek (można to sprawdzić porównując URL konkretnego rekordu
wyszukanego bezpośrednio w Amazon.com i potem tego samego tytułu wyszukanego w Gogle).
Stosowanie protokołów Z39.50 i/lub OAI-PMH4 w celu umożliwienia jednoczesnego przeszukiwania (cross
rerach) wielu serwisów i baz danych, tych ukrytych i dostępnych dla wyszukiwarek. Doskonałym przykładem jest
brytyjski serwis TechXtra http://www.techxtra.ac.uk/ ukierunkowany na inżynierię i technikę, przeszukujący 4 mln
rekordów z 29 baz danych, serwisów tematycznych, repozytoriów OA i innych. Innym ciekawym przykładem jest
E-Print Network http://eprints.osti.gov/ - serwis przeszukujący repozytoria e-printów z zakresu nauki I techniki.
Stosowanie protokołu OAI-PMH w celu wspólnego wyszukiwania w zasobach bibliotek cyfrowych oraz ich
uwidaczniania w wyszukiwarkach (Heliński, M. i inni 2005). Dzięki temu zasoby bibliotek polskich stosujących
oprogramowanie dLibra http://dlibra.psnc.pl/ (zob. Wdrożenia) mogą być przeszukiwane jednocześnie (opcja
„Przeszukaj zdalne biblioteki” na stronie którejkolwiek z nich), są „widoczne” w Google i wyszukiwarkach
specjalistycznych, np. OAIster http://oaister.umdl.umich.edu/o/oaister/.
Tworzenie specjalistycznych multiwyszukiwarek uwzględniających również zasoby ukryte, np. wersja beta
GoshMe http://www.goshme.com/, multiwyszukiwarki przeszukującej 2590 wyszukiwarek I baz danych (obecnie
6. wymagana bezpłatne rejestracja), Turbo10 http://turbo10.com albo Alacra http://www.alacrastore.com/
przeszukująca (bezpłatnie) ponad 200 mln (płatnych) raportów firm oraz artykułów z czasopism biznesowych.
Oferowanie przez standardowe wyszukiwarki usług specjalnych i dających dostęp do również do obszarów deep
Web. Dobrym przykładem są znane wszystkim Google Scholar i Google Books, umożliwiające nie tylko
wyszukiwanie, ale również możliwość sprawdzenia dostępności książek w wielu bibliotekach (w tym NUKAT –
opcja „Find In NUKAT”w Google Scholar), dzięki współpracy z WorldCat OCLC czy zamówienia kopii w artykułu
w British Library. Z innych warto wymienić Google Patent Serach http://www.google.com/patents (7 mln
patentów USA).
Ujawnianie, chociażby do poziomu abstraktów, zawartości komercyjnych baz danych i czasopism w
standardowych wyszukiwarkach. Użytkownik uprawniony do pełnego korzystania z tych serwisów mógłby
uzyskać dostęp do pełnych tekstów publikacji. Np. zasoby IEEE Xplore są w taki sposów wyszukiwalne w
Google, dziesiątki wydawców w Live Search (MSN) – Academic - http://search.live.com/ i serwisy wybranych
wydawców (np. LexisNexis) w Yahoo! Search Subscriptions http://search.yahoo.com/subscriptions.
Tworzenie usystematyzowanych wg kategorii tematycznych i przeszukiwalnych „bram dostępu” do zasobów
ukrytych, np. serwisów typu subject gateways (Derfert-Wolf, L. 2004), np. niemiecka Vascoda
http://www.vascoda.de/.
Ułatwienie użytkownikom poruszania się po witrynach bibliotecznych, coraz bardziej „obładowanych”
informacjami i dostępami do wielu katalogów, baz danych, pełnych tekstów artykułów, bibliotek cyfrowych i
innych repozytoriów. Często te materiały są „niewidoczne” dla użytkowników, bo …. jest ich bardzo dużo i linki
do nich zamieszczane są w różnych działach, pod nazwami nie zawsze zrozumiałymi. Doskonałym
rozwiązaniem jest przeszukiwanie WSZYSTKICH zasobów elektronicznych danej biblioteki (lokalnych i
zdalnych) przy pomocy jednego interfejsu. Oczywiście dostęp do zasobów komercyjnych mają wtedy wyłącznie
zarejestrowani użytkownicy. Istnieje wiele rozwiązań tego typu. Listę programów zwanych federated search
systems znaleźć można m.in. na stronie http://www.loc.gov/catdir/lcpaig/portalproducts.html.
Szkolenie użytkowników sieci:
uświadamianie istnienia ukrytego Web i pokazywanie na przykładach czego Google nie wyszuka
upowszechnianie wiedzy o ukrytych zasobach Web
wskazywanie sposobów poszukiwań tych zasobów w sieci.
7. „Szukanie informacji w Sieci - ukryte zasoby WEB”
Część III
Jak szukać w zasobach ukrytych?
Oprac. Lidia Derfert-Wolf, Biblioteka Główna Uniwersytetu Technologiczno-Przyrodniczego w Bydgoszczy
Owe zasoby [deep Web] są wszak dostępne i widoczne, tylko trzeba wiedzieć,
jak do nich dotrzeć. Są po prostu głębiej schowane. Szumilas, D. (2005)
Dlaczego warto nie poprzestawać na Gogle?
standardowe wyszukiwarki pomijają wiele zasobów deep web
informacje w ramach jednego serwisu deep web rzadko się powielają, co w standardowych wyszukiwarkach jest
powszechne
ukryty web to źródła o wysokiej jakości
wartościowe materiały powstające w dzięki uczelniom i instytucjom naukowym, bibliotekom, instytucjom
rządowym i międzynarodowym
selekcjonowane, sprawdzone i ocenione przez specjalistów
kontrolowane pod względem aktualności
dane w serwisach deep web są często pogrupowane tematycznie i wyszukiwane wg potrzeb użytkownika
wyszukiwanie bardzo specjalistycznych informacji (nawet tych „widzialnych”) da lepsze rezultaty w bazach
danych niż w wyszukiwarkach
Jak szukać?
W związku z powyższym nie warto poprzestawać na Gogle, a zasobów „widzialnych” przez Gogle lepiej nieraz
szukać gdzie indziej. Wyszukiwanie będzie bardziej efektywne i da lepsze rezultaty. Oto kilka sposobów
penetrowania ukrytych - i nie tylko - zasobów Web:
znajomość przydatnych baz danych
8. Najprostszym sposobem jest bezpośredni dostęp do ważnych baz danych i innych serwisów z interesującej nas
dziedziny. Wszystkich oczywiście nie jesteśmy w stanie spamiętać, ale warto tworzyć takie wykazy w
bookmarkach czy na prywatnych stronach internetowych. Strony różnych instytucji i bibliotek oferują bogate
wykazy linków do przydatnych baz danych.
wyszukiwanie baz danych i innych serwisów w standardowych wyszukiwarkach
Drugim sposobem jest skorzystanie z wyszukiwarki (np. Google) i połączenie odpowiedniego słowa kluczowego
ze słowem baza lub wyrażeniem "baza danych" (np. „baza danych” film). Szukając serwisów w innych językach
pytanie zadajemy we właściwym języku. Podobnie postępujemy szukając wyszukiwarek specjalistycznych.
Możemy w Google wpisać np. environment "search engine" albo wyszukiwarka mp3.
bazy baz
Trzecim sposobem jest skorzystanie ze specjalnych metabaz, które wyszukują odpowiednie profesjonalne bazy
danych. Przykładem jest CompletePlanet. Takie metabazy można przeglądać wg dziedzin lub przeszukiwać wg
słów kluczowych. W rezultacie otrzymamy linki do odpowiednich baz danych, a często bezpośrednie połączenie
do formularza wyszukiwawczego w danej bazie.
katalogi tematyczne, subject gateways, portale tematyczne
Kolejną metodą dostępu do ukrytych zasobów web jest wertowanie specjalnych katalogów ukierunkowanych na
konkretne dziedziny wiedzy lub przeznaczonych dla określonych grup odbiorców. Nie chodzi tu o katalogi
omawiane w I części wykładu, a raczej o specjalistyczne bazy zasobów sieciowych, usystematyzowane wg
dziedzin wiedzy i oceniane przez specjalistów dziedzinowych. Najlepszymi przykładami są serwisty typu subject
gateways, np. brytyjski INTUTE, niemiecka Vascoda czy amerykański Infomine, przeznaczone dla środowisk
naukowych, uczniów i studentów. Przeszukując te serwisy można trafić na ciekawe bazy danych lub po prostu
można im zadać pytanie, np. history database, gdyż większość z nich jest zazwyczaj zaopatrzonych w
wyszukiwarkę zasobów.
wyszukiwarki specjalistyczne
Bezpośrednie dotarcie do określonych zasobów ukrytych czy to pod względem treści czy typów danych ułatwią
wyszukiwarki specjalistyczne, np. publikacji naukowych – Scirus czy Gogle Scholar, zasobów edukacyjnych -
Eric, repozytoriów OA – OpenDOAR, plików dźwiękowych – Singingfish. Powstają również interdyscyplinarne
wyszukiwarki zasobów ukrytych, np. Turbo10.
Omówionych w tej części narzędzi wyszukiwawczych jest bardzo dużo. Nie sposób wymienić kilku najlepszych.
Prezentowana poniżej lista zawiera najczęściej cytowane zbiorcze wykazy baz danych i wyszukiwarek
specjalistycznych oraz zasobów deep web. Serwisy najczęściej powtarzające się na tych wykazach i
przeznaczone głównie dla nauki i edukacji zamieszczono w Tab. 1.
Zbiorcze wykazy baz danych i wyszukiwarek specjalistycznych oraz zasobów deep web:
About.com - Find Out More About The Deep Web - Deep Web Search
http://websearch.about.com/od/invisibleweb/
Deep Web Research – M. Zillman`s Blog http://www.deepwebresearch.info/
Derfert-Wolf L.: Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways. Wykaz.
http://ebib.oss.wroc.pl/2004/57/wykaz.php
Gruchawka, S. R. Using the Deep Web : A How-to Guide for IT Professionals. http://www.techdeepweb.com
Katalogi kwalifikowanych zasobów internetowych (UMCS) http://www.bg.umcs.lublin.pl/nowa/deep.php
Kay B. Discovering The Invisible Web. http://lakenet.org/net_ref/manuals/invisible.html
9. Lackie R. J. Those Dark Hiding Places: The Invisible Web Revealed. Rider University.
http://www.robertlackie.com/invisible/index.html
Pinakes - Heriot-Watt University Library http://www.hw.ac.uk/libWWW/irn/pinakes/pinakes.html
Price G. Direct search. http://www.freepint.com/gary/direct.htm
10.Research Beyond Google: 119 Authoritative, Invisible, and Comprehensive Resources.
http://oedb.org/library/college-basics/research-beyond-google
Specialised search engines. Tilburg University.
http://www.tilburguniversity.nl/services/library/instruction/www/onlinecourse/special.html
Zillman, M. P. Academic and Scholar Search Engines and Sources – An Internet MiniGuide Annotated Link
Compilation. http://whitepapers.virtualprivatelibrary.net/Scholar.pdf
Zillman, M. P. Deep Web Research Research 2007. http://www.llrx.com/features/deepweb2007.htm
Tab. 1 Wyszukiwarki Deep Web, wyszukiwarki specjalistyczne, katalogi tematyczne (głównie naukowe)
Academic Info http://www.academicinfo.net/ Katalog tematyczny dla uczniów i
studentów zawierający 25 tys.
Wyselekcjonowanych źródeł sieciowych.
Bartleby.com http://www.bartleby.com/ Wyszukiwarka haseł ze słowników i
encyklopedii, cytatów oraz informacji o
popularnych pisarzach i poetach wraz z
tekstami ich prac.
BUBL http://bubl.ac.uk/ Katalog źródeł internetowych ze
wszystkich dziedzin wiedzy akademickiej
tworzony przez bibliotekarzy
(Strathclyde University, UK). Możliwość
przeglądania wg Klasyfikacji Dziesiętnej
Deweya typów dokumentów oraz krajów
i wyszukiwania wg słów kluczowych.
CiteSeer – Scientific Literature Digital Library Wyszukiwarka naukowa działająca na
http://citeseer.ist.psu.edu/ zasadzie indeksu cytowań. Baza
CiteSeer zawiera ok. 770 tys.
dokumentów.
CompletePlanet http://www.completeplanet.com/ Wyszukiwarka baz danych. Daje dostęp
do ponad 70 tys. baz i serwisów
wyszukiwawczych. Możliwość
wyszukiwania wg słów kluczowych lub
przeglądania wg kategorii tematycznych.
Digital Librarian http://www.digital-librarian.com/ Katalog zasobów sieciowych wg
dziedzin, opracowywany na bieżąco
przez bibliotekarzy amerykańskich.
DOAJ http://www.doaj.org/ Directory of Open Access Journals.
10. Pełne teksty artykułów z ponad 2500
naukowych czasopism elektronicznych,
dostępnych bezpłatnie w sieci.
ERIC http://www.eric.ed.gov/ Centrum informacji I biblioteka cyfrowa
źródeł edukacyjnych. Dostęp do ponad
1,2 mln rekordów bibliograficznych
artykułów z czasopism i innych źródeł, z
których wiele kieruje do pełnych tekstów
publikacji.
Find Articles http://www.findarticles.com/ Wyszukiwarka milionów artykułów ze
znanych czasopism – większość
dostępna w pełnych tekstach.
Galaxy http://www.galaxy.com Wyszukiwarka i katalog tematyczny
źródeł naukowych ze wszystkich
dziedzin wiedzy.
Geniusfind http://www.geniusfind.com/ Katalog tematyczny wyszukiwarek
specjalistycznych I baz danych.
Google Scholar http://scholar.google.com Wersja beta specjalistycznej
wyszukiwarki Gogle rejestrującej pełne
teksty lub abstrakty prac naukowych
(artykułów, raportów, książek) ze
wszystkich dziedzin wiedzy.
Przedstawiciele firmy Google nawiązali
także współpracę z wydawcami
komercyjnych baz i zasobów
elektronicznych, w wyniku czego Google
Scholar uzyskał dostęp do tych
materiałów, które dla indywidualnych
użytkowników sieci WWW są
niedostępne, niewidzialne. Wymagają
nabycia subskrypcji i chronione są
odpowiednim hasłem dostępu. Dzięki
temu użytkownicy serwisu mają dostęp
do znacznie bogatszych zasobów
informacji oraz łatwiej mogą
zlokalizować określony materiał.
Oczywiście pełne teksty nadal dostępne
są tylko subskrybentom, dla
użytkowników Google Scholar dostępne
są natomiast informacje bibliograficzne
oraz abstrakty. Jest to jedno z wymagań
stawianych przez Google względem
wydawców w podpisanej przez obie
strony umowie[3]. Gdy jednak
użytkownik pragnie dotrzeć do pełnego
tekstu dokumentu, wyszukiwarka,
poprzez łącze Library Search wskazuje
najbliższą bibliotekę akademicką jako
miejsce dostępu bądź sugeruje kupno
publikacji bezpośrednio od wydawcy
(Weryho, 2005).
11. GrayLIT Network http://graylit.osti.gov/ Wyszukiwarka raportów technicznych.
Przeszukuje kilka różnych baz danych
jednocześnie.
HighWire Press http://highwire.stanford.edu/ Repozytorium zawrtości ponad tysiąca
czasopism naukowych i ponad 4 tys.
artykułów ze 130 wydawnictw
uniwersyteckich. OK. 1,5 mln artykułów
występuje w wersji pełnotekstowej
(bezpłatnie).
INCYWINCY http://www.incywincy.com/ Multiwyszukiwarka zasobów „głębokich”
i„płytkich”. Wyszukuje w Open Direktory
Project, kilku standardowych
wyszukiwarkach i ponad milionie portali
tematycznych.
Infomine http://infomine.ucr.edu/ Kolekcja źródeł internetowych (biblioteka
wirtualna) ukierunkowana na środowiska
akademickie, tworzona przez
bibliotekarzy. Rejestruje bazy danych,
czasopisma elektroniczne, książki
elektroniczne, biuletyny elektroniczne,
listy dyskusyjne, katalogi biblioteczne,
artykuły, wykazy naukowców i wiele
innych. Możliwość wertowania katalogu
wg dziedzin bądź wyszukiwania źródeł
wg wielu kryteriów.
Internet Archive http://www.archive.org/index.php Biblioteka internetowa dla naukowców,
głównie historyków, oferująca dostęp do
kolekcji historycznych w postaci
cyfrowej. Zawiera teksty Open-Access,
pliki audio, filmy i programy.
Internet Public Library (IPL) http://www.ipl.org/ Publiczna “biblioteka internetowa”
tworzona przez University of Michigan
School of Information. Kolekcja
wiarygodnych żródeł internetowych
pogrupowanych w kilku kategoriach.
Składa się z: kolekcji linków
sprawdznych i zatwierdzanych przez
bibliotekarzy oraz usługi informacyjnej
typu “ASK A QUESTION”. IPL zawiera
ponadto ponad 20 tys. Pełnych tekstów
książek.
Intute http://www.intute.ac.uk/ Serwis typu subject gateway tworzony
przez uniwersytety brytyjskie, dający
dostęp do najlepszych,
wyselekcjonowanych i zrecenzowanych
przez specjalistów, źródeł sieciowych
przeznaczonych dla nauki i edukacji w 4
głównych dziedzinach: nauka i technika,
sztuka i nauki humanistyczne, nauki
społeczne, medycyna i przyroda. Baza
danych zawiera ok. 115 tys. rekordów.
12. Serwis to dawny Resource Discovery
Network. (SOSIG, EEVL i inne).
Invisible Web Directory http://www.invisible-web.net/ Prtzebudowywany obecnie catalog
zasobów deep Web. Twórcy zapewniają,
że wkrótce będzie dostępny.
Librarians’ Internet Index (LII) http://lii.org/ Serwis tworzony przez bibliotekarzy
amerykańskich dla potrzeb
użytkowników bibliotek publicznych.
Rejestruje ponad 20 tys. źródeł
internetowych w układzie
przedmiotowym. Wyszukiwanie ułatwia
interfejs do zadawania pytań według
różnych kryteriów formalnych i
rzeczowych.
Centrum sieciowych zasobów
Library Spot http://www.libraryspot.com/ bibliotecznych i informacyjnych dla
nauczycieli, uczniów, bibliotekarzy i
innych zainteresowanych. Źródła są
selekcjonowane i oceniane przez zespół
redaktorów.
Live Search (MSN) – Academic http://search.live.com/ Usługa Live Academic Serach
wyszukiwarki MSN, umożliwiająca
wyszukiwanie pubikacji naukowych z
czasopism i repozytoriów OA. W
rezultacie otrzymujemy opisy
bibliograficzne ze streszczeniami.
Academic Search współpracuje z
bibliotekami i instytucjami, aby umożliwić
im dostęp do pełnych tekstów publikacji,
których są subskrybentami.
MagPortal.com http://magportal.com/ Wyszukiwarka i katalog tematyczny
artykułów z gazet, tygodników I
czasopism popularno-naukowych.
OAIster http://oaister.umdl.umich.edu/o/oaister/ Projekt University of Michigan, którego
celem jest połączenie różnych kolekcji
cyfrowych, trudno dostępnych dla
wyszukiwarek. Zasoby zawierają
obecnie ponad 9,9 mln rekordów z 726
instytucji (w tym kilku polskich). W bazie
danych zgromadzone są zasoby
bibliotek cyfrowych różnych instytucji,
repozytoriów instytucjonalnych i
czasopisma elektronicznych.
On-Line Books Page http://digital.library.upenn.edu/books/ Wykaz i wyszukiwarka ponad 25 tys.
książek dostępnych w sieci bezpłatnie.
OpenDOAR directory of open access repositories Kontrolowany katalog akademickich
http://www.opendoar.org/ repozytoriów Open Access. Możliwość
przeglądaniawg kontynentów,
wyszukiwania repozytorium wg różnych
13. kryteriów i przeszukiwania zasobów
wszystkich repozytoriów.
Picsearch http://www.picsearch.com/ Wyszukiwarka grafik (ponad 1,7 mld
obrazków w bazie)
Serwis redagowany pod kierunkiem G.
ResourceShelf http://www.resourceshelf.com/ Price’a, informujący codziennie o
ciekawych źródłach sieciowych, w tym
bazach danych, katalogach,
multimediach. Możliwość bezpłatnej
prenumeraty newslettera ukazującego
się co tydzień.
Archiwum ok. 800 repozytoriów OA (w
ROAR Registry of Open Access Repositories tym też bibliotek cyfrowych). Możliwość
http://roar.eprints.org/index.php przeglądania wg krajów,
oprogramowania, typów zawartości oraz
przeszukiwania treści repozytoriów wg
słów z publikacji, autorów itp..
Science.gov http://www.science.gov/ Katalog i wyszukiwarka zasobów
naukowych tworonych przez organizacje
rządowe USA.
ScienceResearch.com http://www.scienceresearch.com Portal firmy Deep Web Technologies
umożliwiający dostęp do wielu
naukowych czasopism i baz danych
(częściowo płatnych).
Scirus www.scirus.com Wyszukiwarka naukowa umożlwiająca
dostęp do ponad 300 mln stron
internetowych, w tym: 1) odnośników do
witryn naukowych, uczelnianych,
technicznych i medycznych, 2) raportów,
artykułów recenzowanych, opisów
patentowych, preprintów i czasopism.
Scout Archives http://scout.wisc.edu/Archives/index.php Kontrolowany pod względem jakości
catalog zasobów sieciowych I list
dyskusyjnych, zawierający 23,174
rekordów ze streszczeniami. Możliwość
wyszukiwani oraz przegląfania wg
klasyfikacji Biblioteki Kongresu.
Singingfish http://www.singingfish.com Wyszukiwarka plików audio i wideo.
Turbo10 Search Engine http://turbo10.com/ Multiwyszukiwarka przeglądająca
domyślnie indeksy: about.com, ask.com,
dmoz.org, mirago.co.uk,
search.msn.com, webfinder.com,
wisenut.com, yahoo.com, yell.com.
Możliwość dodania dowolnej
wyszukiwarki (w tym deep web) z listy
ok. 800, w tym Scirus i inne – opcja Edit
My Collections.
14. Vascoda http://www.vascoda.de/ Portal typu subject gateway tworzony
przez Bibliotekę Uniwersytecką w
Hannowerze, oferujący dostęp do
informacji naukowej z różnych dziedzin,
w tym zasobów ukrytych.
Weblens - The Invisible Web http://www.weblens.org/invisible.html “Brama” do tysięcy narzędzi
wyszukiwawczych i źródeł, w tym:
wyszukiwarek, katlogów tematycznych,
multiwyszukiwarek, wyszukiwarek plików
dźwiękowych i graficznych,
wyszukiwarek ludzi i firm, informatorów,
baz danych miejsc pracy, wyszukiwarek
naukowych I innych.
„Szukanie informacji w Sieci - ukryte zasoby WEB”
Literatura
Battelle, J. Szukaj. Jak Google i konkurencja wywołali biznesową i kulturową rewolucję, PWN 2006.
Bergman M. K.: The Deep Web: surfacing hidden value [online]. The Journal of Electronic Publishing, vol. 7,
issue 1 [dostęp 22.12.2006]. Dostępny w Internecie: http://www.press.umich.edu/jep/07-01/bergman.html.
Bugajska M., Chabiński A. Zamiast szukać, znajdź! [online] Chip 2002 nr 2. [dostęp 22.12.2006]. Dostępny w
Internecie: http://www.chip.pl/arts/archiwum/n/articlear_18159.html.
Calishain, T., Dornfest, R. 100 sposobów na Google, Helion, 2003.
Chabiński A. Odmęty Sieci. [online] Chip 2002 nr 2 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.chip.pl/arts/archiwum/n/articlear_18160.html.
Cohen, L. The Deep Web. [online] University at Albany, 2006 [dostęp 22.12.2006]. Dostępny w Internecie: http://
www.internettutorials.net/deepweb.html.
Deep web. [online] Wikipedia, The Free Encyclopedia, 2006 [dostęp 22.12.2006]. Dostępny w Internecie:
http://en.wikipedia.org/w/index.php?title=Deep_web&oldid=95397547.
Derfert-Wolf L. Serwisy tematyczne o kontrolowanej jakości w Internecie – subject gateways [online]. Biuletyn
EBIB 2004/6 [dostęp 22.12.2006]. Dostępny w Internecie: http://ebib.oss.wroc.pl/2004/57/derfert.php.
Dworniczak M. Google potrafi (prawie) wszystko! Magazyn Internet, kwiecień 2005, s. 66—69.
Gulli, A., Signorini, A. The Indexable Web is More than 11.5 billion pages. [online] 2005 [dostęp 22.12.2006].
Dostępny w Internecie: http://www.cs.uiowa.edu/~asignori/web-size/size-indexable-web.pdf.
Heliński, M., Mazurek, C., Parkoła, T., Werla, M. Biblioteka cyfrowa jako otwarte, internetowe repozytorium
publikacji. W:III konferencja: Internet w bibliotekach. Zasoby elektroniczne: podaż i popyt. [online] Wrocław,
12-14 grudnia 2005 roku. http://www.ebib.info/publikacje/matkonf/iwb3/artykul.php?f
Lewandowski, D. Web searching, search enginges and Information Retrieval. [online] Preprint, 2005 [dostęp
22.12.2006]. Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/isu2005.php.
Lewandowski, D., Mayr, P. Exploring the Academic Invisible Web. [online] Preprint, 2006 [dostęp 22.12.2006].
Dostępny w Internecie: http://www.durchdenken.de/lewandowski/doc/LHT_Preprint.pdf.
Lyman, P., Hal R. V. How Much Information. [online] 2003 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.sims.berkeley.edu/how-much-info-2003.
Łamek A. Ukryty Internet. Magazyn Internet 2002 nr 7. s. 58-60.
Mirecka, E. Ocena jakości i przydatności znalezionych informacji. [online] Eduseek [dostęp 22.12.2006].
Dostępny w Internecie:http://eduseek.interklasa.pl/artykuly/artykul/ida/3874/idc/1/.
Mróz D. Sieć dla eksperta. [online] CHIP nr 10/2005 [dostęp 22.12.2006]. Dostępny w Internecie:
http://www.chip.pl/arts/archiwum/n/articlear_150306.html.
15. Pamuła-Cieślak N. Typologia zasobów Ukrytego Internetu. Przegląd Biblioteczny 2006 z. 2, s. 153-164.
Pamuła-Cieślak N. Zjawisko Ukrytego Internetu – rola bibliotek w upowszechnianiu jego zasobów [online] 2006
[dostęp 22.12.2006]. Dostępny w Internecie: http://bg.p.lodz.pl/konferencja2006/materialy/Natalia_Pamula.pdf.
Sherman, C. Search for the Invisible Web. [online] Guardian Unlimited 6.9.2001 [dostęp 22.12.2006]. Dostępny
w Internecie: http://www.guardian.co.uk/online/story/0,3605,547140,00.html.
Sherman, C., Price, G. The Invisible Web: Uncovering Information Sources Search Engines Can't See. Medford,
NJ: Information Today, 2001.
Szumilas, D. Kop głębiej! Google to nie wszystko. Magazyn Internet - sierpień 2005, s. 60-63.
Weryho M. Stań na ramionach gigantów, czyli Google Scholar. [online] EBIB 2005, nr 2 [dostęp 22.12.2006].
Dostępny w Internecie: http://ebib.oss.wroc.pl/2005/63/weryho.php.
Zimnicki M. Kto szuka nie błądzi. Magazyn Internet, styczeń 2006, s. 24-31.
1 Zasoby baz publikacji pracowników tworzonych przez biblioteki np. w Expertusie, ALEPH nie są indeksowane przez Google
2 Np. robot Gooru - jeśli pierwsza strona serwisu jest w całości wykonana we Flash'u i do kolejnych podstron nie prowadzi żaden link w formacie
HTML robot nie znajdzie pozostałych stron w serwisie.
3 Np. IEEE Xplore
4 Open Archives Initiative Protocol for Metadata Harvesting. Zob. więcej na stronie Libra: http://dlibra.psnc.pl/index.php?
option=com_content&task=view&id=62&Itemid=62&lang=pl