Ogólne zasady poszukiwania informacji w internecie
Sposoby dostępu do zasobów Deep Web
Zasoby naukowe w Deep Web
Pozyskiwanie danych, publikacji i treści (w tym naukowych) z Deep Web – przykłady, studia przypadków
Jak skutecznie pozyskiwać informacje w internecie? Wykorzystanie zasobów Deep Web w praktyce
1. Jak skutecznie pozyskiwać
informacje w internecie?
Wykorzystanie zasobów Deep
Web w praktyce
Sabina Cisek
Seminarium Głęboki Internet – informacja naukowa,
biznesowa, infobrokering w Deep Web
Centrum Promocji Informatyki, Warszawa, 2018-03-15
1
2. Zagadnienia
• Ogólne zasady poszukiwania informacji w
internecie
• Sposoby dostępu do zasobów Deep Web
• Zasoby naukowe w Deep Web
• Pozyskiwanie danych, publikacji i treści (w tym
naukowych) z Deep Web – przykłady, studia
przypadków
2
4. Są tu dwa aspekty:
1) rzetelnie podchodzimy do samego procesu i
sposobu wyszukiwania (opieramy się na
przemyślanej strategii wyszukiwawczej – wiemy
gdzie i jak szukamy i dlaczego tak właśnie)
2) korzystamy z wiarygodnych zasobów/źródeł
informacji
4
5. 1. Stosuj racjonalną strategię wyszukiwawczą,
dostosuj ją do konkretnego problemu,
pytania, dziedziny wiedzy. Pamiętaj jednak, że
w dzisiejszym środowisku informacyjnym rolę
odgrywa również przypadkowe pozyskiwanie
informacji.
2. Nie ufaj a priori – oceniaj i wartościuj
narzędzia oraz zasoby. „Idealne” źródło
informacji nie istnieje, zawsze może wkraść się
przypadkowa omyłka, nie mówiąc już o
celowym wprowadzaniu odbiorcy w błąd.
5
6. 3. Nie polegaj wyłącznie na jednym narzędziu,
publikacji, serwisie wyszukiwawczym, źródle
– Co zrobisz, gdy nie będzie działać lub przestanie być
dostępne?
– Nie ma idealnych źródeł, całkowicie obiektywnych
publikacji, totalnych „wszechogarniających”
wyszukiwarek (Google również „nie widzi”
wszystkiego w Sieci).
– Trzeba sprawdzać treści/wiedzę z różnych źródeł – na
tym polega krytyczne, rzetelne podejście.
6
7. – Należy kontrolować element subiektywny, minimalizować
tendencyjność, a to się raczej nie uda, gdy będziemy
posługiwać się jednym, ulubionym narzędziem/serwisem
wyszukiwawczym, źródłem czy zbiorem publikacji
– Istnieje Deep Web/Ukryty Internet
– Indeksy w wielu bazach danych robią ludzie,
wprowadzając element subiektywny
– I wreszcie – jeżeli czegoś nie da się znaleźć w jednym
miejscu, to może będzie w innym
7
8. 4. Formułuj różne pytania w wyszukiwarkach
globalnych i specjalistycznych, także te
precyzyjne – z wykorzystaniem różnych funkcji,
komend, operatorów (operatory boolowskie, -,
+, *, filtrowanie, fraza, filetype, inurl, link, site,
related itd.), trybu zaawansowanego.
5. Przestrzegaj prawa związanego z dostępem i
wykorzystaniem informacji i publikacji.
8
9. 6. Poza tym, co równie istotne, nie tylko
trzeba umieć szukać. Niektóre, ważne
źródła informacji należy po prostu znać
„na pamięć”, wiedzieć, że istnieją, co
zawierają i na ile można im ufać.
9
10. 10
Ad. 4: Dwa aspekty znajdowania informacji w
internecie:
- wyszukiwanie – w trybie prostym lub
zaawansowanym
- praca z wynikami wyszukiwania
Czego możemy szukać online?
- Zasobów – nie tylko stron/serwisów www ale
również dokumentów/plików o różnej postaci.
11. 11
WYSZUKIWANIE W TRYBIE PROSTYM
• operatory boolowskie AND, OR, NOT -
• fraza „..”
• inne komendy i operatory
12. 12
Google Co robi? Przykłady
allintitle,
intitle
Ogranicza wyniki wyszukiwania do stron www,
które zawierają w tytule podane słowa lub frazy
intitle:”zarządzanie
informacją”
allinurl,
inurl
Ogranicza wyniki wyszukiwania do stron www,
które zawierają w adresie URL podane słowa lub
frazy
inurl:”zarządzanie
informacją”
cache
Wyświetla zapisaną (zindeksowaną) przez
Google ostatnią kopię danej strony
cache:www.inib.uj.edu.pl
filetype
Ogranicza wyniki wyszukiwania do plików w
określonym formacie
filetype:pdf
info Pokazuje informacje o danej stronie info:www.inib.uj.edu.pl
link
Zwraca listę stron, które odsyłają (posiadają
odnośniki) do wpisanego adresu URL
link:uj.edu.pl
related
Wyświetla zasoby powiązane tematycznie ze
wskazanym adresem URL
related:www.uj.edu.pl
site
Ogranicza wyniki wyszukiwania do zasobów,
które znajdują się w danej domenie
internetowej
site:inib.uj.edu.pl,
site: gov.pl
* Zastępuje dowolny wyraz „najdroższy * w Polsce”
13. 13
WYSZUKIWANIE W TRYBIE ZAAWANSOWANYM
Formularz wyszukiwania zaawansowanego w Google
- w Ustawieniach (na dole po prawej)
- w menu pod polem do wpisania kwerendy –
„Ustawienia” – pojawia się po wykonaniu
wyszukiwania prostego
w Yahoo - Yahoo advanced
http://search.yahoo.com/web/advanced
14. 14
PRACA Z WYNIKAMI WYSZUKIWANIA
Narzędzia Google – w menu pod polem do wpisania
kwerendy, opcja „Narzędzia” pojawia się po
wykonaniu wyszukiwania prostego.
Inne możliwości pojawiające się po wykonaniu
wyszukiwania prostego.
15. Wyszukiwanie – przykład 1
• Pytanie: Czy polski rząd interesuje się
problemem kompetencji informacyjnych?
• Jak sformułować wyrażenie wyszukiwawcze w
Google (lub innych wyszukiwarkach
uniwersalnych)?
– Wiem, że kompetencje informacyjne zwane są
również kompetencjami cyfrowymi albo
medialnymi
15
17. Wyszukiwanie – przykład 2
• Poszukujesz anglojęzycznego filmu o badaniu
potrzeby informacyjnej za pomocą rezonansu
magnetycznego (fMRI). Film ma być wysokiej
jakości i dłuższy niż 4 minuty.
• Zaczynamy od wyrażenia wyszukiwawczego:
fMRI „information need” – a potem pracujemy
z wynikami wyszukiwania
17
19. Wyszukiwanie – przykłady 3, 4, 5
Przykład 3: Chcę znaleźć dokumenty w formacie pdf
dotyczące Big Data w zarządzaniu informacją.
Przykład 4: Co znajduje się w miejscu o
współrzędnych 50°03'39.1"N 19°55'59.2"E?
Przykład 5: Czym bardziej interesowali się internauci
w ostatnim miesiącu – potrzebami informacyjnymi
(information needs) czy zachowaniami
informacyjnymi (information behavior)?
19
20. PRZYKŁAD 3:
filetype:pdf „big data” „zarządzanie informacją”
PRZYKŁAD 4:
Wykorzystaj Google Maps albo Targeo.pl
https://www.targeo.pl/
PRZYKŁAD 5:
Google Trends
20
23. Co znajduje się w Deep Web? [1]
• Zasoby nieindeksowane przez uniwersalne
wyszukiwarki, zwłaszcza Google – z różnych
powodów, tym technicznych (błędne metadane, czas
działania, nietypowe formaty itp.), ale też związanych
z "polityką" wyszukiwarek lub właścicieli serwisów
www
• Zasoby indeksowane – ale do których nie tak łatwo
dotrzeć, których odnalezienie i wykorzystanie
wymaga rozwiniętej strategii wyszukiwawczej
23
24. Co znajduje się w Deep Web? [2]
• dokumenty w nietypowych formatach, np. skompresowane,
• serwisy WWW zabezpieczone hasłem, np. fora, intranety,
listy dyskusyjne wymagające zalogowania się,
• serwisy WWW, do których nie prowadzą odsyłacze z innych
witryn,
• strony wyłączone z procesu indeksacji przez twórców, takie,
których autorzy „zabronili” robotom indeksowania ich
treści,
• treści generowane dynamicznie, w czasie rzeczywistym, np.
w odpowiedzi na zapytanie użytkownika,
24
25. Co znajduje się w Deep Web? [3]
• zasoby de facto indeksowane przez wyszukiwarki uniwersalne,
ale pojawiające się na odległych miejscach na liście wyników
wyszukiwania (aspekt algorytmów rankingowych) albo takie,
których odnalezienie wymaga zaawansowanej strategii
wyszukiwawczej
• zawartość komercyjnych baz danych, czasopism, wypożyczalni
online itd., wymagających dokonania rejestracji albo
subskrypcji,
• zawartość publicznie dostępnych baz danych, archiwów i
repozytoriów typu Open Access, bibliotek cyfrowych,
katalogów bibliotecznych itp.
• źródła, do których dociera się dzięki "poleceniom" innych
25
26. Co znajduje się w Deep Web? [4]
• Bazy danych, tworzone z reguły przez podmioty rządowe lub
naukowe, w których wyszukiwanie za pomocą ich własnych
interfejsów (a nie interfejsu Google czy innej wyszukiwarki
globalnej) jest o wiele bardziej efektywne i których zawartość
jest uważana za wiarygodną
• Dane – badawcze, statystyczne i inne oraz zbiory takich
danych
• Grafiki, multimedia – a właściwie ich zawartość
• Pełne teksty artykułów i książek
• Zawartość portali społecznościowych
• ……..
26
27. I. Wykorzystaj wyszukiwarki uniwersalne,
np. Bing, DuckDuckGo albo Google [1]
• Sformułuj wyrażenia wyszukiwawcze z użyciem
terminów: „archiwum”, „baza danych”, „portal”
itp., np.:
– „słowo kluczowe” „baza danych” OR „bazy danych”
– „słowo kluczowe” „archiwum” OR „bazy danych”
OR portal
27
30. I. Wykorzystaj wyszukiwarki uniwersalne,
np. Bing, DuckDuckGo albo Google [2]
• Przejrzyj nie tylko pierwszą stronę wyników
wyszukiwania – ale również kolejne
30
Idź głębiej
31. Możesz wypróbować też https://millionshort.com/, żeby
znaleźć rezultaty z „długiego ogona” – spoza
najpopularniejszych serwisów www
31
32. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [1]
• Bibliografie online, dziedzinowe bazy danych,
społecznościowe biblio- i webografie, zbiorcze katalogi
bibliotek, czyli źródła informacji skierowującej, np.
BazEkon https://bazybg.uek.krakow.pl/bazekon/,
BibSonomy http://www.bibsonomy.org/, NUKAT
http://katalog.nukat.edu.pl/
• Katalogi i wykazy linków, np. http://www.zillman.us/
32
34. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [2]
• Przewodniki dziedzinowe (subject gateways), np.
BazTOL
http://baztol.library.put.poznan.pl/baztol_czytelni
k/baztol albo CEOExpress
https://ceoexpress.com/home
34
37. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [3]
• Przewodniki biblioteczne – libguides, np.
http://libguides.exeter.ac.uk/biosciences
• Profesjonalne serwisy tematyczne (wortale),
np. Infor.pl http://www.infor.pl/
37
39. III. Zastanów się kto (instytucja,
ministerstwo, organizacja, uczelnia itp.)
mógłby być dysponentem poszukiwanej
informacji/zasobu
• Serwisy www wyspecjalizowanych instytucji i
organizacji, np. CIOP PIB https://www.ciop.pl/,
Europa http://europa.eu/index_pl.htm
39
41. IV. Wykorzystaj serwisy wyszukiwawcze
dedykowane Deep Web (przykłady)
• BizNar http://biznar.com/biznar/desktop/en/search.html
• Dane Publiczne https://danepubliczne.gov.pl/
• Quandl https://www.quandl.com/
• ScienceResearch.com
http://scienceresearch.com/scienceresearch/
• Serwisy wyszukiwawcze zasobów naukowych – zob.
dalsza część prezentacji
41
42. V. Znajdź zasoby (pliki, strony), które
zniknęły z obecnego Webu
• Internet Archive: Wayback Machine
http://archive.org/web/
42
43. VI. Znajdź zasoby podobne do wcześniej
zidentyfikowanych
• https://www.alexa.com/find-similar-sites
• SimilarSites.com https://www.similarsites.com/
• Google
43
44. VII. Są też wyspecjalizowane firmy i
usługodawcy w zakresie Deep Web
• BrightPlanet http://www.brightplanet.com/
• Deep Web Technologies
http://www.deepwebtech.com/
44
49. Zasoby naukowe – czyli co? Typologia
• Publikacje/teksty naukowe – artykuły,
czasopisma, książki, referaty, sprawozdania z
badań (dla instytucji finansujących)
• „Surowe” dane badawcze
• Inne – blogi, grupy dyskusyjne, prezentacje
dydaktyczne i z konferencji
• Zasoby związane z zarządzaniem nauką
(awanse, granty, prawo, wykazy pracowników
itp.)
49
51. Jak znaleźć publikacje/teksty naukowe? [1]
• Wyszukiwarki naukowe wielodziedzinowe
– Google Scholar https://scholar.google.pl/
– BASE https://www.base-search.net/
– FreeFullPDF http://www.freefullpdf.com
– Microsoft Academic
http://academic.research.microsoft.com/
51
56. Jak znaleźć publikacje/teksty naukowe? [2]
• Specjalistyczne serwisy wyszukiwawcze – bazy tematyczne
i przewodniki dziedzinowe (subject gateways)
– Agro (baza bibliograficzna, są też pełne teksty, nauki przyrodnicze,
rolnicze i pokrewne)
http://agro.icm.edu.pl/agro/browse/articles.action
– BazEkon (baza bibliograficzna, także pełne teksty, cytowania, nauki
ekonomiczne i pokrewne) https://bazybg.uek.krakow.pl/bazekon/
– BazHUM (baza bibliograficzna, nauki humanistyczne i społeczne)
http://bazhum.pl/
– BazTECH (baza bibliograficzno-abstraktowa, cytowania, coraz więcej
pełnych tekstów, nauki techniczne i pokrewne)
https://baztech.icm.edu.pl/index.php/pl/
56
57. Jak znaleźć publikacje/teksty naukowe? [2a]
– BazTOL http://baztol.library.put.poznan.pl/baztol/pl/ba
ztol.html (przewodnik dziedzinowy, nauki techniczne)
– CIBiE WBP w Krakowie Zasoby on-line
http://www.cibie.pl/zasoby-on-line.html (przewodnik
dziedzinowy, biznes, ekonomia)
– Ekonomia on-line (przewodnik dziedzinowy, ekonomia i
dyscypliny pokrewne)
https://bg.uek.krakow.pl/biblioteka/ekonomia/
– Euroforest Portal (przewodnik dziedzinowy, leśnictwo i
dziedziny pokrewne) http://forestportal.efi.int/
57
59. Jak znaleźć publikacje/teksty naukowe? [3]
• Informacja bibliograficzna/skierowująca
• Zob m.in.
http://sabinacisek.blogspot.com/2011/08/wys
zukiwanie-publikacji-naukowych-w.html
59
60. Jak znaleźć publikacje/teksty naukowe? [4]
• Zasoby Open Access
– Złota droga i zielona droga
– Kolekcje – archiwa dziedzinowe, repozytoria
instytucjonalne, (niektóre) biblioteki cyfrowe
– Serwisy wyszukiwawcze dedykowane Open Access
60
Więcej – zob. plik Zasoby naukowe - Open Access
64. Przykład 1
• Chcę znaleźć najważniejsze publikacje (artykuły
i książki) anglojęzyczne dotyczące zachowań
informacyjnych, powstałe w XXI wieku
• Jak w języku angielskim nazywają się zachowania
informacyjne?
– information behavior (amerykański), information
behaviour (brytyjski)
• Jak rozpoznać, które publikacje są najważniejsze?
64
65. 1) Najważniejsze publikacje to te, które są
najczęściej cytowane
• Google Scholar https://scholar.google.pl
• Scopus / Elsevier (baza komercyjna)
• Web of Science / Clarivate Analytics (baza
komercyjna)
65
66. 2) Najważniejsze publikacje to te, które są
polecane przez środowisko naukowe:
– Są umieszczane w społecznościowych
bibliografiach/webografiach naukowych
• Bibsonomy http://www.bibsonomy.org/
• CiteULike http://www.citeulike.org/
– Są często czytane/pobierane w naukowych
portalach społecznościowych
• Academia.edu https://www.academia.edu/
• ResearchGate https://www.researchgate.net/
66
70. Przykład 2
• Potrzebna jest książka naukowa w języku
polskim. Jak i gdzie można znaleźć pełny
tekst online, w wolnym albo
komercyjnym (ale niedrogim) dostępie?
70
71. 71
• Google Scholar https://scholar.google.pl/
• Ale – są polskie teksty naukowe, których nie indeksuje
Google Scholar, robi to natomiast ogólny Google (np.
książka „Informacja w sieci: problemy, metody,
technologie” z 2006 roku)
• BASE https://www.base-search.net
• Google Książki https://books.google.pl/
• DOAB https://www.doabooks.org/ [??]
• Federacja Bibliotek Cyfrowych
https://fbc.pionier.net.pl/
• IBUK.pl https://www.ibuk.pl/
79. Przykład 3
• Czy autor może zamieścić w jakimś archiwum,
repozytorium, bibliotece cyfrowej własny
artykuł opublikowany wcześniej w czasopiśmie
Information Research?
– Polityką czasopism i wydawców w zakresie
Open Access zajmuje się serwis Sherpa/RoMEO
http://www.sherpa.ac.uk/romeo/index.ph
79
83. Przykład 5
• Znajdź dostępne nieodpłatnie prezentacje
przedstawione w ciągu ostatnich 2 lat na
konferencjach naukowych przez dr hab.
Marzenę Świgoń.
83
86. Repozytoria (archiwa) "surowych"
danych badawczych
Są to intencjonalnie stworzone zbiory danych (materiałów),
powstałych w wyniku badań empirycznych w różnych
przedsięwzięciach naukowych lub też zgromadzonych na
potrzeby konkretnych projektów badawczych.
Innymi słowy, termin ten nie określa wszystkich istniejących
kolekcji danych, które ewentualnie mogłyby „przydać się” w
dociekaniach naukowych, lecz tylko te, które obejmują
materiały uzyskane w rezultacie badań, a także zostały
zorganizowane celowo, odpowiednio uporządkowane,
opisane metadanymi i przygotowane do udostępniania.
86
87. Przykłady zbiorów danych (datasets)
• CLUES
• NIH Data Sharing Repositories (medycyna)
• PANGAEA. Data Publisher for Earth
& Environmental Science,
np. https://doi.pangaea.de/10.1594/PANGAEA
.860961
• WALS (World Atlas of Language Structures)
• World Data Centre
87
91. Globalne internetowe serwisy
indeksujące repozytoria i/lub promujące
(otwarty) dostęp do „surowych” danych
badawczych [1]
• re3data.org Registry of Research Data
Repositories http://www.re3data.org/, rejestr
powstały w 2012 roku w Niemczech, indeksuje
ponad 1500 archiwów (repozytoriów) danych
badawczych z całego świata
91
92. Globalne internetowe serwisy ...... [2]
• DataCite http://www.datacite.org/, założona w 2009 roku
międzynarodowa organizacja non-profit, mająca na celu
ułatwienie dostępu do danych badawczych w Internecie
• Data Repositories
http://oad.simmons.edu/oadwiki/Data_repositories
(dotyczy danych otwartych, niekompletny)
• ICSU World Data System http://www.icsu-wds.org/,
istniejące od 2008 roku przedsięwzięcie Międzynarodowej
Rady Nauki (International Council for Science), z dostępem
do zbiorów danych badawczych poprzez Data Portal
http://www.icsu-wds.org/services/data-portal
92
94. Data journals [1]
• Czasopisma publikujące dane badawcze lub
informacje o zbiorach danych badawczych (ze
wskazaniem repozytoriów, w których są
przechowywane)
• Wykazy
– Data Journals Guide http://ands.org.au/guides/data-
journals.html
– Open Data Journals
https://www.fosteropenscience.eu/foster-
taxonomy/open-data-journals
94
95. Data journals – przykłady [2]
• Data in Brief, http://www.journals.elsevier.com/data-in-brief/,
http://www.sciencedirect.com/science/journal/23523409/1
• Geoscience Data Journal
http://onlinelibrary.wiley.com/journal/10.1002/%28ISSN%292049-
6060
• Journal of Open Archaeology Data,
http://openarchaeologydata.metajnl.com/, wykaz polecanych
repozytoriów
http://openarchaeologydata.metajnl.com/about/#repo
• Journal of Open Psychology Data
http://openpsychologydata.metajnl.com/
95
98. Gdzie można zamieścić zbiór własnych
danych badawczych (dataset)?
• FigShare https://figshare.com/
• Repozytorium Otwartych Danych RepOD
CEON https://repod.pon.edu.pl/pl/
• Zenodo https://zenodo.org/
98
102. Więcej na temat Deep Web, poszukiwania
informacji i publikacji naukowych itp. znajdziesz w
blogu Informacja biznesowa, naukowa i
infobrokering https://sabinacisek.blogspot.com/
102