2. Termíny
březen - Workshop technická část webové archivace, Centrální depozitář
Hostivař, Národní knihovna ČR
30. 3. 2017 - Přednáška: Obsahová část webové archivace, Jinonice
6. 4. 2017 - Přednáška: Úvod do problematiky smluv a metadatového
popisu, Jinonice
20. 4. 2017 - Přednáška: Webové archivy pro badatele, Jinonice (2068)
3. Úkoly
• Individuální úkol - tagování semínek
• deadline 20. 4. 2017
• Skupinový úkol - hledání semínek a jejich hodnocení
• vytvoření skupiny a zvolení tématu do konce února
• na workshop přinést seznam semínek
• do 20. 4. 2017 ohodnotit semínka
5. Webová archivace
Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the public.
6. Proč archivovat web?
“Je snazší nalézt exemplář filmu z roku
1924, než webové stránky z roku 1994.”
M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012.
http://nms.sagepub.com/content/14/3/384.full.pdf+html
7. Typy webu
• Surface web - běžně přístupná část webu
• Deep web (invisible, hidden) - dynamický obsah,
kontextuální, privátní, skriptovaný atd.
• Dark web (darknet) - obvykle nelegální obsah, těžko
dosažitelný (P2P)
8. Personální
• pro osobní potřebu
• firemní archivace
• neřeší rozdíly mezi surface x deep
Typy archivace
Institucionální
• za účelem uchování kulturního
dědictví
• knihovny, univerzity
• často web-scale archiving
9. Web scale archiving
• webové archivy se snaží archivovat tak velkou část
internetu, že není možné kontrolovat akvizici, ochranu,
zpřístupnění ani kontrolu kvality jednotlivých webových
stránek pouze lidskými silami.
10. Sklizně a semínka
Sklizně - procesy automatického stahování a sběru dat z
vybraných webových zdrojů (vytváření kopií)
Semínka - jednotlivé URL adresy, které jsou předmětem
archivace, jeden zdroj může mít více semínek (např. při
přesměrování, nebo změně adresy)
Sklízeč - počítačový program, který dokáže automaticky
procházet a stahovat webové stránky. Sklízeče používají
zejména internetové vyhledávače a také webové archivy
11. Limity webové archivace
• legislativa + budget
• web 2.0 (streaming, dynamický a personalizovaný obsah)
• další technické překážky
12. Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
13. Kdo jsou webové archivy
• Internet Archive (archive.org)
• Národní knihovny
• Univerzity, neziskové organizace
14. V Evropě budujeme dark
archivy
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence
16. “český web”?
• bohemikální charakter zdroje (definice v collection policy)
• Území – zdroje publikované na území ČR
• Jazyk – všechny zdroje v češtině (bez ohledu na místo
vydání)
• Autorství – všechny zdroje českých autorů (bez ohledu
na místo vydání)
• Předmět/obsah – všechny zdroje, jejichž obsah se týká
České republiky nebo českého národa
(bez ohledu na místo vydání)
17. Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
22. • robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”
23. Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci
25. • méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v Klementinu
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata
26. w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz