Kurz webové archivace 2017/1

Kurz webové archivace
AISV143

Termíny
březen - Workshop technická část webové archivace, Centrální depozitář
Hostivař, Národní knihovna ČR
30. 3. 2017 - Přednáška: Obsahová část webové archivace, Jinonice
6. 4. 2017 - Přednáška: Úvod do problematiky smluv a metadatového
popisu, Jinonice
20. 4. 2017 - Přednáška: Webové archivy pro badatele, Jinonice (2068)

Úkoly
• Individuální úkol - tagování semínek
• deadline 20. 4. 2017
• Skupinový úkol - hledání semínek a jejich hodnocení
• vytvoření skupiny a zvolení tématu do konce února
• na workshop přinést seznam semínek
• do 20. 4. 2017 ohodnotit semínka

Webová archivace
Web archiving is the process of collecting portions of the
World Wide Web to ensure the information is preserved in
an archive for future researchers, historians, and the public.

Proč archivovat web?
“Je snazší nalézt exemplář ﬁlmu z roku
1924, než webové stránky z roku 1994.”
M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012.  
http://nms.sagepub.com/content/14/3/384.full.pdf+html

Typy webu
• Surface web - běžně přístupná část webu
• Deep web (invisible, hidden) - dynamický obsah,
kontextuální, privátní, skriptovaný atd.
• Dark web (darknet) - obvykle nelegální obsah, těžko
dosažitelný (P2P)

Personální
• pro osobní potřebu
• ﬁremní archivace
• neřeší rozdíly mezi surface x deep
Typy archivace
Institucionální
• za účelem uchování kulturního
dědictví
• knihovny, univerzity
• často web-scale archiving

Web scale archiving
• webové archivy se snaží archivovat tak velkou část
internetu, že není možné kontrolovat akvizici, ochranu,
zpřístupnění ani kontrolu kvality jednotlivých webových
stránek pouze lidskými silami.

Sklizně a semínka
Sklizně - procesy automatického stahování a sběru dat z
vybraných webových zdrojů (vytváření kopií)
Semínka - jednotlivé URL adresy, které jsou předmětem
archivace, jeden zdroj může mít více semínek (např. při
přesměrování, nebo změně adresy)
Sklízeč - počítačový program, který dokáže automaticky
procházet a stahovat webové stránky. Sklízeče používají
zejména internetové vyhledávače a také webové archivy

Limity webové archivace
• legislativa + budget
• web 2.0 (streaming, dynamický a personalizovaný obsah)
• další technické překážky

Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje

Kdo jsou webové archivy
• Internet Archive (archive.org)
• Národní knihovny
• Univerzity, neziskové organizace

V Evropě budujeme dark
archivy
• veřejně nepřístupné archivy
• většinou pouze v místě samé, někdy ani to ne
• autorský zákon, knihovní licence

Webarchiv
Český webový archiv, více

“český web”?
• bohemikální charakter zdroje (deﬁnice v collection policy)
• Území – zdroje publikované na území ČR 
• Jazyk – všechny zdroje v češtině (bez ohledu na místo
vydání)  
• Autorství – všechny zdroje českých autorů (bez ohledu
na místo vydání)  
• Předmět/obsah – všechny zdroje, jejichž obsah se týká
České republiky nebo českého národa  
(bez ohledu na místo vydání)

Historie Webarchivu
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC

Proﬁl archivu
• stáří archivu: 3. 9. 2001
• ~ 250 TB
• frekvence sklízení: 1x - 1x|2x|6x|12x/year
• hloubka sklízení: 5000 - 15 000 objects
• přístupnost: in house/online access

• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme,
jelikož věříme, že historie webu by se měla uchovat v takové podobě,
v jaké ho vidí lidé a ne vyhledávače.”

Designated community
• koncový uživatelé, kteří by měli být schopni porozumět
konkrétní množině informací (OAIS)
• deﬁnice uživatelů určuje obsah i jeho formu
1. individuální uživatelé
2. institucionální uživatelé
3. výzkumníci a vědci

Zpřístupnění
• Wayback Machine (zobrazování)
• Vyhledávání:
• primárně WWW
• katalog Aleph
• Wayback Machine

• méně než 1 % zdrojů zpřístupněných online
• celý archiv dostupný pouze v Klementinu
• Bude to lepší v budoucnu? Ne.
• terminály v dalších knihovnách?
• metadata

w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz

Kurz webové archivace 2017/1

Recommended

Recommended

More Related Content

What's hot

What's hot (11)

Similar to Kurz webové archivace 2017/1

Similar to Kurz webové archivace 2017/1 (20)

More from Webarchive of National Library of the Czech Republic

More from Webarchive of National Library of the Czech Republic (20)

Kurz webové archivace 2017/1