SlideShare a Scribd company logo
1 of 29
Download to read offline
Webarchiv
Památník českého internetu, více
Proč archivujeme web?

Jak ho archivujeme?

Co v archivu máme?
Co nás trápí?
Co plánujeme?
Rudolf.Kreibich@nkp.cz
technická realizace archivace webu
Proč archivujeme web?
“… více jak 70% URL v Harvard Law
Review a 50% URL v nálezích nejvyššího
soudu Spojených států amerických,
neodkazuje k původnímu webovému zdroji. “
Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Jonathan Zittrain,
Kendra Albert a Lawrence Lessig. Legal Information Management / Volume 14 / Issue 02 / June 2014, pp 88-99,
DOI: http://dx.doi.org/10.1017/S1472669614000255, Published online: 12 June 2014
404 Not Found
The 404 (Not Found) status code indicates that the origin server did
not find a current representation for the target resource or is not
willing to disclose that one exists. A 404 status code does not
indicate whether this lack of representation is temporary or
permanent; the 410 (Gone) status code is preferred over 404 if the
origin server knows, presumably through some configurable means, that
the condition is likely to be permanent.
A 404 response is cacheable by default; i.e., unless otherwise
indicated by the method definition or explicit cache controls (see
Section 4.2.2 of [RFC7234]).
✝
url urn
Bude možné studovat naše století bez
webových archivů?
miluj výzkumníka svého
Jak archivujeme web?
Heritrix / OpenWayback
sklízení / zpřístupnění
Otevřený software
Mezinárodní komunita
Měsíční výběrové sklizně
Občasné tématické sklizně
Roční sklizně domény cz
Co máme v archivu?
~ 228 TB
~ 6 miliard digitálních objektů / URL
~1,2 milónu domén druhého řádu
Co nás trápí?
méně než 1 % je volně přístupné
=
~ 4000 webů z 1,2 miliónu webů
JavaScript
228 TB při čtení 80 MB/s = 32 dní
Co plánujeme?
metadata
Oddělení archivace webu | ODIF | Národní knihovna ČR
Vedoucí: Jaroslav Kvasnica
Zástupce: Barbora Rudišínová
Technické zajíštění: Rudolf.Kreibich@nkp.cz
Kurátoři: Markéta Hrdličková, Pavla Kupcová
webarchiv.cz
facebook.com/webarchivcr
slideshare.net/webarchivCZ
github.com/webarchivcz

More Related Content

More from Webarchive of National Library of the Czech Republic

More from Webarchive of National Library of the Czech Republic (20)

Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Kurz webové archivace 2018/2
Kurz webové archivace 2018/2Kurz webové archivace 2018/2
Kurz webové archivace 2018/2
 
Blok expertu
Blok expertuBlok expertu
Blok expertu
 
Kurz webové archivace 2018/1
Kurz webové archivace 2018/1Kurz webové archivace 2018/1
Kurz webové archivace 2018/1
 
Webarchiv
WebarchivWebarchiv
Webarchiv
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
Kurz webové archivace 2017/1
Kurz webové archivace 2017/1Kurz webové archivace 2017/1
Kurz webové archivace 2017/1
 
WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?WARC 1.1 je skoro tady - co přinese nová verze?
WARC 1.1 je skoro tady - co přinese nová verze?
 
WARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verzeWARC 1.1 je skoro tady - co přinese nová verze
WARC 1.1 je skoro tady - co přinese nová verze
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Kurz webové archivace III.
Kurz webové archivace III.Kurz webové archivace III.
Kurz webové archivace III.
 

Webarchiv jako digitální knihovna II.

  • 2. Proč archivujeme web?
 Jak ho archivujeme?
 Co v archivu máme? Co nás trápí? Co plánujeme? Rudolf.Kreibich@nkp.cz technická realizace archivace webu
  • 4.
  • 5. “… více jak 70% URL v Harvard Law Review a 50% URL v nálezích nejvyššího soudu Spojených států amerických, neodkazuje k původnímu webovému zdroji. “ Perma: Scoping and Addressing the Problem of Link and Reference Rot in Legal Citations. Jonathan Zittrain, Kendra Albert a Lawrence Lessig. Legal Information Management / Volume 14 / Issue 02 / June 2014, pp 88-99, DOI: http://dx.doi.org/10.1017/S1472669614000255, Published online: 12 June 2014
  • 6.
  • 7. 404 Not Found The 404 (Not Found) status code indicates that the origin server did not find a current representation for the target resource or is not willing to disclose that one exists. A 404 status code does not indicate whether this lack of representation is temporary or permanent; the 410 (Gone) status code is preferred over 404 if the origin server knows, presumably through some configurable means, that the condition is likely to be permanent. A 404 response is cacheable by default; i.e., unless otherwise indicated by the method definition or explicit cache controls (see Section 4.2.2 of [RFC7234]).
  • 9. Bude možné studovat naše století bez webových archivů?
  • 11.
  • 13. Heritrix / OpenWayback sklízení / zpřístupnění Otevřený software Mezinárodní komunita
  • 14. Měsíční výběrové sklizně Občasné tématické sklizně Roční sklizně domény cz
  • 15.
  • 16. Co máme v archivu?
  • 17. ~ 228 TB ~ 6 miliard digitálních objektů / URL ~1,2 milónu domén druhého řádu
  • 18.
  • 20. méně než 1 % je volně přístupné = ~ 4000 webů z 1,2 miliónu webů
  • 22.
  • 23. 228 TB při čtení 80 MB/s = 32 dní
  • 26.
  • 27.
  • 28.
  • 29. Oddělení archivace webu | ODIF | Národní knihovna ČR Vedoucí: Jaroslav Kvasnica Zástupce: Barbora Rudišínová Technické zajíštění: Rudolf.Kreibich@nkp.cz Kurátoři: Markéta Hrdličková, Pavla Kupcová webarchiv.cz facebook.com/webarchivcr slideshare.net/webarchivCZ github.com/webarchivcz