1. WARC 1.1
je skoro tady - co přinese nová verze?
Mgr. Jaroslav Kvasnica
2. Web ARChive (WARC)
• evoluce formátu ARC
• standard ISO 28500:2009
• otevřený formát!
3. Proces vzniku nové verze
• každý standard by měl projít revizí ideálně každých 5 let
• v roce 2014 ISO odhlasovalo revizi standardu
• dvě pracovní skupiny: IIPC & ISO
4. Změny v nové verzi
1. Rozšíření normy
2. Oprava chyb
3. Odstranění redundantních částí
4. Úpravy stávajícího znění standardu
Nová verze = pouze “minor update”
5. Rozšíření: deduplikace
• zefektivnění deduplikace + prostorová deduplikace
WARC-Refers-To-Target-URI
V tomto poli je zapsáno URI záznamu, který je deduplikován.
WARC-Refers-To-Date
V tomto poli by měl být zapsán časový údaj deduplikovaného
záznamu.
Obě pole pouze pro hlavičku “revisit”.
6. Deduplikace
• funkce, která umožňuje, aby se stejný obsah nemusel
opakovaně ukládat
• statický obsah (loga firem, fotogalerie atd.)
• velká úspora místa pro webové archivy
7. Rozšíření: timestamps
• větší variabilita pro zápis časového údaje:
• 2007-11-02T15:20:44Z
• 2007-11
• 2007-11-02T15:20:44.5Z
• 2007-11-02T15:20:44.23453Z
9. Odstranění: definice MIME type
• definice MIME type v ISO standardu bude odstraněna
• nově v registru MIME, který spravuje AINA
• pouze formální změna
• application/warc, application/warc-fields
11. Úpravy znění
1. vytváření vlastních názvových polí je možné, ale je
doporučené to konzultovat s IIPC
2. standard využívají i jiné instituce než webové archivy
3. zaznamenání https není součástí standardu
12. Úpravy znění
4. v hlavičce “warcinfo” je nyní možné uvést použitý
algoritmus u kontrolního součtu
WARC-Block-Digest: sha1:AB2CD3EF4GH5IJ6KL7MN8OPQ
WARC-Block-Digest: sha1_Base32:AB2CD3EF4GH5IJ6KL7MN8OPQ
13. Co bude dál?
Hlasování končí 22. listopadu a hlasují jen zúčastněné země.
V4: jen Maďarsko.
14. • 100 % ano -> formát vstoupí v platnost
• po redakčních úpravách bude vydána nová verze
standardu
• v případě negativního výsledku:
• další kolo připomínek, další hlasování
• hypotetická možnost úplného zrušení revize
15. Co to bude znamenat v praxi?
• změny budou reflektovány v základních nástrojích
• již se na tom pracuje -> Heritrix, openWayback
• nutnost opravit vlastní nástroje (?)
• zpětná kompatibilita !
16. w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz
webarchiv.cz
facebook.com/webarchivcz