SlideShare a Scribd company logo
1 of 16
Download to read offline
WARC 1.1
je skoro tady - co přinese nová verze?
Mgr. Jaroslav Kvasnica
Web ARChive (WARC)
• evoluce formátu ARC
• standard ISO 28500:2009
• otevřený formát!
Proces vzniku nové verze
• každý standard by měl projít revizí ideálně každých 5 let
• v roce 2014 ISO odhlasovalo revizi standardu
• dvě pracovní skupiny: IIPC & ISO
Změny v nové verzi
1. Rozšíření normy
2. Oprava chyb
3. Odstranění redundantních částí
4. Úpravy stávajícího znění standardu
Nová verze = pouze “minor update”
Rozšíření: deduplikace
• zefektivnění deduplikace + prostorová deduplikace
WARC-Refers-To-Target-URI
V tomto poli je zapsáno URI záznamu, který je deduplikován.
WARC-Refers-To-Date
V tomto poli by měl být zapsán časový údaj deduplikovaného
záznamu.
Obě pole pouze pro hlavičku “revisit”.
Deduplikace
• funkce, která umožňuje, aby se stejný obsah nemusel
opakovaně ukládat
• statický obsah (loga firem, fotogalerie atd.)
• velká úspora místa pro webové archivy
Rozšíření: timestamps
• větší variabilita pro zápis časového údaje:
• 2007-11-02T15:20:44Z
• 2007-11
• 2007-11-02T15:20:44.5Z
• 2007-11-02T15:20:44.23453Z
příklady:
WARC-Target-URI: http://example.com
text standardu:
WARC-Target-URI: <http://example.com>
Oprava: text standardu vs. příklady
Odstranění: definice MIME type
• definice MIME type v ISO standardu bude odstraněna
• nově v registru MIME, který spravuje AINA
• pouze formální změna
• application/warc, application/warc-fields
Odstranění: názvová konvence
• prefix “iipc_” pro členy konsorcia bude odstraněn
• neujalo se v praxi
Úpravy znění
1. vytváření vlastních názvových polí je možné, ale je
doporučené to konzultovat s IIPC
2. standard využívají i jiné instituce než webové archivy
3. zaznamenání https není součástí standardu
Úpravy znění
4. v hlavičce “warcinfo” je nyní možné uvést použitý
algoritmus u kontrolního součtu
WARC-Block-Digest: sha1:AB2CD3EF4GH5IJ6KL7MN8OPQ
WARC-Block-Digest: sha1_Base32:AB2CD3EF4GH5IJ6KL7MN8OPQ
Co bude dál?
Hlasování končí 22. listopadu a hlasují jen zúčastněné země.
V4: jen Maďarsko.
• 100 % ano -> formát vstoupí v platnost
• po redakčních úpravách bude vydána nová verze
standardu
• v případě negativního výsledku:
• další kolo připomínek, další hlasování
• hypotetická možnost úplného zrušení revize
Co to bude znamenat v praxi?
• změny budou reflektovány v základních nástrojích
• již se na tom pracuje -> Heritrix, openWayback
• nutnost opravit vlastní nástroje (?)
• zpětná kompatibilita !
w
w w
w w w
Děkuji za pozornost!
Mgr. Jaroslav Kvasnica
jaroslav.kvasnica@nkp.cz
webarchiv.cz
facebook.com/webarchivcz

More Related Content

Viewers also liked (7)

Ensayo carolina casanova
Ensayo carolina casanovaEnsayo carolina casanova
Ensayo carolina casanova
 
Advent 4 gyertyája
Advent 4 gyertyájaAdvent 4 gyertyája
Advent 4 gyertyája
 
Deontologia10hojas
Deontologia10hojasDeontologia10hojas
Deontologia10hojas
 
Szótar nők férfiak értelmezésében
Szótar nők férfiak értelmezésébenSzótar nők férfiak értelmezésében
Szótar nők férfiak értelmezésében
 
Český webový archiv
Český webový archivČeský webový archiv
Český webový archiv
 
Tematické kolekce jako měřítko kvality webových archivů
Tematické kolekce jako měřítko kvality webových archivůTematické kolekce jako měřítko kvality webových archivů
Tematické kolekce jako měřítko kvality webových archivů
 
El oído
El oídoEl oído
El oído
 

More from Webarchive of National Library of the Czech Republic

More from Webarchive of National Library of the Czech Republic (20)

Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka Inzerat - datovy analytik / datova analyticka
Inzerat - datovy analytik / datova analyticka
 
Inzerát datovy analytik_wa
Inzerát datovy analytik_waInzerát datovy analytik_wa
Inzerát datovy analytik_wa
 
Sys admin wa_rvv
Sys admin wa_rvvSys admin wa_rvv
Sys admin wa_rvv
 
Volné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivuVolné pracovní místo - kurátor/ka webového archivu
Volné pracovní místo - kurátor/ka webového archivu
 
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...Webarchiv - Curatorial approaches, topic collections and cooperation with the...
Webarchiv - Curatorial approaches, topic collections and cooperation with the...
 
Volné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivuVolné místo - analytik českého webového archivu
Volné místo - analytik českého webového archivu
 
Webarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvoláchWebarchiv aneb až po lokty v mrtvolách
Webarchiv aneb až po lokty v mrtvolách
 
Kurz webové archivace 2018/2
Kurz webové archivace 2018/2Kurz webové archivace 2018/2
Kurz webové archivace 2018/2
 
Blok expertu
Blok expertuBlok expertu
Blok expertu
 
Kurz webové archivace 2018/1
Kurz webové archivace 2018/1Kurz webové archivace 2018/1
Kurz webové archivace 2018/1
 
Webarchiv
WebarchivWebarchiv
Webarchiv
 
Datovy analytik
Datovy analytikDatovy analytik
Datovy analytik
 
Webarchiv CZ 2017
Webarchiv CZ 2017Webarchiv CZ 2017
Webarchiv CZ 2017
 
Kurz webové archivace 2017/4
Kurz webové archivace 2017/4Kurz webové archivace 2017/4
Kurz webové archivace 2017/4
 
Kurz webové archivace 2017/3
Kurz webové archivace 2017/3Kurz webové archivace 2017/3
Kurz webové archivace 2017/3
 
Kurz webové archivace 2017/2
Kurz webové archivace 2017/2Kurz webové archivace 2017/2
Kurz webové archivace 2017/2
 
Kurz webové archivace 2017/1
Kurz webové archivace 2017/1Kurz webové archivace 2017/1
Kurz webové archivace 2017/1
 
Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.Mezi snem a realitou. Otevřená data českého webového archivu.
Mezi snem a realitou. Otevřená data českého webového archivu.
 
Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.Webarchiv jako digitální knihovna II.
Webarchiv jako digitální knihovna II.
 
Webarchiv jako digitální knihovna
Webarchiv jako digitální knihovnaWebarchiv jako digitální knihovna
Webarchiv jako digitální knihovna
 

WARC 1.1 je skoro tady - co přinese nová verze?

  • 1. WARC 1.1 je skoro tady - co přinese nová verze? Mgr. Jaroslav Kvasnica
  • 2. Web ARChive (WARC) • evoluce formátu ARC • standard ISO 28500:2009 • otevřený formát!
  • 3. Proces vzniku nové verze • každý standard by měl projít revizí ideálně každých 5 let • v roce 2014 ISO odhlasovalo revizi standardu • dvě pracovní skupiny: IIPC & ISO
  • 4. Změny v nové verzi 1. Rozšíření normy 2. Oprava chyb 3. Odstranění redundantních částí 4. Úpravy stávajícího znění standardu Nová verze = pouze “minor update”
  • 5. Rozšíření: deduplikace • zefektivnění deduplikace + prostorová deduplikace WARC-Refers-To-Target-URI V tomto poli je zapsáno URI záznamu, který je deduplikován. WARC-Refers-To-Date V tomto poli by měl být zapsán časový údaj deduplikovaného záznamu. Obě pole pouze pro hlavičku “revisit”.
  • 6. Deduplikace • funkce, která umožňuje, aby se stejný obsah nemusel opakovaně ukládat • statický obsah (loga firem, fotogalerie atd.) • velká úspora místa pro webové archivy
  • 7. Rozšíření: timestamps • větší variabilita pro zápis časového údaje: • 2007-11-02T15:20:44Z • 2007-11 • 2007-11-02T15:20:44.5Z • 2007-11-02T15:20:44.23453Z
  • 8. příklady: WARC-Target-URI: http://example.com text standardu: WARC-Target-URI: <http://example.com> Oprava: text standardu vs. příklady
  • 9. Odstranění: definice MIME type • definice MIME type v ISO standardu bude odstraněna • nově v registru MIME, který spravuje AINA • pouze formální změna • application/warc, application/warc-fields
  • 10. Odstranění: názvová konvence • prefix “iipc_” pro členy konsorcia bude odstraněn • neujalo se v praxi
  • 11. Úpravy znění 1. vytváření vlastních názvových polí je možné, ale je doporučené to konzultovat s IIPC 2. standard využívají i jiné instituce než webové archivy 3. zaznamenání https není součástí standardu
  • 12. Úpravy znění 4. v hlavičce “warcinfo” je nyní možné uvést použitý algoritmus u kontrolního součtu WARC-Block-Digest: sha1:AB2CD3EF4GH5IJ6KL7MN8OPQ WARC-Block-Digest: sha1_Base32:AB2CD3EF4GH5IJ6KL7MN8OPQ
  • 13. Co bude dál? Hlasování končí 22. listopadu a hlasují jen zúčastněné země. V4: jen Maďarsko.
  • 14. • 100 % ano -> formát vstoupí v platnost • po redakčních úpravách bude vydána nová verze standardu • v případě negativního výsledku: • další kolo připomínek, další hlasování • hypotetická možnost úplného zrušení revize
  • 15. Co to bude znamenat v praxi? • změny budou reflektovány v základních nástrojích • již se na tom pracuje -> Heritrix, openWayback • nutnost opravit vlastní nástroje (?) • zpětná kompatibilita !
  • 16. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz webarchiv.cz facebook.com/webarchivcz