Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Webarchiv

45 views

Published on

Úvodní prezentace o českém webovém archivu

Published in: Internet
  • Login to see the comments

  • Be the first to like this

Webarchiv

  1. 1. Webarchiv Český webový archiv, více
  2. 2. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  3. 3. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 350 TB • narůst: 30 - 50 TB / rok • hloubka sklízení: 5000 - 15 000 objektů/doména
  4. 4. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  5. 5. Celoplošné sklízení Všechny webové stránky zveřejněné na .cz doméně • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • smlouva s CZ.NIC • dvakrát za rok sklizeň celé .cz domény • menší hloubka, časově a objemově náročné
  6. 6. Výběrové sklízení Výběrová sklizeň pokrývá pouze vybrané zdroje, ale na rozdíl od celoplošných sklizní je kladen důraz na zachycení zdroje a jeho změn v celém rozsahu. • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události • katalogizace zdrojů se souhlasem
  7. 7. Tematické kolekce Tematické kolekce jsou sbírky archivovaných zdrojů vztahující se k určitému tématu nebo události. • Mohou být vytvářeny za účelem: • zachycení událostí, které mají širší ohlas v prostředí internetu • archivace konkrétního tématu, oboru nebo významné historické události • Něco mezi celoplošnou a výběrovou sklizní 

  8. 8. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  9. 9. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na profil archivu • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  10. 10. Legislativa • “povinný výtisk” - zatím neexistuje pro webové zdroje • Autorský zákon - můžeme vytvářet kopie pro archivní účely na základě knihovní licence (ne zpřístupňovat) • online přístup - na základě smluv s vydavateli nebo Creative Commons licence
  11. 11. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v NK ČR • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  12. 12. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  13. 13. Badatelé • badatelé nevědí co chtějí • většinou chtějí přístup ke všemu • většinou nepotřebují přístup ke všemu badatelé nepotřebují velké datasety, ale flexibilní delivery service
  14. 14. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz www.webarchiv.cz facebook.com/webarchivcz

×