Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kurz webové archivace 2018/2

85 views

Published on

Prezentace pro předmět Kurz webové archivace, vyučovaném v roce 2018.

Published in: Technology
  • Login to see the comments

  • Be the first to like this

Kurz webové archivace 2018/2

  1. 1. Webarchiv Český webový archiv, více AISV143 16. března 2018
  2. 2. “český web”? • bohemikální charakter zdroje (definice v collection policy) • Území – zdroje publikované na území ČR • Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání) • Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání) • Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)
  3. 3. Historie Webarchivu • 2000 - začátek (jako projekt NK ČR, MZK a MU ČR) • 2001 - první archivované webové stránky • 2005 - pravidelné sklízení obsahu • 2007 - vstup do IIPC
  4. 4. Profil archivu • stáří archivu: 3. 9. 2001 • ~ 250 TB • frekvence sklízení: 1x - 1x|2x|6x|12x/year • hloubka sklízení: 5000 - 15 000 objects • přístupnost: in house/online access
  5. 5. • robot.txt nerespektujeme • velké dilema pro webové archivy • rozhodnutí má zásadní dopady na archiv • “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
  6. 6. Designated community • koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS) • definice uživatelů určuje obsah i jeho formu 1. individuální uživatelé 2. institucionální uživatelé 3. výzkumníci a vědci
  7. 7. Zpřístupnění • Wayback Machine (zobrazování) • Vyhledávání: • primárně WWW • katalog Aleph • Wayback Machine
  8. 8. • méně než 1 % zdrojů zpřístupněných online • celý archiv dostupný pouze v Klementinu • Bude to lepší v budoucnu? Ne. • terminály v dalších knihovnách? • metadata
  9. 9. ● spravujeme sbírku webových stránek ● Celoplošná (dostupná z NK Klementinum) ● Tematická (volby, olympiáda, Karel IV., povodně…) ● Výběrová sklizeň (kurátorská práce) Co dělá kurátor webového archivu?
  10. 10. Jak se k nám jednotlivé zdroje dostanou? ● Samotní vydavatelé nebo uživatelé stránek - formulář na webu/e-mail (Seeder) ● ISSN - online časopisy (České národní středisko ISSN) ● Kurátoři (konspekt - http://aleph.nkp.cz/F/?func=file&file_name=konsp-nkc) Výběrová sklizeň
  11. 11. Seeder V jakém prostředí se pohybujeme?
  12. 12. 3 kurátoři - konspekt (odpovědnost) - hodnocení obsahové hledisko ● bohemikální (čj, území, autor, obsahově o ČR nebo Češích) ● volně přístupné ● nekomerční (výjimky - viz Škoda - význam pro ČR) ● unikátní informace ● aktuální a dlouhodobá informační hodnota technické hledisko (viz Zdenko), web 2.0 ● sociální sítě, externí doplňky a aplikace (viz Google maps), flash, vyhledávací pole, rozbalovací nabídky, javascript ● možnost kontroly přes archive.org a testovací sklizně frekvence sklízení Jak probíhá hodnocení zdrojů?
  13. 13. ● před hodnocením - návrh přes ISSN nebo přes formulář ● Archivace zamítnuta - kritéria ● Návrh na přehodnocení - málo obsahu ● Technicky ověřit - možné technické problémy ● Archivace schválena ○ zkontaktovat úspěšně vydavatele (celkem 3 e-mailové oslovení) ○ návrh na CC nebo na smlouvu ○ podpis smlouvy nebo vystavení pod CC Jak se komunikuje s vydavateli?
  14. 14. ● Smlouva nebo CC ● Katalogizace ● Kontrola ● Web ● Wayback ● Aleph Co potom Co uživatelé
  15. 15. rozšiřujeme povědomí o Webarchivu ● píšeme odborné i popularizační články ● chystáme obsah pro web/facebook - novinky/mrtvé weby/nové smlouvy ● jezdíme po konferencích a píšeme příspěvky ● komunikujeme s úřady Co děláme kromě kurátorství
  16. 16. ● Účast na workshopu (23. března/9. nebo 11. dubna v Hostivaři) ● Individuální úkol ● Skupinový úkol Ukončení předmětu
  17. 17. Individuální úkol seminární práce 1 ze světových archivů: https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives cca 1 - 2 stránky termín odevzdání: 4. květen monika.holoubkova@nkp.cz
  18. 18. tým A, B, C, D Podkategorie Konspektu s méně než 5 zdroji: https://webarchiv.cz/cs/katalog-stranek Najít 20 zdrojů (bohemikální charakter, neveřejné zdroje) Quality assurance (technické hledisko) Skupinový úkol
  19. 19. Mgr. Monika Holoubková monika.holoubkova@nkp.cz 20. dubna (Marie Haškovcová) - právnická problematika, Creative Commons, metadatový popis 4. května (Jaroslav Kvasnica) - webové archivy pro badatele

×