Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kurz webové archivace 2018/1

45 views

Published on

Prezentace pro předmět Kurz webové archivace, vyučovaném na UISK v roce 2018.

Published in: Technology
  • Login to see the comments

  • Be the first to like this

Kurz webové archivace 2018/1

  1. 1. Kurz webové archivace AISV143
  2. 2. Webová archivace “Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in an archive for future researchers, historians, and the public.”
  3. 3. Typy webu • Surface web - běžně přístupná část webu • Deep web (invisible, hidden) - dynamický obsah, kontextuální, privátní, skriptovaný atd. • Dark web (darknet) - obvykle nelegální obsah, těžko dosažitelný (P2P)
  4. 4. Proč archivovat web? “Je snazší nalézt exemplář filmu z roku 1924, než webové stránky z roku 1994.” M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012. 
 http://nms.sagepub.com/content/14/3/384.full.pdf+html
  5. 5. Co stojí za to archivovat? • V dnešní době můžeme jen hádat. • Lidstvo nikdy nedokáže kategorizovat všechna data na světě.
  6. 6. Co stojí za to archivovat? “more is more, less is less” vs. “hoarding is not a strategy”
  7. 7. Personální • pro osobní potřebu • firemní archivace • neřeší rozdíly mezi surface x deep Typy archivace Institucionální • za účelem uchování kulturního dědictví • knihovny, univerzity • často web-scale archiving
  8. 8. Web scale archiving Webové archivy se snaží archivovat tak velkou část internetu, že není možné kontrolovat akvizici, ochranu, zpřístupnění ani kontrolu kvality jednotlivých webových stránek pouze lidskými silami.
  9. 9. Limity webové archivace • legislativa + budget • web 2.0 (streaming, dynamický a personalizovaný obsah) • další technické překážky
  10. 10. Technické překážky • Flash, Ajax, JavaScript … • technických překážek je mnoho, řešení? • univerzální řešení neexistuje
  11. 11. Kdo jsou webové archivy • Internet Archive (archive.org) • Národní knihovny • Univerzity, neziskové organizace
  12. 12. V Evropě budujeme dark archivy • veřejně nepřístupné archivy • většinou pouze v místě samé, někdy ani to ne • autorský zákon, knihovní licence
  13. 13. Sklizně a semínka Sklizně - procesy automatického stahování a sběru dat z vybraných webových zdrojů (vytváření kopií) Semínka - jednotlivé URL adresy, které jsou předmětem archivace, jeden zdroj může mít více semínek (např. při přesměrování, nebo změně adresy) Sklízeč - počítačový program, který dokáže automaticky procházet a stahovat webové stránky. Sklízeče používají zejména internetové vyhledávače a také webové archivy
  14. 14. Technologie
  15. 15. Základní typologie akvizice celoplošné sklízení kvantita > kvalita výběrové sklízení kvalita > kvantita
  16. 16. Celoplošné sklízení 1. všechno, celý web (Internet Archive) 2. předem definovaná část webu (národní web, TLD) • Semínka nevybírají kurátoři • Důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně automatizovaně • nutnost definovat výsek, který chceme sklízet (všichni nemůžou být IA)
  17. 17. Výběrové sklízení • Semínka připravují kurátoři • Důraz na kvalitu: obsahovou, technickou (QA) • na základě tématu, události
  18. 18. IIPC collaborative collection Europan Refugee Crisis, World War I. https://archive-it.org/home/IIPC
  19. 19. Instantní archivace • news, social media • technicky náročné (výpočetní výkon, nárok na kurátory) • RSS • často je aplikovaná při zvláštních událostech
  20. 20. Instantní archivace - příklady “(…) a Ukrainian separatist leader also known as Strelkov, or someone acting on his behalf, posted a message on VKontakte, a Russian social-media site: “We just downed a plane, an AN-26.” (An Antonov 26 is a Soviet-built military cargo plane.) The post includes links to video of the wreckage of a plane; it appears to be a Boeing 777. (…)” http://www.newyorker.com/magazine/2015/01/26/cobweb
  21. 21. Social media • všichni chtějí, ale nikdo to pořádně neumí = problém • individuální nastavení pro každou službu • technicky náročné • podobná situace i pro digitální knihovny, databáze atd.
  22. 22. w w w w w w Děkuji za pozornost! Mgr. Jaroslav Kvasnica jaroslav.kvasnica@nkp.cz

×