(2) Von der Hofbibliothek zum digitalen Medienzentrum

792 views
738 views

Published on

Web@rchiv Österreich

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
792
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

(2) Von der Hofbibliothek zum digitalen Medienzentrum

  1. 1. Web@rchiv Österreich Webarchivierung an der Österreichischen Nationalbibliothek Mag. Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
  2. 2. Eine kleine Zeitreise (1) BKA Dezember 2010 Quelle: http://www.austria.gv.at/
  3. 3. Eine kleine Zeitreise (2) BKA Februar 2007 Quelle: www.archive.org
  4. 4. Eine kleine Zeitreise (3) BKA Jänner 2001 Quelle: www.archive.org
  5. 5. Eine kleine Zeitreise (4) BKA Juli 1997 Quelle: www.archive.org
  6. 6. Webarchive international <ul><li>Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation </li></ul><ul><ul><li>Derzeit > 4,5 Petabytes Daten </li></ul></ul><ul><ul><li>Zuwachs von 20 Terabytes/Monat </li></ul></ul><ul><ul><li>150 Milliarden Seiten </li></ul></ul><ul><ul><li>Archiv öffentlich </li></ul></ul>
  7. 7. Ergebnisse www.vmoe.at Quelle: www.archive.org
  8. 8. www.vmoe.at, 28.11.2001 Quelle: www.archive.org
  9. 9. Umfeld <ul><li>Massenmedium, nationales Kulturgut </li></ul><ul><li>Sammelauftrag Österreichische Nationalbibliothek: Mediengesetz (Novelle seit März 2009 in Kraft) </li></ul><ul><li>Herausforderungen: </li></ul><ul><ul><li>Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress) </li></ul></ul><ul><ul><li>Deep Web </li></ul></ul><ul><ul><li>Neue Technologien </li></ul></ul><ul><ul><li>Viren etc. </li></ul></ul><ul><ul><li>Langzeitarchivierung : Migration, Emulation? </li></ul></ul>
  10. 10. Datenmengen global <ul><li>„ The current size of the world’s digital content is equivalent to all the information that could be stored on 75bn Apple iPads , or the amount that would be generated by everyone in the world posting messages on the microblogging site Twitter constantly for a century ….“ </li></ul><ul><li>2007: 161.000 PB 2009: 800.000 PB 2010: 1,2 ZB </li></ul><ul><li>1 Zettabyte = 1 Mrd. Terabytes oder </li></ul>1,000,000,000,000,000,000,000 Bytes Quelle: http://www.telegraph.co.uk/technology/news/7675214/Digital-universe-to-smash-zettabyte-barrier-for-first-time.html, IDC Survey, Mai 2010
  11. 11. Web@rchiv Österreich <ul><li>Webarchivierungsprojekt Start 2008 </li></ul><ul><li>Mediengesetznovelle März 2009 </li></ul><ul><li>Team: 2 VZÄ, Abt. Digitale Bibliothek: </li></ul><ul><ul><li>Projektmanager </li></ul></ul><ul><ul><li>Entwickler / Crawl Engineer </li></ul></ul><ul><ul><li>System Administrator </li></ul></ul><ul><li>Speicher und Back-Up ausgelagert an Bundesrechenzentrum (+ Kopie ZAS St. Johann) </li></ul>Grafik: Kurier, http://kurier.at/techno/2004890.php
  12. 12. Sammlungsstrategien (1) <ul><li>Domain Harvesting </li></ul><ul><ul><li>Gesamte Top-Level-Domain .at (Stand Dez. 2010: ca. 985.000 Domains, Quelle: nic.at) </li></ul></ul><ul><ul><li>andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand) </li></ul></ul><ul><ul><li>Durchführung alle 2 Jahre , nächstes Domain Harvesting 2011 </li></ul></ul>
  13. 13. Domain Crawl 2009/2010 <ul><li>Ca. 900.000 Domains </li></ul><ul><li>Physischer Speicher: ca. 6 TB (original ca. 8,5 TB, komprimiert und dedupliziert) </li></ul><ul><li>Ca. 386 Mio. Objekte </li></ul><ul><li>Erkenntnisse zu .at Webseiten : </li></ul><ul><ul><li>14% (115.000) sind > 10 MB </li></ul></ul><ul><ul><li>71% (580.000) sind < 1 MB </li></ul></ul><ul><ul><li>10% (90.000) enthalten 0 Objekte </li></ul></ul><ul><ul><li>53% (470.000) enthalten < 10 Objekte </li></ul></ul>
  14. 14. Sammlungsstrategien (2) <ul><li>Selektives Harvesting </li></ul><ul><ul><li>Ausgewählte Seiten, die häufigen Änderungen unterliegen </li></ul></ul><ul><ul><li>Harvesting in geeigneten Intervallen </li></ul></ul><ul><ul><li>Inhalte: </li></ul></ul><ul><ul><ul><li>Medien national und regional, </li></ul></ul></ul><ul><ul><ul><li>Verwaltung/Behörden, </li></ul></ul></ul><ul><ul><ul><li>Wissenschaft/Universitäten </li></ul></ul></ul><ul><ul><ul><li>Gesellschaft, Wirtschaft, Kultur etc. </li></ul></ul></ul><ul><ul><li>Neue Kollektionen 2011: </li></ul></ul><ul><ul><ul><li>„ Medien“ </li></ul></ul></ul><ul><ul><ul><li>„ Österreichische Autoren&quot; </li></ul></ul></ul>
  15. 15. Sammlungsstrategien (3) <ul><li>Event Harvesting </li></ul><ul><ul><li>Spezielle Anlässe und Großereignisse (z.B. Wahlen) </li></ul></ul><ul><ul><li>Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen </li></ul></ul><ul><ul><li>Bisherige Event Harvestings: </li></ul></ul><ul><ul><ul><li>(EURO TM 2008) </li></ul></ul></ul><ul><ul><ul><li>(Nationalratswahl 2008) </li></ul></ul></ul><ul><ul><ul><li>EU-Wahl 2009 </li></ul></ul></ul><ul><ul><ul><li>Olympische Spiele 2010 </li></ul></ul></ul><ul><ul><ul><li>Bundespräsidentenwahl 2010 </li></ul></ul></ul><ul><ul><ul><li>ORF.Futurezone 2010 </li></ul></ul></ul>
  16. 16. Beispiel Event ARCHIV LIVE WEB
  17. 17. Statistik gesamt <ul><li>Aktuell ca. 6,6 TB Daten (komprimiert und dedupliziert) </li></ul><ul><li>Entspricht ca. 9,4 TB Rohdaten </li></ul><ul><li>350 GB Metadaten </li></ul><ul><li>455 Mio. Objekte </li></ul>
  18. 18. Zugang <ul><li>Nur am Standort der Bibliotheken, nicht online (spezielle Terminals) </li></ul><ul><li>Nur Ausdruck, kein Speichern oder Versenden </li></ul><ul><li>Passwortgeschützte Seiten nur Einzeluser </li></ul><ul><li>Berechtigte Bibliotheken </li></ul><ul><ul><li>Bundeskanzleramt, Parlament </li></ul></ul><ul><ul><li>Österreichisches Staatsarchiv </li></ul></ul><ul><ul><li>Universitäts-, Studien- und Landesbibliotheken </li></ul></ul>
  19. 23. Demo
  20. 24. Weitere Infos: http:// www.onb.ac.at / about / webarchivierung.htm Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive Vielen Dank für die Aufmerksamkeit!

×