• Save
Österreich liest Vortrag zum Web@rchiv Österreich
Upcoming SlideShare
Loading in...5
×
 

Österreich liest Vortrag zum Web@rchiv Österreich

on

  • 1,229 views

Webarchivierung an der Österreichischen Nationalbibliothek

Webarchivierung an der Österreichischen Nationalbibliothek

Statistics

Views

Total Views
1,229
Views on SlideShare
1,220
Embed Views
9

Actions

Likes
0
Downloads
0
Comments
0

1 Embed 9

http://www.univie.ac.at 9

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Österreich liest Vortrag zum Web@rchiv Österreich Österreich liest Vortrag zum Web@rchiv Österreich Presentation Transcript

    • Web@rchiv Österreich Webarchivierung an der Österreichischen Nationalbibliothek Michaela Mayr Österreichische Nationalbibliothek [email_address] www.onb.ac.at
    • Umfeld
      • Massenmedium, nationales Kulturgut
      • Sammelauftrag Österreichische Nationalbibliothek: Mediengesetz (Novelle seit März 2009 in Kraft)
      • Herausforderungen:
        • Kurze Lebenszeit von Internet-Seiten: durchschnittlich 44-75 Tage (Quelle: Library of Congress)
        • Deep Web
        • Neue Technologien
        • Viren etc.
        • Langzeitarchivierung : Migration, Emulation?
    • Webarchive international (1)
      • Internet Archive www.archive.org USA, seit 1996 Non-Profit Organisation
        • Derzeit > 4,5 Petabytes Daten
        • Zuwachs von 20 Terabytes/Monat
        • 150 Milliarden Seiten
        • Archiv öffentlich
    • Web@rchiv Österreich (1)
      • Webarchivierungsprojekt Start 2008
      • Mediengesetznovelle März 2009
      • Team: 2 VZÄ, Abt. Digitale Bibliothek:
        • Projektmanager
        • Entwickler / Crawl Engineer
        • System Administrator
      • Speicher und Back-Up ausgelagert an Bundesrechenzentrum (+ Kopie ZAS St. Johann)
      Grafik: Kurier, http://kurier.at/techno/2004890.php
    • Web@rchiv Österreich (2)
      • Software (nur open source)
        • Crawler Heritrix
        • Crawl Management mit NetarchiveSuite (http://netarchive.dk, Kooperation mit Dänemark, Frankreich)
        • Zugang mit Wayback Machine
      • Hardware
        • 8 Maschinen: 6 Crawler (mit je 3 Crawlerinstanzen) 1 für Datentransfer BRZ 1 DB und Indexierung
        • Betriebssystem Linux
    • Web@rchiv Österreich (3) Zugang
      • Nur am Standort der Bibliotheken, nicht online (spezielle Terminals)
      • Nur Ausdruck, kein Speichern oder Versenden
      • Passwortgeschützte Seiten nur Einzeluser
      • Berechtigte Bibliotheken
        • Bundeskanzleramt, Parlament
        • Österreichisches Staatsarchiv
        • Universitäts-, Studien- und Landesbibliotheken
    • Sammlungsstrategien (1)
      • Domain Harvesting
        • Gesamte Top-Level-Domain .at (Stand Okt. 2010: ca. 970.000 Domains, Quelle: nic.at)
        • andere Top-Level-Domains mit Österreich-Bezug (keine Definition im Gesetz, manueller Aufwand)
        • Durchführung alle 2 Jahre , nächstes Domain Harvesting 2011
    • Entwicklung .at Domain Quelle: nic.at
    • Domain Crawl 2009/2010
      • Dauer: September 2009 - Juli 2010
      • Ca. 900.000 Domains
      • 1. Durchlauf max. 10 MB/Domain
      • 2. Durchlauf max. 100 MB/Domain
      • Physischer Speicher: ca. 6 TB (komprimiert und dedupliziert, original ca. 8,5 TB)
      • Ca. 386 Mio. Objekte (Komponenten der Webseiten)
      • Erkenntnisse zu .at Webseiten:
        • 14% (115.000) sind > 10 MB
        • 71% (580.000) sind < 1 MB
        • 10% (90.000) enthalten 0 Objekte
        • 53% (470.000) enthalten < 10 Objekte
    • Sammlungsstrategien (2)
      • Selektives Harvesting
        • Ausgewählte Seiten, die häufigen Änderungen unterliegen
        • Harvesting in geeigneten Intervallen
        • Inhalte:
          • Medien national und regional,
          • dynamische Seiten aus den Bereichen Gesellschaft, Wirtschaft, Kultur, Verwaltung/Behörden,
          • Wissenschaft/Universitäten
        • Herbst 2010 Kollektion „Medien“
        • 2011: „Österreichische Autoren&quot;
    • Sammlungsstrategien (3)
      • Event Harvesting
        • Spezielle Anlässe und Großereignisse (z.B. Wahlen)
        • Webseiten, die nur für den Zeitraum des Ereignisses zur Verfügung stehen
        • Bisherige Event Harvestings:
          • (EURO TM 2008)
          • (Nationalratswahl 2008)
          • EU-Wahl 2009
          • Olympische Spiele 2010
          • Bundespräsidentenwahl 2010
    • Sammlungsstrategien (4) Zeit Abdeckung Domain Harvesting Selektives Harvesting Event Harvesting Vgl. Bjarne Andersen, http://netarchive.dk/publikationer/DFrevy_english.pdf
    • Web@rchiv Österreich Statistik
      • Aktuell ca. 6,2 TB Daten (komprimiert und dedupliziert)
      • Entspricht ca. 9,3 TB Rohdaten
      • 350 GB Metadaten
      • 420 Mio. Objekte
    •  
    •  
    •  
    •  
    •  
    • Web@rchiv Österreich Beispiele ARCHIV LIVE WEB
    • Weitere Infos: http:// www.onb.ac.at / about / webarchivierung.htm Social Media: http:// twitter.com / AT_Webarchive http:// www.facebook.com / ATWebarchive http:// www.slideshare.net / ATWebarchive http:// screenr.com / user / AT_Webarchive Vielen Dank für die Aufmerksamkeit!