• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Ist der Besuch eines Harvesters (schon) eine E-Ausleihe?
 

Ist der Besuch eines Harvesters (schon) eine E-Ausleihe?

on

  • 21 views

Wie geht man mit Skript-Zugriffen in der Nutzungsstatistik von Dokumentenservern um?

Wie geht man mit Skript-Zugriffen in der Nutzungsstatistik von Dokumentenservern um?
Vortrag von Isabelle Meinecke und Jens Wonke-Stehle auf dem 103. Bibliothekartag in Bremen

Statistics

Views

Total Views
21
Views on SlideShare
21
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • Warum ist das Thema für uns interessant? <br /> Weil wir als Produktverantwortliche für webbasierte Bibliotheksdienste der SUB Statistik als eines unsere wichtigsten Hilfsmittel benötigen. <br /> Statistik ist für uns relevant: <br /> Nutzung unserer Angebote und Medien <br /> Anpassung / Modifizierung und Weiterentwicklung unserer Angebote <br /> Dienstleistung für Kunden und Nutzende <br /> <br /> <br /> <br /> <br /> <br />
  • An der Schnittstelle Bibliothek / Internet fallen (technisch bedingt) sehr viele Zahlen an. <br /> Parallel gibt es Verschiebungen die einen Handlungsdruck in der Darstellung unserer Leistungsfähigkeit erzeugen. <br /> <br /> Gemittelte prozentuale Veränderungen in 62 Bibliotheken aus Deutschland und Österreich mit einem Bestand von mehr als 1.000.000 Medieneinheiten. <br /> Datenbasis DBS 2014, eigene Auswertung. <br /> <br /> An diesen Zahlen kann man den Wandel ablesen: <br /> Während in unserem Sample die Erwerbungsetats insgesamt leicht angestiegen sind, nimmt darin der Anteil der für E-Medien aufgewendet wird konstant zu. <br /> Die Zahl aktiver BenutzerInnen bleibt in etwa gleich <br /> Die Zahl konventioneller Ausleihen geht zurück. <br /> Das ist ein Problem, nicht zuletzt in der Rechtfertigung unserer Leistungsfähigkeit <br /> <br /> Und was ist mit der Nutzung der E-Medien und elektronischen Angebote?
  • Wenn wir den Blick von den Ausgaben auf die Nutzung lenken, müssen wir eine Reihe von Datenquellen auswerten (Anbieterstatistiken, DBS Zählpixel). <br /> Über den von diesen etablierten Instrumenten abgedeckten Bereich gibt es aber den Bedarf eigener Erhebungen, weil es Bereiche gibt, die von diesen nicht abgedeckt werden. Das betrifft vor allem frei zugängliche Angebote. <br /> <br /> Wir verwenden zur Erhebung awstats, Ein Open Source-Tool, das Serverlogfiles auswertet. <br /> <br /> Da wir beide für Dokumentenserver zuständig sind, werden wir auf diese fokussieren. <br /> <br /> <br />
  • Die SUB Hamburg hostet für sich und andere Dokumentenserver. Die Überwachung der Nutzung dieser Dienste ist für die Wartung und Weiterentwicklung aber auch für Berichte an Auftraggeber und Publizierende höchst relevant.
  • Wichtig ist dabei die kritische Hinterfragung der erhobenen Zahlen (technische Grundlagen der Erhebung, Berechnung, Interpretation). <br /> Ein Anlass für diesen Vortrag war: Im April / Mai 2012 habe ich mir Sorgen um ein Einbrechen der Nutzung bei einem unserer Dokumentenserver gemacht. Bei näherem Hinsehen ergab sich, dass hier ein als menschlicher Nutzer getarntes Programm (wechselnde IP-Adressen aus einer IP-Range, Permutationen der Kombination von Betriebssystem und Browser) sehr rücksichtsvoll aber gründlich einzelne Seiten aufgerufen und die dort verlinkten Dokumente heruntergeladen hat. <br /> Wie behandelt man diese Spuren? Sind sie ein technisches Artefakt oder eine Nutzung?
  • Die Analogie zur Ausleihe und die Unterscheidung Nutzung / Scheinnutzung passt nicht ganz. Sie unterstellt auch bei konventionellen Ausleihen eine letztlich nicht bewertbare Nutzungsweise. Das Verhalten von Skripten und Menschen nähert sich an. <br /> <br /> Was aber ist mit automatisierten Downloadvorgängen, die z.B. auf einem Dokumentenserver jedes Dokument einmal herunterladen. <br /> Sofern es gegen keine Lizenz verstößt wäre es (möglicherweise) eine Nutzung im Sinne des Angebots, kann aber in Statistiken merkwürdige Kurven erzeugen <br /> <br />
  • Da aber Menschen in der digitalen Welt wegen der gewaltigen Mengen an Informationen auf Unterstützung durch Suchmaschinen & Co. angewiesen sind, sind diese und ihre Werkzeuge sehr willkommen, aber eher als Vermittler / intermediäre Nutzer <br />
  • Zurück zur Messung: Die Trennung lässt sich nicht vollständig trennscharf durchführen: Nicht alle Skripte lassen sich erkennen. <br /> Unschärfe in der Statistik bedeutet, dass es keine „harten“ Zahlen geben kann. Absolute Zahlen täuschen eine Exaktheit vor, die es so nicht gibt. <br /> <br />
  • Die Aufbereitung / Filterung von Logdateien ist unumgänglich. Man sollte daher (zumindest intern) transparent machen, wie man dabei vorgeht. <br />
  • Trends sind wichtig. Verhältnisse, Verteilungen <br /> <br /> Trends im Jahresverlauf. <br /> Verhältnisse, wie z.B. Seitenaufrufe zu Downloads, Suchen zu Detailanzeigen <br /> Verteilungen etwa über Webseitenbereiche <br />

Ist der Besuch eines Harvesters (schon) eine E-Ausleihe? Ist der Besuch eines Harvesters (schon) eine E-Ausleihe? Presentation Transcript

  • Ist der Besuch eines Harvesters (schon) eine E-Ausleihe? Über den Wert von Statistiken zu digitalen Medien 103. Bibliothekartag in Bremen Isabella Meinecke / Jens Wonke-Stehle
  • Statistik als Werkzeug für das Produktmanagement webbasierter Bibliotheksangebote 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen2
  • Kontext: Medienwandel Index der gemittelten prozentualen Veränderungen gegenüber dem Basisjahr 2009 in 62 Bibliotheken aus Deutschland und Österreich mit einem Bestand von mehr als 1.000.000 Medieneinheiten. Datenbasis DBS 2014, eigene Auswertung. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen3 0% 20% 40% 60% 80% 100% 120% 140% 160% 180% 2009 2010 2011 2012 2013 Kosten elektronische Erwerbung Kosten Erwerbung insgesamt aktive BesucherInnen konventionelle Entleihungen
  • Datenquellen  Deutsche Bibliotheksstatistik  Anbieterstatistiken  eigene Erhebungen (SUB Hamburg: mit awstats) 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen4 Seitenaufrufe 2013 gesamt = 57,9 Mio. 2.00% 2.37% 2.37% 2.97% 6.09% 10.81% 16.52% 56.87% Zeitschriftenserver Dokumentenserver Eigenentwicklungen Wikis Blogs Webseiten (SUB, LB, …) Digitalisate Katalog
  • Dokumentenserver der SUB 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen5 PDF-Downloads 2013 gesamt: 2,3 Mio. 0.02% 0.44% 0.81% 1.19% 2.99% 7.99% 9.73% 10.23% 10.26% 19.85% 36.49% Lehrerbibliothek (gehostet) InfDok (gehostet) HCU (gehostet) Aethiopica HSU (gehostet) HAW (gehostet) Hamburg UP GIGA Journals EDoc EPub EDiss
  • Datenkritik 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen6 „Nutzungsspitze“ durch verschleierte automatisierte Zugriffe
  • Zugriffe  Nicht alle Zugriffe auf über das Web angebotene Dienste und Medien resultieren aus Mausklicks.  Skripte von Suchmaschinen analysieren die Webseiten.  Sicherheitsmechanismen kontrollieren, ob Dienste funktionieren.  KollegInnen testen Schnittstellen und Erreichbarkeit. Häufig diskutiertes Problem: das Aussortieren von automatisierten Zugriffen aus der Statistik 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen7
  • Nutzung vs. „Scheinnutzung“  Unterscheidungskriterium:  Nutzung (menschliches Informationsverhalten)  Scheinnutzung (Rauschen)  Idee: wenn das Rauschen herausgefiltert wird, wird die „wahre“, erwünschte Nutzung sichtbar.  Dabei erscheint die Nutzung als Analogie zur Ausleihe. Aber auch bei einer konventionellen Ausleihe ist letztlich unklar, was dieser Vorgang über Informationsverhalten aussagt. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen8
  • Graustufen Auch Maschinen interpretieren, auch Menschen scannen:  Google analysiert Dokumente, stellt Beziehungen her, betreibt z. T. Texterkennung (OCR) und rankt Artikel.  Gerade bei elektronischen Medien sinkt bei Menschen die Hemmung, Texte erst anzuklicken und später zu verwerfen. Entsteht eine Graustufe? 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen9
  • Justierung der Begrifflichkeiten  In der digitalen Welt sind Menschen auf Suchmaschinen angewiesen, um das Mengenproblem zu lösen.  Menschen nutzen diese Suchmaschinen prioritär.  Wenn wir wollen, dass unsere Dienste und unsere Medien genutzt werden, sollten wir nicht von „Scheinnutzung“ sprechen.  Wir sollten eher von direkter und intermediärer Nutzung sprechen und beides analysieren. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen10
  • Messunschärfen  Pflege einer zentralen Liste erkannter Bots sowie heuristische Erkennung  Nicht alle Zugriffe durch Bots lassen sich automatisiert erkennen.  Plausibilitätskontrolle und ein „Gefühl“ für die Daten bleiben wichtig. Unschärfe in der Datenbasis bedeutet, dass es keine „harten“ Zahlen geben kann. Absolute Zahlen täuschen eine Exaktheit vor, die es so nicht gibt. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen11
  • Mehr Transparenz wagen! Die Aufbereitung / Filterung von Logdateien ist unumgänglich. Man sollte das Vorgehen aber transparent machen. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen12
  • Absolut vs. Relativ Downloads und Seitenaufrufe können nicht so „hart“ gezählt werden wie Ausleihen. Trends, Verhältnisse und Verteilungen sind aussagekräftiger. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen13
  • Worauf soll die Statistik antworten? 1) Wenn wir einen Wert als Analogie zur Ausleihe aufbauen wollen, um die Verschiebung von analogen zu digitalen Medien kommunizieren zu können, müssen wir Harvester und Co aus der Zählung ausschließen, so gut wie es eben können und uns bewusst sein, dass die kritische Auseinandersetzung mit unseren Zahlen eine Daueraufgabe ist. 2) Wenn wir die Nutzung unserer Dienste insgesamt analysieren wollen, um sie zu optimieren, müssen wir Harvester etc. genau in den Blick nehmen: ihr Verhalten ist ein Indikator für Repräsentation von Angeboten im Netz und damit für die Wahrscheinlichkeit genutzt zu werden. 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen14
  • Kontakt 2.6.2014 Meinecke / Wonke-Stehle | Statistiken zu digitalen Medien | 103. Bibliothekartag, Bremen15 Isabella Meinecke 040 / 4 28 38-7146 meinecke@sub.uni-hamburg.de Jens Wonke-Stehle 040 / 4 28 38-2224 wonke@sub.uni-hamburg.de Staats- und Universitätsbibliothek Hamburg Von-Melle-Park 3 20146 Hamburg www.sub.uni-hamburg.de facebook.com/stabihh twitter.com/stabihh
  • Quellen  Deutsche Bibliotheksstatistik (DBS) http://www.hbz-nrw.de/angebote/dbs/ 2.6.2014 <Name und/oder Titel der Veranstaltung>16