SlideShare a Scribd company logo
1 of 42
Download to read offline
Open Source Software
zur Verarbeitung und Analyse
von Metadaten
Prof. Magnus Pfeffer
pfeffer@hdm-stuttgart.de
16.03.2016 LIS Workshop, Leipzig 2
Überblick
 Hintergrund und Anforderungen
 Konkrete Softwarepakete
 Einzelne Programme
 Toolsets
 Web-basierte Software
 Ausblick
16.03.2016 LIS Workshop, Leipzig 3
Hintergrund und Anforderungen
16.03.2016 LIS Workshop, Leipzig 4
Gestiegene Anforderungen
 Metadatenmanagement „früher“
 Ein Datenformat (MAB2)
 Ein Regelwerk (RAK)
 Ein Datenlieferant (Verbund)
 Ein Datenempfänger (integriertes Bibliothekssystem oder
lokaler OPAC)
16.03.2016 LIS Workshop, Leipzig 5
Und heute?
 Datenmanagement
 Viele Datenformate
 MAB2, Marc21, Dublin Core, METS/MODS, …
 Viele Regelwerke
 RAK, AACR, RDA, ...
 Viele Datenquellen
 Eigene Datenbanken, Verbund, Konsortium, Lieferanten,
Anbieter, ...
 Mehrere Datenempfänger
 Integriertes Bibliothekssystem
 Resource Discovery System
16.03.2016 LIS Workshop, Leipzig 6
Metadatenmanagement in der Lehre
 Gewünschte Kompetenzen
 Validierung und einfache Analyse von Datenlieferungen
 Konsistente Feldbelegungen
 Erkennen unvollständiger/korrupter Datensätze
 Statistiken
 Anpassung von Datenlieferungen
 Filtern von Records aufgrund von Feldinhalten
 Anpassen/Löschen/Ergänzen einzelner Felder
 Durchführen eines ETL-Prozesses
 Extract: z.B. aus einem Repository
 Transform: Anpassung und Formatwandlung
 Load: z.B. in einem Index
16.03.2016 LIS Workshop, Leipzig 7
Metadatenmanagement in der Lehre
 Anforderung an die Software
 Keine Kosten für Anschaffung und Nutzung
 Open Source
 Klare Lizenzsituation
 Eigene Anpassungen möglich
 Einbringen in die Community (Forum, Bugtracker)
 Nutzbar auch ohne Kenntnisse in Programmierung
 Dokumentation mit Beispielen
 Konfiguration über Dateien oder GUI
 Umsetzung praxisrelevanter Szenarien möglich
16.03.2016 LIS Workshop, Leipzig 8
Szenarien für den Einsatz
 Dateien und Schnittstellen
 Öffnen von MARC21 und MAB2 Dateien (nicht-XML)
 Download von Daten über OAI-PMH und z39.50
 Analyse und Anpassung
 Zählen der Records
 Ausgeben der Titel, Verfasser, Jahr als Liste
 Ersetzen eines Feldinhaltes
 Zahl → Text aus einer Tabelle
 Konvertierung
 Dublin Core als CSV
 JSON
16.03.2016 LIS Workshop, Leipzig 9
Software
16.03.2016 LIS Workshop, Leipzig 10
Kategorie 1: Einzelne Programme
 Unix-“Philosophie“
 Ein Programm löst ein bestimmtes Problem
 Aufruf über die Kommandozeile
 Konfiguration über Aufrufparameter/Datei
 Ausgabe und Eingabe über Dateien und Pipes
This is the Unix philosophy:
Write programs that do one thing and do it well.
Write programs to work together.
Write programs to handle text streams, because
that is a universal interface.
Malcolm Douglas McIlroy,
Head of Bell Labs in 1978
16.03.2016 LIS Workshop, Leipzig 11
MABLE+ / MARCEL
 Bereitgestellt vom KOBV
 Java-basiert, Quellcode auf github
 MABLE+: MAB2-Dateien (Bandformat)
 Validierung und Fehleranalyse
 Zählen von Sätzen
 Indexierung
 MARCEL: MARC21-Dateien (Bandformat)
 Validierung
 Feldstatistiken
 MySQL-Import
 Keine Konfiguration, Einschränkungen beim Zeichensatz
16.03.2016 LIS Workshop, Leipzig 12
MAB-Tools
 Bereitgestellt von der Deutschen Nationalbibliothek
 Java-basiert, Quellcode auf github
 MabToMabxml
 Konvertierung von MAB2-Datensätzen nach MABxml
 MabxmlToMab
 Konvertierung von MABxml-Dokumenten nach MAB2
 XMabToUtf8
 Konvertierung von MAB2-Standard-Zeichensatz ("x-Mab")
nach UTF-8
 Keine Validierung, keine Analyse
16.03.2016 LIS Workshop, Leipzig 13
MARCTools
 Bereitgestellt durch die UB Leipzig
 Go-basiert, Quellcode auf github
 Anzeigen und Aufteilen von Dateien
 Zählen von Records
 Eliminieren von doppelten Einträgen
 Konvertierung nach TSV und JSON
 Laden in eine SQLite Datenbank
 Arbeitet mit Marc21 und MarcXML Dateien
 Keine Konfiguration
16.03.2016 LIS Workshop, Leipzig 14
Leider ausgeschieden
 MarcEdit
 Editor mit GUI für Windows
 Keine Lizenz, kein Quellcode („free“)
 MARC Record Translation Program
 Kommandozeilentool für Windows und Linux
 Keine Lizenz, kein Quellcode („enjoy“)
 keine erkennbare Weiterentwicklung
 User Controlled Generic MARC Converter
 British Library and the National Library of Finland
 Eigenwillige nicht-standardisierte Lizenz
 Persönliche Registrierung erforderlich
16.03.2016 LIS Workshop, Leipzig 15
Leider ausgeschieden
 MarcBreaker/MarcMaker
 Library of Congress, Kommandozeilentools für DOS (!)
 Keine Lizenz, kein Quellcode („free“)
 Keine Weiterentwicklung
 Unzählige kommerzielle Tools
16.03.2016 LIS Workshop, Leipzig 16
Kategorie 2: Toolkits
 Bündelung von einzelnen Programmen
 Lokale Installation auf PC-Arbeitsplatz oder Server
 Abgestimmter Funktionsumfang der Tools
 Ähnliche Struktur und Konfiguration
 Unterstützung komplexer Aufgaben
 Umfangreiche ETL-Workflows
 Kombination von Datenquellen
 Speichern von Daten in Datenbanken
 Unterstützung für gemeinsames Arbeiten
 Austausch von Konfigurationen („Rezepte“)
16.03.2016 LIS Workshop, Leipzig 17
Metafacture
 Entwickelt im Rahmen des Projekts Culturegraph
 Hauptentwickler: DNB und HBZ-NRW
 Komponenten
 Flux
 Skriptsprache zum Aufbau von Verarbeitungs-Pipelines
 Umwandlung, Speichern und Analysieren von Daten
 Morph
 Anwendungsspezifische Sprache zur Verarbeitung von Metadaten
 Modellierung als „Pipeline“
 Konfiguration in XML
 Framework
 Technische Umsetzung der einzelnen Komponenten in Java
 Erweiterbar durch eigene Programme
16.03.2016 LIS Workshop, Leipzig 18
Metafacture
 Besonderheiten
 Skalierbar für große Datenmengen
 Sehr komplexe Transformationen umsetzbar
 Eindrücke
 Stark fokussiert auf die Transformation von MARC21
Dateien
 Dokumentation sehr knapp
 Hoher Grundaufwand: auch einfache Aufgaben sind
vergleichsweise komplex in der Umsetzung
16.03.2016 LIS Workshop, Leipzig 19
Catmandu
 Entwicklung der Universitäten Bielefeld, Lund und Ghent
 Sammlung von Werkzeugen zur Datenverarbeitung in
Bibliotheken
 Einlesen von Metadaten aus unterschiedlichen Quellen
 Speichern von Metadaten
 Suchen in Metadaten
 Export und Umwandlung in unterschiedliche Formate
 Sprache „Fix“
 Beschreibung von Transformationen und Bearbeitung von
Metadaten
 Framework in Perl zur Entwicklung eigener Erweiterungen
16.03.2016 LIS Workshop, Leipzig 20
Catmandu
 Besonderheiten
 Speicherung der Daten in MongoDB möglich
 Vorbereitung der Daten für ElasticSearch integriert
 Spracherweiterungen in Perl über CPAN verfügbar
 Eindrücke
 Sehr umfangreiche Funktionen
 Viele unterstütze Datenformate
 Viele unterstützte Schnittstellen
 Dokumentation mit vielen praktischen Beispielen
 Nahezu alle Szenarien direkt umsetzbar
16.03.2016 LIS Workshop, Leipzig 21
MarcXimiL
 Entwicklung an der Universität Genf
 Sammlung von Algorithmen für den Vergleich von
bibliografischen Datensätzen
 Unterschiedliche Ähnlichkeitsfunktionen
 Import von Daten aus Dateien oder über OAI-PMH
 MarcXML
 Programme für konkrete Anwendungen
 Dublettenerkennung
 Vorschlagssysteme
 Erweiterungen in Python möglich
16.03.2016 LIS Workshop, Leipzig 22
MarcXimiL
 Eindrücke
 Ähnlichkeitsfunktionen sind Alleinstellungsmerkmal
gegenüber den anderen Toolsets
 Dokumentation ausführlich
 Aktive Weiterentwicklung fraglich
16.03.2016 LIS Workshop, Leipzig 23
Kategorie 3: Web-basierte Software
 Keine Kommandozeile oder lokale GUI
 Zugang und Nutzung über Browser
 Funktionsumfang von einfach bis umfassend
 Zentrale Installation vorgesehen
→ Angebot als Software-as-a-service
 (lokale Installation weiter möglich)
16.03.2016 LIS Workshop, Leipzig 24
Openrefine
 Entwicklung von Google
 Web-Anwendung zur Arbeit mit tabellarischen Daten
 Datenbereinigung
 Facettierung und Clustering von Werten
 Batch-Änderungen
 Konvertierung
 Listen und Tabellenformate, XML, JSON
 Auflösen von Nesting
 Anreicherung
 Erweitern von Tabellen durch externe Daten
 Reconciliation
 Matching von Daten auf externe Vorgaben
16.03.2016 LIS Workshop, Leipzig 25
Openrefine
16.03.2016 LIS Workshop, Leipzig 26
Openrefine
16.03.2016 LIS Workshop, Leipzig 27
Openrefine
16.03.2016 LIS Workshop, Leipzig 28
Openrefine
 Eindrücke
 Allgemeines Tool zur Datenanalyse und Datenverarbeitung
 Sehr mächtig, intuitives Interface, überraschend schnell
 Zahlreiche Tutorials und Anleitungen
 Viele Erweiterungen , z.B.
 Export als Linked Open Data
 Nutzung bibliothekarischer Normdaten
 Anwendung in Kombination mit anderem Toolset
 Laden und Konvertierung: Toolset
 Bereinigung und Anreicherung: Openrefine
 Export: Openrefine/Toolset
16.03.2016 LIS Workshop, Leipzig 29
d:swarm
 Datenintegrations- und -modellierungswerkzeug
 Flexibles (elastisches), graphenbasiertes Datenmodell
 Überführung von Daten aus heterogenen Datenquellen
 Middleware-Lösung
 Bündelung aller Datenverarbeitungsprozesse
 zwischen Datenmanagementsystemen und
Webanwendungen (z.B. Discovery-System)
 Unterstützt u.a.
 Analysen zur Verbesserung der Datenqualität
 Deduplizierung und Zusammenführen von Titeldaten
 FRBRisierung bibliografischer Daten
16.03.2016 LIS Workshop, Leipzig 30
d:swarm
16.03.2016 LIS Workshop, Leipzig 31
d:swarm
 Besonderheiten
 Entworfen als Software-as-a-service Lösung
 Extrem flexible Architektur und Datenbank
 Funktionen zum gemeinsamen Arbeiten im Kern integriert
 Produktiver Einsatz an der SLUB Dresden
 Streaming Variante für große Datenmengen
 Eindrücke
 Frei zugänglicher Prototyp im alpha-Stadium
 Schwerpunkt auf Mapping und Transformation
 Gute Dokumentation im Wiki
16.03.2016 LIS Workshop, Leipzig 32
Ausblick
16.03.2016 LIS Workshop, Leipzig 33
Projekt: Datenaggregation
 Idee
 Sammeln von Open-Data Metadatenpaketen
 Dokumentierte Ablage in lokalem Speicherdienst
 Bereitstellung in mehreren Datenformaten
 Erhoffter Nutzen
 Zentrale Anlaufstelle für Datennutzer
 Vermeidung von Doppelarbeit
 Einfache Nachnutzung, auch in der Lehre
16.03.2016 LIS Workshop, Leipzig 34
Projekt: Toolsets
 Idee
 Bereitstellung von Werkzeugen und Programme zur
Metdatenverarbeitung ohne aufwändige Installation
 Vorbereitete Server-Einrichtung für virtuelle Server
 Wenn möglich: Installation mit web-basiertem Zugang
 Erhoffter Nutzen
 Niederschwelliger Zugang zu den Werkzeugen
 Einfache Evaluation der Möglichkeiten
 Nutzung in der Lehre
16.03.2016 LIS Workshop, Leipzig 35
Fazit?
 Viele Projekte
 Unterschiedliche Ansätze und Schwerpunkte
 Sehr unterschiedliche Entwicklungsaktivität
 Software teilweise sehr schwer zu finden
 Viele Miniprojekte ohne großen Nutzwert
 Dennoch: Viele Tools nur „intern“ und (noch?) nicht
veröffentlicht
16.03.2016 LIS Workshop, Leipzig 36
Fazit?
 Nutzung
 Dokumentation nicht für Einsteiger geeignet
 Teilweise sehr spezielle Systemvoraussetzungen
 Anwendung teilweise frustrierend
 Realistische Workflows nur mit Kombinationen von
unterschiedlichen Programmen umsetzbar
16.03.2016 LIS Workshop, Leipzig 37
Fazit?
 Konkrete Anwendung in der Lehre WS 2016
 Modul „Metadatenmanagement“
 Datenquellen
 Datenformate
 Schnittstellen
 Typische Workflows
 Software
 Librecat als allgemeines Toolset
 Datenaggregation
 Indexierung und Filterung
 ETL
 Openrefine zur Analyse und Datenbereinigung
16.03.2016 LIS Workshop, Leipzig 38
Fragen
?
16.03.2016 LIS Workshop, Leipzig 39
Hinweis
 DINI KIM Workshop 2016
 UB Mannheim, 04. und 05. April 2016
 Vorträge
 Ganztägige Workshops
 Catmandu
 Openrefine
 Link: https://dini.de/veranstaltungen/workshops/kim2016/
16.03.2016 LIS Workshop, Leipzig 40
Danke für Ihre Aufmerksamkeit!
Folien online unter
http://www.slideshare.net/MagnusPfeffer/
Dieses Werk bzw. Inhalt steht unter einer
Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
16.03.2016 LIS Workshop, Leipzig 41
Links zu Software
 MABLE+:https://www.kobv.de/entwicklung/software/mable/
 MARCEL:https://www.kobv.de/entwicklung/software/marcel/
 DNB Tools: https://sourceforge.net/projects/dnb-conv-tools/
 Marctools: https://github.com/ubleipzig/marctools
 Metafacture: https://github.com/culturegraph/metafacture-core
 Catmandu: http://librecat.org/Catmandu/
 MarcXimiL: http://marcximil.sourceforge.net/
 Openrefine: http://openrefine.org/
16.03.2016 LIS Workshop, Leipzig 42
Weiterführende Links
 OCLC: MARC specialized tools. Website.
https://www.loc.gov/marc/marctools.html
 Code4Lib Wiki: Working with MARC.
Website.http://wiki.code4lib.org/Working_with_MARC
 Margret Heller: A Librarian’s Guide to OpenRefine. ACRL Tech Connect
Blog. Website. http://acrl.ala.org/techconnect/post/a-librarians-guide-to-
openrefine

More Related Content

What's hot

Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Felix Lohmeier
 
Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Kai Eckert
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Magnus Pfeffer
 
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre AnwendungsmöglichkeitenNormdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre Anwendungsmöglichkeitenintranda GmbH
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Felix Lohmeier
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open ProjectsKai Eckert
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebJoachim Neubert
 
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen KatalogesMartin Blenkle
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Dennis Zielke
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trendintranda GmbH
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenPascal-Nicolas Becker
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischkostaedt
 
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...Martin Blenkle
 
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem KohaKatalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem Kohahemmefelix
 
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Martin Blenkle
 
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...Felix Lohmeier
 
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Jakob .
 

What's hot (20)

SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
SoSe 2013 | IT-Zertifikat: AMM - Digitale Bibliotheken, Metadatenstandards: M...
 
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
Open Source Bibliotheksmanagement (mit D:SWARM + AMSL)
 
Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)Linked Open Projects (DGI-Konferenz)
Linked Open Projects (DGI-Konferenz)
 
Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?Resource Discovery - Sacherschließung am Ende?
Resource Discovery - Sacherschließung am Ende?
 
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre AnwendungsmöglichkeitenNormdatendienste der VZG und ihre Anwendungsmöglichkeiten
Normdatendienste der VZG und ihre Anwendungsmöglichkeiten
 
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
Campus Community / Institutionelle Virtuelle Forschungsumgebung. Eine Aufgabe...
 
Linked Open Projects
Linked Open ProjectsLinked Open Projects
Linked Open Projects
 
Anforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic WebAnforderungen an Thesauri im Semantic Web
Anforderungen an Thesauri im Semantic Web
 
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges
10 Jahre E-LIB Bremen – Erfahrungen beim Betrieb eines etwas anderen Kataloges
 
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
Laudatio Workshop Entwicklersession zu Gemeinsamkeiten in Forschungsdatenrepo...
 
1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend1. intranda Goobi Tag: Vom Tool zum Trend
1. intranda Goobi Tag: Vom Tool zum Trend
 
Repositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellenRepositorieninhalte als Linked Data bereitstellen
Repositorieninhalte als Linked Data bereitstellen
 
Semantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktischSemantic Web in Bibliotheken mal praktisch
Semantic Web in Bibliotheken mal praktisch
 
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...
Elektronische Volltexte der SuUB Bremen im Kursmanagementsystem Stud.IP der U...
 
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem KohaKatalogisierung mit dem Open-Source-Bibliothekssystem Koha
Katalogisierung mit dem Open-Source-Bibliothekssystem Koha
 
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
Offener Katalog - Nachnutzung von Metadaten über eine serviceorientierte Syst...
 
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...
Fachreferat 3.0 - mit Campus Communities den Forschungsdiskurs auf digitaler ...
 
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
Verwaltung dokumentenorientierter DTDs für den Dokument- und Publikationsserv...
 
Bam Vortrag Fh Lb
Bam Vortrag Fh LbBam Vortrag Fh Lb
Bam Vortrag Fh Lb
 
Forschungsdaten und DSpace
Forschungsdaten und DSpaceForschungsdaten und DSpace
Forschungsdaten und DSpace
 

Similar to Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement

DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platformredsys
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-FörderphaseBjörn Muschall
 
Die Zukunft der Portale - Kataloge der nächsten Generation
Die Zukunft der Portale - Kataloge der nächsten GenerationDie Zukunft der Portale - Kataloge der nächsten Generation
Die Zukunft der Portale - Kataloge der nächsten GenerationMartin Blenkle
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoopinovex GmbH
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...flimm
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-Verein FM Konferenz
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & ToolsUlrich Krause
 
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU Berlin
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU BerlinBibliographieren 2.0 - Workshop für BibliothekarInnen an der FU Berlin
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU BerlinTIB Hannover
 
Seige finc 103. Bibliothekartag 2014 Discovery System Project
Seige finc 103. Bibliothekartag 2014 Discovery System ProjectSeige finc 103. Bibliothekartag 2014 Discovery System Project
Seige finc 103. Bibliothekartag 2014 Discovery System ProjectLeander Seige
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenBjörn Muschall
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenLydiaU
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?Falk Neubert
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeChristoph Lange
 
Neue Kataloge – wo geht die Reise hin?
Neue Kataloge – wo geht die Reise hin?Neue Kataloge – wo geht die Reise hin?
Neue Kataloge – wo geht die Reise hin?Martin Blenkle
 
Dynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open DataDynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open Datah_jansen
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungenredsys
 

Similar to Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement (20)

DSpace as publication platform
DSpace as publication platformDSpace as publication platform
DSpace as publication platform
 
amsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphaseamsl - Ergebnispräsentation der EFRE-Förderphase
amsl - Ergebnispräsentation der EFRE-Förderphase
 
Die Zukunft der Portale - Kataloge der nächsten Generation
Die Zukunft der Portale - Kataloge der nächsten GenerationDie Zukunft der Portale - Kataloge der nächsten Generation
Die Zukunft der Portale - Kataloge der nächsten Generation
 
Textanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und HadoopTextanalyse mit UIMA und Hadoop
Textanalyse mit UIMA und Hadoop
 
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
Der Kölner UniversitätsGesamtkatalog - Praktischer Einsatz des KUG mit OpenBi...
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
Linked Library Data & RDA
Linked Library Data & RDALinked Library Data & RDA
Linked Library Data & RDA
 
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
FMK2017 - Schnittstellen zu Fremdsystemen by Robert Rohrkemper-
 
Templates, Code & Tools
Templates, Code & ToolsTemplates, Code & Tools
Templates, Code & Tools
 
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU Berlin
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU BerlinBibliographieren 2.0 - Workshop für BibliothekarInnen an der FU Berlin
Bibliographieren 2.0 - Workshop für BibliothekarInnen an der FU Berlin
 
Seige finc 103. Bibliothekartag 2014 Discovery System Project
Seige finc 103. Bibliothekartag 2014 Discovery System ProjectSeige finc 103. Bibliothekartag 2014 Discovery System Project
Seige finc 103. Bibliothekartag 2014 Discovery System Project
 
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer HochschulbibliothekenAMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
AMSL Kick-off-Meeting sächsischer Hochschulbibliotheken
 
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen HochschulbibliothekenKickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
Kickoff Workshop zum Projekt amsl mit den sächsischen Hochschulbibliotheken
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?
Open-Source ERP-Lösungen: Für wen sind diese Systeme eine Alternative?
 
Web-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-GruppeWeb-2.0-Forschung der KWARC-Gruppe
Web-2.0-Forschung der KWARC-Gruppe
 
Neue Kataloge – wo geht die Reise hin?
Neue Kataloge – wo geht die Reise hin?Neue Kataloge – wo geht die Reise hin?
Neue Kataloge – wo geht die Reise hin?
 
Dynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open DataDynamische Kataloganreicherung auf Basis von Linked Open Data
Dynamische Kataloganreicherung auf Basis von Linked Open Data
 
Einbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende BibliotheksanswendungenEinbindung von Linked Data in existierende Bibliotheksanswendungen
Einbindung von Linked Data in existierende Bibliotheksanswendungen
 

More from Magnus Pfeffer

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMagnus Pfeffer
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Magnus Pfeffer
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsMagnus Pfeffer
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenMagnus Pfeffer
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedMagnus Pfeffer
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedMagnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Magnus Pfeffer
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenMagnus Pfeffer
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...Magnus Pfeffer
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open DataMagnus Pfeffer
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Magnus Pfeffer
 

More from Magnus Pfeffer (12)

Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata ProvenanceMetadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
Metadata Provenance Tutorial Part 2: Interoperable Metadata Provenance
 
Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...Automatic creation of mappings between classification systems for bibliograph...
Automatic creation of mappings between classification systems for bibliograph...
 
Automatic creation of mappings between classification systems
Automatic creation of mappings between classification systemsAutomatic creation of mappings between classification systems
Automatic creation of mappings between classification systems
 
Automatisches Generieren von Konkordanzen
Automatisches Generieren von KonkordanzenAutomatisches Generieren von Konkordanzen
Automatisches Generieren von Konkordanzen
 
Bibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data ExtendedBibliotheken und Linked Open Data Extended
Bibliotheken und Linked Open Data Extended
 
Bibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data ReducedBibliotheken und Linked Open Data Reduced
Bibliotheken und Linked Open Data Reduced
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
Fallbasierte automatische Klassifikation nach der RVK - k-nearest neighbour a...
 
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzenAusleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
Ausleihdaten aus Bibliotheken als Linked Open Data publizieren und nutzen
 
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
RVK 3.0 - Die Regensburger Verbundklassifikation als Normdatei für Bibliothek...
 
Bibliotheken und Linked Open Data
Bibliotheken und Linked Open DataBibliotheken und Linked Open Data
Bibliotheken und Linked Open Data
 
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
Altbestandserschließung: Automatische Übernahme von RVK und SWD über Verbundg...
 

Open Source Software zur Verarbeitung und Analyse von Metadatenmanagement

  • 1. Open Source Software zur Verarbeitung und Analyse von Metadaten Prof. Magnus Pfeffer pfeffer@hdm-stuttgart.de
  • 2. 16.03.2016 LIS Workshop, Leipzig 2 Überblick  Hintergrund und Anforderungen  Konkrete Softwarepakete  Einzelne Programme  Toolsets  Web-basierte Software  Ausblick
  • 3. 16.03.2016 LIS Workshop, Leipzig 3 Hintergrund und Anforderungen
  • 4. 16.03.2016 LIS Workshop, Leipzig 4 Gestiegene Anforderungen  Metadatenmanagement „früher“  Ein Datenformat (MAB2)  Ein Regelwerk (RAK)  Ein Datenlieferant (Verbund)  Ein Datenempfänger (integriertes Bibliothekssystem oder lokaler OPAC)
  • 5. 16.03.2016 LIS Workshop, Leipzig 5 Und heute?  Datenmanagement  Viele Datenformate  MAB2, Marc21, Dublin Core, METS/MODS, …  Viele Regelwerke  RAK, AACR, RDA, ...  Viele Datenquellen  Eigene Datenbanken, Verbund, Konsortium, Lieferanten, Anbieter, ...  Mehrere Datenempfänger  Integriertes Bibliothekssystem  Resource Discovery System
  • 6. 16.03.2016 LIS Workshop, Leipzig 6 Metadatenmanagement in der Lehre  Gewünschte Kompetenzen  Validierung und einfache Analyse von Datenlieferungen  Konsistente Feldbelegungen  Erkennen unvollständiger/korrupter Datensätze  Statistiken  Anpassung von Datenlieferungen  Filtern von Records aufgrund von Feldinhalten  Anpassen/Löschen/Ergänzen einzelner Felder  Durchführen eines ETL-Prozesses  Extract: z.B. aus einem Repository  Transform: Anpassung und Formatwandlung  Load: z.B. in einem Index
  • 7. 16.03.2016 LIS Workshop, Leipzig 7 Metadatenmanagement in der Lehre  Anforderung an die Software  Keine Kosten für Anschaffung und Nutzung  Open Source  Klare Lizenzsituation  Eigene Anpassungen möglich  Einbringen in die Community (Forum, Bugtracker)  Nutzbar auch ohne Kenntnisse in Programmierung  Dokumentation mit Beispielen  Konfiguration über Dateien oder GUI  Umsetzung praxisrelevanter Szenarien möglich
  • 8. 16.03.2016 LIS Workshop, Leipzig 8 Szenarien für den Einsatz  Dateien und Schnittstellen  Öffnen von MARC21 und MAB2 Dateien (nicht-XML)  Download von Daten über OAI-PMH und z39.50  Analyse und Anpassung  Zählen der Records  Ausgeben der Titel, Verfasser, Jahr als Liste  Ersetzen eines Feldinhaltes  Zahl → Text aus einer Tabelle  Konvertierung  Dublin Core als CSV  JSON
  • 9. 16.03.2016 LIS Workshop, Leipzig 9 Software
  • 10. 16.03.2016 LIS Workshop, Leipzig 10 Kategorie 1: Einzelne Programme  Unix-“Philosophie“  Ein Programm löst ein bestimmtes Problem  Aufruf über die Kommandozeile  Konfiguration über Aufrufparameter/Datei  Ausgabe und Eingabe über Dateien und Pipes This is the Unix philosophy: Write programs that do one thing and do it well. Write programs to work together. Write programs to handle text streams, because that is a universal interface. Malcolm Douglas McIlroy, Head of Bell Labs in 1978
  • 11. 16.03.2016 LIS Workshop, Leipzig 11 MABLE+ / MARCEL  Bereitgestellt vom KOBV  Java-basiert, Quellcode auf github  MABLE+: MAB2-Dateien (Bandformat)  Validierung und Fehleranalyse  Zählen von Sätzen  Indexierung  MARCEL: MARC21-Dateien (Bandformat)  Validierung  Feldstatistiken  MySQL-Import  Keine Konfiguration, Einschränkungen beim Zeichensatz
  • 12. 16.03.2016 LIS Workshop, Leipzig 12 MAB-Tools  Bereitgestellt von der Deutschen Nationalbibliothek  Java-basiert, Quellcode auf github  MabToMabxml  Konvertierung von MAB2-Datensätzen nach MABxml  MabxmlToMab  Konvertierung von MABxml-Dokumenten nach MAB2  XMabToUtf8  Konvertierung von MAB2-Standard-Zeichensatz ("x-Mab") nach UTF-8  Keine Validierung, keine Analyse
  • 13. 16.03.2016 LIS Workshop, Leipzig 13 MARCTools  Bereitgestellt durch die UB Leipzig  Go-basiert, Quellcode auf github  Anzeigen und Aufteilen von Dateien  Zählen von Records  Eliminieren von doppelten Einträgen  Konvertierung nach TSV und JSON  Laden in eine SQLite Datenbank  Arbeitet mit Marc21 und MarcXML Dateien  Keine Konfiguration
  • 14. 16.03.2016 LIS Workshop, Leipzig 14 Leider ausgeschieden  MarcEdit  Editor mit GUI für Windows  Keine Lizenz, kein Quellcode („free“)  MARC Record Translation Program  Kommandozeilentool für Windows und Linux  Keine Lizenz, kein Quellcode („enjoy“)  keine erkennbare Weiterentwicklung  User Controlled Generic MARC Converter  British Library and the National Library of Finland  Eigenwillige nicht-standardisierte Lizenz  Persönliche Registrierung erforderlich
  • 15. 16.03.2016 LIS Workshop, Leipzig 15 Leider ausgeschieden  MarcBreaker/MarcMaker  Library of Congress, Kommandozeilentools für DOS (!)  Keine Lizenz, kein Quellcode („free“)  Keine Weiterentwicklung  Unzählige kommerzielle Tools
  • 16. 16.03.2016 LIS Workshop, Leipzig 16 Kategorie 2: Toolkits  Bündelung von einzelnen Programmen  Lokale Installation auf PC-Arbeitsplatz oder Server  Abgestimmter Funktionsumfang der Tools  Ähnliche Struktur und Konfiguration  Unterstützung komplexer Aufgaben  Umfangreiche ETL-Workflows  Kombination von Datenquellen  Speichern von Daten in Datenbanken  Unterstützung für gemeinsames Arbeiten  Austausch von Konfigurationen („Rezepte“)
  • 17. 16.03.2016 LIS Workshop, Leipzig 17 Metafacture  Entwickelt im Rahmen des Projekts Culturegraph  Hauptentwickler: DNB und HBZ-NRW  Komponenten  Flux  Skriptsprache zum Aufbau von Verarbeitungs-Pipelines  Umwandlung, Speichern und Analysieren von Daten  Morph  Anwendungsspezifische Sprache zur Verarbeitung von Metadaten  Modellierung als „Pipeline“  Konfiguration in XML  Framework  Technische Umsetzung der einzelnen Komponenten in Java  Erweiterbar durch eigene Programme
  • 18. 16.03.2016 LIS Workshop, Leipzig 18 Metafacture  Besonderheiten  Skalierbar für große Datenmengen  Sehr komplexe Transformationen umsetzbar  Eindrücke  Stark fokussiert auf die Transformation von MARC21 Dateien  Dokumentation sehr knapp  Hoher Grundaufwand: auch einfache Aufgaben sind vergleichsweise komplex in der Umsetzung
  • 19. 16.03.2016 LIS Workshop, Leipzig 19 Catmandu  Entwicklung der Universitäten Bielefeld, Lund und Ghent  Sammlung von Werkzeugen zur Datenverarbeitung in Bibliotheken  Einlesen von Metadaten aus unterschiedlichen Quellen  Speichern von Metadaten  Suchen in Metadaten  Export und Umwandlung in unterschiedliche Formate  Sprache „Fix“  Beschreibung von Transformationen und Bearbeitung von Metadaten  Framework in Perl zur Entwicklung eigener Erweiterungen
  • 20. 16.03.2016 LIS Workshop, Leipzig 20 Catmandu  Besonderheiten  Speicherung der Daten in MongoDB möglich  Vorbereitung der Daten für ElasticSearch integriert  Spracherweiterungen in Perl über CPAN verfügbar  Eindrücke  Sehr umfangreiche Funktionen  Viele unterstütze Datenformate  Viele unterstützte Schnittstellen  Dokumentation mit vielen praktischen Beispielen  Nahezu alle Szenarien direkt umsetzbar
  • 21. 16.03.2016 LIS Workshop, Leipzig 21 MarcXimiL  Entwicklung an der Universität Genf  Sammlung von Algorithmen für den Vergleich von bibliografischen Datensätzen  Unterschiedliche Ähnlichkeitsfunktionen  Import von Daten aus Dateien oder über OAI-PMH  MarcXML  Programme für konkrete Anwendungen  Dublettenerkennung  Vorschlagssysteme  Erweiterungen in Python möglich
  • 22. 16.03.2016 LIS Workshop, Leipzig 22 MarcXimiL  Eindrücke  Ähnlichkeitsfunktionen sind Alleinstellungsmerkmal gegenüber den anderen Toolsets  Dokumentation ausführlich  Aktive Weiterentwicklung fraglich
  • 23. 16.03.2016 LIS Workshop, Leipzig 23 Kategorie 3: Web-basierte Software  Keine Kommandozeile oder lokale GUI  Zugang und Nutzung über Browser  Funktionsumfang von einfach bis umfassend  Zentrale Installation vorgesehen → Angebot als Software-as-a-service  (lokale Installation weiter möglich)
  • 24. 16.03.2016 LIS Workshop, Leipzig 24 Openrefine  Entwicklung von Google  Web-Anwendung zur Arbeit mit tabellarischen Daten  Datenbereinigung  Facettierung und Clustering von Werten  Batch-Änderungen  Konvertierung  Listen und Tabellenformate, XML, JSON  Auflösen von Nesting  Anreicherung  Erweitern von Tabellen durch externe Daten  Reconciliation  Matching von Daten auf externe Vorgaben
  • 25. 16.03.2016 LIS Workshop, Leipzig 25 Openrefine
  • 26. 16.03.2016 LIS Workshop, Leipzig 26 Openrefine
  • 27. 16.03.2016 LIS Workshop, Leipzig 27 Openrefine
  • 28. 16.03.2016 LIS Workshop, Leipzig 28 Openrefine  Eindrücke  Allgemeines Tool zur Datenanalyse und Datenverarbeitung  Sehr mächtig, intuitives Interface, überraschend schnell  Zahlreiche Tutorials und Anleitungen  Viele Erweiterungen , z.B.  Export als Linked Open Data  Nutzung bibliothekarischer Normdaten  Anwendung in Kombination mit anderem Toolset  Laden und Konvertierung: Toolset  Bereinigung und Anreicherung: Openrefine  Export: Openrefine/Toolset
  • 29. 16.03.2016 LIS Workshop, Leipzig 29 d:swarm  Datenintegrations- und -modellierungswerkzeug  Flexibles (elastisches), graphenbasiertes Datenmodell  Überführung von Daten aus heterogenen Datenquellen  Middleware-Lösung  Bündelung aller Datenverarbeitungsprozesse  zwischen Datenmanagementsystemen und Webanwendungen (z.B. Discovery-System)  Unterstützt u.a.  Analysen zur Verbesserung der Datenqualität  Deduplizierung und Zusammenführen von Titeldaten  FRBRisierung bibliografischer Daten
  • 30. 16.03.2016 LIS Workshop, Leipzig 30 d:swarm
  • 31. 16.03.2016 LIS Workshop, Leipzig 31 d:swarm  Besonderheiten  Entworfen als Software-as-a-service Lösung  Extrem flexible Architektur und Datenbank  Funktionen zum gemeinsamen Arbeiten im Kern integriert  Produktiver Einsatz an der SLUB Dresden  Streaming Variante für große Datenmengen  Eindrücke  Frei zugänglicher Prototyp im alpha-Stadium  Schwerpunkt auf Mapping und Transformation  Gute Dokumentation im Wiki
  • 32. 16.03.2016 LIS Workshop, Leipzig 32 Ausblick
  • 33. 16.03.2016 LIS Workshop, Leipzig 33 Projekt: Datenaggregation  Idee  Sammeln von Open-Data Metadatenpaketen  Dokumentierte Ablage in lokalem Speicherdienst  Bereitstellung in mehreren Datenformaten  Erhoffter Nutzen  Zentrale Anlaufstelle für Datennutzer  Vermeidung von Doppelarbeit  Einfache Nachnutzung, auch in der Lehre
  • 34. 16.03.2016 LIS Workshop, Leipzig 34 Projekt: Toolsets  Idee  Bereitstellung von Werkzeugen und Programme zur Metdatenverarbeitung ohne aufwändige Installation  Vorbereitete Server-Einrichtung für virtuelle Server  Wenn möglich: Installation mit web-basiertem Zugang  Erhoffter Nutzen  Niederschwelliger Zugang zu den Werkzeugen  Einfache Evaluation der Möglichkeiten  Nutzung in der Lehre
  • 35. 16.03.2016 LIS Workshop, Leipzig 35 Fazit?  Viele Projekte  Unterschiedliche Ansätze und Schwerpunkte  Sehr unterschiedliche Entwicklungsaktivität  Software teilweise sehr schwer zu finden  Viele Miniprojekte ohne großen Nutzwert  Dennoch: Viele Tools nur „intern“ und (noch?) nicht veröffentlicht
  • 36. 16.03.2016 LIS Workshop, Leipzig 36 Fazit?  Nutzung  Dokumentation nicht für Einsteiger geeignet  Teilweise sehr spezielle Systemvoraussetzungen  Anwendung teilweise frustrierend  Realistische Workflows nur mit Kombinationen von unterschiedlichen Programmen umsetzbar
  • 37. 16.03.2016 LIS Workshop, Leipzig 37 Fazit?  Konkrete Anwendung in der Lehre WS 2016  Modul „Metadatenmanagement“  Datenquellen  Datenformate  Schnittstellen  Typische Workflows  Software  Librecat als allgemeines Toolset  Datenaggregation  Indexierung und Filterung  ETL  Openrefine zur Analyse und Datenbereinigung
  • 38. 16.03.2016 LIS Workshop, Leipzig 38 Fragen ?
  • 39. 16.03.2016 LIS Workshop, Leipzig 39 Hinweis  DINI KIM Workshop 2016  UB Mannheim, 04. und 05. April 2016  Vorträge  Ganztägige Workshops  Catmandu  Openrefine  Link: https://dini.de/veranstaltungen/workshops/kim2016/
  • 40. 16.03.2016 LIS Workshop, Leipzig 40 Danke für Ihre Aufmerksamkeit! Folien online unter http://www.slideshare.net/MagnusPfeffer/ Dieses Werk bzw. Inhalt steht unter einer Creative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.
  • 41. 16.03.2016 LIS Workshop, Leipzig 41 Links zu Software  MABLE+:https://www.kobv.de/entwicklung/software/mable/  MARCEL:https://www.kobv.de/entwicklung/software/marcel/  DNB Tools: https://sourceforge.net/projects/dnb-conv-tools/  Marctools: https://github.com/ubleipzig/marctools  Metafacture: https://github.com/culturegraph/metafacture-core  Catmandu: http://librecat.org/Catmandu/  MarcXimiL: http://marcximil.sourceforge.net/  Openrefine: http://openrefine.org/
  • 42. 16.03.2016 LIS Workshop, Leipzig 42 Weiterführende Links  OCLC: MARC specialized tools. Website. https://www.loc.gov/marc/marctools.html  Code4Lib Wiki: Working with MARC. Website.http://wiki.code4lib.org/Working_with_MARC  Margret Heller: A Librarian’s Guide to OpenRefine. ACRL Tech Connect Blog. Website. http://acrl.ala.org/techconnect/post/a-librarians-guide-to- openrefine