FHP:-)
FHP:-)
Fachbereich für Informationswissenschaften der Fachhochschule
Potsdam
1
Mikroformate für Bibliographische Daten
Vergleich verschiedener Konzepte zur semantischen
Annotation
Carsten M. Schulze
06.11.08
6. November 2008
Carsten Schulze
FHP:-)
FHP:-)
Übersicht
2
Warum brauchen wir Mikroformate für bibliographische
Daten?
– Der Kontext von bibliographischen Daten im Web
– Produktion und Nachnutzung von bibliographischen Daten
für die Wissenschaft
– Probleme der Nachnutzung von bibliographischen Daten
– Lösungsansätze
06.11.08
Mikroformate für bibliographische Daten
Carsten Schulze
– COinS, unAPI, Citation Microformat, (eRDF) und RDFa
FHP:-)
FHP:-)
Bibliographische Daten
3
Zur Identifikation und zur formalen Beschreibung einer Schrift
wichtige Daten in standardisierter Reihenfolge
[DIN 1505, 1]
bibliographische Angaben in digitaler Form
– Formalerschließung. NICHT Sacherschließung
keine definierte Präsentationsform
– abhängig von Wissensgemeinde
06.11.08
keine definierten Bestandteile
– abhängig von Kontext
Carsten Schulze
Überbegriff: Metadaten
– formal, inhaltlich, Nutzung, Rechte
FHP:-)
FHP:-)
Literaturverwaltung: Import
8
Literaturverwaltung
bibliographische Daten im Web
Copy&Paste
06.11.08
Carsten Schulze
FHP:-)
FHP:-)
Literaturverwaltung: Import
9
Literaturverwaltung
bibliographische Daten im Web
bibliographische Daten als
textbasiertes Austauschformat
Importfilter + Copy&Paste
06.11.08
Carsten Schulze
FHP:-)
FHP:-)
Literaturverwaltung: Import
10
Literaturverwaltung
bibliographische Daten im Web
bibliographische Daten als
textbasiertes Austauschformat
bibliographische Daten
06.11.08
als standardisiertes
Übergabeprotokoll
Effizienz durch direkten Import
Carsten Schulze
FHP:-)
FHP:-)
Literaturverwaltung: Import
11
Literaturverwaltung
bibliographische Daten im Web
Copy&Paste
Interoperabilität ??? bibliographische Daten als
textbasiertes Austauschformat
Importfilter + Copy&Paste
bibliographische Daten
06.11.08
als standardisiertes
Übergabeprotokoll
Effizienz durch direkten Import
Carsten Schulze
FHP:-)
FHP:-)
Metadateneinbindung in HTML
12
Eine Möglichkeit:
– Einbindung im <head>-Bereich von HTML-Seiten
– bekannt durch Dublin Core
Dublin Core Metadata Initiative (DCMI)
– Dublin Core Metadata Element Set (DCMES)
– Dublin Core Metadata Terms (DCTERMS)
06.11.08
– Beschreibung von Webressourcen
andere Vokabulare:
Carsten Schulze
– FOAF , address, Time etc.
FHP:-)
FHP:-)
Metadateneinbindung in HTML: Nachteile
Autor, Titel, Datum etc. 13
Metadateneinbindung im
<head>-Bereich
Web Dokument
Inhalt 1
Inhalt 2
Inhalt 3
Inhalt 4
06.11.08
...
Carsten Schulze
Carsten Schulze 06.11.08
Beispiel I
14
FHP:-)
FHP:-)
FHP:-)
FHP:-)
Semantic Web: Probleme
20
Nicht zur Rezeption durch Menschen geeignet
„schwer zu verstehende“ Spezifikationen
bisher wenig Anwendungen
Nutzen schwer zu vermitteln
Henne-Ei-Problem
06.11.08
Carsten Schulze
FHP:-)
FHP:-)
Mikroformate
21
„Semantic Web von Unten“
entstanden im Web 2.0-Kontext
– Microformats.org
– Kontakt-, Kalender-, Lizenzinformationen etc.
Datenformatierungen: zeichnen Daten dort semantisch aus, wo
sie rezipiert werden: in HTML
– humans first machines second...
06.11.08
nutzen die HTML-Infrastruktur
Carsten Schulze
– HTML-Attribut @class etc.
Semantik stützt sich auf Konventionen
FHP:-)
FHP:-)
22
MICROFORMTAS
„Designed for humans first and machines second,
microformats are a set of
simple, open
data formats
built upon existing and widely adopted standards.“
06.11.08
microformats.org
Carsten Schulze
Carsten Schulze 06.11.08
Beispiel II
23
FHP:-)
FHP:-)
FHP:-)
FHP:-)
Mikroformate: Vorteile
25
eher zugänglich als SW-Technologien
The Web
– humans fist...
– einfache Syntax
keine Redundanzen
– abhängig vom MF-Konzept
Einbindung ins SW (durch GRDDL ...)
direkter Nutzen / Problemlösung
06.11.08
z. T. schon Anwendungen vorhanden
Carsten Schulze
Interaktion mit dem Browser
– Screen Scraping
FHP:-)
FHP:-)
OpenURL COinS
29
Context Object in SPAN (COinS)
OpenURL Standard Z39.88
– Key Encoded Value (KEV) ContextObject
●
Key[1]=Value[1]&Key[2]=Value[2]&Key[n]=Value[n]
COinS Syntax:
06.11.08
<span class=“Z3988“ title=“OpenURL-KEV-ContextObject“>
Carsten Schulze
Carsten Schulze 06.11.08
Beispiel III
30
FHP:-)
FHP:-)
FHP:-)
FHP:-)
COinS: Diskussion
31
Vorteile:
– einfache Syntax, hohe Softwareunterstützung, weite
Verbreitung
Nachteile:
– begrenzt durch OpenURL-Standard (skaliert nicht)
– keine Relationen, redundante Daten
06.11.08
Carsten Schulze
Carsten Schulze 06.11.08
unAPI
32
FHP:-)
FHP:-)
FHP:-)
FHP:-)
unAPI
33
Aussprache beliebig
besteht aus drei Teilen:
– Mikroformat / Konvention zur Identifikation
●
<abbr class=“unapi-id“ title=“urn:isbn:1590598148“>
– <link>-Tag automatische Erkennung der unAPI-Server
●
<link rel=“unapi-server“ type=“application/xml“ title=“unAPI“
href=“unapi.php“ />
06.11.08
– unAPI-Server bestehend aus drei HTTP-Funktionen
Carsten Schulze
+ strukturierte
Datenbasis
FHP:-)
FHP:-)
unAPI: Content Negotiation
34
Anwendung unAPI-Server
1. Anfrage: http://example.com/unapi.php
2. Antwort: Liste von Formaten in XML
3. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148
4. Antwort: Liste von Formaten für die übergebene ID in XML
06.11.08
5. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148&format=mods
Carsten Schulze
6. Antwort: Datensatz in dem gewünschten Format
Carsten Schulze 06.11.08
Beispiel IV
35
FHP:-)
FHP:-)
FHP:-)
FHP:-)
unAPI: Diskussion
36
Vorteile:
– frei definierbare Datenformate
– keine Redundanzen
– Transport digitaler Objekte
Nachteile:
– erhöhter Programmieraufwand
06.11.08
– strukturierte Datenbasis erforderlich
– kein bidirektionaler Transport
Carsten Schulze
FHP:-)
FHP:-)
Citation Microformat
38
nutzt bereits bestehende Microformats (Compound)
soll definierte Probleme lösen
Definition der Bestandteile basiert auf formalen Verfahren
– real world examples
●
Bestandteile bibliographischer Beschreibung
●
Kategorien bibliographischer Formate
06.11.08
es existieren mittlerweile zwei Markup-Vorschläge
– hCite und h3988
Carsten Schulze
FHP:-)
FHP:-)
hCite: Syntax
39
<div class=“hcite“>
<div class=“monograph“> / <div class=“type“>Monograph
<span class=\"author firstauthor\">
<span class=\"family-name\">Allsopp</span>,
<span class=\"given-name\">John</span>
</span>
(<span class=\"year\">2006</span>):
<span class=\"title\">Microformats: empowering your Markup for
Web 2.0</span>
</div>
06.11.08
</div>
Carsten Schulze
Darstellung:
Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0
FHP:-)
FHP:-)
h3988: Syntax
40
<div class=“h3988 mfo“>
<span class=\"au vcard\">
<span class=\"fn n\">
<span class=\"family-name\">Allsopp</span>,
<span class=\"given-name\">John</span>
</span>
(<span class=\"date\">2006</span>):
<span class=\"btitle\">Microformats: empowering your Markup for Web
2.0</span>
</div>
06.11.08
Carsten Schulze
Darstellung:
Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0
FHP:-)
FHP:-)
Citation Microformat: Diskussion
41
Vorteile:
– einfache Syntax
– keine Redundanzen
– hohe Softwareunterstützung (ist zu erwarten)
Nachteile:
– Anpassungen nur durch quasidemokratischen Prozess
(skaliert nicht)
06.11.08
– wenig oder keine Relationen
Carsten Schulze
Carsten Schulze 06.11.08
RDFa
42
FHP:-)
FHP:-)
FHP:-)
FHP:-)
eRDF & RDFa
43
ähnliche Ansätze: Einbettung von RDF in HTML
unterschiedliche Ausdrucksfähigkeit
Interpretation durch
eRDF-Parser
(X)HTML + eRDF XHTML + RDFa
RDF-Teilmenge
RDF-Teilmenge
06.11.08
RDF
Carsten Schulze
Interpretation durch
RDFa-Parser
FHP:-)
FHP:-)
RDFa
44
erweitert XHTML mit neuen Attribute:
– @about, @property, @resource, @datatype, @typeof
Nutzung von Compact URIs (CURIEs)
xmlns:bibo=“http://purl.org/ontology/bibo/“
<span typeof=“bibo:Article“>
--> http://purl.org/ontology/bibo/Article
06.11.08
Carsten Schulze
Carsten Schulze 06.11.08
Beispiel V
45
FHP:-)
FHP:-)
FHP:-)
FHP:-)
RDFa: Diskussion
46
Vorteile RDFa:
– Nutzung von Namespaces (skaliert)
– hohe RDF-Aussagekraft
– Relationen
– W3C-Recommendation (14.10.2008)
– Daten sind Teil des Semantic Web
06.11.08
Nachteile RDFa
– teilweise komplizierte Verschachtelung notwendig
Carsten Schulze
– noch wenig Anwendungen
FHP:-)
FHP:-)
Zusammenfassung
47
interoperable bibliographische Daten sind für ein
effizientes wissenschaftliches Arbeiten unverzichtbar
Semantic Web Technologien sind teilweise kompliziert und
es gibt nur wenige Anwendungen
Mikroformate sind eine einfache Art Daten semantisch in
HTML auszuzeichnen
es gibt mehrere Konzepte von Mikroformaten für
06.11.08
bibliographische Daten
ein Vergleich dieser Konzepte ist nur für den konkreten
Carsten Schulze
Anwendungsfall sinnvoll
FHP:-)
FHP:-)
48
Vielen Dank für ihre
Aufmerksamkeit!
www.collidoscope.de
06.11.08
Carsten Schulze
Die elektronische Literaturverwaltung ist ein unver more
Die elektronische Literaturverwaltung ist ein unverzichtbares Instrument für das wissenschaftliche Arbeiten. Wissenschaftler nutzen verschiedene Literaturverwaltungssysteme, um die informationelle Grundlage ihrer Arbeit zu organisieren. Der manuelle oder halbautomatische Import von bibliographischen Daten aus verschiedenen Kontexten in diese Systeme ist zum Teil zeitaufwendig und fehlerbehaftet.
Verschiedene Konzepte von Mikroformatierungen bieten die Möglichkeit, bibliographische Daten in HTML semantisch zu annotieren, um somit eine maschinelle Prozessierbarkeit zu erreichen, die nicht nur den Import von bibliographischen Daten in Literaturverwaltungssysteme effizienter gestaltet.
Der Vortrag gründet sich auf die am Fachbereich für nformationswissenschaften der FH Potsdam abgelegten Diplomarbeit "Mikroformate für bibliographische Daten: Vergleich verschiedener Konzepte zur semantischen Annotation". Er soll die Notwendigkeit für Mikroformate für bibliographische Daten verdeutlichen und besteht zudem aus einer mit Beispielen angereicherten Erläuterung der einzelnen Konzepte COinS, unAPI, hCitation, eRDF und RDFa, sowie deren Vergleich. less
0 comments
Post a comment