Your SlideShare is downloading. ×

Neue Metadaten braucht das Land

632

Published on

Als Metadaten oder Metainformationen werden allgemein Daten bezeichnet, die Informationen über andere Daten enthalten. Es gibt keine allgemeingültige Unterscheidung zwischen Metadaten und …

Als Metadaten oder Metainformationen werden allgemein Daten bezeichnet, die Informationen über andere Daten enthalten. Es gibt keine allgemeingültige Unterscheidung zwischen Metadaten und "gewöhnlichen" Daten, da die Bezeichnung eine Frage des Standpunkts ist. Metadaten sind in der digitalen Welt nicht von Daten unterscheidbar. Nach einer kurzen Einführung in grundsätzlich Unterschiede zwischen der dinglichen und digitalen Welt wird kurz die Geschichte traditioneller, analoger Katalogtechniken angerissen. Anschließend werden die Besonderheiten digitaler Daten beleuchtet und kurz Techniken vorgestellt, die diese in Zukunft besser nutzen werden.
Zum Abschluss wird auf die unter den Schlagwörtern Social Networking und Web 2.0 bekannte und noch etwas ungewohnte kulturelle Technik der sozialen Vernetzung verwiesen, die sich optimal eignet, um die neuen, digitalen (Meta)-Daten in Wert zu setzen.

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
632
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Neue Metadaten braucht das Land Neue Metadaten braucht das Land Arnulf CHRISTL Veröffentlicht in: STROBL, BLASCHKE, GRIESEBNER: Angewandte Geoinformatik 2010, Beiträge zum 22. AGIT-Symposium. Salzburg ISBN: 978-3-87907-495-2. Download: http://arnulf.us/publications/neue-metadaten-braucht-das-land_paper.odt Online unter: http://arnulf.us/Neue_Metadaten_Braucht_das_Land 1.Zusammenfassung Als Metadaten oder Metainformationen werden allgemein Daten bezeichnet, die Informa- tionen über andere Daten enthalten. Es gibt keine allgemeingültige Unterscheidung zwi- schen Metadaten und "gewöhnlichen" Daten, da die Bezeichnung eine Frage des Stand- punkts ist. Metadaten sind in der digitalen Welt nicht von Daten unterscheidbar. Damit un- terscheiden sich Metadaten von Dingen, wie z.B. eine Karteikarte von einem Buch, grund- sätzlich von digitalen Daten, die beides gleichzeitig sind. Metadaten können in der digitalen Welt auch als ein Aspekt oder eine Sicht auf Daten und damit auch auf sich selbst verstan- den werden. Diese Perspektive erschließt ganz neue Möglichkeiten. Die aktuelle Metada- tenverarbeitung wie sie auch durch INSPIRE beschrieben wird, berücksichtigt die vielfälti- gen Vorteile digitaler (Meta)-Daten noch nicht. Nach einer kurzen Einführung in grundsätzlich Unterschiede zwischen der dinglichen und digitalen Welt wird kurz die Geschichte traditioneller, analoger Katalogtechniken angeris- sen. Anschließend werden die Besonderheiten digitaler Daten beleuchtet und kurz Techni- ken vorgestellt, die diese in Zukunft besser nutzen werden. Zum Abschluss wird auf die unter den Schlagwörtern Social Networking und Web 2.0 be- kannte und noch etwas ungewohnte kulturelle Technik der sozialen Vernetzung verwiesen, die sich optimal eignet, um die neuen, digitalen (Meta)-Daten in Wert zu setzen. 2.Kataloge Kataloge ermöglichen es, Gegenstände systematisch in knapper Form zu beschreiben und zu sortieren. Dafür wird zunächst ein festes Schema erstellt mit dem die Gegenstände be- schrieben werden. Eine Systematik ordnet diese Beschreibungen in einer festen Struktur an. 2.1.Die Systematik von Bibliotheken Über Jahrhunderte wurden Konzepte und Techniken für die Verwaltung von Metadaten in Katalogen entwickelt. Vor allem das Bibliothekswesen hat sehr früh angefangen, Metada- ten zu erheben und Kataloge zu entwickeln, um Bücher zu verwalten und auffindbar zu ma-
  • 2. Arnulf Christl chen. Dabei ist eine immer weiter ausgefeilte aber niemals vollständige Klassifikation ent- standen, die über Ordnungsschemata sortiert wurde (Weinberger, 2008). Das am weitesten verbreitete Ordnungsschema ist die alphabetische Sortierung. Sie ist opak (undurchsichtig) weil das Alphabet kein inhaltlich-semantisches Ordnungskriterium ist, sondern ein selbstreferentielles. Die alphabetische Sortierung der Autorennamen in einer Literaturliste sagt nichts über den Inhalt, Relevanz, Qualität oder das Alter der Publikation aus. Um eine eindeutig benannte Information zu finden ist diese Art von Katalog durchaus geeignet, aber nicht um darin zu suchen, im Sinn von "stöbern". Festzuhalten bleibt, dass Kataloge primär dazu geeignet sind Dinge zu finden, die bereits bekannt sind. 2.2.Der Katalog der Industrie – die Registratur In einer traditionellen, kleinen Schmiede oder Tischlerei konnten alle Gegenstände, die für die Produktion benötigt wurden, in überschaubaren (also visuell erfassbaren) Lagern vorge- halten werden. Mit der Industrialisierung wurden für die Produktion Teilelager erforderlich, und mit ihnen neue Anforderungen an die Verwaltung der Lager. Eine wachsende Anzahl unterschiedlicher Gegenstände musste sortiert und auffindbar gemacht werden. Hierfür wurde die traditionelle Katalogtechnik der Bibliotheken genutzt, angepasst und erweitert. Des weiteren wurde es erforderlich, unüberschaubare Mengen gleichartiger Dinge zu la- gern. Diese Bestände mussten erfasst und die Mengen kontrolliert werden. Hierfür wurden Registraturen entwickelt, die optimal geeignet sind bekannte Inventare zu beschreiben und zu verwalten. Eine weitere Neuerungen war die stringente Arbeitsteilung in Einkauf, Produktion und Ver- kauf. Die Trennung von Anbieter und Nutzer pflanzte sich in die Organisationsstruktur fort. Die Registratur konnte unterschiedliche Nutzer bedienen, die ihren Bedarf nicht mehr di- rekt an den Anbieter kommunizieren mussten. Wird ein Teil aus dem Lager genommen, können Schwellenwerte überprüft und Lagerbestände aufgefüllt werden ohne explizit kom- munizieren zu müssen. 3.Materielles und nicht-Materielles Es ist für das weitere Verständnis von Ordnung und Sortierung wichtig, grundsätzliche Überlegungen zur materiellen und nicht-materiellen Welt anzustellen. Nicht-materielle "Dinge" wie digitale Daten und Informationen zeichnen sich durch eine Reihe von Eigen- schaften aus, die sie grundlegend von der materiellen Welt unterscheiden. Dazu zählen vor allem Vervielfältigung (Kopieren), Ordnung (Sortieren) und Suchen (Finden). 3.1.Kopieren
  • 3. Neue Metadaten braucht das Land Die Erstellung einer identischen Kopie eines Gegenstands ist in der materiellen Welt un- möglich. Kein Gegenstand ist niemals identisch, egal wie viel Sorgfalt aufgewendet wird. Die Herstellung jeder "Kopie" eines Gegenstands benötigt mindestens genau so viel Ener- gie und Materie wie das Original. Mit Information und digitalen Daten verhält es sich grundsätzlich anders. Das Rohmaterial einer Information oder eines gedanklichen Zusammenhangs ist die Idee und deren Konkre- tisierung in einer Beschreibung. Ist die Information erst einmal erstellt (die Schaffung eines Werkes) und digital formatiert, kann sie beliebig oft vervielfältigt werden. Gleiches gilt für räumliche Beobachtungen und Daten. Sobald das Satellitenbild oder die Vermessung eines Grundstücks als Information erhoben wurde und digital bereit steht, kann sie beliebig oft dupliziert werden, ohne dass die Aufnahme selbst noch einmal erfolgen müsste. Der Vorgang des massenhaften Kopierens hat sich in der Kulturhistorie erst spät entwi- ckelt. Frühe Formen des Kopierens, z.B. die Erstellung handschriftlicher Bücher war mit außerordentlich viel Handarbeit und Zeit verbunden und unterschieden sich deshalb noch nicht sehr von der Herstellung des Ausgangsprodukts selbst. Mit dem Aufkommen der Drucktechnik wurde eine frühe Form der Vervielfältigung möglich. Der Fotokopierer stellt eine weitere Vereinfachung des Prozesses dar, die allerdings immer noch mit einem Quali- tätsverlust einher ging. Heute ist das exakte Kopieren digitaler Daten mit minimalen Grenz- kosten verbunden was z.B. auch das Phänomen der Open Source Bewegung ermöglichte und neue Fragen zu Eigentum aufwirft (PHELPS, 2010). Gegenstände bleiben weiterhin nicht in dieser Form kopierbar (außer in Science Fiction Welten wie z.B. dem Star Trek Univer- sums in dem Replikatoren die Erzeugung von Materie ermöglichen (WIKIPEDIA, Juli 2010)). 3.2.Anordnen, suchen und sortieren Gegenstände lassen sich anordnen. Dabei gibt es zwei deutlich unterscheidbare Möglich- keiten. Sie können entweder gleichberechtigt nebeneinander oder sich gegenseitig verde- ckend hintereinander angeordnet werden. Werden zwei Dinge nebeneinander (oder überein- ander) angeordnet sind sie gleichzeitig sichtbar. Stehen sie hintereinander, verdeckt das eine das andere. Diese Problematik optimal zu lösen ist z.B. die Aufgabe von Auslagen und Regalen in Verkaufsräumen und Lagern (WEINBERGER, 2008). Die Suche (der Einfachheit halber wird hier nur die visuelle Suche berücksichtigt) nach ei- nem Gegenstand erfolgt über das Erkennen. Wird ein Objekt von dem davor stehenden ver- deckt, ist es ungleich schwieriger zu suchen und durch Erkennen zu finden. Die Anordnung von Gegenständen kann auch nach einer bestimmten Sortierung erfolgen. Dabei muss das Schema der Sortierung, die Ordnung, vorher festgelegt werden. In der Le- bensmittelabteilung stehen die Nudeln deshalb neben den Soßen. Im Heimwerkerbereich die Schrauben neben den Nägeln (Kategorie:Befestigungsmittel) und der Hammer neben dem Schraubendreher (Kategorie:Werkzeug). Der Hammer kann nicht gleichzeitig bei den Nägeln angeordnet sein. In der digitalen, nicht-materiellen Welt ist das anders. Digital bereitgestellte Informationen können mit extrem wenig Aufwand umsortiert und anders angeordnet werden. Sie können beliebig oft dupliziert und mehrfach angeordnet werden. Die nicht-materiellen Metadaten
  • 4. Arnulf Christl eines Hammers können z.B. als Verweis oder als Kopie sowohl neben den Nägeln als auch bei den Werkzeugen gesetzt werden. Bei den Nägeln ist nicht nur ein Verweis auf den Hammer hinterlegt, sondern es kann zusätzlich ein Verweis auf Zangen gesetzt werden. Bei den Zangen werden aber auch Rohrzangen einsortiert, obwohl die nichts mit Nägeln zu tun haben. Und Rohrzangen haben einen Verweis zu Waschbecken, nicht aber zu Hämmern. Alle Bezüge können außerdem dynamisch, im Augenblick der Anfrage neu zusammenge- stellt werden, wie man es auch schon aus großen Verkaufsplattformen wie Amazon kennt. Die Ordnung nicht-materieller Gegenstände, die Sortierung und das Suchen unterliegen nicht den Beschränkungen von Raum und Materie und werden dadurch unendlich komplex. 3.3.Von der analogen in die digitale Welt Mit dem Aufkommen der technischen Datenverarbeitung wurden auch Bibliotheken und Registraturen digital abgebildet und profitierten jetzt von Computern, die große Menge von Daten schnell verarbeiten konnten. Software kann jederzeit berechnen, ob die Produktion ausreichend mit Teilen versorgt ist. Preislisten können mit dem Rohmarktpreis verknüpft werden, Grenzkosten können ermittelt werden und so weiter. Der Übergang von der analogen in die digitale Welt ist dabei mehrstufig. Zunächst wurden Karteikarten (Metadaten) digital nachgebildet. Dadurch wurde der gesamte Katalog kopier- bar. Als nächstes wurde die Sortierung erweitert und das bisher alles beherrschende Alpha- bet wurde durch andere Kriterien ergänzt und kombiniert. Ein ähnlicher Prozess konnte bei den ersten Formularservern beobachtet werden. Zunächst wurde das Papierformular lediglich als Datei zum Herunterladen bereitgestellt. In einem weiteren Schritt wurden aus den Papierformularen digitale HTML-Eingabemasken und die Inhalte in zentralen Datenbanken gespeichert. Damit wurde die Information selbst digital. Erst dieser Schritt ermöglichte unbegrenzte Sortier- und Verknüpfbarkeit. 4.Karten und digitale Geodaten Karten wie ein Bebauungsplan (B-Plan) können wie Bücher durch Metadaten beschrieben werden. Dabei wird für ein Kartenblatt (der B-Plan) eine Karteikarte angelegt, die ihn be- schreibt und über eine eindeutig Nummer auffindbar macht. Die Nummer und der Umring des B-Plans können auf einer Übersichtskarte vermerkt werden, die so selbst ein Teil der Metadaten wird. Dadurch kann die Suche auch räumliche Ordnungskriterien beinhalten. Die erste Phase der Überführung in die digitale Welt beschränkt sich auf den Scan, also die Erstellung einer analogen Kopie des B-Plans, einer Pixelgraphik (STADTVERWALTUNG LANDAU - STADTBAUAMT 2010) und eines separat dazu existierenden Katalogeintrags (GEOPORTAL RLP, 2010). Die Semantik des Planes ist noch nicht maschinenlesbar, da ihr keine beschrei- bende Struktur zugrunde liegt. Erst wenn die Information selbst digital ist, greifen alle Vor- teile digitaler Datenstrukturen.
  • 5. Neue Metadaten braucht das Land Ohne einen Erläuterungstext (STADT LANDAU IN DER PFALZ 2010), der ebenfalls digital erfasst werden muss, ist der B-Plan semantisch nicht vollständig. Die Syntax eines einfachen Tex- tes ist derzeit digital ungleich einfacher zu erfassen als die Inhalte einer Karte, deshalb kön- nen Texte auch über ihren semantischen Zusammenhang gesucht werden. Der Text kann indexiert und sortiert werden und wird über Suchmaschinen auffindbar. In einem nächsten Schritt müssen auch die Rohdaten der B-Plan Karte digital bereitgestellt werden, wodurch sie ebenfalls indexiert und mit Verweisen (Links) ausgestattet werden können. 4.1.Akteure Ein Problem digitaler Geodaten und ihrer Metadaten liegt in der unterschiedlichen Heran- gehensweise und Motivation der Hauptakteure "Anbieter" und "Nutzer". Typischerweise ordnet der Anbieter seine Produkte (oder Daten) nach einem Schema, das für die eigenen Geschäftsprozesse optimiert ist. Um Informationen finden zu können, müssen sich die Nut- zer zunächst diese ihnen fremde Schemata, die aus völlig anderen Geschäftsprozessen stammen, zu Eigen machen. Des weiteren müssen sie die "richtigen" Parameter als Suchkri- terium eingeben. Der Nutzer kann nicht mit den eigenen Ordnungskriterium und Klassifika- tion suchen, was die Möglichkeiten erheblich einschränkt. Zusätzliche Metadaten werden sowohl von Anbietern als auch Nutzern häufig als Beiwerk betrachtet, denn man kennt ja seine eigenen Daten. Wozu also noch mal beschreiben? Die Mehrheit der Software-Anwendungen ist derzeit noch nicht in der Lage das durch INSPIRE verordnete Format (OPEN GEOSPATIAL FOUNDATION, 2004) automatisch zu erzeugen, obwohl die meisten dafür erforderlichen Informationen bereits in den Daten enthalten sind. Die Er- stellung solcher Metadaten ist also ein Mehraufwand, der den Datenanbietern keinen er- kennbaren Nutzen bringt. INSPIRE macht Metadaten zu einem notwendigen Übel mit gesetzlicher Verpflichtung. Wer Geodaten erstellt, pflegt oder einfach nur hat, wird gesetzlich verpflichtet sie in einem Standard-konformen Format zu beschreiben. Das Ergebnis ist ein neuer, separater Datenbe- stand, der meist weder in die aktuelle Softwarelandschaft noch in die Geschäftsprozesse in- tegriert ist. Es wird erwartet, dass sich sowohl die Technologie-Anbieter als auch die Ge- schäftsprozesse der Anwender nach diesen neuen Formaten und Vorgaben richten. Durch INSPIRE in seiner jetzigen Form ist also keine grundlegende Verbesserung der Informati- onslage zu erwarten. Die digitalen Daten inhärenten Eigenschaften beliebiger Ordnung, Verknüpfung und Sor- tierbarkeit kommen nicht zum Tragen. Die dafür erforderliche Technik ist bereits seit lan- gem verfügbar, hat sich aber in der räumlichen Datenverarbeitung mangels Bekanntheit noch nicht durchgesetzt. 5.Technik Das Hypertext System des Internet und die Auszeichnungssprache XML stellen die Tech- nik bereit, um digitale Daten im globalen Netz (Internet) beliebig zu indexieren, anzuord-
  • 6. Arnulf Christl nen und in der Folge zu durchsuchen. Die am weitesten verbreitete und zuverlässigste tech- nische Ausprägung einer Verbindung im globalen Netz ist der Uniform Resource Locator (URL). Es gibt technische Lösungen, um die Dynamik von URL abzubilden, z.B. wenn eine Seite eine neue Adresse bekommt. Die HTTP-Statuscodes der 3er Serie (Umleitung) beinhalten in der Rückgabe den neuen Ort der Seite (CHRISTL, 2010). Unabhängig davon ist bei der Erstellung von URL darauf zu achten, dass sie im weitesten Sinn "sinnvoll" und langlebig sind. Eine URL sollte sich ähnlich verhalten wie eine Adresse, die sich aus Land, Ort, Straße und Hausnummer und ggf. Postleitzahl zusammensetzt. So wie Länder, Orte und Straßen nicht im Raum "herumhüpfen" sollten auch URL eine hohe Persistenz haben. Im oben beschrieben Fall wird der B-Plan digital als Dienst bereitgestellt. In einem nächs- ten Schritt sollte der B-Plan jedoch nicht nur als Pixelgraphik bereitgestellt werden, wie es der OGC WMS Standard erlaubt, sondern vollständig inklusive Geometrie und Alphanu- merik, wie in den OGC Standards WFS und SLD spezifiziert. Der WFS liefert die Rohda- ten der Karte die der OGC WMS liefert. Die vom WFS gelieferten Daten sind maschinen- lesbar (in XML, GML und optional RDF) und eröffnen damit die Möglichkeit sie automati- siert zu indizieren. Metainformation und die Information selbst sind jetzt vollständig ver- mischt und ergänzen sich. Die Indexierung erlaubt die beliebige Sortierung und Klassifika- tion der Information und gestattet es Auszüge zu erstellen und die Information mit weiteren Quellen zu verbinden. Jedes Objekt eines B-Plans wird so über eine eindeutige Web-Adres- se (URL) erreichbar und kann mit beliebigen weiteren digitalen Daten verknüpft werden. Diese Technik wird derzeit zunehmend unter dem Begriff Linked Data (http://linkedda- ta.org/) bekannt. 6.Ein Ausblick auf die "Soziale Vernetzung" Zusammengefasst kann festgestellt werden, dass Metadaten nicht separat von den digitalen Datenbeständen gepflegt werden sollten, die sie beschreiben. Ihr volles Potential können sie nur entfalten, wenn sie direkt aus den Daten selbst extrahiert werden, im Idealfall zur Lauf- zeit. Hierbei gibt es zwei Möglichkeiten: Entweder werden die Metadaten von der Software automatisch abgeleitet und bereitgestellt, oder spezielle Indexierungssoftware analysiert und durchsucht selbständig Rohdaten die in einem offene Standard wie GML, RDF, Atom oder RSS hinterlegt werden. Zusätzliche Informationen, die nicht in den Daten selbst enthalten sind, also auch nicht au- tomatisch extrahiert werden können (Autor, Qualität, Aktualisierungsrhytmus, etc.), müs- sen anderweitig dauerhaft an die Ursprungsdaten gekoppelt werden. Hier kommt wieder die flexible technische Lösung der URL zum Einsatz. Je mehr Daten in dieser Weise über das Internet recherchierbar werden, um so mehr An- wendergemeinschaften können entstehen. Diese sozialen Netzwerke erstellen eigene Klas- sifikationen und Beschreibungen (Ontologien) und vernetzen sie mit Geodaten. Dabei ist es unerheblich, die Metadaten in einem exakt gleichen Schema vorzuhalten, wie es derzeit von INSPIRE gefordert wird. Es ist viel wichtiger, dass möglichst viel Information ausgezeich- net verlinkt, erreichbar und zugreifbar ist. Für den ersten Teil zeichnen die Anbieter verant- wortlich, für den zweiten die Nutzer selbst. Nur so wird ein Angebot entstehen das den
  • 7. Neue Metadaten braucht das Land Nutzern bietet was sie brauchen, ohne die Anbieter mit zusätzlichen Aufgaben zu belasten, die ihnen keinen Mehrwert bei der täglichen Arbeit bieten. 7.Literatur CHRISTL, ARNULF, (2010) Neue Wege für Metadaten. In: FOSSGIS. Osnabrück. S.133-138. GEOPORTAL RLP (2010), GeoPortal Rheinland Pfalz – Metadaten, Web: http://www.geopor- tal.rlp.de/mapbender/x_geoportal/mod_layerMetadata.php?id=24328 OGC, (2004): CSW http://portal.opengeospatial.org/files/?artifact_id=6495 (20.04.2010) PHELPS, NIK, Copying is not Theft; Web: http://bit.ly/aLUfSc (20.04.2010) STADT LANDAU IN DER PFALZ, Flächennutzungsplan 2010 und rechtsverbindliche Bebauungs- pläne der Stadt Landau in der Pfalz, Web: http://webcam.landau.de/stadtplan1/BPlaene/BPlaene.htm (20.04.2010) WEINBERGER, DAVID, (2008), Das Ende der Schublade – Die Macht der neuen digitalen Un- ordnung. München. WIKIPEDIA, (März 2010): http://en.wikipedia.org/wiki/Replicator_(Star_Trek)

×