Eine Biografie aus ADB/NDB als XML
Datenbanken vs. Markup
Prof Dr. Manfred Thaller
WS 2009 / 2010

Referent: Bilal Erkin
2




XML – (eXtensible Markup Language)
• Auszeichnungssprache zur Darstellung hierarchisch
  strukturierter Daten

• Nam...
3




Vorteile von XML
• Für Mensch und Maschine verständliche
  Informationen (semantic Web)

• Lizenzfreiheit

• Plattfo...
4




Quelle für die Auszeichnung
• Biografie aus ADB / NDB am
  Beispiel von „Curt Goetz“

• Grafik

• Ohne OCR (Texterke...
5




Ziel der Auszeichnung in XML
• Druchsuchbarer Text (geringe Dateigröße und
  suchmaschinenkonform)

• Verlinkungen i...
6




Das wichtigste Element: <person>
• Element <person> ist das Kernstück einer
  Biografie

• Alle vorkommenden Persone...
7




Beispiel des Elements <person>
• <person geschlecht="männlich„ id="Goetz_Curt_1">

• Attribute

  ▫ geschlecht = (mä...
8




Analyse der Kurzinfo
    Name, Vorname
    Beruf
•

    Geburtsdatum / -ort; Sterbadatum / -ort
•

    Konfession
•
...
9




Auszeichnung der Kurzinfo


    Name wird hervorgehoben
    Entities werden eingefügt († für Kreuz)
•

    Beruf wir...
10




Absätze im Original
• Absätze werden durch

  gekennzeichnet
  <absatz>...</absatz>
11




Analyse der Familie
    Vater
    Mutter
•

    Ehepartner(in)
•

    Kinder
•
•

• Ineinander verschachtelte
  Per...
12




Auszeichnung des Vaters
• Abschnitt innerhalb <familie>

• Personen bekommen ID

• Nähere Beschreibungen in
  <besc...
13




Auszeichnung der Mutter
• Komplexe Verschachtelung

• Struktur Nur noch im Strukturbaum
  ersichtlich
14




Auszeichnung des Ehepartners
• Eheringe als Bilddatei!

• Mehrere <ehepartner> möglich

• <scheidung> kann eingefüg...
15




Analyse der „eigentlichen“ Biografie
• Durchgehender Text

• Weitere Personen kommen vor

• In anderen Biografien: ...
16




Auszeichnung der „eigentlichen“ Biografie
• Wird von <biographie>
  umschlossen

• Personen werden ausgezeichnet
  ...
17




Analyse der Werke
    Kategorie (Werkstyp)
    Titel
•

    Erscheinungsjahr
•

    Sonstige Bemerkungen
•
•
18




Auszeichnung der Werke
• <werk> bekommt Attrribute
  typ und jahr
• Titel in <werk_name>
• Sonstiges innerhalb <wer...
19




Seitenumbrüche im Original
• Seitenumbrüche werden in der XML repräsentiert
  durch


• Übergang von einer Seite zu...
20




Analyse des Literaturnachweises
    Autor
    Titel
•

    Erscheinungsjahr
•

    Verlag oder Seitennummer
•
•

• ...
21




Auszeichnung des Literaturnachweises
Einzelne Einträge in <lit-eintrag>

• Sinvoll in autor, titel, jahr usw. zu tr...
22




Analyse des Fundstelle
    Werk
    Autor
•

    Seitenzahlen
•

    Bandnummer
•
•

• Mehrere Funstellen möglich

...
23




Auszeichnung der Fundstelle
• Am Anfang der Datei in <meta>

• <fundstelle> hat alle Angaben
  als Attribute und al...
24




Standartisierung der Struktur
• Für eine einheitliche Struktur für alle Einträge in
  der ADB / NDB:

  ▫ Mehrere v...
25
Upcoming SlideShare
Loading in...5
×

Eine Biografie aus der ADB/NDB als XML

453

Published on

Folien zum Referat "Eine Biografie aus ADB/NDB als XML" für das Hauptseminar "Datenbanken vs. Markup" bei Prof. Dr. Manfred Thaller an der Universität zu Köln im Wintersemester 2009 / 10

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
453
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Eine Biografie aus der ADB/NDB als XML

  1. 1. Eine Biografie aus ADB/NDB als XML Datenbanken vs. Markup Prof Dr. Manfred Thaller WS 2009 / 2010 Referent: Bilal Erkin
  2. 2. 2 XML – (eXtensible Markup Language) • Auszeichnungssprache zur Darstellung hierarchisch strukturierter Daten • Namen der Elemente und Attribute sind frei wählbar • Dateistruktur durch DTD oder XML Schema definierbar • Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …
  3. 3. 3 Vorteile von XML • Für Mensch und Maschine verständliche Informationen (semantic Web) • Lizenzfreiheit • Plattformunabhängigkeit • Medienneutralität ▫ Einsatz in verschiedenen Systemen ▫ Konvertierung in andere Dateiformate
  4. 4. 4 Quelle für die Auszeichnung • Biografie aus ADB / NDB am Beispiel von „Curt Goetz“ • Grafik • Ohne OCR (Texterkennung) ▫ Deshalb nicht durchsuchbar • Große Dateigröße
  5. 5. 5 Ziel der Auszeichnung in XML • Druchsuchbarer Text (geringe Dateigröße und suchmaschinenkonform) • Verlinkungen innerhalb des Textes für schnelle Navigation • (Evtl. Kopplung an die Originalgrafik bei älteren Texten) • Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM) • Semantische Struktur • Für jede Personenbiografie eine Datei
  6. 6. 6 Das wichtigste Element: <person> • Element <person> ist das Kernstück einer Biografie • Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID • Berufe und Personenbeschreibungen werden an die ID gekoppelt. • Für die inter-biografische Verbindung wichtig!
  7. 7. 7 Beispiel des Elements <person> • <person geschlecht="männlich„ id="Goetz_Curt_1"> • Attribute ▫ geschlecht = (männlich | weiblich) ▫ ID besteht aus Nachname_Vorname_Zahl  Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und Nachnamen unterscheiden • Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)
  8. 8. 8 Analyse der Kurzinfo Name, Vorname Beruf • Geburtsdatum / -ort; Sterbadatum / -ort • Konfession • • • Orthographisch: ▫ Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“) ▫ Entities (Stern, Kreuz )
  9. 9. 9 Auszeichnung der Kurzinfo Name wird hervorgehoben Entities werden eingefügt († für Kreuz) • Beruf wird an person gekoppelt durch person_ref • Beruf bekommt eine Kategorie • •
  10. 10. 10 Absätze im Original • Absätze werden durch gekennzeichnet <absatz>...</absatz>
  11. 11. 11 Analyse der Familie Vater Mutter • Ehepartner(in) • Kinder • • • Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex) • Symbole, für die es keine Entities gibt (Eheringe)
  12. 12. 12 Auszeichnung des Vaters • Abschnitt innerhalb <familie> • Personen bekommen ID • Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref
  13. 13. 13 Auszeichnung der Mutter • Komplexe Verschachtelung • Struktur Nur noch im Strukturbaum ersichtlich
  14. 14. 14 Auszeichnung des Ehepartners • Eheringe als Bilddatei! • Mehrere <ehepartner> möglich • <scheidung> kann eingefügt werden (bei Goetz nicht nötig) • Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
  15. 15. 15 Analyse der „eigentlichen“ Biografie • Durchgehender Text • Weitere Personen kommen vor • In anderen Biografien: Studium, Institut und Studienjahre • Mehrere Absätze
  16. 16. 16 Auszeichnung der „eigentlichen“ Biografie • Wird von <biographie> umschlossen • Personen werden ausgezeichnet mittels ID
  17. 17. 17 Analyse der Werke Kategorie (Werkstyp) Titel • Erscheinungsjahr • Sonstige Bemerkungen • •
  18. 18. 18 Auszeichnung der Werke • <werk> bekommt Attrribute typ und jahr • Titel in <werk_name> • Sonstiges innerhalb <werk>
  19. 19. 19 Seitenumbrüche im Original • Seitenumbrüche werden in der XML repräsentiert durch • Übergang von einer Seite zur anderen durch | <seite umbruch="588|589"/> • Auch Seitenzahlen nach anderem Format möglich (XV|XVI; 10a|10b; 45.1|45.2 …) Vorteil: PDF wird 1:1 repräsentiert
  20. 20. 20 Analyse des Literaturnachweises Autor Titel • Erscheinungsjahr • Verlag oder Seitennummer • • • Literaturnachweise getrennt durch Semikolon • Querverweise zu anderen Personen (Wilhelm Rocco)
  21. 21. 21 Auszeichnung des Literaturnachweises Einzelne Einträge in <lit-eintrag> • Sinvoll in autor, titel, jahr usw. zu trennen? • Kopplung der Einträge an ID (wegen W. Rocco) ?
  22. 22. 22 Analyse des Fundstelle Werk Autor • Seitenzahlen • Bandnummer • • • Mehrere Funstellen möglich • Unterscheidung zwischen Haupteintrag und Nebeneintrag
  23. 23. 23 Auszeichnung der Fundstelle • Am Anfang der Datei in <meta> • <fundstelle> hat alle Angaben als Attribute und als Text • Autor separat in <autor> getaggt mit persönlicher ID
  24. 24. 24 Standartisierung der Struktur • Für eine einheitliche Struktur für alle Einträge in der ADB / NDB: ▫ Mehrere verschiedene Strukturtypen taggen ▫ Eine DTD oder ein XML-Schema definieren • Dokumentation der DTD ▫ Welche Elemente können in welchen enthalten sein?
  25. 25. 25

×