SlideShare a Scribd company logo
1 of 74
Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2015
06. Mai 2015 – Text
Text: Aspekte
 Textklassifikation
 Natürliche bzw. unstrukturierte Texte
 Semistrukturierte Texte
 Strukturierte Texte
 Textstrukturierung: XML
 Ein XML-Standard: die Text Encoding Initiative
 Information Retrieval: Inhalte auffinden, clustern,
etc.
 Das VD18-Projekt
Themenüberblick
Textklassifikation
Die Strukturiertheit von Texten:
(Text von lat. textus: Gewebe, Geflecht)
 Natürliche und unstrukturierte Texte
Beispiel: „Vor dieser Burleske frühkapitalistischen
Übereifers flohen die coolen Kinder der
Nachkriegsgeneration zu Beginn der achtziger Jahre in ein
reptilienartiges Singledasein mit minimalen Ausschlägen.“
(http://www.zeit.de/2012/01/L-Murakami)
 Strukturierte Texte
Beispiel: MySQL-DB, XML
 Semistrukturierte Texte
Beispiel: HTML  Was bezeichnet ein bestimmtes HTML-
Tag? Werden Standards in der Auszeichnung eingehalten?
Textklassifikation
Strukturiertheit
Strukturierte Texte
Extensible Markup Language (XML)
 Standard Generalized Markup Language (SGML)
 Tags
 Attribute und Attributwerte
 Wohlgeformtheit von XML-Dokumenten
 Validität / Gültigkeit von XML-Dokumenten
 Schemata
 Transformation von XML-Dokumenten
XML-Dokumente müssen wohlgeformt sein…
XML-Dokumente müssen wohlgeformt sein
 d.h. sie müssen den Regeln der XML-Syntax
genügen.
 Wohlgeformtheit (XML) … wie war das noch ‘mal?
◦ 1. Tags müssen immer geschlossen werden.
◦ 2. „Zwiebelschema“ beachten: Tags in richtiger Reihenfolge
schließen / öffnen
◦ 3. Es existiert nur ein Wurzelelement
◦ 4. Attributwerte in Anführungszeichen
◦ 5. Ein Attribut (im öffnenden Tag) darf nur einmal aufgeführt
sein
XSLT: Tiefensuche
Einheitliches Strukturieren: Standards
Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
Hugo von Hofmannsthal – Die Beiden
Sie trug den Becher in der Hand
– Ihr Kinn und Mund glich seinem Rand –,
So leicht und sicher war ihr Gang,
Kein Tropfen aus dem Becher sprang.
So leicht und fest war seine Hand:
Er ritt auf einem jungen Pferde,
Und mit nachlässiger Gebärde
Erzwang er, daß es zitternd stand.
Jedoch, wenn er aus ihrer Hand
Den leichten Becher nehmen sollte,
So war es beiden allzu schwer:
Denn beide bebten sie so sehr,
Daß keine Hand die andre fand
Und dunkler Wein am Boden rollte.
Vers
Strophe
Ein Standard von dem man unbedingt ‘mal gehört haben muss:
Die Text Encoding Initiative (TEI)
Eine Lösung: TEI (Text Encoding Initiative)
 Fokus: Text
TEI bezeichnet sowohl
 das Konsortium (TEI-C),
 als auch einen Standard zur Kodierung und zum Austausch von
Textdokumenten
„TEI hat ein unabhängiges, portables und offenes Format [für die]
Speicherung, Austausch und Analyse von Texten in den
Geisteswissenschaften entwickelt. Das konkrete Resultat dieser
Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher
Textsorten als auch das Textkodierungsformat selber.“
(http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)
 Richtlinien und Format sind frei zugänglich und kostenlos
Text Encoding Initiative (TEI)
Geschichte:
 1987 entstanden als internationale Initiative von
Philologinnen und Philologen
 Dokumentenformat zur Repräsentation von Texten in
digitaler Form
 Vielseitigkeit & Praxisnähe
Differenzierung: TEI bezeichnet sowohl
 das Konsortium (TEI-C), 2000 gegründet
 als auch Richtlinien und Empfehlungen zur Kodierung
und zum Austausch von Textdokumenten.
Intention: Geisteswissenschaftlerinnen und
Geisteswissenschaftler sollen über größtmögliche Freiheit
verfügen, textuell vorliegende Information nach eigenem
Textbegriff in XML zu codieren.
Text Encoding Initiative (TEI)
Versionsgeschichte
 1990: TEI P1 (P => Proposal, Entwurf / Plan)
Basiert auf SGML (Standard Generalized Markup
Language)
 1992 / 1993: TEI P2
 1994: TEI P3 ("Green Books")
 2002: TEI P4 (XML-basiert)
 2002: TEI Lite
 2007 TEI P5
Die Text Encoding Initiative
http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1646 Seiten)
Modularisierung
 Flexible Auswahl von TEI-Elementen aufgrund des
modularen Charakters der TEI. So muss ein eigenes
Schema nicht alle Elemente und Attribute der TEI
enthalten.
 Module, u.a.:
 core für Basiselemente
 header für Metadaten
 textstructure für grundlegende Textstrukturen
 drama für Dramen
 prose, poetry, etc.
Die Text Encoding Initiative
Verortung:
EAD: Encoded Archival Description
METS: Metadata Encoding and Transmission Standard
Arten von Metadaten:
 Administrative metadata for managing resources, such as
rights information
 Descriptive metadata for describing resources (Beispiel:
Zettel des Zettelkataloges)
 Preservation metadata for describing resources, such as
recording preservation actions
 Technical metadata related to low-level system information,
such as data formats and any data compression used
 Usage metadata related to system use, such as tracking
user behavior
 “End user’s view is only the tip of the iceberg:
Much of the metadata is not intended for public display”
Metadaten
“End user’s view is only the tip of the
iceberg: Much of the metadata is not
intended for public display”
Arten von Metadaten(vgl. Witten, Bainbridge, Nichols (2010): How to Build a Digital Library):
 Administrative metadata for managing resources, such as rights
information
 Descriptive metadata for describing resources (Beispiel: Zettel
des Zettelkataloges)
 Preservation metadata for describing resources, such as
recording preservation actions
 Technical metadata related to low-level system information, such
as data formats and any data compression used
 Usage metadata related to system use, such as tracking user
behavior
 “End user’s view is only the tip of the iceberg: Much
of the metadata is not intended for public display”
Metadaten in digitalen Bibliotheken
MARC: MAchine Readable Cataloging
 Vorgestellt in den späten 1960er Jahren von Henriette Avram
(Library of Congress)
 !Grundproblem/-intention: Migration von Zettelkatalogen zu
computerbasierter Repräsentation von Datensätzen (Records)
 MARC-Datensätze gespeichert als Sammlung von Feldern in
einem „ziemlich komplexen Format“
[Witten, Bainbridge, Nichols (2010): How to Build a Digital Library]
 “Producing a MARC record for a particular publication is an
onerous undertaking that is governed by a detailed set of (highly
detailed) rules and guidelines called the Anglo-American
Cataloging Rules (AACR2R, 2R  final revised 2nd edition).”
[Witten, Bainbridge, Nichols (2010): How to Build a Digital Library]
MARC
Maschinelles Austauschformat für Bibliotheken
(MAB),
 MAB  1970er, Deutsche Nationalbibliothek
 MAB2  1990er
 Verwendung mit RAK (Regeln zur Alphabetischen Katalogisierung)
MAB
 Variable Control Fields (00x)
 Variable Data Fields
 Numbers and Codes (0xx)
 Main Entries (1xx)
 Titles (2xx)
 Edition, Imprint, etc. (2xx)
 Physical Description, etc. (3xx)
 Series Statements (4xx)
 Notes (5xx)
 […]
 Vgl. http://catalog2.loc.gov
sowie die Referenz unter
http://www.loc.gov/marc/bibliographic/ecbdhome.html
MARC Tags (die Spitze des Eisbergs)
MARCXML-Darstellung
MARCXML
Vorteile?
MARCXML  Dublin Core
http://lccn.loc.gov/79459272/dc
 Benannt nach Dublin, Ohio, wo 1995 das erste
Treffen der Gruppe / Initiative veranstaltet wurde.
 Dublin Core (DC): Satz von vordefinierten
Metadatenelementen, intendiert für
 Nutzung durch Nicht-Spezialisten
 die Beschreibung digitaler Ressourcen (i.e. Websites),
die häufig keinen eigenen MARC Katalog-Eintrag
erhalten würden
 Verglichen mit MARC: Sehr einfach
 Designziel: Allgemeinheit, Einfachheit
Dublin Core
Satz von 15 Elementen zur Beschreibung von Ressourcen:
 Title
 Creator
 Subject
 Description
 Publisher
 Contributor
 Date
 Type
 Format
 Identifier
 Source
 Language
 Relation
 Coverage
 Rights
 Alle Elemente sind optional und wiederholbar, die Reihenfolge ist
beliebig
Dublin Core
Fokus: Unstrukturierte und
schwach strukturierte Texte
Buzzwords: Text Mining, Data Mining, Information
Retrieval, Machinelles Lernen, Textklassifikation, Web
Mining
 Data Mining: Einsatz auf stark strukturierten Daten
 Text Mining: Informationsextraktion aus (u.a.
semistrukturierten) Texten; Verwendung von Verfahren
/ Algorithmen des Data Minings
 Automatisierte Strukturierung von Texten (insbes.
sehr großen Mengen von Texten)
 Information Retrieval: Suchanfragen an einen
Textcorpus  Wie finde ich die von mir gesuchte
Information?
Arbeit mit Text: Methodenverortung
Die Sache mit der
Bedeutung...
Quelle: http://www.wzl.rwth-aachen.de/de/ebecb2e7d199a686c125736f00454c10/11_v_deu.pdf
Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗?
Beispiel-Dokument dok1; betrachtete Wortform: der
„Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz
langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer
Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen
hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und
mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft
oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf
ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT.
Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische
Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im
Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small
Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass
keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den
Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github-
Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der
Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische
Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html)
Tf-idf-Maß
𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = ?
Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗?
Beispiel-Dokument dok1; betrachtete Wortform: der
„Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz
langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer
Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen
hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und
mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft
oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf
ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT.
Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische
Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im
Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small
Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass
keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den
Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github-
Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der
Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische
Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html)
Tf-idf-Maß
𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = 6
Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗?
Beispiel-Dokument dok1; betrachtete Wortform: der
„Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz
langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer
Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen
hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und
mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft
oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf
ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT.
Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische
Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im
Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small
Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass
keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den
Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github-
Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der
Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische
Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html)
Tf-idf-Maß
𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = 67
Inverse Dokumentfrequenz 𝑖𝑑𝑓𝑖: Wie häufig findet
sich die Wortform / der Term 𝑖 im Gesamtkorpus?
Annahme: Eine Wortform, die nur in wenigen
Titelaufnahmen des Gesamtbestandes
anzutreffen ist, verfügt über eine höhere
Trennschärfe als eine Wortform, die sich in
zahlreichen Titelaufnahmen findet.
𝑖𝑑𝑓𝑖 = log(
𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠
𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠
)
Tf-idf-Maß
Termgewichtung 𝑤𝑖,𝑗:
Tf-idf-Maß
𝑤𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖 = 𝑡𝑓𝑖,𝑗 × log(
𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠
𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠
)
Suche: Inhalte auffinden
It‘s magic?
…oh no, it‘s „just“ the work of…algorithms
(hm, and maybe a little bit of magic)
Ein Praxisbeispiel: Das VD18 Projekt
Intention: Digitalisierung und Erschließung der im
deutschen Sprachraum veröffentlichten Drucke des
18. Jahrhunderts
Kontext
VD18
VD 16 VD 17 VD 18
~100 000 erfasste
Titel
~255 000
Titel
Ziel: Mehr als
600 000 Titel
Förderzeitraum: 1969-
1999
Förderzeitraum:
Seit Juli 1996
Förderzeitraum:
Ab 2009
Ein Praxisbeispiel: Das VD18 Projekt
 Förderzeitraum Pilotphase: 2009-2011
 Aufgaben Bibliotheken:
◦ Digitalisierung  http://digitale.bibliothek.uni-
halle.de/vd18
 Aufgaben HKI, Köln:
In der sehr großen Datenbank (kleio) mit mehr als
~1 Million Titeln:
◦ Einzigartige, im Fundus nur einmal vorhandene, Werke
identifizieren
◦ Sets von gleichen Werken ausfindigmachen
VD18 – Arbeitsaufteilung / Workflow
SWB
KoordinierungsDB
Text Mining Tool:
 Termfrequenz: Häufigkeit des (Such)Terms / der
Wortform im jeweiligen Dokument
 Bestimmung der Trennschärfe einer Wortform: Inverse
Document Frequency (IDF), Inverse Dokumenthäufigkeit
 Annahme: Eine Wortform, die nur in wenigen
Titelaufnahmen des Gesamtbestandes anzutreffen ist,
verfügt über eine höhere Trennschärfe als eine
Wortform, die sich in zahlreichen Titelaufnahmen findet.
𝐼𝐷𝐹 = log(
𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐷𝐵
𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐷𝐵
)
IDF – Beispiel:
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
(2) Gewichtung der Suchphrase bestimmen, i.e.:
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
 Summe der Gewichtungen relevanter Suchterme, die die
Suchphrase charakterisieren
Gewichtung
(3) Wie herausfinden, dass der Titel
„Griechische Anthologie – aus den besten Dichtern gesammlet, nach
den Dichtungsarten geordnet und mit literarischen Notizen begleitet;
für Gymnasien und Akademien“
gleich bzw. sehr ähnlich ist zu dem deutlich
kürzeren Titel „Griechische Anthologie“ ?
 Eine Möglichkeit: Abbildung in einem n-dimensionalen Vektorraum
Vektorraum
(4) Komplexität verringern, retrieval erhöhen:
n-dimensions  1-dimension
Vektorraum
(5) Ähnlichkeit von Such- und Vergleichstitel bzw. der korrespondierenden
Vektoren ermitteln: Ähnlichkeitsmaß
Hierbei:
◦ x: Summe der Suchtermgewichte
◦ y: Summe der Gewichtungen der im Suchtitel vorhandenen Wortformen des
Vergleichstitels
Similiarmeasure: Distanz des Vergleichstitels zum Suchtitel Ein
Vergleichstitel wird als potenziell relevant erachtet, wenn sein Abstand
zum Suchvektor kleiner ist als
𝑠𝑢𝑚𝑠𝑒𝑎𝑟𝑐ℎ𝑡𝑒𝑟𝑚𝑤𝑒𝑖𝑔ℎ𝑡𝑠
2
, der
Vergleichstitelvektor sich also in räumlicher Nähe zum Suchtitelvektor
befindet.
Ähnlichkeitsmaß
(6) Cluster ähnlicher Titel generieren:
◦ Cluster I: Titel mit Gewichtung = 22.040516
 Dissertatio jvridica inavgvralis de jvre consvetvdinario
 Dissertatio Juridica Inauguralis De Jure Consuetudinario
 […]
◦ Cluster II: Titel mit Gewichtung = 14.525173
 <ns>Diss. iur. inaug.</ns> de iure consuetudinario
 Dissertatio iuris Germanici de iure consuetudinario universali
Germaniae Medii Aevi in speculis Saxonico et Suevico, eiusque
cognoscendi ratione
(7) MAB Einträge (Author Name, Place of Printing, etc.)
unscharf (fuzzy) vergleichen
◦ Partial String Comparison
◦ Levenshtein Distance / Edit Distance
◦ …
Cluster
„Tatort“-Folge „Er wird töten“ (09.06.2013)
Gnihihi! 
Levenshtein-Distanz, oder auch „Edit-Distance“:
 Geringste Anzahl der Bearbeitungsschritte, um
eine Zeichenkette in eine andere Zeichenkette zu
transformieren.
Vorgestellt in Levenshtein, Vladimir I.: Binary codes capable of correcting deletions, insertions, and reversals. Soviet
Physics Doklady, Vol. 10, No. 8. (1966), pp. 707-710.
 Beispiel: „kleyer“ vs. „meyer“
◦ Levenshtein-Distanz zwischen den beiden Zeichenketten
beträgt zwei: Um „kleyer“ in „meyer“ umzuformen, muss
das zweite Zeichen der Zeichenkette „kleyer“ gelöscht
(„kleyer“  „keyer“) und das erste Zeichen in den
Buchstaben „m“ geändert werden („keyer“  „meyer“).
Levenshtein-Distanz
Trefferquote (recall) und Genauigkeit (precision):
 Recall: Liefert die Suchanfrage ein relevantes
Ergebnis?
 Precision: Ist der gefundene / zurückgelieferte
Treffer für die Suchanfrage relevant?
Bewertung der Suchergebnisse
Text Mining
/

More Related Content

Viewers also liked

Denkhandwerker No.1 - Marketing ist gleich Software
Denkhandwerker No.1 - Marketing ist gleich SoftwareDenkhandwerker No.1 - Marketing ist gleich Software
Denkhandwerker No.1 - Marketing ist gleich SoftwareAxel Oppermann
 
Los Animales Salvajes
Los Animales SalvajesLos Animales Salvajes
Los Animales Salvajesesaon
 
Frenando Practicas Corruptas
Frenando Practicas CorruptasFrenando Practicas Corruptas
Frenando Practicas CorruptasFred Voglewede
 
7 Rogelio Garza Internet2
7 Rogelio Garza Internet27 Rogelio Garza Internet2
7 Rogelio Garza Internet2cr091013
 
Feuerwehr Kaltenbrunn 2009
Feuerwehr Kaltenbrunn 2009Feuerwehr Kaltenbrunn 2009
Feuerwehr Kaltenbrunn 2009Molle112
 
Publicidad que no es publicidad
Publicidad que no es publicidadPublicidad que no es publicidad
Publicidad que no es publicidadJavier Severino
 
öL und gas final de
öL und gas final deöL und gas final de
öL und gas final deJulija_RU
 
TEXTOS SELECTIVDADE, inglés
TEXTOS SELECTIVDADE, inglésTEXTOS SELECTIVDADE, inglés
TEXTOS SELECTIVDADE, inglésecursocig
 
Proyecto colaborativo "Nuestro mundo es electricidad"
Proyecto colaborativo "Nuestro mundo es electricidad"Proyecto colaborativo "Nuestro mundo es electricidad"
Proyecto colaborativo "Nuestro mundo es electricidad"Juana Portugal
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el plenoEnrique Cornejo Quea
 
Presentacion ordenadores
Presentacion ordenadoresPresentacion ordenadores
Presentacion ordenadorespedrooteros
 
Prueba curso
Prueba cursoPrueba curso
Prueba cursoycg1977
 

Viewers also liked (14)

Denkhandwerker No.1 - Marketing ist gleich Software
Denkhandwerker No.1 - Marketing ist gleich SoftwareDenkhandwerker No.1 - Marketing ist gleich Software
Denkhandwerker No.1 - Marketing ist gleich Software
 
Los Animales Salvajes
Los Animales SalvajesLos Animales Salvajes
Los Animales Salvajes
 
Frenando Practicas Corruptas
Frenando Practicas CorruptasFrenando Practicas Corruptas
Frenando Practicas Corruptas
 
7 Rogelio Garza Internet2
7 Rogelio Garza Internet27 Rogelio Garza Internet2
7 Rogelio Garza Internet2
 
Feuerwehr Kaltenbrunn 2009
Feuerwehr Kaltenbrunn 2009Feuerwehr Kaltenbrunn 2009
Feuerwehr Kaltenbrunn 2009
 
Twitter2
Twitter2Twitter2
Twitter2
 
Publicidad que no es publicidad
Publicidad que no es publicidadPublicidad que no es publicidad
Publicidad que no es publicidad
 
öL und gas final de
öL und gas final deöL und gas final de
öL und gas final de
 
TEXTOS SELECTIVDADE, inglés
TEXTOS SELECTIVDADE, inglésTEXTOS SELECTIVDADE, inglés
TEXTOS SELECTIVDADE, inglés
 
BIT I WiSe 2014 | Basisinformationstechnologie I - 07: Betriebssysteme
BIT I WiSe 2014 | Basisinformationstechnologie I - 07: BetriebssystemeBIT I WiSe 2014 | Basisinformationstechnologie I - 07: Betriebssysteme
BIT I WiSe 2014 | Basisinformationstechnologie I - 07: Betriebssysteme
 
Proyecto colaborativo "Nuestro mundo es electricidad"
Proyecto colaborativo "Nuestro mundo es electricidad"Proyecto colaborativo "Nuestro mundo es electricidad"
Proyecto colaborativo "Nuestro mundo es electricidad"
 
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
Ley universitaria   texto 26 junio 2014 final aprobado en el plenoLey universitaria   texto 26 junio 2014 final aprobado en el pleno
Ley universitaria texto 26 junio 2014 final aprobado en el pleno
 
Presentacion ordenadores
Presentacion ordenadoresPresentacion ordenadores
Presentacion ordenadores
 
Prueba curso
Prueba cursoPrueba curso
Prueba curso
 

Similar to BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text

Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteJakob .
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungTIB Hannover
 
20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren20100913 dokumente dekonstruieren
20100913 dokumente dekonstruierenStefan Gradmann
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er VersionPeter Mayr
 
HS Soziologie des Internet
HS Soziologie des InternetHS Soziologie des Internet
HS Soziologie des InternetTina Guenther
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum SemantikStefan Gradmann
 
Einführung in das Semantic Web
Einführung in das Semantic WebEinführung in das Semantic Web
Einführung in das Semantic WebJakob .
 
20120608_Thematische Vernetzung heterogener Informationsbestände
20120608_Thematische Vernetzung heterogener Informationsbestände20120608_Thematische Vernetzung heterogener Informationsbestände
20120608_Thematische Vernetzung heterogener Informationsbeständedatentaste
 
Literaturverwaltung und Publikationsstrategien
Literaturverwaltung und PublikationsstrategienLiteraturverwaltung und Publikationsstrategien
Literaturverwaltung und PublikationsstrategienTIB Hannover
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTMax Kaiser
 

Similar to BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text (20)

SoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_TextSoSe 2013 | Basisinformationstechnologie II - 06_Text
SoSe 2013 | Basisinformationstechnologie II - 06_Text
 
Microformats & COinS
Microformats & COinSMicroformats & COinS
Microformats & COinS
 
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische GeschichteSemantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte
 
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
SoSe 2013 | IT-Zertifikat: DM - Die Text Encoding Initiative (TEI)
 
WiSe 2013 | IT-Zertifikat: AMM - Die Text Encoding Initiative (TEI)
WiSe 2013 | IT-Zertifikat: AMM - Die Text Encoding Initiative (TEI)WiSe 2013 | IT-Zertifikat: AMM - Die Text Encoding Initiative (TEI)
WiSe 2013 | IT-Zertifikat: AMM - Die Text Encoding Initiative (TEI)
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
Einführung in die Literaturverwaltung
Einführung in die LiteraturverwaltungEinführung in die Literaturverwaltung
Einführung in die Literaturverwaltung
 
20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren20100913 dokumente dekonstruieren
20100913 dokumente dekonstruieren
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version
 
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic WebBIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
 
HS Soziologie des Internet
HS Soziologie des InternetHS Soziologie des Internet
HS Soziologie des Internet
 
20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik20091124 Koeln Warum Semantik
20091124 Koeln Warum Semantik
 
Einführung in das Semantic Web
Einführung in das Semantic WebEinführung in das Semantic Web
Einführung in das Semantic Web
 
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
Anforderungen an bibliographische Datenbanken in Hinblick auf szientometrisch...
 
20120608_Thematische Vernetzung heterogener Informationsbestände
20120608_Thematische Vernetzung heterogener Informationsbestände20120608_Thematische Vernetzung heterogener Informationsbestände
20120608_Thematische Vernetzung heterogener Informationsbestände
 
Literaturverwaltung und Publikationsstrategien
Literaturverwaltung und PublikationsstrategienLiteraturverwaltung und Publikationsstrategien
Literaturverwaltung und Publikationsstrategien
 
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic WebBIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
BIT SoSem 2014 | Basisinformationstechnologie II - 03: Semantic Web
 
Linked Library Data & RDA
Linked Library Data & RDALinked Library Data & RDA
Linked Library Data & RDA
 
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACTEU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
EU-Projekte an der Österreichischen Nationalbibliothek - Beispiel IMPACT
 

More from Institute for Digital Humanities, University of Cologne

More from Institute for Digital Humanities, University of Cologne (20)

Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 17.04.2019 | ...
 
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
Augmented City –Street Art, Embodiment, Cultural Heritage & AR | 03.04.2019 |...
 
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
Künstliche Intelligenz und visuelle Erzählungen: Comicanalyse | 03.04.2019 | ...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
Transformation mittelhochdeutscher Erfahrungswelten – vom Text zum Computerga...
 
Bit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-gamesBit sosem 2016-wieners-sitzung-13_ki-in-games
Bit sosem 2016-wieners-sitzung-13_ki-in-games
 
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-visionBit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
Bit sosem 2016-wieners-sitzung-12_bild-iv-computer-vision
 
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filterBit sosem 2016-wieners-sitzung-11_bild-iii-filter
Bit sosem 2016-wieners-sitzung-11_bild-iii-filter
 
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationenBit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
Bit sosem 2016-wieners-sitzung-10_bild-ii-punktoperationen
 
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompressionBit sosem 2016-wieners-sitzung-09_bild-i-kompression
Bit sosem 2016-wieners-sitzung-09_bild-i-kompression
 
Bit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-webBit sosem 2016-wieners-sitzung-08_semantic-web
Bit sosem 2016-wieners-sitzung-08_semantic-web
 
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-iiBit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
Bit sosem 2016-wieners-sitzung-07_rechnerkommunikation-ii
 
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikationBit sosem 2016-wieners-sitzung-06_rechnerkommunikation
Bit sosem 2016-wieners-sitzung-06_rechnerkommunikation
 
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conwayBit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
Bit sosem 2016-wieners-sitzung-05_zellulaere-automaten-conway
 
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatikBit sosem 2016-wieners-sitzung-04_theoretische-informatik
Bit sosem 2016-wieners-sitzung-04_theoretische-informatik
 
Bit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmenBit sosem 2016-wieners-sitzung-03_algorithmen
Bit sosem 2016-wieners-sitzung-03_algorithmen
 
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturenBit sosem 2016-wieners-sitzung-02_datenstrukturen
Bit sosem 2016-wieners-sitzung-02_datenstrukturen
 
Bit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischungBit sosem 2016-wieners-sitzung-01_auffrischung
Bit sosem 2016-wieners-sitzung-01_auffrischung
 
Bit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblickBit sosem 2016-wieners-sitzung-00_themenueberblick
Bit sosem 2016-wieners-sitzung-00_themenueberblick
 
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung IIBit wisem 2015-wieners-sitzung-13_Zusammenfassung II
Bit wisem 2015-wieners-sitzung-13_Zusammenfassung II
 

BIT I SoSem 2015 | Basisinformationstechnologie II - 04_Text

  • 1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Dr. Jan G. Wieners // jan.wieners@uni-koeln.de Basisinformationstechnologie II Sommersemester 2015 06. Mai 2015 – Text
  • 2. Text: Aspekte  Textklassifikation  Natürliche bzw. unstrukturierte Texte  Semistrukturierte Texte  Strukturierte Texte  Textstrukturierung: XML  Ein XML-Standard: die Text Encoding Initiative  Information Retrieval: Inhalte auffinden, clustern, etc.  Das VD18-Projekt Themenüberblick
  • 4.
  • 5.
  • 6.
  • 7. Die Strukturiertheit von Texten: (Text von lat. textus: Gewebe, Geflecht)  Natürliche und unstrukturierte Texte Beispiel: „Vor dieser Burleske frühkapitalistischen Übereifers flohen die coolen Kinder der Nachkriegsgeneration zu Beginn der achtziger Jahre in ein reptilienartiges Singledasein mit minimalen Ausschlägen.“ (http://www.zeit.de/2012/01/L-Murakami)  Strukturierte Texte Beispiel: MySQL-DB, XML  Semistrukturierte Texte Beispiel: HTML  Was bezeichnet ein bestimmtes HTML- Tag? Werden Standards in der Auszeichnung eingehalten? Textklassifikation
  • 9.
  • 11.  Standard Generalized Markup Language (SGML)  Tags  Attribute und Attributwerte  Wohlgeformtheit von XML-Dokumenten  Validität / Gültigkeit von XML-Dokumenten  Schemata  Transformation von XML-Dokumenten
  • 13. XML-Dokumente müssen wohlgeformt sein  d.h. sie müssen den Regeln der XML-Syntax genügen.  Wohlgeformtheit (XML) … wie war das noch ‘mal? ◦ 1. Tags müssen immer geschlossen werden. ◦ 2. „Zwiebelschema“ beachten: Tags in richtiger Reihenfolge schließen / öffnen ◦ 3. Es existiert nur ein Wurzelelement ◦ 4. Attributwerte in Anführungszeichen ◦ 5. Ein Attribut (im öffnenden Tag) darf nur einmal aufgeführt sein
  • 14.
  • 16.
  • 18. Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  • 19. Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte. Vers Strophe
  • 20.
  • 21. Ein Standard von dem man unbedingt ‘mal gehört haben muss: Die Text Encoding Initiative (TEI)
  • 22. Eine Lösung: TEI (Text Encoding Initiative)  Fokus: Text TEI bezeichnet sowohl  das Konsortium (TEI-C),  als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten „TEI hat ein unabhängiges, portables und offenes Format [für die] Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.“ (http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)  Richtlinien und Format sind frei zugänglich und kostenlos Text Encoding Initiative (TEI)
  • 23. Geschichte:  1987 entstanden als internationale Initiative von Philologinnen und Philologen  Dokumentenformat zur Repräsentation von Texten in digitaler Form  Vielseitigkeit & Praxisnähe Differenzierung: TEI bezeichnet sowohl  das Konsortium (TEI-C), 2000 gegründet  als auch Richtlinien und Empfehlungen zur Kodierung und zum Austausch von Textdokumenten. Intention: Geisteswissenschaftlerinnen und Geisteswissenschaftler sollen über größtmögliche Freiheit verfügen, textuell vorliegende Information nach eigenem Textbegriff in XML zu codieren. Text Encoding Initiative (TEI)
  • 24. Versionsgeschichte  1990: TEI P1 (P => Proposal, Entwurf / Plan) Basiert auf SGML (Standard Generalized Markup Language)  1992 / 1993: TEI P2  1994: TEI P3 ("Green Books")  2002: TEI P4 (XML-basiert)  2002: TEI Lite  2007 TEI P5 Die Text Encoding Initiative
  • 26. Modularisierung  Flexible Auswahl von TEI-Elementen aufgrund des modularen Charakters der TEI. So muss ein eigenes Schema nicht alle Elemente und Attribute der TEI enthalten.  Module, u.a.:  core für Basiselemente  header für Metadaten  textstructure für grundlegende Textstrukturen  drama für Dramen  prose, poetry, etc. Die Text Encoding Initiative
  • 27. Verortung: EAD: Encoded Archival Description METS: Metadata Encoding and Transmission Standard
  • 28. Arten von Metadaten:  Administrative metadata for managing resources, such as rights information  Descriptive metadata for describing resources (Beispiel: Zettel des Zettelkataloges)  Preservation metadata for describing resources, such as recording preservation actions  Technical metadata related to low-level system information, such as data formats and any data compression used  Usage metadata related to system use, such as tracking user behavior  “End user’s view is only the tip of the iceberg: Much of the metadata is not intended for public display” Metadaten “End user’s view is only the tip of the iceberg: Much of the metadata is not intended for public display”
  • 29. Arten von Metadaten(vgl. Witten, Bainbridge, Nichols (2010): How to Build a Digital Library):  Administrative metadata for managing resources, such as rights information  Descriptive metadata for describing resources (Beispiel: Zettel des Zettelkataloges)  Preservation metadata for describing resources, such as recording preservation actions  Technical metadata related to low-level system information, such as data formats and any data compression used  Usage metadata related to system use, such as tracking user behavior  “End user’s view is only the tip of the iceberg: Much of the metadata is not intended for public display” Metadaten in digitalen Bibliotheken
  • 30.
  • 31. MARC: MAchine Readable Cataloging  Vorgestellt in den späten 1960er Jahren von Henriette Avram (Library of Congress)  !Grundproblem/-intention: Migration von Zettelkatalogen zu computerbasierter Repräsentation von Datensätzen (Records)  MARC-Datensätze gespeichert als Sammlung von Feldern in einem „ziemlich komplexen Format“ [Witten, Bainbridge, Nichols (2010): How to Build a Digital Library]  “Producing a MARC record for a particular publication is an onerous undertaking that is governed by a detailed set of (highly detailed) rules and guidelines called the Anglo-American Cataloging Rules (AACR2R, 2R  final revised 2nd edition).” [Witten, Bainbridge, Nichols (2010): How to Build a Digital Library] MARC
  • 32. Maschinelles Austauschformat für Bibliotheken (MAB),  MAB  1970er, Deutsche Nationalbibliothek  MAB2  1990er  Verwendung mit RAK (Regeln zur Alphabetischen Katalogisierung) MAB
  • 33.  Variable Control Fields (00x)  Variable Data Fields  Numbers and Codes (0xx)  Main Entries (1xx)  Titles (2xx)  Edition, Imprint, etc. (2xx)  Physical Description, etc. (3xx)  Series Statements (4xx)  Notes (5xx)  […]  Vgl. http://catalog2.loc.gov sowie die Referenz unter http://www.loc.gov/marc/bibliographic/ecbdhome.html MARC Tags (die Spitze des Eisbergs)
  • 35. MARCXML  Dublin Core http://lccn.loc.gov/79459272/dc
  • 36.  Benannt nach Dublin, Ohio, wo 1995 das erste Treffen der Gruppe / Initiative veranstaltet wurde.  Dublin Core (DC): Satz von vordefinierten Metadatenelementen, intendiert für  Nutzung durch Nicht-Spezialisten  die Beschreibung digitaler Ressourcen (i.e. Websites), die häufig keinen eigenen MARC Katalog-Eintrag erhalten würden  Verglichen mit MARC: Sehr einfach  Designziel: Allgemeinheit, Einfachheit Dublin Core
  • 37. Satz von 15 Elementen zur Beschreibung von Ressourcen:  Title  Creator  Subject  Description  Publisher  Contributor  Date  Type  Format  Identifier  Source  Language  Relation  Coverage  Rights  Alle Elemente sind optional und wiederholbar, die Reihenfolge ist beliebig Dublin Core
  • 38. Fokus: Unstrukturierte und schwach strukturierte Texte
  • 39. Buzzwords: Text Mining, Data Mining, Information Retrieval, Machinelles Lernen, Textklassifikation, Web Mining  Data Mining: Einsatz auf stark strukturierten Daten  Text Mining: Informationsextraktion aus (u.a. semistrukturierten) Texten; Verwendung von Verfahren / Algorithmen des Data Minings  Automatisierte Strukturierung von Texten (insbes. sehr großen Mengen von Texten)  Information Retrieval: Suchanfragen an einen Textcorpus  Wie finde ich die von mir gesuchte Information? Arbeit mit Text: Methodenverortung
  • 40. Die Sache mit der Bedeutung...
  • 41.
  • 43. Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗? Beispiel-Dokument dok1; betrachtete Wortform: der „Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT. Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github- Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html) Tf-idf-Maß 𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = ?
  • 44. Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗? Beispiel-Dokument dok1; betrachtete Wortform: der „Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT. Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github- Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html) Tf-idf-Maß 𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = 6
  • 45. Termfrequenz 𝑡𝑓𝑖,𝑗: Wie häufig findet sich die Wortform / der Term 𝑖 im Dokument 𝑗? Beispiel-Dokument dok1; betrachtete Wortform: der „Es gibt zwei Hauptgründe dafür, dass der akademische Grad für den Beweis der Kompetenz langsam an Bedeutung verliert, während früher die meisten Berufsprogrammierer Universitätsabschlüsse in Informatik, Mathematik oder ähnlichen Disziplinen vorzuweisen hatten. Zum einen ist es durch den Mangel an Bewerbern gerade für kleine und mittelständische Softwareunternehmen, die nicht wie die deutschen Marktführer Microsoft oder SAP über einen internationalen Ruf verfügen, nicht mehr möglich, ihren Bedarf ausschließlich durch Uniabsolventen zu decken - das zeigen 43.000 offene Stellen in der IT. Zum anderen sind gerade in der sich schnell verändernden Webprogrammierung praktische Fertigkeiten mehr vonnöten als Theorie - Universitäten können mit solch einer Aktualität im Lehrstoff nicht mehr mithalten. Per Fragemann leitet das Berliner Startup Small Improvements. In den Stellenanzeigen des kleinen Unternehmens steht ausdrücklich, dass keine Lebensläufe oder ausgefeilte Anschreiben gewünscht sind. "Es kommt nicht auf den Titel an. Wichtiger ist: Der Bewerber kann coden und er kann es auch zeigen." Ein Github- Repository, die Beteiligung an Open-Source-Projekten oder das Spiel, das jemand in der Freizeit programmiert hat, zählen weit mehr als die Bestnote in der Klausur über theoretische Informatik.“ (www.golem.de/news/programmieren-programming-motherfucker-do-you-speak-it-1405-106106-3.html) Tf-idf-Maß 𝑡𝑓𝑑𝑒𝑟,𝑑𝑜𝑘1 = 67
  • 46. Inverse Dokumentfrequenz 𝑖𝑑𝑓𝑖: Wie häufig findet sich die Wortform / der Term 𝑖 im Gesamtkorpus? Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet. 𝑖𝑑𝑓𝑖 = log( 𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠 𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠 ) Tf-idf-Maß
  • 47. Termgewichtung 𝑤𝑖,𝑗: Tf-idf-Maß 𝑤𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖 = 𝑡𝑓𝑖,𝑗 × log( 𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠 𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐾𝑜𝑟𝑝𝑢𝑠 )
  • 49.
  • 50.
  • 51. It‘s magic? …oh no, it‘s „just“ the work of…algorithms (hm, and maybe a little bit of magic)
  • 52. Ein Praxisbeispiel: Das VD18 Projekt
  • 53. Intention: Digitalisierung und Erschließung der im deutschen Sprachraum veröffentlichten Drucke des 18. Jahrhunderts Kontext VD18 VD 16 VD 17 VD 18 ~100 000 erfasste Titel ~255 000 Titel Ziel: Mehr als 600 000 Titel Förderzeitraum: 1969- 1999 Förderzeitraum: Seit Juli 1996 Förderzeitraum: Ab 2009
  • 54. Ein Praxisbeispiel: Das VD18 Projekt  Förderzeitraum Pilotphase: 2009-2011  Aufgaben Bibliotheken: ◦ Digitalisierung  http://digitale.bibliothek.uni- halle.de/vd18  Aufgaben HKI, Köln: In der sehr großen Datenbank (kleio) mit mehr als ~1 Million Titeln: ◦ Einzigartige, im Fundus nur einmal vorhandene, Werke identifizieren ◦ Sets von gleichen Werken ausfindigmachen
  • 55. VD18 – Arbeitsaufteilung / Workflow SWB KoordinierungsDB
  • 56.
  • 57.
  • 58. Text Mining Tool:  Termfrequenz: Häufigkeit des (Such)Terms / der Wortform im jeweiligen Dokument  Bestimmung der Trennschärfe einer Wortform: Inverse Document Frequency (IDF), Inverse Dokumenthäufigkeit  Annahme: Eine Wortform, die nur in wenigen Titelaufnahmen des Gesamtbestandes anzutreffen ist, verfügt über eine höhere Trennschärfe als eine Wortform, die sich in zahlreichen Titelaufnahmen findet. 𝐼𝐷𝐹 = log( 𝑇𝑖𝑡𝑒𝑙 𝑖𝑛 𝐷𝐵 𝑇𝑟𝑒𝑓𝑓𝑒𝑟 𝑆𝑢𝑐ℎ𝑡𝑒𝑟𝑚 𝑖𝑛 𝐷𝐵 )
  • 59. IDF – Beispiel: „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“
  • 60. (2) Gewichtung der Suchphrase bestimmen, i.e.: „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“  Summe der Gewichtungen relevanter Suchterme, die die Suchphrase charakterisieren Gewichtung
  • 61. (3) Wie herausfinden, dass der Titel „Griechische Anthologie – aus den besten Dichtern gesammlet, nach den Dichtungsarten geordnet und mit literarischen Notizen begleitet; für Gymnasien und Akademien“ gleich bzw. sehr ähnlich ist zu dem deutlich kürzeren Titel „Griechische Anthologie“ ?  Eine Möglichkeit: Abbildung in einem n-dimensionalen Vektorraum Vektorraum
  • 62. (4) Komplexität verringern, retrieval erhöhen: n-dimensions  1-dimension Vektorraum
  • 63. (5) Ähnlichkeit von Such- und Vergleichstitel bzw. der korrespondierenden Vektoren ermitteln: Ähnlichkeitsmaß Hierbei: ◦ x: Summe der Suchtermgewichte ◦ y: Summe der Gewichtungen der im Suchtitel vorhandenen Wortformen des Vergleichstitels Similiarmeasure: Distanz des Vergleichstitels zum Suchtitel Ein Vergleichstitel wird als potenziell relevant erachtet, wenn sein Abstand zum Suchvektor kleiner ist als 𝑠𝑢𝑚𝑠𝑒𝑎𝑟𝑐ℎ𝑡𝑒𝑟𝑚𝑤𝑒𝑖𝑔ℎ𝑡𝑠 2 , der Vergleichstitelvektor sich also in räumlicher Nähe zum Suchtitelvektor befindet. Ähnlichkeitsmaß
  • 64. (6) Cluster ähnlicher Titel generieren: ◦ Cluster I: Titel mit Gewichtung = 22.040516  Dissertatio jvridica inavgvralis de jvre consvetvdinario  Dissertatio Juridica Inauguralis De Jure Consuetudinario  […] ◦ Cluster II: Titel mit Gewichtung = 14.525173  <ns>Diss. iur. inaug.</ns> de iure consuetudinario  Dissertatio iuris Germanici de iure consuetudinario universali Germaniae Medii Aevi in speculis Saxonico et Suevico, eiusque cognoscendi ratione (7) MAB Einträge (Author Name, Place of Printing, etc.) unscharf (fuzzy) vergleichen ◦ Partial String Comparison ◦ Levenshtein Distance / Edit Distance ◦ … Cluster
  • 65. „Tatort“-Folge „Er wird töten“ (09.06.2013)
  • 66.
  • 67.
  • 69.
  • 70.
  • 71. Levenshtein-Distanz, oder auch „Edit-Distance“:  Geringste Anzahl der Bearbeitungsschritte, um eine Zeichenkette in eine andere Zeichenkette zu transformieren. Vorgestellt in Levenshtein, Vladimir I.: Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, Vol. 10, No. 8. (1966), pp. 707-710.  Beispiel: „kleyer“ vs. „meyer“ ◦ Levenshtein-Distanz zwischen den beiden Zeichenketten beträgt zwei: Um „kleyer“ in „meyer“ umzuformen, muss das zweite Zeichen der Zeichenkette „kleyer“ gelöscht („kleyer“  „keyer“) und das erste Zeichen in den Buchstaben „m“ geändert werden („keyer“  „meyer“). Levenshtein-Distanz
  • 72. Trefferquote (recall) und Genauigkeit (precision):  Recall: Liefert die Suchanfrage ein relevantes Ergebnis?  Precision: Ist der gefundene / zurückgelieferte Treffer für die Suchanfrage relevant? Bewertung der Suchergebnisse
  • 74. /

Editor's Notes

  1. Struktur
  2. Keine Struktur: unstrukturierter Text
  3. Struktur explizit abbilden: XML
  4. Strukturiertheit des Textes zum einen im HTML-Dokument, zum anderen als Ergebnis neuronaler Prozesse  Kognitiver Agent
  5. Datenhaltungsschicht, Transformation in anderes Format, z.B. HTML Freie Vergabe von Tagnamen
  6. Jean-Michel Basquiat
  7. Geschichte: 1987 entstanden als internationale Initiative von Philologinnen und Philologen Dokumentenformat zur Repräsentation von Texten in digitaler Form Vielseitigkeit & Praxisnähe Differenzierung: TEI bezeichnet sowohl das Konsortium (TEI-C), 2000 gegründet als auch Richtlinien und Empfehlungen zur Kodierung und zum Austausch von Textdokumenten. Intention: Geisteswissenschaftlerinnen und Geisteswissenschaftler sollen über größtmögliche Freiheit verfügen, textuell vorliegende Information nach eigenem Textbegriff in XML zu codieren.
  8. Standards und Guidelines Standards der TEI schränken die schier unendlichen Auszeichnungsmöglichkeiten von XML ein. Dabei stellen sich die folgenden Grundfragen: Welche Tags und welche Attribute lassen sich verwenden, um eigene Texte auszuzeichnen? Wie lassen sich die Tags miteinander kombinieren / verschachteln? Überblick über Richtlinien, z.B. für TEI P5: http://www.tei-c.org/release/doc/tei-p5-doc/en/Guidelines.pdf (1641 Seiten)
  9. BAMS-Sektor
  10. Metadaten
  11. Standards für bibliographische Metadaten: MARC MAB MARCXML Dublin Core (DC) METS / MODS OAI
  12. Wie kommt die Struktur in den Text?
  13. Indikator für die Relevanz bzw. den Bedeutungsgehalt einzelner Wörter / Wortformen
  14. Indikator für die Relevanz bzw. den Bedeutungsgehalt einzelner Wörter / Wortformen
  15. Indikator für die Relevanz bzw. den Bedeutungsgehalt einzelner Wörter / Wortformen
  16. Die inverse Dokumenthäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente. Die inverse Dokumentfrequenz hängt nicht vom einzelnen Dokument, sondern vom Dokumentkorpus (der Gesamtmenge aller Dokumente im Retrievalszenario) ab:
  17. Das Gewicht eines Terms im Dokument ist dann nach TF-IDF Die inverse Dokumenthäufigkeit misst die allgemeine Bedeutung des Terms für die Gesamtmenge der betrachteten Dokumente. Die inverse Dokumentfrequenz hängt nicht vom einzelnen Dokument, sondern vom Dokumentkorpus (der Gesamtmenge aller Dokumente im Retrievalszenario) ab:
  18. ~ ein Sechstel des Projektes abgeschlossen
  19. Übung: Gleiche Titel finden