Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Tagung der Computerlinguistik-Studierenden (TaCoS 2003), Universität Gießen, Germany, June 2003. June, 2003. Invited talk.
3. Status Quo
Aus Sicht des (unerfahrenen) Benutzers:
• DWIM-Prinzip („Do what I mean! )
• Spezifizierung einer Suchanfrage ist schwierig
• Es ist unklar, nach welchen Kriterien die Maschine sucht
4. Das Ziel
Abstraktion über Inhalt bzw. Thema:
Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
!
6. Textsorten
! Textlinguistik: Textsorten (Brief, Rezept, ...),
d.h. unterschiedliche Typen von Texten
Zentrale Hypothese:
! Klassifikationskriterien (u.a.):
Inhalt – Thema
Im World Wide Web existieren Hypertextsorten
"
Form – Aufbau, Struktur, Gliederung
# Nach nur wenigen Jahren (!) kanonisierte,
"
Funktion – Zweck
funktionsgebundene, hypertextuelle Strukturen
"
kkkkkkkkkkkkkkkkkkkkk
„[Textsorten sind] komplexe Muster sprachlicher Kommunikation [...], die innerhalb der Sprachgemeinschaft
im Laufe der historisch-gesellschaftlichen Entwicklung
aufgrund kommunikativer Bedürfnisse entstanden sind.
Brinker (1985)
Georg Rehm
TaCoS 2003
8. Textsorten-Klassifikation
Fazit
Korpus
Methoden
• Einfache Methoden liefern für wenige Textsorten sehr
Karlgren &
gute Resultate
Cutting (1994),
DiskriminantenJeweils 500 Texte
• In diesen Ansätzen ausschließlich: ASCII-Texte (!)
Analyse – 20
Recognizing Text
• Wie kann man sehr aus dem Brown
viele Hypertextsorten möglichst
Parameter (noun,
Genres with
Corpus
präzise detektieren?
it, adv., word etc.
Simple Metrics
(tagged)
counts)
Using Discriminant Functions
Kessler, Nunberg
& Schütze
(1997),
Automatic
Detection of Text
Genre
Stamatatos et al.
(2000), Text
Genre Detection
Using Common
Word Frequencies
ca. 500 Texte aus
dem Brown
Corpus
(tagged)
Statististik/KNNs,
55 Merkmale
(Interpunktion,
Affixe, Passiv,
etc.)
Wall Street
Journal Corpus
(untagged)
DiskriminantenAnalyse – Worthäufigkeiten und
Interpunktionsz.
Genres
2.
4.
Informative,
Imaginative
Press,
Fiction, Misc.,
Non-Fiction
Präzision
2.
4.
ca. 96%
ca. 73%
6.
Reportage,
Editorial, SciTech, Legal,
Non-Fiction,
Fiction
ca. 90%
(für „reportage
und „fiction )
4.
Editorial, Letter to the
Editor,
Reportage,
Spot news
ca. 97%
9. Hypertextsorten-Klassifikation
Genres
Matsuda & Fukushima (1999),
Task-Oriented
World Wide Web
Retrieval by
Document Type
Classification
Karlgren et al.
(1998), Iterative
Information Retrieval Using Fast
Clustering and
Usage-Specific
Genres
Methoden
9: prod.
catalogue, online
shop, advertisement for help, CfP,
links, FAQ, glossary, home page,
bulletin board
Gewichtetes
PatternMatching in
HTMLElementen
Merkmale
!
keyword, link,
URL, structure,
image, OCR,
plugin
11: Informal/Private, Public/Com.,
Clustering der
insgesamt 40
Indices, Journ.
Merkmale;
Merkmale, z.B.
Material, Reports,
Fazit
Konstruktion
Vorkommen von
Text, FAQ, Link
von if-thenWörtern und
• Einfache Methoden liefern für wenige HypertextColl., Listings/Regeln
HTML-Elementen
sorten sehr gute
Tables, Discussio- Resultate
• Sind Messages
ns, Error diese Ergebnisse auf sehr viele, tw. recht
ähnliche Hypertextsorten übertragbar?
• Auswahl und Granularität der gewählten Hypertextsorten ad hoc, nicht textlinguistisch motiviert!
Präzision
avg. precision of
document-type
search: 88,9%
[avg. precision of
keyword-based
search: 31,2%]
Zwischen 30%
und 90%, je
nach Genre
10. Hypertextsorten: Beispiele
! Eine sehr interessante Hypertextsorte:
Persönliche Homepage
! Mittlerweile: empirisch nachweisbare,
subgenerische Varianten, u.a.:
"
"
"
Persönliche Homepage eines Studierenden
Persönliche Homepage eines administrativen
oder technischen Mitarbeiters
Persönliche Homepage eines Wissenschaftlers
Beispiele aus:
• vier verschiedenen Universitäten und
• vier unterschiedlichen Disziplinen
Georg Rehm
TaCoS 2003
12. Projektverlauf – Roadmap
I.
Empirischer, Korpus-basierter Ansatz:
"
"
Auswahl einer geeigneten Untersuchungsdomäne
Korpus-Datenbank-System:
1.
2.
3.
4.
Datensammlung
Implementation eines Web-basierten Front-Ends
(semi-automatische) Analyse von Stichproben
Erstellung einer Taxonomie von Hypertextsorten
II. Maschinelle Erkennung von Hypertextsorten:
"
"
"
"
"
Georg Rehm
Sammlung von Detektionsmerkmalen
Generischer Aufbau von Hypertextsorten
Klassifikations-Methoden und -Ansätze
Generische Informationsextraktion
Design und Implementierung der System-Architektur
TaCoS 2003
14. Untersuchungsdomäne
! Arbeiten aus dem „digital genre -Bereich:
"
"
Analyse weltweiter Stichproben ohne jegliche Einschränkungen
Extrem grobe und wenig hilfreiche Ergebnisse
! Empirischer Ansatz erfordert:
"
"
Korpus von HTML-Dokumenten als sicheren und großen Vorrat
HTML-Dokumente sind „flüchtig
! Untersuchungsdomäne – Datensammlung:
"
"
Deutschsprachige Dokumente der
Webserver deutscher Hochschulen:
•
•
•
Georg Rehm
Dokumente sind stark strukturiert
Kaum binäre Dateitypen als Vermittler von Text
Bzgl. Inhalt und Form überschaubar
(vs. kommerziellen, künstlerischen, Hobby-Angeboten)
TaCoS 2003
16. Universitäten
100
Allgemeine Universitäten (vollständig)
62
Technische Hochschulen (vollständig)
12
Musik- und Kunsthochschulen (partiell)
5
Wirtschaftshochschulen (partiell)
5
Sonstige Hochschulen (partiell)
16
Traversierte Webserver insgesamt / auf Port 80 operierend
Anzahl per HTTP erreichbarer Dateien
Anzahl HTML-Dokumente gesamt
14.968 / 13.885
16.196.511
8.465.105
Gesamtumfang aller entfernten Webserver
701.464,29 MB
Gesamtumfang der Hypnotic-Korpusdatenbank
40.914,99 MB
Laufende Wortformen (gesamt; nur text/html)
1.138.794.715
Laufende Wortformen (eindeutig; nur text/html)
Gesamtanzahl Dateien im Korpus
12.120.162
4.294.417
Dateien vom Medientyp text/html
3.956.692
Dateien vom Medientyp text/plain
270.400
Dateien vom Medientyp text/css
35.651
Dateien vom Medientyp text/xml
25.871
Dateien vom Medientyp text/sgml
956
Dateien vom Medientyp message/news
490
Dateien vom Medientyp message/rfc822
436
Georg Rehm
TaCoS 2003
17. Die durchschnittliche Webseite ...
! ... ist 594,11 (!) Tage alt.
"
"
96,5%: >10 Tage; 70%: >210 Tage; 35%: >700 Tage
JPEG-Dateien sind ∅ 488, PDF-Dateien nur ∅ 375 Tage alt
! ... ist 7.024 Bytes groß.
"
Etwa 91% aller Dokumente: 1 Byte–16 Kilobyte
! ... enthält 120,57 Elemente und 236,04 Attribute.
"
body (98%), html (97%), head (97%), title (96%), a (87%),
p (81%), br (73%), img (67%), meta (66%), table (64%).
! ... enthält 13,53 Hyperlinks.
"
"
"
Etwa 56% aller Dokumente enthalten bis zu 10 Links.
90% aller Links zeigen auf Webseiten, 5% auf eMail-Adressen, 5%
zeigen auf JavaScript-Dateien.
Top-Level-Domänen in entfernten Links: .de (86,7%), .com
(5,1%), .org (1,9%), .edu (1,4%), .net (0,7%), .uk (0,6%)
! Nur 46% aller HTML-Dokumente der Domäne deutschsprachig!
Georg Rehm
TaCoS 2003
19. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auswahl einer Universität
Georg Rehm
TaCoS 2003
20. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auflistung der Server einer Universität
Georg Rehm
TaCoS 2003
21. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Auflistung der Dokumente eines Servers
Georg Rehm
TaCoS 2003
22. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
Navigation & Suche im
Dokumentbestand
Ansicht eines Dokuments
Georg Rehm
TaCoS 2003
23. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Generierung einer Stichprobe
Georg Rehm
TaCoS 2003
24. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
Die Dokumente einer Stichprobe
Georg Rehm
TaCoS 2003
25. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
DB-gestützte Dokumentanalyse
Georg Rehm
TaCoS 2003
26. Hypnotic-Korpus-Front-End
! SQL-Datenbank zur Referenzierung von Dokumenten
! Web-Oberfläche (PHP)
ermöglicht verteilten Zugriff:
"
"
"
Navigation & Suche im
Dokumentbestand
Zufällige Generierung von
Stichproben
Benutzerabhängige und DBgetriebene Unterstützung bei
der Stichprobenanalyse
! Einsatz von Open SourceWerkzeugen
! Spätere Veröffentlichung des
Systems als Open Source
Georg Rehm
TaCoS 2003
Analyseergebnisse
27. Hypertextsorten und Ontologien
! Viele Textsorten können hierarchisch angeordnet werden.
! Dies trifft auch auf Hypertextsorten zu – in mehrfacher
Hinsicht:
"
"
"
Hypertextsorten-Ebene
Hyperlink-Ebene
Thematische Ebene
→
→
→
Hypertextsorten-Ontologie
Struktur-Ontologie
Themen-Ontologie
! Hypertextsorten-Ebene ist zentral für dieses Projekt:
"
"
"
Wie sind Hypertextsorten generisch strukturiert?
Wie werden diese Strukturinformationen repräsentiert?
Wie kann man korrespondierende Detektionsmerkmale in diese
Repräsentation integrieren?
Georg Rehm
TaCoS 2003
28. Hypertextsorten-Module
! Hypertextsorten werden aus Modulen gebildet.
"
Hypertextsorten sind nicht monolithisch.
! Diese Module sind:
"
"
obligatorisch vs. optional
optisch und/oder strukturell voneinander separiert
! Persönliche Homepage eines Wissenschaftlers:
"
Beispiel-Module:
-
-
-
-
-
-
Georg Rehm
Name (der beschriebenen Person bzw. des Autors)
Kontaktinformationen
Publikationen
Projekte
Lehrveranstaltungen
...
TaCoS 2003
30. XML Schema-Repräsentationen
HypertextsortenOntologie
definieren
Default-Eigenschaften:
<Inhalt, Form, Funktion>
Hypertextsorte
referenzieren
können fungieren als
bestehen aus
Obligatorische
Hypertextsorten-Module
kann
modifizieren
Optionale
Hypertextsorten-Module
Spezifische Eigenschaften:
<Inhalt, Form, Funktion>
werden je HTS
gruppiert in
Hypertextsortenmodule
Atomare Module
bzw. Merkmale
spezifizieren
Komplexe
Module
RDF-Beschreibungen von
Merkmalen und Modulen
HypertextsortenModul-Ontologie
31. Modellierung von Hypertextsorten
! Modellierung durch Stichproben-Analysen
"
Semiautomatische Durchführung mit Hilfe des FrontEnds der Korpusdatenbank:
• Automatische Generierung von Samples
• Semiautomatische Analyse von Samples
• Sukzessive Rekonfiguration modularer Einheiten
! Beispiel:
"
"
Georg Rehm
Persönliche Homepage eines Wissenschaftlers
Stichprobe von 100 Dokumenten
TaCoS 2003
32. Hypertextsorten-Spezifikation
Ebene
Bezeichnung
Status
Vorkommen
Häufigkeit
Atomares Modul
Explizite Begrüßung
generell
optional
Komplexes Modul
Identifikation
generell
obligatorisch
–
Komplexes Modul
Eigenständige Affiliation
generell
obligatorisch
–
Atomares Modul
Alternative Sprachversion
generell
optional
Komplexes Modul
Kontakt-Informationen
generell
obligatorisch
–
Komplexes Modul
Kontakt-Informationen (Sekretariat)
spezifisch
optional
–
Komplexes Modul
Kontakt-Informationen (Mitarbeiter)
spezifisch
optional
–
Komplexes Modul
Universitäres Profil
spezifisch
obligatorisch
–
Komplexes Modul
Wissenschaftliches Profil
spezifisch
obligatorisch
–
Atomares Modul
Lebenslauf, C.V., biographische Angaben
generell
obligatorisch
60
Atomares Modul
Interessante Links
generell
optional
12
Komplexes Modul
Relevante Links
generell
optional
–
Atomares Modul
Angabe der letzten Änderung / Stand
universal
obligatorisch
42
Atomares Modul
Counter, Zugriffszähler
universal
optional
11
Atomares Modul
Gästebuch
universal
optional
1
Georg Rehm
TaCoS 2003
14
75
33. Hypertextsorten-Spezifikation
Ebene
Bezeichnung
Status
Vorkommen
Häufigkeit
Atomares Modul
Explizite Begrüßung
generell
optional
Komplexes Modul
Identifikation
generell
obligatorisch
–
Merkmal
Name des Homepage-Besitzers
generell
obligatorisch
100
Merkmal
... begleitet von Titelangabe
spezifisch
obligatorisch
69
Merkmal
... begleitet von Tätigkeitsangabe
generell
optional
27
Merkmal
... begleitet von Affiliation
generell
obligatorisch
34
Merkmal
... begleitet von Photos des Autors
generell
obligatorisch
54
Komplexes Modul
Eigenständige Affiliation
generell
obligatorisch
–
Merkmal
Name der Universität im Klartext
generell
obligatorisch
75
Merkmal
Logo der Universität
generell
optional
16
Georg Rehm
TaCoS 2003
14
35. Hypertextsorten-Spezifikation
Ebene
Bezeichnung
Status
Vorkommen
Häufigkeit
Komplexes Modul
Universitäres Profil
spezifisch
obligatorisch
–
Merkmal
Angaben zu Lehrveranstaltungen
spezifisch
obligatorisch
49
Merkmal
Universitäre Funktionen (z.B. Gremien)
spezifisch
optional
7
Merkmal
Allgemeine Studienhinweise
spezifisch
optional
3
Merkmal
Angebotene Abschlussarbeiten
spezifisch
optional
2
Komplexes Modul
Wissenschaftliches Profil
spezifisch
obligatorisch
–
Merkmal
Publikationsliste
spezifisch
obligatorisch
71
Merkmal
Forschungsinteressen
spezifisch
obligatorisch
50
Merkmal
Forschungsprojekte
spezifisch
optional
22
Merkmal
Prominent platzierte Bücher/Zeitschriften
spezifisch
optional
6
Merkmal
Liste von Vorträgen und Präsentationen
spezifisch
optional
5
Merkmal
Mitgliedschaften in Fachverbänden
spezifisch
optional
4
Merkmal
Technologietransfer
spezifisch
optional
1
Georg Rehm
TaCoS 2003
36. Hypertextsorten-Definition
! Modul-Reihenfolge entspricht kanonischer Sequenz
! In dieser Stichprobe Bestimmung obligatorisch vs.
optional ab 30 Vorkommen
! Status von Modulen und Merkmalen:
"
"
Kennzeichnet mögliche Vorkommen eben diesen Merkmals
in höher angeordneten Hypertextsorten
Beispiel: Das Modul „Kontakt-Informationen
• In persönliche Homepage eines Wissenschaftlers generell
– Auch in z.B. persönliche Homepage eines Studierenden
• Das hierin enthaltene Merkmal „Sprechstunden ist spezifisch
• Module wie „Zugriffszähler oder „Gästebuch sind universal
"
Zweck: Modellierung der persönlichen Homepage eines
Wissenschaftlers als subgenerische Varietät der
persönlichen Homepage
Georg Rehm
TaCoS 2003
37. Hypertextsorten: NL-Definition
! Persönliche Homepage eines Wissenschaftlers:
"
gekürzt
Präsentation einer Person in digitaler, hypertextueller Form,
verfasst von einem Autor, der an einer Universität oder einer
vergleichbaren Institution arbeitet. Die Präsentation
• stellt die Person heraus (durch einen Namen und ein Photo)
und macht eindeutige Angaben zur Affiliation,
• stellt vergangene und aktuelle Forschungsaktivitäten und
• die Berufserfahrung dar, indem das
– Universitäre Profil (Angaben zu Lehrveranstaltungen) und das
– Wissenschaftliche Profil (Publikationsliste und
Forschungsinteressen) der Person aufgeführt werden.
"
• enthält Kontakt-Informationen (mindestens Straßenadresse,
Telefonnummer, Email-Adresse und die Raumnummer),
evtl. auch dezidiert für das Sekretariat und Mitarbeiter.
Funktion dieser Hypertextsorte: (i) Etablierung eines
eigenständigen wissenschaftlichen Profils; Distribution von (ii)
Materialien für Lehrveranstaltungen sowie (iii) Publikationen,
aktuellen Forschungsinteressen und Kontakt-Informationen.
Georg Rehm
TaCoS 2003
38. Zwischenstand
! Bislang wurden thematisiert:
"
"
"
"
Erzeugung eines Web-Schnappschusses einer
bestimmten Domäne, Korpus und Zugriffswerkzeuge
Hypertextsorten
Ihre Konstituierung aus Hypertextsorten-Modulen
Module können sich aus einzelnen Merkmalen
zusammensetzen, die auf zwei Ebenen typisiert sind
! Es stehen noch aus:
"
"
"
Georg Rehm
Aufbau von Hypertextsorten-Ontologien
Maschinelle Klassifikation von Hypertextsorten
Der zentrale Vorteil dieses Ansatzes
TaCoS 2003
39. Hypertextsorten-Ontologie
! Stichproben-Analysen:
1. Erste Stichprobe (200 Dokumente) ergab:
initiale Liste von Hypertextsorten,
• extremen Bedarf für eine hierarchische Anordnung!
2. Zwei weitere Stichproben:
a. top-down:
•
•
727 Dokumente der obersten Verlinkungsebene der
Einstiegsseiten der ersten 35 Universitäten im Korpus
b. bottom-up:
•
•
Georg Rehm
2000 zufällig ausgewählte „tiefe Dokumente
Diese Analyse steht noch aus
TaCoS 2003
40. Hypnotic-Hypertextsorten-Ontologie
Version 0.4
Nur einige der noch offenen Fragen:
• Welche unterschiedlichen Knoten-Typen existieren?
• Welche dieser Typen treten in der Realität auf („Text )?
• Wie können isolierte Knoten („Linkliste ) sinnvoller in
die Ontologie integriert werden?
• Welche unterschiedlichen Kanten-Typen existieren?
• Ist eine Hyperlink-Typologie sinnvoll integrierbar?
• XML als vereinheitlichendes Repräsentationsformat?
Georg Rehm
TaCoS 2003
41. Grobe Verteilung im 200er Sample
!
Administrative Informationen (14)
"
Studienordnung (2)
"
Lehrveranstaltungsbezogene
Informationen (2)
• Grundlegende Informationen zu
einem Kurs (9)
• Kommentar (7)
"
"
!
• Übungsaufgabe (5)
• Lösungen von Aufgaben (1)
• Liste von Veranstaltungen (2)
• LV-Materialien (2)
Informationen zu Stipendium (1)
Stellenangebot (1)
!
Institut/Lehrstuhl/Arbeitsbereich (15)
"
Einstiegsseite (4)
• Konferenz (5)
"
"
Universitäre Informationen (5)
"
Wegbeschreibung/Lageplan (3)
"
Beschreibung eines universitären
Informationsangebots (1)
• 84 Hypertextsorten sind enthalten.
• 11 Dokumenten konnte aus technischen
Gründen keine Hypertextsorte zugeordnet
werden.
• 4 Hypertextsorten konnten nicht sinnvoll in
die Taxonomie integriert werden.
"
"
• Beschreibung einer
Arbeitsgruppe (2)
• Programmüberblick (1)
• Anmeldeformular (1)
Liste der Mitarbeiter (4)
• Persönliche Homepage (14)
• Wissenschaftler (4)
• Hilfskraft (3)
• Virtuelle Visitenkarte (1)
Beschreibung eines
Forschungsschwerpunkts (3)
• Bibliographie (9)
• eines Autors (3)
• eines Instituts (3)
• thematisch sortiert (2)
• Forschungsprojekt (9)
• Beschreibung (7)
• Arbeitsplan (19)
Kurze Darstellung der Institution (1)
Organisationsplan (1)
42. Detektionsmerkmale
!
Werden eingesetzt zur
!
!
!
Ansätze zur Textsorten-Klassifikation:
!
!
!
Klassifikation von Dokumentinstanzen in Hypertextsorten
Genauer gesagt: Zur Zuweisung von HypertextsortenModulen an Dokumentfragmente
Analyse von „flat ASCII -Text
Fast ausschließlich sprachliche Merkmale
HTML bietet „mehr :
!
!
Die ∅-Webseite enthält 120,57 Elemente, 236,04 Attribute
und 13,53 Hyperlinks → Hohes Maß an Strukturiertheit!
Derzeit ca. 120 Merkmale, eingeteilt in fünf Klassen:
1.
2.
3.
4.
5.
Georg Rehm
Dokumentübergreifende Merkmale
Metadaten
Sprachliche und strukturelle Cues
Sprachliche Konzeption
HTML-Struktur
TaCoS 2003
43. Sprachliche und strukturelle Merkmale
Titel Vorname Nachname
Universität ... → Institut ...
→ Arbeitsbereich ...
Straße Hausnr. PLZ Stadt
Kontaktinformationen:
Raum Nr., E-Mail, Tel.-, Faxnr.
Sprechstunde Tag Uhrzeit
Automatische Erkennung mittels:
• regulärer Ausdrücke (für Telefonnummern etc.)
Erkennung dieser Cues schränkt Suche ein auf:
• named entity-Tagger (für Personen- und Stadtnamen)
• Persönliche Homepage eines Wissenschaftlers
• hochfrequenter Schlüsselwörter einer Hypertextsorte
• Virtuelle Visitenkarte
• ...
Georg Rehm
TaCoS 2003
45. Merkmal: Sprachliche Konzeption
! CMC: E-Mail, Chat, Usenet → konzeptionelle Mündlichkeit
! Berichtete Merkmale:
! Umgangssprachliche Formen
! Einfache Syntax und Lexik
(z.B. bei Begrüßungen und
! Freie, assoziative ThemenVerabschiedungen)
entwicklung
Diese Merkmale sind mit Hilfe von ! Spontane Äußerungen
! Hochfrequent: ich, man, du, ein- regulären Ausdrücken und
fach, mal, ziemlich, irgendwie
verschiedenen Listen (von Smileys, speziellen Akronymen etc.)
! ...
automatisch detektierbar!
! Regionalismen, Dialektismen
! Ausgeprägte Dialogizität
! Emphasen: ist _eingeschränkt_
! Slangausdrücke: IMHO ...
! Bigraphen (gruen), Assimilationen
(gibt s), Auslassungspunkte
(...), reduplizierte Interpunktionszeichen (!!!!!!) etc.
Georg Rehm
TaCoS 2003
! Smileys: :-)
! Isolierte Verbstämme:
*lach*, *grins*, ...
! Spezifische Abkürzungen:
*rotfl*
! Iterationen: Tschüßiiiii
46. Merkmal: Sprachliche Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
47. Merkmal: Sprachliche Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
48. Merkmal: Sprachliche Konzeption
Persönliche Homepage von
Prof. Dr. Henning Lobin
Kommentiertes Vorlesungsverzeichnis
des Fachgebiets Germanistik der JLU
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
49. Merkmal: Sprachliche Konzeption
Einschränkung der potentiellen Hypertextsorte auf:
studentische Homepages, Gästebücher, Chat-Protokolle,
Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc.
Kommentiertes Vorlesungsverzeichnis
Persönliche Homepage von
Prof. Dr. Henning Lobin
des Fachgebiets Germanistik der JLU
!
Kontinuum der sprachlichen Konzeption
schriftlich
mündlich
Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
50. Das eigentliche Ziel
! XML Schema als Repräsentationsformat der
Hypertextsorten-Ontologie
! Resultate des Analyse-Systems sollen sein:
"
"
Klassifikation eines HTML-Dokuments in eine
Hypertextsorte
Basierend auf dieser Information:
• Konvertierung der Webseite in eine XML-Instanz
• Explizite Annotation der HTS-Module
! Anders gesagt:
"
Georg Rehm
Hypertextsorten-getriebene Konvertierung arbiträrer
HTML-Dokumente der Untersuchungsdomäne in
korrespondierende XML-Formate
TaCoS 2003
52. Konvertierung HTML → XHTML
! HTML-Dokumente im Web enthalten sehr viel
fehlerhaftes Markup
"
Erschwert maschinelle Verarbeitung erheblich
! XHTML: Neuformlierung von HTML mit XML
"
XHTML-Dokumente sind auch XML-Dokumente
! Wohlgeformte XHTML-Dokumente können mit XMLWerkzeugen verarbeitet werden:
"
XML Parser, XPath, DOM, XSLT etc.
! Konvertierung erfolgt mit gepatchtem Tidy und dem
Perl-Modul HTML::TreeBuilder
! Test mit 10.000 Dokumenten:
"
Konvertierung in 98,7% aller Fälle erfolgreich
• Bis auf 5 der 9872 automatisch erzeugten XML-Dokumente
sind alle von einem (nicht validierenden) XML-Parser ohne
Fehlermeldung prozessierbar
Georg Rehm
TaCoS 2003
53. Strukturanalyse
! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
"
Georg Rehm
DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen
TaCoS 2003
56. Strukturanalyse
! Perl-Skript (work in progress), benutzt das Modul
XML::LibXML, also DOM Level 2 und XPath
"
DOM: Document Object Model, ermöglicht baum-basierte
Verarbeitung von XML-Instanzen
! Verschachtelte rekursive Funktionen beginnen beim
Wurzelelement des Dokumens (<html>):
"
Berechnung verschiedener Merkmale einzelner Teilbäume,
der in ihnen enthaltenen Teilbäume etc.:
• Anzahl Kindelemente, Anteil Elemente/Attribute, Anzahl Wörter
• Hyperlink-Analyse (external, samedomain, internal)
• Analyse von eingebetteten Graphiken
– Ermittlung der Abmessungen der Graphiken
– Erkennung von Werbebannern
– Erkennung horizontaler Separatoren
• Analyse von Listen-Strukturen
• ...
Georg Rehm
TaCoS 2003
57. Strukturanalyse
! Die Analyse-Heuristiken legen ihre Resultate unmittelbar
in dem XHTML-Dokument ab:
"
Deklaration eines eigenen Namespace (hypnotic:) im
Wurzelelement (Default bleibt jedoch XHTML 1.0)
• Namespace → Analyse-DTD der Systemarchitektur
"
"
"
"
Elemente: Makrostrukturelle Analyseresultate
Attribute: Teilbaum- und Element-bezogene Analyseresultate
Ermöglicht: Meta-Ansicht bzw. Dokument-Partitionierung
Beispiel:
• Horizontale Linien sind eigentlich durch <hr> zu realisieren
• Häufig werden hierfür auch Graphiken benutzt
• Strukturanalyse markiert:
<img src="..." hypnotic:TagGroup="separator">
"
Vergrößert ein Dokument derzeit um den Faktor 20
! Bislang erst Spitze des Eisberges implementiert – sehr
viele Funktionen stehen noch aus
Georg Rehm
TaCoS 2003
58. Informationsextraktion
! Wrapping: Mittlerweile triviale Anwendung
"
Informationsextraktion aus genau einem HTMLDokument-Typ
! Hypnotic verfolgt:
"
"
Hypertextsorten-getriebene Informationsextraktion
Kann für einige HTS-Module auf der bloßen
Strukturanalyse basieren:
• Definition des Moduls: „Interessante Links
– Listenartige Präsentation von mindestens zwei
externen Hyperlinks
– Evtl. flankiert von kurzer Erläuterung des Link-Ziels
– Mindestens ein Hyperlink pro logischem Abschnitt
der Liste
Georg Rehm
TaCoS 2003
59. Informationsextraktion
! Definition ist unmittelbar in XPath-Ausdruck überführbar:
//* [@hypnotic:TagGroup="list"]
[@hypnotic:NumberOfListItems > 1]
[@hypnotic:TotalLinkCount >= number(@hypnotic:NumberOfListItems)]
[//* [@hypnotic:LinkType]]
[(not(.//*[ @hypnotic:LinkType and
@hypnotic:LinkType != "external"]))]
! Finde alle Knoten:
Aber:
Die vom Typ „Liste sind,
"
mehr als ein bezieht sich nun
Dieses Element List-Item enthalten, nicht mehr auf die Analyse-DTD,
"
ausschließlich externe Hyperlinks beinhalten und
sondern auf die XML Schema-Formalisierung einer Hypertextsorte!
"
mindestens so viele externe Hyperlinks wie List-Items umfassen.
"
! Falls alle Prädikate wahr sind, kann der Kontext-Knoten als
hypnotic:WebGenreModule="Interesting Links" analysiert werden
Georg Rehm
TaCoS 2003
61. Ausblick
! Stichprobenauswertung (bottom-up) zur
Komplettierung der Hypertextsorten-Ontologie
! Entwicklung des XML-Repräsentationsformats
für die Hypertextsorten-Ontologie
! Entwicklung des RDF-Repräsentationsformats
für die Hypertextsorten-Modul-Ontologie
! Implementation des Klassifikationssystems
! Evaluation des Systems mit realen SuchFragestellungen
Georg Rehm
TaCoS 2003