Georg Rehm. Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen. FAST Search, A Microsoft Subsidiary, Munich, Germany, August 2008. August 13, 2008. Invited talk.
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen
1. Hypertextsorten"
"
Eine neuartige Ebene der Filterung und "
Herausforderung für moderne Suchmaschinen
!
Georg Rehm
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!
Hypertextsorten: Eine neuartige Ebene der Filterung und HerausforderungAugust 2008 Suchmaschinen!
FAST Search, München, 13. für moderne
!
1/37!
4. Hypothese!
•
Die Textlinguistik untersucht und beschreibt Textsorten:!
- Komplexe Muster sprachlicher Kommunikation !
- Im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund
kommunikativer Bedürfnisse entstanden!
- Beispiele: Liebesbrief, Kassenbon, Zeugnis, Einkaufszettel,
Wörterbuch, Dissertation, Rechnung, Wetterbericht etc.!
•
Zentrale Hypothese: Im WWW existieren Hypertextsorten.!
- Ebenfalls Muster sprachlicher Kommunikation !
- Ebenfalls entstanden aufgrund kommunikativer Bedürfnisse!
- Grund dafür, dass Nutzer mit spezifischen Typen von Websites
spezifische Erwartungshaltungen und Konventionen verbinden!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
4/37!
5. Wichtige Forschungsfragen (Auszug)!
•
•
•
Welche und wieviele Hypertextsorten existieren?!
Welche Spezifika weisen Hypertextsorten im Vergleich zu traditionellen
Textsorten auf?!
Welche Konstituenten besitzen Hypertextsorten und wie können diese
repräsentiert werden?!
•
Kann eine Typologie von Hypertextsorten konstruiert werden?!
•
Können Hypertextsorten maschinell identifiziert werden?!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
5/37!
7. Persönliche Homepage eines Wissenschaftlers!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
7/37!
8. Hypertextsorten – Bausteine!
•
Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).!
•
Hypertextsorten bestehen aus Hypertextsortenmodulen!
- Strukturell voneinander separierte Bausteine!
•
Zur Beschreibung und Erfassung von Hypertextsorten sind
Stichprobenanalysen notwendig.!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
8/37!
11. Das Hypertextsortenmodell!
•
Das Hypertextsortenmodell ist Grundlage für!
- linguistische und textlinguistische Analysen von
Hypertextexemplaren,!
- eine sprachtechnologische Architektur zur automatischen
Identifizierung von Hypertextsorten.!
•
Generischer Aufbau einer Hypertextsorte:!
Hypertextsorte i!
besteht aus!
Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!
wird eingebettet in oder
!
kann fungieren als
!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
Ausschnitt des"
Hypertextsortenmodells!
11/37!
12. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
12/37!
13. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
13/37!
14. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
14/37!
15. Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!
Eingebettete Hypertextsorte:!
Persönliche Homepage eines"
Wissenschaftlers!
Hypertextsortenmodul:!
Kontaktinformationen!
Hypertextsortenmodul:!
Foto!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
15/37!
16. Zur weiteren Methodologie!
•
Korpusdatenbank (Linux, Apache, MySQL, PHP)!
•
Untersuchungsdomäne: Webauftritte von Hochschulen!
•
Manuelle und semiautomatische Analyse von Stichproben auf der Basis
des Hypertextsortenmodells zur!
- Beschreibung spezifischer Hypertextsorten!
- Sammlung von Hypertextsorten!
•
•
Integration der Ergebnisse in maschinenlesbare Repräsentation!
Erstellung und teilweise Implementierung einer Architektur für die
automatische Identifizierung von Hypertextsorten!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
16/37!
18. Sammlung von Hypertextsorten!
•
•
Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der
maschinellen Identifizierung von Hypertextsorten.!
Analyse einer Stichprobe von 750 zufällig ausgewählten Dokumenten:!
- 65 Hypertexttypen bzw. -sorten (mit Subtypen)!
- 114 Hypertextknotentypen bzw. -sorten (mit Subtypen)!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
18/37!
19. Die Hypertextsorten im Überblick!
!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveran-staltung (4;
13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. SoftwareDokumentation (4; 5,3%); 5. For-schungsbericht, Jahresbericht
(3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan
einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer
Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule
(1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten
(1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum
(1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines
Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/
Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren
(0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32.
Aufgabenstellungen für Haus oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit;
34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studieren-denstatistik;
37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41.
Dissertation; 42. Fachinformationsportal; 43. FAQDokument; 44. Grafischer Assistent zur Prozessentwicklung; 45.
InternetZeitschrift; 46. MailingListenArchiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten
historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55.
Kunst und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (Studien/Hausarbeiten); 59.
Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel (Sportveranstaltung); 63. Transferkatalog;
64. Virtual Library; 65. Wissenschaftlicher Artikel!
!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
19/37!
20. Die Hypertextknotensorten im Überblick (Ausschnitt)!
!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer
Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8.
Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6;
2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit)
(1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines
Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan
bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20.
Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24.
Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E
Mail; 28. Kontaktinformationen; 29. Kurzdar-stellung einer Organisationseinheit (Funktionen und
Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im TechnologietransferKontext)
(0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33.
Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder
angebotene Haus und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38.
Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur und Prüfungstermine; 42. Medizinische
Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Con-struction“Hinweis; 45.
Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufga-benstellung für eine Haus oder
Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung-/Veranstaltung; 49. DownloadListe; 50.
Kommentar einer Lehrveranstaltung !
!!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
20/37!
22. Repräsentation durch Ontologien!
•
•
•
Teilziel: Konstruktion einer Ontologie von Hypertextsorten als
Repräsentationsformat für sprachtechnologische Anwendungen!
Datengrundlage: Ergebnisse von sechs Stichprobenanalysen (insgesamt
etwa 3000 HTML-Dokumente)!
Modellierung in der Web Ontology Language (OWL):!
-
W3C-Standard, gute Software-Unterstützung !
-
Hypertextsorten-Repräsentation als Teil des Semantic Web!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
22/37!
23. Integration von drei unterschiedlichen Ontologien!
UDK (Kategorienbaum
!
des Projekts GERHARD)
!
Mehrere Datenquellen
!
(z.B. Hochschulgesetze)
!
Ontologie wissenschaftlicher!
Themen und Fachgebiete!
Domänenontologie!
referenziert!
Hypertextsortenmodell
!
Hypertextsortenontologie!
Stichprobenanalysen
!
beschreibt!
Hypertexttypen und!
Hypertextsorten!
Hypertextknotentypen und!
Hypertextknotensorten!
Hypertextsortenmodule!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
23/37!
24. Die Hypertextsortenontologie!
Das Hypertext-!
sortenmodell!
in abstrakter und!
vereinfachter Form!
(Ausschnitt)!
Das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
24/37!
25. Die Hypertextsortenontologie!
Referenzierung aller potentiellen Emittenten,!
die in der Domänenontologie repräsentiert werden!
In diesen Visualisierungen fehlen u.a.:!
•
•
•
Datatype Propertys!
Spezifikationen der Relationen!
RDF-Annotationen!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
25/37!
26. Die Hypertextsortenontologie!
Typologie des Hypertexttyps!
Homepage einer Person!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
26/37!
27. Die Hypertextsortenontologie!
•
Aufgaben und Funktionen der Hypertextsortenontologie:!
- Modelliert multiple Typologien von Hypertextsorten,
Hypertextknotensorten und Hypertextsortenmodulen!
- Modelliert die Konstituenten von Hypertextsorten!
- Dient als Grundlage von Dokumentgrammatiken!
- Enthält weiterführende Ressourcen für die maschinelle Verarbeitung
(z.B. assoziierte Wrapper, DTD-Fragmente)!
- Basis des User Interface einer Suchmaschine mit Hypertextsortenfilter (Navigation und Exploration der Ontologie)!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
27/37!
29. Status Quo: Maschinelle Erkennung von Textsorten!
Korpus
!
Methoden
!
Genres
!
Präzision
!
!Biber (1988)!
!481 englische Texte "
(u.a. LOB)!
!Statistische Verfahren; "
67 linguistische Merkmale!
!23 Genres!
!k.A.!
!Karlgren und
Cutting (1994)!
!500 englische Texte "
(Brown Corpus)!
!Statistische Verfahren; "
20 Merkmale!
!1.: 2 Genres"
2.: 4 Genres"
3.: 15 Genres!
!1. ca. 96%"
2. ca. 73%"
3. ca. 52%!
!Kessler "
et al. (1997)!
!499 englische Texte "
(Brown Corpus)!
!Statistische Verfahren und
neuronale Netze; 55
Merkmale!
!6 Genres!
!Zwischen "
58% und 100%!
!Stamatatos "
et al. (2000)!
!160 englische Texte "
(Wall Street Journal Corpus)!
!Statistische Verfahren; Wortund Interpunktionsfrequenzen!
!4 Genres!
!ca. 97%!
!Stamatatos "
et al. (2001)!
!250 griechische Texte "
(aus dem WWW)!
!Statistische Verfahren; "
22 Merkmale!
!10 Genres!
!ca. 82%!
!Dewdney "
et al. (2001)!
!9705 englische Texte!
!Überwachte Lernverfahren
auf zwei Merkmalsgruppen!
!7 Genres!
!Bis zu 92,1%!
!Santini (2004)!
!150 englische Txte "
(British National Corpus)!
!Überwachte Lernverfahren
auf POS-Trigrammen!
!10 Genres!
!Zw. 78,6% "
und 99,3%!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
29/37!
30. Status Quo: Maschinelle Erkennung v. Web-Genres!
Web-Genres
!
Methoden
!
Präzision
!
!Matsuda und
Fukushima (1999)!
!9: Product catalogue, online shop, advertisement for
help, call for papers, links, FAQ, glossary, home
page, bulletin board!
!Gewichtetes Pattern
Matching in HTMLElementen!
!88,9% (IR-Task), ohne
die engine: 31,2%!
!Finn et al. "
(2002)!
!2: Kommentare bzw. Editorials ( opinion ),
Nachrichtenartikel ( fact )!
!Überwachtes
Lernverfahren!
!Zwischen "
68% und 72%!
!Lee und Myaeng
(2002, 2004)!
!7: Reportage, editorial, research articles, reviews,
homepage, Q&A, spec!
!Überwachtes
Lernverfahren "
(kNN-ähnlich)!
!87% (engl. Texte),"
90% (kor. Texte)!
!Shepherd et al.
(2004)!
!3: Personal home page, corporate home page,
organization home page!
!Überwachtes
Lernverfahren (NN)!
!Durchschnittliches "
F-Maß: 70,6%!
!Meyer zu Eissen
und Stein (2004)!
!8: Help, article, discussion, shop, portrayal (nonprivate), portrayal (private), link collection,
download!
!Überwachtes
Lernverfahren "
(SVM, NN)!
!70%!
!Lim et al.
(2005a,b)!
!16: Personal homepages, public homepages,
commercial homepages, bulletin collections, link
collections, image collections, simple tables/lists,
input pages, journalistic materials, research reports,
official materials, informative materials, FAQs,
discussions, product specifications, others (informal
texts)!
!Überwachtes
Lernverfahren "
(kNN-ähnlich)!
!75,9%!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
30/37!
31. Status Quo: Kritische Anmerkungen!
•
Identifizierung von Textsorten/Web-Genres prinzipiell möglich!
•
Methoden basieren auf strukturellen bzw. linguistischen Merkmalen, die
einfach erhoben werden können!
•
Mehrere Problemfelder:!
1. Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder
textlinguistisch noch empirisch motiviert.!
2. Mangelnde theoretische Fundierung – Spezifika von Hypertextsorten wer-den
ignoriert (simple Übertragung traditioneller Verfahren auf das WWW).!
3. Das einzelne HTML-Dokument als atomare Analyseeinheit. !
4. Verwendete Methoden und ihre Skalierbarkeit – Verarbeitung von "
150+ Hypertextknotensorten mehr als fraglich.!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
31/37!
33. Der Textparser für generische HTML-Dokumente!
•
•
•
•
•
Konvertierung von HTML nach XHTML (d.h. XML)!
Textparser basiert auf einer mehrstufigen, rekursiven Verarbeitung der
DOM-Struktur eines Dokuments (Problem: tag abuse).!
Zentrale Komponente innerhalb der Architektur!
Ergebnisse werden innerhalb des Dokuments abgelegt (eigener
Namensraum, vergrößert ein Dokument um den Faktor 25)!
Ziele:!
- Ermittlung der Bausteine der Textoberfläche!
- Reduktion des meist sehr komplexen HTML-Markups auf ein
überschaubares Inventar von Makrostrukturbausteinen!
- Abbildung dieser Bausteine auf Hypertextsortenmodule!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
33/37!
34. Ausblick – HTS-getriebene Informationsextraktion!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
34/37!
36. Schlussfolgerungen!
•
Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell
möglich.!
•
Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!
•
Übergreifende Probleme verhindern dies noch. Hierzu zählen:!
- Problematik eines Inventars von Hypertextsorten:!
! Bestimmung nur manuell und empirisch möglich.!
! Ermittlung aller Hypertextsorten im WWW ist unrealistisch (es
existieren beliebige traditionelle Textsorten, kulturelle
Besonderheiten etc.)!
- Maschinelle Bestimmung der Grenzen von Hypertexten!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
36/37!
37. Lösungsansatz!
•
Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im
Bereich Enterprise Search. Vorteile:!
- Geschlossenes und kontrolliertes System (mehr oder weniger).!
- Anzahl der Text- und Hypertextsorten ist begrenzt.!
- Text- und Hypertextsorten können in Kooperation mit
Domänenexperten erfasst, benannt und modelliert werden.!
!Georg Rehm (2007): Hypertextsorten: Definition – Struktur – Klassifikation. "
Norderstedt: Books on Demand.!
!Georg Rehm und Marina Santini (Hrsg.) (2007): Proceedings of the International Workshop „Towards
Genre-Enabled Search Engines“ (held in conjunction with "
RANLP 2007 on September 30). Shoumen, Bulgaria: Incoma. !
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!
37/37!