SlideShare ist ein Scribd-Unternehmen logo
1 von 37
Downloaden Sie, um offline zu lesen
Hypertextsorten"
"

Eine neuartige Ebene der Filterung und "
Herausforderung für moderne Suchmaschinen
!

Georg Rehm
!
!
georg.rehm@gmail.com
!
http://georg-re.hm
!

Hypertextsorten: Eine neuartige Ebene der Filterung und HerausforderungAugust 2008 Suchmaschinen!
FAST Search, München, 13. für moderne
!

1/37!
Motivation!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

2/37!
Motivation!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

3/37!
Hypothese!
• 

Die Textlinguistik untersucht und beschreibt Textsorten:!
-  Komplexe Muster sprachlicher Kommunikation !
-  Im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund
kommunikativer Bedürfnisse entstanden!
-  Beispiele: Liebesbrief, Kassenbon, Zeugnis, Einkaufszettel,
Wörterbuch, Dissertation, Rechnung, Wetterbericht etc.!

• 

Zentrale Hypothese: Im WWW existieren Hypertextsorten.!
-  Ebenfalls Muster sprachlicher Kommunikation !
-  Ebenfalls entstanden aufgrund kommunikativer Bedürfnisse!
-  Grund dafür, dass Nutzer mit spezifischen Typen von Websites
spezifische Erwartungshaltungen und Konventionen verbinden!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

4/37!
Wichtige Forschungsfragen (Auszug)!
• 
• 

• 

Welche und wieviele Hypertextsorten existieren?!
Welche Spezifika weisen Hypertextsorten im Vergleich zu traditionellen
Textsorten auf?!
Welche Konstituenten besitzen Hypertextsorten und wie können diese
repräsentiert werden?!

• 

Kann eine Typologie von Hypertextsorten konstruiert werden?!

• 

Können Hypertextsorten maschinell identifiziert werden?!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

5/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Persönliche Homepage eines Wissenschaftlers!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

7/37!
Hypertextsorten – Bausteine!
• 

Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).!

• 

Hypertextsorten bestehen aus Hypertextsortenmodulen!
-  Strukturell voneinander separierte Bausteine!

• 

Zur Beschreibung und Erfassung von Hypertextsorten sind
Stichprobenanalysen notwendig.!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

8/37!
Modellierung einer Hypertextsorte (Ausschnitt)!
Ebene
!

Bezeichnung des Hypertextsortenmoduls
!

Status
!

Vorkommen
!

Frequenz
!

Atomares Modul!

Explizite Begrüßung!

generell
!

optional
!

14
!

Komplexes Modul!

Identifikation!

generell
!

obligatorisch
!

–
!

Komplexes Modul!

Eigenständige Affiliation!

generell
!

obligatorisch
!

–
!

Atomares Modul!

Alternative Sprachversion!

generell
!

optional
!

75
!

Komplexes Modul!

Kontaktinformationen!

generell
!

obligatorisch
!

–
!

Komplexes Modul!

Kontaktinformationen (Sekretariat)!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Kontaktinformationen (Mitarbeiter)!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Universitäres Profil!

spezifisch
!

optional
!

–
!

Komplexes Modul!

Wissenschaftliches Profil!

spezifisch
!

obligatorisch
!

–
!

Atomares Modul!

Lebenslauf, C.V., biographische Angaben!

generell
!

obligatorisch
!

60
!

Atomares Modul!

Interessante Links!

generell
!

optional
!

12
!

Komplexes Modul!

Relevante Links!

generell
!

optional
!

–
!

Atomares Modul!

Angabe der letzten Änderung / Stand!

universal
!

optional
!

42
!

Atomares Modul!

Counter, Zugriffszähler!

universal
!

optional
!

11
!

Atomares Modul!

Gästebuch!

universal
!

optional
!

1
!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

9/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Das Hypertextsortenmodell!
• 

Das Hypertextsortenmodell ist Grundlage für!
-  linguistische und textlinguistische Analysen von
Hypertextexemplaren,!
-  eine sprachtechnologische Architektur zur automatischen
Identifizierung von Hypertextsorten.!

• 

Generischer Aufbau einer Hypertextsorte:!
Hypertextsorte i!
besteht aus!

Hypertextsortenmodul 1...n!
Hypertextknotensorte 1...n! Hypertextsorte 0...n!

wird eingebettet in oder
!
kann fungieren als
!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

Ausschnitt des"
Hypertextsortenmodells!
11/37!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

12/37!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

13/37!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

14/37!
Beispiel – Einbettung von Hypertextsorten!
Hypertextsorte:!
Webauftritt einer Universität!
Eingebettete Hypertextsorte:!
Webauftritt eines Fachbereichs!
Eingebettete Hypertextsorte:!
Webauftritt einer Arbeitsgruppe!
Eingebettete Hypertextsorte:!
Persönliche Homepage eines"
Wissenschaftlers!
Hypertextsortenmodul:!
Kontaktinformationen!
Hypertextsortenmodul:!
Foto!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

15/37!
Zur weiteren Methodologie!
• 

Korpusdatenbank (Linux, Apache, MySQL, PHP)!

• 

Untersuchungsdomäne: Webauftritte von Hochschulen!

• 

Manuelle und semiautomatische Analyse von Stichproben auf der Basis
des Hypertextsortenmodells zur!
-  Beschreibung spezifischer Hypertextsorten!
-  Sammlung von Hypertextsorten!

• 
• 

Integration der Ergebnisse in maschinenlesbare Repräsentation!
Erstellung und teilweise Implementierung einer Architektur für die
automatische Identifizierung von Hypertextsorten!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

16/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Sammlung von Hypertextsorten!
• 

• 

Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der
maschinellen Identifizierung von Hypertextsorten.!
Analyse einer Stichprobe von 750 zufällig ausgewählten Dokumenten:!
-  65 Hypertexttypen bzw. -sorten (mit Subtypen)!
-  114 Hypertextknotentypen bzw. -sorten (mit Subtypen)!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

18/37!
Die Hypertextsorten im Überblick!
!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveran-staltung (4;
13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. For-schungsbericht, Jahresbericht
(3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan
einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer
Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule
(1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten
(1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum
(1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines
Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/
Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren
(0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32.
Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit;
34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studieren-denstatistik;
37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41.
Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45.
Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten
historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55.
Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (Studien­/Hausarbeiten); 59.
Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel (Sportveranstaltung); 63. Transferkatalog;
64. Virtual Library; 65. Wissenschaftlicher Artikel!
!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

19/37!
Die Hypertextknotensorten im Überblick (Ausschnitt)!
!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer
Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8.
Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6;
2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit)
(1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines
Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan
bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20.
Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24.
Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­
Mail; 28. Kontaktinformationen; 29. Kurzdar-stellung einer Organisationseinheit (Funktionen und
Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext)
(0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33.
Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder
angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38.
Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische
Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Con-struction“­Hinweis; 45.
Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufga-benstellung für eine Haus­ oder
Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung-/Veranstaltung; 49. Download­Liste; 50.
Kommentar einer Lehrveranstaltung !
!!
Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

20/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Repräsentation durch Ontologien!
• 

• 

• 

Teilziel: Konstruktion einer Ontologie von Hypertextsorten als
Repräsentationsformat für sprachtechnologische Anwendungen!
Datengrundlage: Ergebnisse von sechs Stichprobenanalysen (insgesamt
etwa 3000 HTML-Dokumente)!
Modellierung in der Web Ontology Language (OWL):!
- 

W3C-Standard, gute Software-Unterstützung !

- 

Hypertextsorten-Repräsentation als Teil des Semantic Web!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

22/37!
Integration von drei unterschiedlichen Ontologien!
UDK (Kategorienbaum
!
des Projekts GERHARD)
!

Mehrere Datenquellen
!
(z.B. Hochschulgesetze)
!

Ontologie wissenschaftlicher!
Themen und Fachgebiete!

Domänenontologie!
referenziert!

Hypertextsortenmodell
!

Hypertextsortenontologie!

Stichprobenanalysen
!

beschreibt!

Hypertexttypen und!
Hypertextsorten!

Hypertextknotentypen und!
Hypertextknotensorten!

Hypertextsortenmodule!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

23/37!
Die Hypertextsortenontologie!
Das Hypertext-!
sortenmodell!
in abstrakter und!
vereinfachter Form!
(Ausschnitt)!

Das Hypertext-!
sortenmodell!
als OWL-Ontologie!
(Ausschnitt)!
Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

24/37!
Die Hypertextsortenontologie!

Referenzierung aller potentiellen Emittenten,!
die in der Domänenontologie repräsentiert werden!

In diesen Visualisierungen fehlen u.a.:!
• 
• 
• 

Datatype Propertys!
Spezifikationen der Relationen!
RDF-Annotationen!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

25/37!
Die Hypertextsortenontologie!

Typologie des Hypertexttyps!
Homepage einer Person!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

26/37!
Die Hypertextsortenontologie!
• 

Aufgaben und Funktionen der Hypertextsortenontologie:!
-  Modelliert multiple Typologien von Hypertextsorten,
Hypertextknotensorten und Hypertextsortenmodulen!
-  Modelliert die Konstituenten von Hypertextsorten!
-  Dient als Grundlage von Dokumentgrammatiken!
-  Enthält weiterführende Ressourcen für die maschinelle Verarbeitung
(z.B. assoziierte Wrapper, DTD-Fragmente)!
-  Basis des User Interface einer Suchmaschine mit Hypertextsortenfilter (Navigation und Exploration der Ontologie)!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

27/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Status Quo: Maschinelle Erkennung von Textsorten!
Korpus
!

Methoden
!

Genres
!

Präzision
!

!Biber (1988)!

!481 englische Texte "
(u.a. LOB)!

!Statistische Verfahren; "
67 linguistische Merkmale!

!23 Genres!

!k.A.!

!Karlgren und
Cutting (1994)!

!500 englische Texte "
(Brown Corpus)!

!Statistische Verfahren; "
20 Merkmale!

!1.: 2 Genres"
2.: 4 Genres"
3.: 15 Genres!

!1. ca. 96%"
2. ca. 73%"
3. ca. 52%!

!Kessler "
et al. (1997)!

!499 englische Texte "
(Brown Corpus)!

!Statistische Verfahren und
neuronale Netze; 55
Merkmale!

!6 Genres!

!Zwischen "
58% und 100%!

!Stamatatos "
et al. (2000)!

!160 englische Texte "
(Wall Street Journal Corpus)!

!Statistische Verfahren; Wortund Interpunktionsfrequenzen!

!4 Genres!

!ca. 97%!

!Stamatatos "
et al. (2001)!

!250 griechische Texte "
(aus dem WWW)!

!Statistische Verfahren; "
22 Merkmale!

!10 Genres!

!ca. 82%!

!Dewdney "
et al. (2001)!

!9705 englische Texte!

!Überwachte Lernverfahren
auf zwei Merkmalsgruppen!

!7 Genres!

!Bis zu 92,1%!

!Santini (2004)!

!150 englische Txte "
(British National Corpus)!

!Überwachte Lernverfahren
auf POS-Trigrammen!

!10 Genres!

!Zw. 78,6% "
und 99,3%!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

29/37!
Status Quo: Maschinelle Erkennung v. Web-Genres!
Web-Genres
!

Methoden
!

Präzision
!

!Matsuda und
Fukushima (1999)!

!9: Product catalogue, online shop, advertisement for
help, call for papers, links, FAQ, glossary, home
page, bulletin board!

!Gewichtetes Pattern
Matching in HTMLElementen!

!88,9% (IR-Task), ohne
die engine: 31,2%!

!Finn et al. "
(2002)!

!2: Kommentare bzw. Editorials ( opinion ),
Nachrichtenartikel ( fact )!

!Überwachtes
Lernverfahren!

!Zwischen "
68% und 72%!

!Lee und Myaeng
(2002, 2004)!

!7: Reportage, editorial, research articles, reviews,
homepage, Q&A, spec!

!Überwachtes
Lernverfahren "
(kNN-ähnlich)!

!87% (engl. Texte),"
90% (kor. Texte)!

!Shepherd et al.
(2004)!

!3: Personal home page, corporate home page,
organization home page!

!Überwachtes
Lernverfahren (NN)!

!Durchschnittliches "
F-Maß: 70,6%!

!Meyer zu Eissen
und Stein (2004)!

!8: Help, article, discussion, shop, portrayal (nonprivate), portrayal (private), link collection,
download!

!Überwachtes
Lernverfahren "
(SVM, NN)!

!70%!

!Lim et al.
(2005a,b)!

!16: Personal homepages, public homepages,
commercial homepages, bulletin collections, link
collections, image collections, simple tables/lists,
input pages, journalistic materials, research reports,
official materials, informative materials, FAQs,
discussions, product specifications, others (informal
texts)!

!Überwachtes
Lernverfahren "
(kNN-ähnlich)!

!75,9%!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

30/37!
Status Quo: Kritische Anmerkungen!
• 

Identifizierung von Textsorten/Web-Genres prinzipiell möglich!

• 

Methoden basieren auf strukturellen bzw. linguistischen Merkmalen, die
einfach erhoben werden können!

• 

Mehrere Problemfelder:!
1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder
textlinguistisch noch empirisch motiviert.!
2.  Mangelnde theoretische Fundierung – Spezifika von Hypertextsorten wer-den
ignoriert (simple Übertragung traditioneller Verfahren auf das WWW).!
3.  Das einzelne HTML-Dokument als atomare Analyseeinheit. !
4.  Verwendete Methoden und ihre Skalierbarkeit – Verarbeitung von "
150+ Hypertextknotensorten mehr als fraglich.!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

31/37!
Systemarchitektur!
(partiell implementiert)!
Der Textparser für generische HTML-Dokumente!
• 
• 

• 
• 

• 

Konvertierung von HTML nach XHTML (d.h. XML)!
Textparser basiert auf einer mehrstufigen, rekursiven Verarbeitung der
DOM-Struktur eines Dokuments (Problem: tag abuse).!
Zentrale Komponente innerhalb der Architektur!
Ergebnisse werden innerhalb des Dokuments abgelegt (eigener
Namensraum, vergrößert ein Dokument um den Faktor 25)!
Ziele:!
-  Ermittlung der Bausteine der Textoberfläche!
-  Reduktion des meist sehr komplexen HTML-Markups auf ein
überschaubares Inventar von Makrostrukturbausteinen!
-  Abbildung dieser Bausteine auf Hypertextsortenmodule!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

33/37!
Ausblick – HTS-getriebene Informationsextraktion!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

34/37!
Gliederung!
• 

Motivation und Forschungsfragen!

• 

Hypertextsorten – Beispiel!

• 

Das Hypertextsortenmodell!

• 

Sammlung von Hypertextsorten!

• 

Die Hypertextsortenontologie!

• 

Zur maschinellen Erkennung von Hypertextsorten!

• 

Schlussfolgerungen!
Schlussfolgerungen!
• 

Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell
möglich.!

• 

Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!

• 

Übergreifende Probleme verhindern dies noch. Hierzu zählen:!
-  Problematik eines Inventars von Hypertextsorten:!
!  Bestimmung nur manuell und empirisch möglich.!
!  Ermittlung aller Hypertextsorten im WWW ist unrealistisch (es
existieren beliebige traditionelle Textsorten, kulturelle
Besonderheiten etc.)!
-  Maschinelle Bestimmung der Grenzen von Hypertexten!

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

36/37!
Lösungsansatz!
• 

Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im
Bereich Enterprise Search. Vorteile:!
-  Geschlossenes und kontrolliertes System (mehr oder weniger).!
-  Anzahl der Text- und Hypertextsorten ist begrenzt.!
-  Text- und Hypertextsorten können in Kooperation mit
Domänenexperten erfasst, benannt und modelliert werden.!
!Georg Rehm (2007): Hypertextsorten: Definition – Struktur – Klassifikation. "
Norderstedt: Books on Demand.!
!Georg Rehm und Marina Santini (Hrsg.) (2007): Proceedings of the International Workshop „Towards
Genre-Enabled Search Engines“ (held in conjunction with "
RANLP 2007 on September 30). Shoumen, Bulgaria: Incoma. !

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen!

37/37!

Weitere ähnliche Inhalte

Ähnlich wie Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...K15t
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Dirk Lewandowski
 
Ausgewählte Forschungsfragen im Bereich Suche
Ausgewählte Forschungsfragen im Bereich SucheAusgewählte Forschungsfragen im Bereich Suche
Ausgewählte Forschungsfragen im Bereich SucheDirk Lewandowski
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...Becker Hans-Georg
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickPeter Mayr
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er VersionPeter Mayr
 
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Thomas Hapke
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenRalf Stockmann
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Thomas Koch
 
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse Sandra Schön (aka Schoen)
 
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampSession von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampNonProfitCamp
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Dirk Lewandowski
 
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Georg Rehm
 

Ähnlich wie Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen (20)

Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
Mythos und Wahrheit: Wikis für die Technische Dokumentation at tekom-Regional...
 
Searchbot
SearchbotSearchbot
Searchbot
 
Literatur und Information - Datenbanken, Fachliteratur, Literaturrecherche un...
Literatur und Information - Datenbanken, Fachliteratur, Literaturrecherche un...Literatur und Information - Datenbanken, Fachliteratur, Literaturrecherche un...
Literatur und Information - Datenbanken, Fachliteratur, Literaturrecherche un...
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 
Wie gut sind Google und Co.?
Wie gut sind Google und Co.?Wie gut sind Google und Co.?
Wie gut sind Google und Co.?
 
Ausgewählte Forschungsfragen im Bereich Suche
Ausgewählte Forschungsfragen im Bereich SucheAusgewählte Forschungsfragen im Bereich Suche
Ausgewählte Forschungsfragen im Bereich Suche
 
Suchmaschinen vs. OPAC
Suchmaschinen vs. OPACSuchmaschinen vs. OPAC
Suchmaschinen vs. OPAC
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Literaturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im ÜberblickLiteraturverwaltungssysteme im Überblick
Literaturverwaltungssysteme im Überblick
 
"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version"Literaturverwaltungssysteme im Überblick" 2010er Version
"Literaturverwaltungssysteme im Überblick" 2010er Version
 
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
Informationskompetenz in sich ständig verändernden Informationsumgebungen - z...
 
Was Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich WollenWas Wissenschaftler wirklich Wollen
Was Wissenschaftler wirklich Wollen
 
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
Wissenserschließung und –Modellierung: Ontologie vs. Volltextsuche am Beispie...
 
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse
Web-Monitoring Smarte - Tools zur kostenfreien Web-Analyse
 
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit CampSession von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
Session von Markus Kaußen zum Thema "Übersetzungsmanagement" - Non-Profit Camp
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
 
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World W...
 

Mehr von Georg Rehm

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...Georg Rehm
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Georg Rehm
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...Georg Rehm
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...Georg Rehm
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenGeorg Rehm
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Georg Rehm
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureGeorg Rehm
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationGeorg Rehm
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickGeorg Rehm
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Georg Rehm
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeGeorg Rehm
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIGeorg Rehm
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryGeorg Rehm
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die KundenkommunikationGeorg Rehm
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenGeorg Rehm
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CGeorg Rehm
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeGeorg Rehm
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Georg Rehm
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Georg Rehm
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital EuropeGeorg Rehm
 

Mehr von Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Kuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KIKuratieren im Zeitalter der KI
Kuratieren im Zeitalter der KI
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen BibliothekenDigitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
Digitale Kuratierungstechnologien: Anwendungsfälle in Digitalen Bibliotheken
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

  • 1. Hypertextsorten" " Eine neuartige Ebene der Filterung und " Herausforderung für moderne Suchmaschinen ! Georg Rehm ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Hypertextsorten: Eine neuartige Ebene der Filterung und HerausforderungAugust 2008 Suchmaschinen! FAST Search, München, 13. für moderne ! 1/37!
  • 2. Motivation! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 2/37!
  • 3. Motivation! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 3/37!
  • 4. Hypothese! •  Die Textlinguistik untersucht und beschreibt Textsorten:! -  Komplexe Muster sprachlicher Kommunikation ! -  Im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden! -  Beispiele: Liebesbrief, Kassenbon, Zeugnis, Einkaufszettel, Wörterbuch, Dissertation, Rechnung, Wetterbericht etc.! •  Zentrale Hypothese: Im WWW existieren Hypertextsorten.! -  Ebenfalls Muster sprachlicher Kommunikation ! -  Ebenfalls entstanden aufgrund kommunikativer Bedürfnisse! -  Grund dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 4/37!
  • 5. Wichtige Forschungsfragen (Auszug)! •  •  •  Welche und wieviele Hypertextsorten existieren?! Welche Spezifika weisen Hypertextsorten im Vergleich zu traditionellen Textsorten auf?! Welche Konstituenten besitzen Hypertextsorten und wie können diese repräsentiert werden?! •  Kann eine Typologie von Hypertextsorten konstruiert werden?! •  Können Hypertextsorten maschinell identifiziert werden?! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 5/37!
  • 6. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 7. Persönliche Homepage eines Wissenschaftlers! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 7/37!
  • 8. Hypertextsorten – Bausteine! •  Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).! •  Hypertextsorten bestehen aus Hypertextsortenmodulen! -  Strukturell voneinander separierte Bausteine! •  Zur Beschreibung und Erfassung von Hypertextsorten sind Stichprobenanalysen notwendig.! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 8/37!
  • 9. Modellierung einer Hypertextsorte (Ausschnitt)! Ebene ! Bezeichnung des Hypertextsortenmoduls ! Status ! Vorkommen ! Frequenz ! Atomares Modul! Explizite Begrüßung! generell ! optional ! 14 ! Komplexes Modul! Identifikation! generell ! obligatorisch ! – ! Komplexes Modul! Eigenständige Affiliation! generell ! obligatorisch ! – ! Atomares Modul! Alternative Sprachversion! generell ! optional ! 75 ! Komplexes Modul! Kontaktinformationen! generell ! obligatorisch ! – ! Komplexes Modul! Kontaktinformationen (Sekretariat)! spezifisch ! optional ! – ! Komplexes Modul! Kontaktinformationen (Mitarbeiter)! spezifisch ! optional ! – ! Komplexes Modul! Universitäres Profil! spezifisch ! optional ! – ! Komplexes Modul! Wissenschaftliches Profil! spezifisch ! obligatorisch ! – ! Atomares Modul! Lebenslauf, C.V., biographische Angaben! generell ! obligatorisch ! 60 ! Atomares Modul! Interessante Links! generell ! optional ! 12 ! Komplexes Modul! Relevante Links! generell ! optional ! – ! Atomares Modul! Angabe der letzten Änderung / Stand! universal ! optional ! 42 ! Atomares Modul! Counter, Zugriffszähler! universal ! optional ! 11 ! Atomares Modul! Gästebuch! universal ! optional ! 1 ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 9/37!
  • 10. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 11. Das Hypertextsortenmodell! •  Das Hypertextsortenmodell ist Grundlage für! -  linguistische und textlinguistische Analysen von Hypertextexemplaren,! -  eine sprachtechnologische Architektur zur automatischen Identifizierung von Hypertextsorten.! •  Generischer Aufbau einer Hypertextsorte:! Hypertextsorte i! besteht aus! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! wird eingebettet in oder ! kann fungieren als ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! Ausschnitt des" Hypertextsortenmodells! 11/37!
  • 12. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 12/37!
  • 13. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 13/37!
  • 14. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 14/37!
  • 15. Beispiel – Einbettung von Hypertextsorten! Hypertextsorte:! Webauftritt einer Universität! Eingebettete Hypertextsorte:! Webauftritt eines Fachbereichs! Eingebettete Hypertextsorte:! Webauftritt einer Arbeitsgruppe! Eingebettete Hypertextsorte:! Persönliche Homepage eines" Wissenschaftlers! Hypertextsortenmodul:! Kontaktinformationen! Hypertextsortenmodul:! Foto! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 15/37!
  • 16. Zur weiteren Methodologie! •  Korpusdatenbank (Linux, Apache, MySQL, PHP)! •  Untersuchungsdomäne: Webauftritte von Hochschulen! •  Manuelle und semiautomatische Analyse von Stichproben auf der Basis des Hypertextsortenmodells zur! -  Beschreibung spezifischer Hypertextsorten! -  Sammlung von Hypertextsorten! •  •  Integration der Ergebnisse in maschinenlesbare Repräsentation! Erstellung und teilweise Implementierung einer Architektur für die automatische Identifizierung von Hypertextsorten! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 16/37!
  • 17. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 18. Sammlung von Hypertextsorten! •  •  Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der maschinellen Identifizierung von Hypertextsorten.! Analyse einer Stichprobe von 750 zufällig ausgewählten Dokumenten:! -  65 Hypertexttypen bzw. -sorten (mit Subtypen)! -  114 Hypertextknotentypen bzw. -sorten (mit Subtypen)! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 18/37!
  • 19. Die Hypertextsorten im Überblick! !1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveran-staltung (4; 13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. For-schungsbericht, Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/ Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studieren-denstatistik; 37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41. Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55. Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (Studien­/Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel (Sportveranstaltung); 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel! ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 19/37!
  • 20. Die Hypertextknotensorten im Überblick (Ausschnitt)! !1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8. Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6; 2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit) (1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20. Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24. Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­ Mail; 28. Kontaktinformationen; 29. Kurzdar-stellung einer Organisationseinheit (Funktionen und Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext) (0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33. Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38. Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Con-struction“­Hinweis; 45. Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufga-benstellung für eine Haus­ oder Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung-/Veranstaltung; 49. Download­Liste; 50. Kommentar einer Lehrveranstaltung ! !! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 20/37!
  • 21. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 22. Repräsentation durch Ontologien! •  •  •  Teilziel: Konstruktion einer Ontologie von Hypertextsorten als Repräsentationsformat für sprachtechnologische Anwendungen! Datengrundlage: Ergebnisse von sechs Stichprobenanalysen (insgesamt etwa 3000 HTML-Dokumente)! Modellierung in der Web Ontology Language (OWL):! -  W3C-Standard, gute Software-Unterstützung ! -  Hypertextsorten-Repräsentation als Teil des Semantic Web! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 22/37!
  • 23. Integration von drei unterschiedlichen Ontologien! UDK (Kategorienbaum ! des Projekts GERHARD) ! Mehrere Datenquellen ! (z.B. Hochschulgesetze) ! Ontologie wissenschaftlicher! Themen und Fachgebiete! Domänenontologie! referenziert! Hypertextsortenmodell ! Hypertextsortenontologie! Stichprobenanalysen ! beschreibt! Hypertexttypen und! Hypertextsorten! Hypertextknotentypen und! Hypertextknotensorten! Hypertextsortenmodule! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 23/37!
  • 24. Die Hypertextsortenontologie! Das Hypertext-! sortenmodell! in abstrakter und! vereinfachter Form! (Ausschnitt)! Das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 24/37!
  • 25. Die Hypertextsortenontologie! Referenzierung aller potentiellen Emittenten,! die in der Domänenontologie repräsentiert werden! In diesen Visualisierungen fehlen u.a.:! •  •  •  Datatype Propertys! Spezifikationen der Relationen! RDF-Annotationen! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 25/37!
  • 26. Die Hypertextsortenontologie! Typologie des Hypertexttyps! Homepage einer Person! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 26/37!
  • 27. Die Hypertextsortenontologie! •  Aufgaben und Funktionen der Hypertextsortenontologie:! -  Modelliert multiple Typologien von Hypertextsorten, Hypertextknotensorten und Hypertextsortenmodulen! -  Modelliert die Konstituenten von Hypertextsorten! -  Dient als Grundlage von Dokumentgrammatiken! -  Enthält weiterführende Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper, DTD-Fragmente)! -  Basis des User Interface einer Suchmaschine mit Hypertextsortenfilter (Navigation und Exploration der Ontologie)! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 27/37!
  • 28. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 29. Status Quo: Maschinelle Erkennung von Textsorten! Korpus ! Methoden ! Genres ! Präzision ! !Biber (1988)! !481 englische Texte " (u.a. LOB)! !Statistische Verfahren; " 67 linguistische Merkmale! !23 Genres! !k.A.! !Karlgren und Cutting (1994)! !500 englische Texte " (Brown Corpus)! !Statistische Verfahren; " 20 Merkmale! !1.: 2 Genres" 2.: 4 Genres" 3.: 15 Genres! !1. ca. 96%" 2. ca. 73%" 3. ca. 52%! !Kessler " et al. (1997)! !499 englische Texte " (Brown Corpus)! !Statistische Verfahren und neuronale Netze; 55 Merkmale! !6 Genres! !Zwischen " 58% und 100%! !Stamatatos " et al. (2000)! !160 englische Texte " (Wall Street Journal Corpus)! !Statistische Verfahren; Wortund Interpunktionsfrequenzen! !4 Genres! !ca. 97%! !Stamatatos " et al. (2001)! !250 griechische Texte " (aus dem WWW)! !Statistische Verfahren; " 22 Merkmale! !10 Genres! !ca. 82%! !Dewdney " et al. (2001)! !9705 englische Texte! !Überwachte Lernverfahren auf zwei Merkmalsgruppen! !7 Genres! !Bis zu 92,1%! !Santini (2004)! !150 englische Txte " (British National Corpus)! !Überwachte Lernverfahren auf POS-Trigrammen! !10 Genres! !Zw. 78,6% " und 99,3%! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 29/37!
  • 30. Status Quo: Maschinelle Erkennung v. Web-Genres! Web-Genres ! Methoden ! Präzision ! !Matsuda und Fukushima (1999)! !9: Product catalogue, online shop, advertisement for help, call for papers, links, FAQ, glossary, home page, bulletin board! !Gewichtetes Pattern Matching in HTMLElementen! !88,9% (IR-Task), ohne die engine: 31,2%! !Finn et al. " (2002)! !2: Kommentare bzw. Editorials ( opinion ), Nachrichtenartikel ( fact )! !Überwachtes Lernverfahren! !Zwischen " 68% und 72%! !Lee und Myaeng (2002, 2004)! !7: Reportage, editorial, research articles, reviews, homepage, Q&A, spec! !Überwachtes Lernverfahren " (kNN-ähnlich)! !87% (engl. Texte)," 90% (kor. Texte)! !Shepherd et al. (2004)! !3: Personal home page, corporate home page, organization home page! !Überwachtes Lernverfahren (NN)! !Durchschnittliches " F-Maß: 70,6%! !Meyer zu Eissen und Stein (2004)! !8: Help, article, discussion, shop, portrayal (nonprivate), portrayal (private), link collection, download! !Überwachtes Lernverfahren " (SVM, NN)! !70%! !Lim et al. (2005a,b)! !16: Personal homepages, public homepages, commercial homepages, bulletin collections, link collections, image collections, simple tables/lists, input pages, journalistic materials, research reports, official materials, informative materials, FAQs, discussions, product specifications, others (informal texts)! !Überwachtes Lernverfahren " (kNN-ähnlich)! !75,9%! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 30/37!
  • 31. Status Quo: Kritische Anmerkungen! •  Identifizierung von Textsorten/Web-Genres prinzipiell möglich! •  Methoden basieren auf strukturellen bzw. linguistischen Merkmalen, die einfach erhoben werden können! •  Mehrere Problemfelder:! 1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder textlinguistisch noch empirisch motiviert.! 2.  Mangelnde theoretische Fundierung – Spezifika von Hypertextsorten wer-den ignoriert (simple Übertragung traditioneller Verfahren auf das WWW).! 3.  Das einzelne HTML-Dokument als atomare Analyseeinheit. ! 4.  Verwendete Methoden und ihre Skalierbarkeit – Verarbeitung von " 150+ Hypertextknotensorten mehr als fraglich.! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 31/37!
  • 33. Der Textparser für generische HTML-Dokumente! •  •  •  •  •  Konvertierung von HTML nach XHTML (d.h. XML)! Textparser basiert auf einer mehrstufigen, rekursiven Verarbeitung der DOM-Struktur eines Dokuments (Problem: tag abuse).! Zentrale Komponente innerhalb der Architektur! Ergebnisse werden innerhalb des Dokuments abgelegt (eigener Namensraum, vergrößert ein Dokument um den Faktor 25)! Ziele:! -  Ermittlung der Bausteine der Textoberfläche! -  Reduktion des meist sehr komplexen HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen! -  Abbildung dieser Bausteine auf Hypertextsortenmodule! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 33/37!
  • 34. Ausblick – HTS-getriebene Informationsextraktion! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 34/37!
  • 35. Gliederung! •  Motivation und Forschungsfragen! •  Hypertextsorten – Beispiel! •  Das Hypertextsortenmodell! •  Sammlung von Hypertextsorten! •  Die Hypertextsortenontologie! •  Zur maschinellen Erkennung von Hypertextsorten! •  Schlussfolgerungen!
  • 36. Schlussfolgerungen! •  Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell möglich.! •  Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter! •  Übergreifende Probleme verhindern dies noch. Hierzu zählen:! -  Problematik eines Inventars von Hypertextsorten:! !  Bestimmung nur manuell und empirisch möglich.! !  Ermittlung aller Hypertextsorten im WWW ist unrealistisch (es existieren beliebige traditionelle Textsorten, kulturelle Besonderheiten etc.)! -  Maschinelle Bestimmung der Grenzen von Hypertexten! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 36/37!
  • 37. Lösungsansatz! •  Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im Bereich Enterprise Search. Vorteile:! -  Geschlossenes und kontrolliertes System (mehr oder weniger).! -  Anzahl der Text- und Hypertextsorten ist begrenzt.! -  Text- und Hypertextsorten können in Kooperation mit Domänenexperten erfasst, benannt und modelliert werden.! !Georg Rehm (2007): Hypertextsorten: Definition – Struktur – Klassifikation. " Norderstedt: Books on Demand.! !Georg Rehm und Marina Santini (Hrsg.) (2007): Proceedings of the International Workshop „Towards Genre-Enabled Search Engines“ (held in conjunction with " RANLP 2007 on September 30). Shoumen, Bulgaria: Incoma. ! Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 37/37!