Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web
Upcoming SlideShare
Loading in...5
×
 

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web

on

  • 688 views

Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.

Georg Rehm. Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web. Universität Potsdam, Germany, December 2001. December 4, 2001. Invited talk.

Statistics

Views

Total Views
688
Views on SlideShare
688
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Hypertextsorten: Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Presentation Transcript

  • Hypertextsorten Neuartige Möglichkeiten der Informationsrecherche im World Wide Web Georg Rehm, M.A. Angewandte Sprachwissenschaft und Computerlinguistik Justus-Liebig-Universität Gießen Georg.Rehm@uni-giessen.de http://www.uni-giessen.de/~g91063/
  • Zielsetzung
  • Status Quo I Aus Sicht des (unerfahrenen) Benutzers: •  DWIM-Prinzip („do what I mean! ) •  Spezifizierung einer Suchanfrage ist schwierig •  Es ist unklar, nach welchen Kriterien die Maschine sucht
  • Status Quo II •  ... lediglich Spezifizierung der Sprache der Treffer-Dokumente •  nur in wenigen Fällen hilfreich
  • Status Quo III •  Kapselung der Query-Syntax •  Filterung nach Dateiformaten •  Filterung nach Sprache, Datum und Domain
  • Folie von Monika Henzinger, Director of Research, Google Inc. Tutorial: Web Information Retrieval 16th International Conference on Data Engineering (ICDE 2000) ? Meint in diesem Kontext exclusiv: Inhaltliche Kategorisierung! Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Das Ziel ! Abstraktion über Inhalt bzw. Thema: Strukturelle Klassifikation bzw. Hypertextsorten-Klassifikation
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Textsorten !  „... komplexe Muster sprachlicher Kommunikation Textlinguistik: Textsorten (Brief, Rezept, ...), [...], die innerhalb der Sprachgemeinschaft im Laufe unterschiedliche Typen Entwicklung aufd.h. der historisch-gesellschaftlichenvon Texten grund kommunikativer Bedürfnisse entstanden sind. !  Klassifikationskriterien (u.a.): "  "  "  Inhalt – Thema Form – Aufbau, Struktur, Gliederung Funktion – Zweck Brinker (1985) !  Oftmals Taxonomie: "  Viele Probleme ... Leitartikel Georg Rehm Zeitungstexte „Liebes Texte (?) Gedichte Brief Leserbrief Liebesbrief CL Kolloquium, Universität Potsdam, 04.12.2001 Liebesgedicht
  • Hypnotic !  Zentrale Hypothese: #  Im World Wide Web existieren Hypertextsorten: Nach nur wenigen Jahren kanonisierte, funktionsgebundene, hypertextuelle Strukturen !  Ziele: 1.  2.  3.  4.  Georg Rehm Definition des Konzeptes „Hypertextsorte Aufstellung einer Hypertextsorten-Taxonomie für eine eingeschränkte Domäne Automatische Klassifikation von Hypertextsorten (→ Intelligentere Suchmaschinen) Informationsextraktion (→ semi strukturierte Daten) CL Kolloquium, Universität Potsdam, 04.12.2001
  • Hypertextsorten – Beispiele !  Eine sehr interessante, neue Hypertextsorte: Persönliche Homepage !  Mittlerweile: empirisch nachweisbare, subgenerische Varianten, u.a.: "  "  "  Persönliche Homepage von Studierenden Persönliche Homepage admin./techn. Personals Persönliche Homepage von Wissenschaftlern Beispiele: •  aus vier verschiedenen Städten und •  aus vier unterschiedlichen Disziplinen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Hypertextsorten – Beispiele
  • Hypnotic: Einführung !  Zwangsläufig: Empirischer Ansatz !  Daher ein Teilziel: "  "  Aufbau eines großen Korpus von HTML-Dokumenten Grund: HTML-Dokumente sind sehr „flüchtig , sie werden gelöscht, verändert, verschoben; man benötigt also einen sicheren und großen Vorrat !  Einschränkungen bei Datensammlung: "  "  Georg Rehm Nur Webserver deutscher Hochschulen Nur deutschsprachige Dokumente CL Kolloquium, Universität Potsdam, 04.12.2001
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Warum Beschränkung auf den akademischen Bereich? !  Enthält bzgl. der zugrundeliegenden Hypertextsorten relativ stabile Dokumente !  Dokumente sind stark strukturiert !  Wenige binäre/proprietäre Dateien bzw. Dateitypen als Vermittler von Text !  Bzgl. Inhalt und Form (einigermaßen) überschaubar (vs. z.B. kommerziellen, künstlerischen oder HobbyAngeboten) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Implementation !  Linux-basierte Open Source-Lösung: "  Datensammlung: •  Spider: Pavuk •  Tools zur Sprachidentifikation und zur Aufbereitung der Metadaten zum Datenbankimport: Perl •  UNIX Shell-Scripting zur Modulverbindung "  Benutzerschnittstelle: •  Webserver: Apache •  HTML-DBI und Benutzeroberfläche: PHP •  Datenbank zum Zugriff auf Metadaten: MySQL "  Visualisierung: •  Graphviz (stand-alone und als Perl-Modul) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Ausnahmen beschränkt x-500 x-500-1 x-500-2 *.uni-giessen.de (ca.120 versch. HTTP-Server) MIME-Typen: Suffixe: .tgz .tar.gz .zip .arj .pk .gz .js .java ... text/html,xml, sgml,plain,css message/news, partial,rfc822 Rekursiver Transfer per HTTP Datei kleiner als 500kB und HTTP-Port = 80? Speichern: HTTP-Header von jedem File Verknüpfungen HTML-Dokument deutschsprachig? fung knüp Ver generiert Statistik: Anzahl Server, Dokumente etc. ja, speichern UNIXDateisystem liefert Daten SQLDatenbank Tilgung von Dokumentduplikaten
  • Language Identification I !  !  !  !  Erwünscht: deutschsprachige Dokumente Nicht notwendig: Multiple Sprachidentifikation Stattdessen: deutsch vs. unbekannt Potentielle Probleme: "  "  "  "  Performanz: für jedes besuchte HTML-Dokument muß die Sprache überprüft werden Multilinguale Dokumente Nicht-sprachliche Elemente (Formeln etc.) Anderssprachige Navigationselemente Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Language Identification II !  !  !  !  In Perl realisierter, Lexikonbasierter Ansatz Aufgrund der extrem geringen Vorkommen keine Beachtung entsprechender <meta> Tags bzw. lang=... Attribute Präzision: ~97% Probleme: "  Multilingualer Text Namenlexikon "  extrem kurze, (ca. 60.000) fachsprachliche Dokumente Lexikon (ca. 156.000) Georg Rehm HTML-Dokument Entfernen aller HTML-Tags Tilgung von Personennamen, URLs, Email-Adressen, Abkürzungen etc. Zählen aller deutschsprachigen und aller unbekannten Wörter Verrechnung der (nicht) erkannten Wörter und Zeichen mit Dateilänge nein unbekannt Schwellwert erreicht? CL Kolloquium, Universität Potsdam, 04.12.2001 ja deutsch
  • Umfang des Korpus Stand: 28.11.2001 Universitäten in der Hypnotic-Datenbank 40 HTTP-Server und -Port-Kombinationen 6.703 6.152 Auf Port 80 arbeitende HTTP-Server Unterschiedliche Webserver-Software 940 HTTP-Header in der Datenbank 7.631.048 2.041.087 Dokumente im Korpus HTML-Dokumente plain ASCII-Dateien XML-Dateien # CSS-Dateien # SGML-Dateien # News-Artikel # E-Mails # # Georg Rehm Wir erwarten: Etwa 3.000.000 Dokumente von ca. 60 Universitäten !text/html #text/plain #text/xml #text/css #text/sgml #message/news #message/rfc822 CL Kolloquium, Universität Potsdam, 04.12.2001 1.881.842
 .237 18.487 13.584
 863 263 # 151
  • Zugriff auf das Korpus-System !  Aktiv – Zugriff mittels Browserinterface: Benutzerabhängiger Zugriff Internet-weite, verteilte Analysen Stichproben: "  "  "  •  Komfortable Generierung •  Speicherung in Datenbank •  DB-gestützte Analyse von Stichproben Kapselung tw. sehr komplexer SQL-Queries "  !  Passiv – Zugriff mittels DBI API: "  Sinnvoll für die maschinelle Auswertung sehr großer Stichproben (→ Perl) Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auswahl einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Server einer Universität Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Auflistung der Dokumente eines Servers Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  Navigation & Suche im Dokumentbestand Ansicht eines Dokuments Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Generierung einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Die Dokumente einer Stichprobe Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse DB-gestützte Dokumentanalyse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Aktiver Zugriff auf das Korpus !  SQL-Datenbank zur Referenzierung von Dokumenten !  Web-Oberfläche ermöglicht verteilten Zugriff: "  "  "  Navigation & Suche im Dokumentbestand Zufällige Generierung von Stichproben Benutzerabhängige und DBgetriebene Unterstützung bei der Stichprobenanalyse Analyseergebnisse Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Passiver Zugriff auf Dokumente !  Einsatz eines DBI APIs (Perl, C) ermöglicht vollautomatische Analyse: "  "  "  Analysesystem kommuniziert direkt mit der KorpusDatenbank Diese liefert zurück: •  Metadaten, •  Dokumentinhalte Analyseprogramm speichert Ergebnisse in Datenbank !  Realisiert für Untersuchung der sprachlichen Phänomene in persönlichen Homepages Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Erstellung der Taxonomie !  Stichproben-Analysen: 1.  Erste Stichprobe (200 tiefe Dokumente) ergab: initiale Liste von Hypertextsorten, •  extremen Bedarf für eine Taxonomie! 2.  Zwei weitere Stichproben: a.  top-down: 676 Dokumente der obersten Verlinkungsebene der Einstiegsseiten der ersten 35 Universitäten im Korpus b.  bottom-up: 2000 „tiefe Dokumente •  Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001
  • Grobe Verteilung im 200er Sample !  Administrative Informationen (14) "  Studienordnung (2) "  Lehrveranstaltungsbezogene Informationen (2) •  Grundlegende Informationen zu einem Kurs (9) •  Kommentar (7) !  Institut/Lehrstuhl/Arbeitsbereich (15) "  Einstiegsseite (4) •  Konferenz (5) •  Beschreibung einer Arbeitsgruppe (2) •  Programmüberblick (1) •  Anmeldeformular (1) Liste der Mitarbeiter (4) •  Persönliche Homepage (14) •  Wissenschaftler (4) •  Hilfskraft (3) •  Übungsaufgabe (5) "  •  Lösungen von Aufgaben (1) •  Liste von Veranstaltungen (2) •  LV-Materialien (2) "  Informationen zu Stipendium (1) •  Virtuelle Visitenkarte (1) "  Stellenangebot (1) "  Beschreibung eines •  Chronik eines Vereins Forschungsschwerpunkts (3) !  Universitäre Informationen (5) •  Paragraph einer Verordnung •  Rangliste eines Sportereignisses "  Wegbeschreibung/Lageplan (3) •  Bibliographie (9) •  Reisebericht "  Beschreibung eines universitären •  eines Autors (3) Informationsangebots (1) •  eines Instituts (3) •  thematisch sortiert (2) •  84 Hypertextsorten sind enthalten. •  Forschungsprojekt (9) •  11 Dokumenten konnte aus technischen •  Beschreibung (7) Gründen keine Hypertextsorte zugeordnet werden. •  4 Hypertextsorten konnten nicht sinnvoll in die Taxonomie integriert werden. "  "  •  Arbeitsplan (19) Kurze Darstellung der Institution (1) Organisationsplan (1)
  • Hypnotic-Hypertextsorten-Taxonomie Version 0.1
  • Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die oberen Ebenen der Taxonomie werden mit Hilfe des zweiten Samples top down systematisch verfeinert.
  • Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Die unteren Ebenen der Taxonomie werden daraufhin mit Hilfe des dritten Samples (N = 2000) bottom up verfeinert.
  • Hypnotic-Hypertextsorten-Taxonomie Version 0.1 Einige der offenen Fragen: •  Welche unterschiedlichen Knoten-Typen existieren? •  Welche dieser Typen treten in der Realität auf („Text )? •  Welche unterschiedlichen Kanten-Typen existieren? •  Ist eine Hyperlink-Typologie sinnvoll integrierbar? •  Welche Erkennungshinweise müssen in die Taxonomie integriert werden? •  XML als einheitliches Repräsentationsformat ...
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Merkmale für die maschinelle Identifikation von Hypertextsorten 1.  2.  3.  4.  5.  Georg Rehm Dokumentübergreifende Merkmale Metadaten Sprachliche und strukturelle Cues Sprachliche Konzeption HTML-Struktur CL Kolloquium, Universität Potsdam, 04.12.2001
  • Dokumentübergreifende Merkmale
  • Dokumentübergreifende Merkmale •  Identische Kopfzeile •  Identische Logo-Grafik •  Identische Fußzeile •  Identischer Farbraum Projekte Mitarbeiter Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Lehrveranstaltungen Aktuelles
  • Dokumentübergreifende Merkmale Einstiegsseite Angewandte Sprachwissenschaft und Computerlinguistik JLU Gießen http://www.uni-giessen.de/fb09/ascl/ Einstiegsseite des Fachgebiets Germanistik Persönliche Homepage von Henning Lobin Zentrum für Medien und Interaktivität
  • Position im Hypertextnetzwerk http://www.uni-giessen.de/fb09/ascl/ .../ascl/proj/ .../ascl/contact/ .../ascl/lectures/ .../ascl/news/ •  Position/Funktion im Hypertextnetzwerk automatisch bestimmbar •  Vorherrschend in dieser Domäne: Hierarchischer top-down „Hypertext ! •  Beteiligte URLs geben wichtige Hinweise (Anzahl, Einbettung, ...)
  • Position im Hypertextnetzwerk http://www.uni-giessen.de/fb09/ascl/ http://www.uni-giessen.de/fb09/ http://www.uni-giessen.de/~g91062/ http://www.zmi.uni-giessen.de
  • Die URL als grober HTS-Hinweis Fachbereiche, Zentren, ... Persönliche Homepage Zahlreiche weitere wichtige Detektionsmerkmale: •  Länge eines Dokuments in Wörtern •  Stichwörter im <title> Tag •  Datum der letzten Änderung •  Art des eingesetzten HTML-Editors/-Erzeugers •  ... http://www.uni-giessen.de/fb09/ http://www.uni-giessen.de/~g91062/ http://www.zmi.uni-giessen.de
  • Sprachliche und strukturelle Cues für bestimmte Hypertextsorten Titel Vorname Nachname Universität ... → Institut ... → Arbeitsbereich ... Straße Hausnr. PLZ Stadt Kontaktinformationen: Raum Nr., E-Mail, Tel.-, Faxnr. Sprechstunde Tag Uhrzeit Automatische Erkennung mittels: •  regulären Ausdrücken (für Telefonnummern etc.) schränkt die Suche ein auf: •  named entity-Tagger (für Personen- und Stadtnamen) •  Persönliche Homepage eines Wissenschaftlers •  hochfrequenten Schlüsselwörtern einer Hypertextsorte •  Virtuelle Visitenkarte •  ...
  • Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich dichotomisch: entweder – oder CL Kolloquium, Universität Potsdam, 04.12.2001
  • Sprachliche Konzeption !  Koch & Oesterreicher (1994) unterscheiden "  "  mediale Mündlichkeit/Schriftlichkeit konzeptionelle Mündlichkeit/Schriftlichkeit !  Beispiele: "  "  "  Georg Rehm Wissenschaftlicher Vortrag: •  medial mündlich •  konzeptionell schriftlich Wissenschaftlicher Artikel: •  medial schriftlich •  konzeptionell schriftlich Gespräch unter Freunden: •  medial mündlich •  konzeptionell mündlich Kontinuum: von ... bis CL Kolloquium, Universität Potsdam, 04.12.2001
  • Computer-Mediated Communication !  Die Internet-Kommunikationsdienste E-Mail, Chat und Usenet sind geprägt von konzeptioneller Mündlichkeit. !  Berichtete Merkmale: !  Umgangssprachliche Formen !  Einfache Syntax (Para(z.B. bei Begrüßungen und taxe), einfache Lexik Verabschiedungen) !  Freie, assoziative Themen!  Hochfrequent: ich, man, du, einentwicklung Diese Merkmale sind mit Hilfe fach, mal, ziemlich, irgendwie von regulären Ausdrücken und !  Spontan gebildete Äußerungen !  verschiedenen Listen (von Smileys, speziellen Akronymen etc.) Regionalismen, Dialektismen automatisch detektierbar! !  Ausgeprägte Dialogizität !  ... !  Emphasen: ist _eingeschränkt_ !  Slangausdrücke: IMHO ... !  Bigraphen (gruen), Assimilationen (gibt s), Auslassungspunkte (...), reduplizierte Interpunktionszeichen (!!!!!!) etc. Georg Rehm !  Smileys: :-) !  Isolierte Verbstämme: *lach*, *grins*, ... !  Spezifische Abkürzungen: *rotfl* !  Iterationen: Tschüßiiiii CL Kolloquium, Universität Potsdam, 04.12.2001
  • Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • Berechnung der sprachlichen Konzeption Persönliche Homepage von Prof. Dr. Henning Lobin Kommentiertes Vorlesungsverzeichnis des Fachgebiets Germanistik der JLU ! Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • Berechnung der sprachlichen Konzeption Einschränkung der potentiellen Hypertextsorte auf: studentische Homepages, Gästebücher, Chat-Protokolle, Web-basierte Mailing-Listen-Archive, Usenet-Artikel etc. Kommentiertes Vorlesungsverzeichnis Persönliche Homepage von Prof. Dr. Henning Lobin des Fachgebiets Germanistik der JLU Kontinuum der sprachlichen Konzeption schriftlich mündlich Homepage von Stephan Mosel (studiert Pädagogik auf Dipl.)
  • HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • HTML-Struktur !  Neben den beteiligten URLs sind diverse weitere Merkmale von Nutzen, u.a.: "  "  "  Protokoll, Hypertextsorte (!) und evtl. Dateityp von URLs Eingebettete Graphiken und Bilder Formulare •  Kleines Textfeld und Submit-Button auf stark strukturierter Seite ... •  Viele kleine, strukturierte Dokumente mit Radio-Buttons „unterhalb von Materialien zu Lehrveranstaltungen ... Georg Rehm •  Ausschließlich ftp-Hyperlinks auf Server, deren Namen mit „ftp beginnen ... •  Vorwiegend Links, die sich innerhalb von <LI> ... </LI> befinden, auf Dateien mit den Suffixen *.ps und *.pdf ... •  Einige kleinere (bzgl. Größe und Abmessungen) Graphiken in einem ansonsten stark textlastigen Dokument ... •  Nur wenige Wörter, jedoch viele JPEG-Dateien mit identischen Abmessungen (z. B. 1280x1024) ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Hypertextsorten-Module !  Hypertextsorten können aus unterschiedlichen Modulen bestehen, d.h. sie sind nicht monolithisch. !  Module sind entweder "  "  obligatorisch oder optional !  Module sind optisch/strukturell voneinander abgetrennt. !  Persönliche Homepage eines Wissenschaftlers: "  "  "  "  "  "  Georg Rehm Name der Person Kontaktinformationen Publikationen Projekte Lehrveranstaltungen ... CL Kolloquium, Universität Potsdam, 04.12.2001
  • Hypertextsorten-Module: Beispiele Modul: Kontaktinformationen Muß vorhanden sein, kann jedoch in ein per Hyperlink referenziertes Dokument ausgelagert werden.
  • Hypertextsorten-Module: Beispiele Modul: Name Das einzige Modul, das auf der Einstiegsseite zwingend (physikalisch) vorhanden sein muß.
  • Hypertextsorten-Module: Beispiele Modul: Aktuelle Informationen Sehr untypisch für die Hypertextsorte Persönliche Homepage eines Wissenschaftlers; optionales Modul.
  • Hypertextsorten-Module: Beispiele Modul: Affiliation Obligatorischer Status.
  • Hypertextsorten-Module: Weitere Beispiele
  • Hypertextsorten und –Module XML Schema-Repräsentation definiert •  Stellt ein abstraktes Framework dar. •  Massiv generalisiert! Default Belegung: <content,form,function> Hypertextsorte Beispielinstanz: Persönliche Homepage eines Wissenschaftlers können fungieren als Enthält die vorgeschriebenen Module ... besteht aus Erhöht das function-Attribut modifiziert Interaction! Optionales Hypertextsorten-Modul: Lokale Suchfunktion (mittels CGI-Skript) Obligatorische Hypertextsorten-Module Optionale Hypertextsorten-Module Auflistung von Lehrveranstaltungen: Mitarbeiterliste: •  Vorgeschriebenes Modul für HTS: •  Optionales Modul für HTS: Instituts-Einstiegsseite Instituts-Einstiegsseite •  Ebenfalls eine eigenständige •  Ebenfalls eine eigenständige HyperHypertextsorte textsorte Spezifische Belegung: <content,form,function >
  • Definition einer Hypertextsorte !  Beispiel: Persönliche Homepage eines Wissenschaftlers !  Analyse anhand eines kleinen Samples !  Bedingungen bei der Auswahl: "  "  "  "  Georg Rehm Unterschiedliche Universitäten und Städte Unterschiedliche Fächer Kein Einsatz von Framesets Dokumente sollen in englischer und deutscher Version vorliegen CL Kolloquium, Universität Potsdam, 04.12.2001
  • Die Dokumente des Samples
  • !  !  !  !  !  Affiliation (obligatorisch) – Logo Graphik der Universität, des Fachbereichs oder Instituts; wird evtl. begleitet/ersetzt durch textuelle Version; kann auch im Schlußteil eines Dokuments vorhanden sein Alternative Version eines Dokuments in einer anderen Sprache, hier: Englisch; wird evtl. von einer entsprechender Flagge begleitet (optional) Name des Homepage-Besitzers (obligatorisch) – wird evtl. begleitet von einem akademischen Titel („Dr. , „Prof. Dr. , etc.) und einer entsprechenden Phrase („Homepage von Vorname Nachname ) "  Eigene Person vorstellen (Name, Portrait Photo des Autors; räumlich relativ nah bei dem Namen platziert, üblicherweise im oberen Drittel des Dokuments (optional) Photo) Kontaktinformationen (obligatorisch) "  Ein individuelles, wissenschaftliches "  Postadresse (optional) – Name des Autors, Institut, Universität, Profil Straße, Hausnummer, Postfach, Postleitzahl, Stadt, Land etablieren "  Telefonnummer (optional) "  Veröffentlichungen in digitaler Form "  Telefonnummer des Sekretariats (optional) anbieten "  Faxnummer (optional) "  E-Mail-Adresse (obligatorisch) "  Lehrbezogene Materialien (Skripte, Persönliche Homepage eines Wissenschaftlers !  Funktionen: Raumnummer (optional) Folien, Übungsblätter, Lösungen, "  Sprechstunde (optional) interaktives Quiz etc.) anbieten C.V. oder generelle bibliographische Informationen (obligatorisch) (→ „digitaler Handapparat ) Informationen über Lehrveranstaltungen (obligatorisch) Forschungsinteressen und/oder Forschungsprojekte (obligatorisch) "  Kontaktinformationen offerieren Auflistung von eigenen Publikationen (obligatorisch) Auflistung von Vorträgen/Präsentationen (optional) Verwandte Links (optional) "  In hohem Maße strukturiert "  Link zur Homepage der eigenen Universität (obligatorisch) "  Link zur Homepage des eigenen Fachbereichs "  Optische Trennung einzelner Module (obligatorisch) "  Link zur Homepage des eigenen Instituts/der eigenen Arbeitsgruppe (oftmals <HR> oder Ersatz) (obligatorisch) Datum der letzten Änderung (optional) "  !  !  !  !  !  !  !  !  Form:
  • Hypertextsorten-Module und Information Extraction
  • Hypertextsorten-Module und Information Extraction !  Prämisse für das Folgende: Relativ genaue Detektion von "  Hypertextsorten und "  Hypertextsorten-Modulen !  Dies ermöglichte: "  Eine neue Ebene für Information Extraction-Systeme: "  Anwendung spezialisierter Wrapper auf die Inhalte von Hypertextsorten-Modulen (vs. vollständigen HTML-Dokumenten) •  Ausschnitt: XML-basierte Repräsentation der Informationen des Hypertextsorten-Moduls Kontaktinformation •  Aufbruch von physikalischen Dokumentgrenzen! !
  • Etwa 120 Detektionsmerkmale 1.  Dokumentübergreifende Merkmale: Wiederholt auftauchende Hypertextsorten-Module, Position eines Dokuments in der Hypertextstruktur einer Gruppe 2.  Metadaten: URL, HTTP Response Header, Größe, Titel, <meta>, HTML-DTD 3.  Sprachliche und strukturelle Cues (an bestimmten Hypertextsorten-spezifischen Positionen) 4.  Sprachliche Konzeption (Kontinuum von mündlich nach schriftlich) 5.  HTML-Struktur (von Elementen aufgespannter Baum): "  "  "  Georg Rehm Hyperlinks: Anzahl, intern vs. extern, Hypertext-Struktur, Dateityp des Ziels, Hypertextsorte des Ziels, Ankertext, LinkFunktion, Link-Position Inline-Graphiken: Abmessungen, Anzahl, Datei- und Verzeichnisnamen, Inhalt, ALT=...-Text, Dateityp Interaktive Elemente: Formulare, JavaScript, PlugIns, JavaApplets CL Kolloquium, Universität Potsdam, 04.12.2001
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Text-Klassifikation – Clustering !  Ursprung: Data Mining !  Grundlage: Extraktion sprachlicher Merkmale !  Merkmalsvektor eines Textes als Distanzmaß !  Ziele: "  "  ... Distanz zwischen Texten in einem Cluster soll möglichst minimal sein Distanz zwischen Clustern soll möglichst maximal sein Clusterer !  Problem: "  Cluster werden dynamisch erzeugt Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • Text-Klassifikation – Categorization Trainingsdaten unbekannte Dokumente ... Probleme •  Sehr viele manuell kategorisierte und repräsentative Trainingsdaten sind notwendig. •  Overfitting im Kategorisierungsschema. •  Wie kann man hier die HTML-Struktur und andere, nichtsprachliche Merkmale berücksichtigen? Trainer Klassifikator Sport Politik Spaß Kategorisierungsschema Kunst Thomas Brückner, „Textklassifikation (2001): „Die Merkmale basieren meist auf Wörtern oder Buchstaben-N-Grammen. Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • Text-Klassifikation – Rule-Based unbekannte Dokumente Induzieren von decision trees (?) ... Kategorie „Straßenverkehr Rule-Based-System ( „auto ∨ „motorrad ∨ „autobahn ∨ „verkehr ∨ „straße ) ∧ ¬ ( „zug ∨ „bahn ∨ „eisenbahn ) ... Cluster 1 Cluster 2 Cluster 3 Cluster 4
  • Textsorten-Klassifikation Korpus Karlgren & Cutting (1994), Recognizing Text Genres with Simple Metrics Using Discriminant Functions Kessler, Nunberg & Schütze (1997), Automatic Detection of Text Genre Stamatatos et al. (2000), Text Genre Detection Using Common Word Frequencies Methoden Genres Informative, Imaginative 4.  Press, Fiction, Misc., Non-Fiction •  Einfache Methoden liefern für wenige Textsorten sehr gute Resultate •  500 Texte aus Statististik/KNNs, 6.  Reportage, ca.In diesen Ansätzen ausschließlich: ASCII-Texte (!) •  Wie kann man sehr 55 Merkmale viele HypertextsortenEditorial, Scimöglichst dem Brown (Interpunktion, Tech, Legal, präzise detektieren? Corpus Affixe, Passiv, Non-Fiction, (getaggt) etc.) Fiction Jeweils 500 Texte aus dem Brown Corpus (getaggt) Wall Street Journal Corpus (ungetaggt) DiskriminantenAnalyse – 20 Parameter (noun, Fazit it, adv., word etc. counts) DiskriminantenAnalyse – Worthäufigkeiten und Interpunktionsz. Präzision 2.  4.  Editorial, Letter to the Editor, Reportage, Spot news 2.  4.  ca. 96% ca. 73% ca. 90% (für „reportage und „fiction ) ca. 97%
  • Hypertextsorten-Klassifikation Genres Methoden Matsuda & Fukushima (1999), Task-Oriented World Wide Web Retrieval by Document Type Classification 9: prod. catalogue, online shop, advertisement for help, CfP, links, FAQ, glossary, home page, bulletin board Gewichtetes PatternMatching in HTMLFazit Elementen Karlgren et al. (1998), Iterative Information Retrieval Using Fast Clustering and Usage-Specific Genres •  Informal/Pri11: Einfache Methoden liefern für wenige Hypertextsorten sehr gute Resultate vate, Public/Com., •  Sind Journ. Indices,diese Ergebnisse auf sehr viele, tw. recht if-then-Regeln, Vorkommen von ähnliche Hypertextsorten übertragbar? Material, Reports, kombiniert mit Wörtern und Text, FAQ, Link Clustering HTML-Elementen Coll., Listings/Tables, Discussions, Error Messages Rauber & MüllerKögler (2001), Integrating Automatic Genre Analysis into Digital Libraries Cluster: Sport-Artikel, Interviews, Berichte, juristische Texte etc. Clustering (Self Organizing Map) zum nicht überwachten Erlernen von Ähnlichkeiten Merkmale Präzision keyword, link, URL, structure, image, OCR, plugin avg. precision of document-type search: 88,9% (avg. precision of keyword-based search: 31,2%) Text-Komplexität, Sonder- und Interpunktionszeichen, Stoppund Schlüsselwörter, Markup Zwischen 30% und 90%, je nach Genre n.a., Cluster werden erlernt zur Visualisierung von Such-Ergebnissen einer neuen GUI-Metapher
  • Fünf Merkmalsgruppen Architektur des Analysesystems I Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V extrahiert Tool 1 DB1 Modul-Konfiguration Tool 2 DB2 Tool 3 HTML -Date i(en) Hybride Merkmals-Matrix Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank
  • Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher Analyse III Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Tool 3 0.82 Spezialisierte Judges: •  berechnen Konfidenzwerte 0.48 DB2 Taxonomie
  • Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Analyse III Dispatcher Metadaten (Perl, HTML::PARSER) Analyse IV liest Analyse V HypnoticDatenbank HTML -Date i(en) Klassifikator Tool 1 DB1 0.96 Tool 2 DB2 Spezialisierte Judges: Tool 3 •  berechnen Konfidenzwerte •  schränken Suchraum ein DB2 Taxonomie
  • Fünf Merkmalsgruppen Architektur des Analysesystems II Analyse I Analyse II Dispatcher $ Analyse III $ Metadaten (Perl, HTML::PARSER) Analyse IV Analyse V liest extrahiert Tool 1 DB1 $ DB2 Tool 2 Tool 3 Modul-Konfiguration ? DB2 XML-Repräsentation der Taxonomie HypnoticDatenbank HTML -Date i(en) $ Hybride Merkmals-Matrix $ Trainings- bzw. Input-Daten ML- und Regelbasierter Klassifikator $ $
  • Zielsetzung Einführung Korpus-Datenbank Hypertextsorten-Taxonomie Detektionsmerkmale Hypertextsorten und –Module System-Architektur Ausblick
  • Ausblick !  Korpusdatenbank: Implementierung der semiautomatischen Stichprobenanalyse !  Stichprobenauswertung (top-down/bottom-up) !  Entwicklung eines XML-Repräsentationsformats für die Hypertextsorten-Taxonomie !  Validierung der ca. 120 Detektions-Merkmale !  Implementation des Klassifikationssystems (evtl. als Multiagenten-System) !  Evaluation des Systems mit realen SuchFragestellungen Georg Rehm CL Kolloquium, Universität Potsdam, 04.12.2001