Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Zur Integration von Wissen über Text- und
Hypertextsorten in computerlinguistische und
sprachtechnologische Anwendungen
!
...
Ausgangssituation!
• 

• 

Menschen beherrschen den Umgang mit Dutzenden von Textsorten"
(z.B. Liebesbrief, Einkaufszettel...
Profitierende Anwendungen!
• 

Tagging und Parsing!

• 

Maschinelles Textzusammenfassen!

• 

Informations-/Metadatenextra...
Textsorten und Texttechnologie!
• 

• 

Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative
Funktion, th...
Gliederung!
• 
• 

Ausgangssituation und konzeptionelle Ausrichtung!
Ein Hypertextsortenmodell und die
Hypertextsortenonto...
Ein Hypertextsortenmodell!
• 

Kontext: Anwendung zur Informationsrecherche und Web as Corpus!
-  Hypertext macht Erweiter...
Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!
Hypertextsorte:!
Webauftritt"
einer Universität!

Eingebettete Hy...
Ebene der Konstituenz II: Hypertextsortenmodul!
!Publikationsliste!

Zur Integration von Wissen über Text- und Hypertextso...
Ebene der Konstituenz III: Hypertextknotensorte!
!Berufliche Homepage eines Wissenschaftlers!

Zur Integration von Wissen ü...
Generischer Aufbau einer Hypertextsorte!
Merkmale:!
• 
Kommunikative Funktion!
• 
Kontextuelle Faktoren!
• 
Inhalt/Thema!
...
Tool chain zur Sammlung eines Korpus!
!

*.unizh.ch!

HTTP Header
!
(Perl)
!

Web-Crawler (Pavuk)!
Sprachenidentifizierer (...
Repräsentation von Hypertextsorten durch Ontologien!
• 

Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und
...
Die Hypertextsortenontologie!
das Hypertext-!
sortenmodell!
in abstrakter Form!

das Hypertext-!
sortenmodell!
als OWL-Ont...
Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!
• 
• 
• 

Umfasst vier Hypertextsorten (...
Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!
Homepage einer Person!

Zur Integration von Wisse...
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenon...
Maschinelle Identifizierung von Hypertextsorten!
• 

Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich
...
Systemarchitektur (partiell implementiert)!
externe!
Ressource!

Hypertextsortenontologie!
externe!
Ressource!

annotierte...
Textparsing zur Erkennung der Textstruktur!
• 

Funktionen des Textparsers:!
-  Ermittlung der tatsächlichen Textstruktur ...
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in comp...
Textparser mit interaktiver Analyseoberfläche: Beispiel!

Zur Integration von Wissen über Text- und Hypertextsorten in comp...
Exemplarische Anwendung: Informationsextraktion!

<Identifikation>
<Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"...
Gliederung!
• 

Ausgangssituation und konzeptionelle Ausrichtung!

• 

Ein Hypertextsortenmodell und die Hypertextsortenon...
Zusammenfassung und Schlussfolgerungen!
• 

• 
• 

Wissen über Text- und Hypertextsorten kann gewinnbringend in
sprachtech...
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautom...
Ausblick und Perspektiven!
• 

Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).
!

• 

Semiautom...
Upcoming SlideShare
Loading in …5
×

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

686 views

Published on

Georg Rehm. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen. Universität Zürich, Switzerland, November 2006. November 9, 2006. Invited talk.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

  1. 1. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen ! Georg Rehm ! ! ! georg.rehm@gmail.com ! http://georg-re.hm ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische ! Universität Zürich, 27. November 2006 und sprachtechnologische Anwendungen! 1/26!
  2. 2. Ausgangssituation! •  •  Menschen beherrschen den Umgang mit Dutzenden von Textsorten" (z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).! In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:! -  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in! !  CiteSeer (Giles et al. 1998): ! !  DataRover (Davulcu et al. 2003): !Publikationsliste! !Produktkatalog/Produktinformationen! -  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!
  3. 3. Profitierende Anwendungen! •  Tagging und Parsing! •  Maschinelles Textzusammenfassen! •  Informations-/Metadatenextraktion! •  Information Retrieval! •  Textkategorisierung! •  Question Answering ! •  Textsorte X ! Input (Texte) ! Textsorte Y ! Textsorte Z ! Vorverarbeitung ! Wissen über! Textsorte X! Mobile Device Adaptation! •  Korpuslinguistische Analysen! •  Lernen von Ontologien! •  Visualisierung ! Wissen über! Textsorte Y! Wissen über! Textsorte Z! E-Learning-Tools (Essay Grading)! •  Algorithmen ! ...! Output ! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!
  4. 4. Textsorten und Texttechnologie! •  •  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner" (siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).! Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:! !Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.! •  Repräsentation z.B. mittels XML Schema oder DTD:! <!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ... month! 08! •  article! body! date! day! year! time! headline! paragraph! 08! 2003! 12:00! Der ...! Die ...! Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!
  5. 5. Gliederung! •  •  Ausgangssituation und konzeptionelle Ausrichtung! Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!
  6. 6. Ein Hypertextsortenmodell! •  Kontext: Anwendung zur Informationsrecherche und Web as Corpus! -  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.! -  Diskrepanz: Web as Corpus Community vs. Hypertextsorten! •  Hypertextsorten: Stand der Forschung! !Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).! •  Das Hypertextsortenmodell ist Grundlage für! -  (text)linguistische Analysen von Hypertextexemplaren,! -  eine Systemarchitektur, die die Integration von Wissen über Textund Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!
  7. 7. Ebene der Konstituenz I: (Eingebettete) Hypertextsorten! Hypertextsorte:! Webauftritt" einer Universität! Eingebettete Hypertextsorten:! Webauftritt einer Fakultät! Eingebettete Hypertextsorte:! Webauftritt eines Instituts bzw. Seminars! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!
  8. 8. Ebene der Konstituenz II: Hypertextsortenmodul! !Publikationsliste! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!
  9. 9. Ebene der Konstituenz III: Hypertextknotensorte! !Berufliche Homepage eines Wissenschaftlers! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!
  10. 10. Generischer Aufbau einer Hypertextsorte! Merkmale:! •  Kommunikative Funktion! •  Kontextuelle Faktoren! •  Inhalt/Thema! •  Interaktion! •  Strukturierung! •  Kommunikation! •  Dekoration! besitzt! Hypertextsorte i! kann fungieren als! besteht aus! besitzt identischen Aufbau! Hypertextsortenmodul 1...n! Hypertextknotensorte 1...n! Hypertextsorte 0...n! wird eingebettet in oder! kann fungieren als! kann fungieren als! Optionale Hyper-! textsortenmodule 0...n! Obligatorische Hyper-! textsortenmodule 1...n! prägen aus! Typen:! •  Inhalt/Thema! •  Interaktion! •  Kommunikation! •  Navigation! •  Metainformation! •  Dekoration! •  Textstrukturmuster! umfasst konventiona-! lisierte Vorbelegung! Optionale Hyper-! textsorten 0...n! Obligatorische Hyper-! textsorten 0...n! besitzt! Merkmale:! •  Positionierung! •  Kommunikative Funktion! •  Dekoration! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!
  11. 11. Tool chain zur Sammlung eines Korpus! ! *.unizh.ch! HTTP Header ! (Perl) ! Web-Crawler (Pavuk)! Sprachenidentifizierer (Perl)! DB! (MySQL)! Korpus:! UNIX-! Filesystem! PHP! Webserver (Apache)! Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!
  12. 12. Repräsentation von Hypertextsorten durch Ontologien! •  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.! !Alternative Vorschläge (nicht implementiert):! -  -  •  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).! Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).! Web as Corpus-Vorgehensweise:! -  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).! -  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.! -  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.! -  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!
  13. 13. Die Hypertextsortenontologie! das Hypertext-! sortenmodell! in abstrakter Form! das Hypertext-! sortenmodell! als OWL-Ontologie! (Ausschnitt)! Ontologie angefertigt mittels Protégé-OWL,Visualisierung mittels OntoViz/GraphViz! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!
  14. 14. Die Hypertextsortenontologie (Ausschnitt)! Hypertexttyp Software-Dokumentation:! •  •  •  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).! Definitionen als Subklassen der Klasse Hypertexttyp. Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!
  15. 15. Die Hypertextsortenontologie (Ausschnitt)! Typologie des Hypertexttyps! Homepage einer Person! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!
  16. 16. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!
  17. 17. Maschinelle Identifizierung von Hypertextsorten! •  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).! •  Es existieren mehrere ungelöste Probleme, z.B.:! 1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.! 2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 WebGenres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?! 3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).! 4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).! •  Entwurf einer Architektur, um diesen Problemen zu begegnen.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!
  18. 18. Systemarchitektur (partiell implementiert)! externe! Ressource! Hypertextsortenontologie! externe! Ressource! annotiertes! Trainings-! korpus! Erkennung von! Hypertextknotensorten! externe! Ressource! externe! Ressource! Erkennung von! Hypertextsorten! POS-Tagger! Tokenisierer! externe! Ressource! Textparser! Korpusdatenbank! Erkennung der Grenzen! eines Hypertextes! XML-! Dateien! Visualisierung! mittels XSLT! Korpus:" HTML-! Dateien! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!
  19. 19. Textparsing zur Erkennung der Textstruktur! •  Funktionen des Textparsers:! -  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse)," d.h. Identifizierung der Bausteine der Textoberfläche.! -  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.! -  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).! •  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.! •  Multi-Ebenen-Annotation.! •  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!
  20. 20. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!
  21. 21. Textparser mit interaktiver Analyseoberfläche: Beispiel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!
  22. 22. Exemplarische Anwendung: Informationsextraktion! <Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> WrapperI! <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation> WrapperL! Lebenslauf, biografische Angaben! <Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf> Identifikation! Foto! <Kontaktinformationen> <Strassenadresse> Name! <Strasse>Endenicher ...</Strasse> Affiliation! <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> WrapperK! </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> Kontaktinformationen! </Kontaktinformationen> <DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung> Straßenadresse! Telefon! Fax! E-Mail! Datum der letzten Änderung! WrapperD! <WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil> Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen! WrapperP! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!
  23. 23. Gliederung! •  Ausgangssituation und konzeptionelle Ausrichtung! •  Ein Hypertextsortenmodell und die Hypertextsortenontologie! •  Exemplarische Anwendung! •  Schlussfolgerungen – Ausblick – Perspektiven! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!
  24. 24. Zusammenfassung und Schlussfolgerungen! •  •  •  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.! Es existiert kein Standard zur Repräsentation von Textsortenwissen.! Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.! -  Konstituenten von und Relationen zwischen Hypertextsorten.! -  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.! •  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!
  25. 25. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!
  26. 26. Ausblick und Perspektiven! •  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs). ! •  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.! •  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).! •  •  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).! Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.! -  „Zimt und Koriander“ in Kochrezept! -  „Zimt und Koriander“ in Rezension! -  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel! Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!

×