Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.
Upcoming SlideShare
Loading in...5
×
 

Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

on

  • 1,804 views

Sandra Schön und Thomas Kurz...

Sandra Schön und Thomas Kurz

unter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella, Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger

Smarte Annotationen.
Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.

Statistics

Views

Total Views
1,804
Views on SlideShare
1,648
Embed Views
156

Actions

Likes
1
Downloads
34
Comments
0

2 Embeds 156

http://sansch.wordpress.com 155
http://wiki.doebe.li 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Smarte Annotationen. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen. Document Transcript

  • 1. SMARTE ANNOTATIONEN. Ein Beitrag zur Evaluation von Empfehlungen für Annotationen Sandra Schön und Thomas Kurzunter Mitwirkung von Christoph Bauer, Jean-Christoph Börner, Peter M. Hofer, Katalin Lejtovicz, Marius Schebella,Michael Springer, Andrea Wolfinger und Edgar Zwischenbrugger
  • 2. Das Kompetenzzentrum für Neue Medien, SalzburgNewMediaLab – The Next Generation (SNML-TNG)arbeitet unter der Koordination der Salzburg ResearchForschungsges.m.b.H. daran, digitale Inhalte zu personali-sieren, für alle auffindbar zu machen und nachhaltig zunutzen: Dazu werden Informationen auf der Ebene der In-halte (Linked Content), der stukturierten Daten (LinkedData) und der sozialen Interaktion (Linked People) ver-knüpft. Für die dadurch entstehende Form von Inhalten wurde der Begriff „Linked Me-dia“ gewählt. SNML-TNG ist ein K-Projekt im Rahmen des COMET-Programms (Compe-tence Centers for Excellent Technologies, www.ffg.at/comet) und wird gefördert aus Mit-teln des BMWFJ, des BMVIT und des Landes Salzburg.Homepage: www.newmedialab.at© Salzburg NewMediaLab – The Next Generation Oktober 2011ISBN 978-3-902448-31-6Sandra Schön und Thomas Kurzunter Mitwirkung von Christoph Bauer, Jean-Christoph Börner,Peter M. Hofer, Katalin Lejtovicz, Marius Schebella,Michael Springer, Andrea Wolfinger und Edgar ZwischenbruggerSmarte Annotationen.Ein Beitrag zur Evaluation von Empfehlungen für Annotationen.Band 4 der Reihe „Linked Media Lab Reports“,herausgegeben von Christoph Bauer, Georg Güntner und Sebastian SchaffertVerlag und Herstellung: Salzburg Research, SalzburgUmschlaggestaltung: Daniela Gnad, Salzburg ResearchBibliografische Information der Deutschen Nationalbibliothek:Die Deutsche Nationalbibliothek verzeichnet diese Publikationin der Deutschen Nationalbibliografie; detaillierte bibliografischeDaten sind im Internet über http://dnb.d-nb.de abrufbar.
  • 3. VorwortDas Kompetenzzentrum für neue Medien wurde beginnend mit dem Jahr 2000 alsDenkfabrik für innovative Konzepte und Lösungen für die österreichische Medien-und Content-Industrie aufgebaut und bietet seitdem Technologieführern und denBetreibern fortschrittlicher Internet-Plattformen eine Heimat zur Entwicklungund Erprobung innovativer Informationssysteme und -architekturen. Gemeinsammit führenden Vertretern der Medien- und Content-Industrie wurden dabei vonBeginn an konkrete Lösungen entwickelt und erfolgreich umgesetzt.Seit der Gründung 2000 haben sich die Fragestellungen das Salzburg NewMedia-Lab mit der technologischen Entwicklung des Internets stark verändert: Ging es inder Anfangsphase noch vorwiegend um die Trennung von Inhalt und Layout imOnline-Bereich, so ermöglichten es die ab 2003 aufkommenden Technologien desSemantic Web erstmals die Bedeutung von Inhalten auch für Computerprogram-me begreifbar zu machen. In dieser Zeit arbeitete das Salzburg NewMediaLab ander Entwicklung intelligenter Inhalte, die sich ihrem jeweiligen Verwendungsbe-reich automatisch anpassen.Mit dem Aufstieg der sozialen Netzwerke entstanden neue Anforderungen an dieMedien- und Content-Industrie: Unter dem Schlagwort „Linked Media“ (verlinkteMedien) tritt das Kompetenzzentrum ab 2010 für ein neuartiges Konzept digitalerInformationen ein, das auf der Verknüpfung von Inhalten, von strukturierten Da-ten und von Personen bzw. auf deren sozialen Interaktion mit den Inhalten be-ruht. Durch die Nutzung verfügbarer Wissensquellen und des sozialen Kontextesbietet sich Unternehmen die Chance, ihre Inhalte über verschiedene Anwendun-gen hinaus zu verknüpfen und den Kostendruck bei der Entwicklung personali-sierter Inhalte zu reduzieren.Die Vorreiterrolle bei der Umsetzung des Linked-Media-Konzepts nehmen unterder Koordination der Salzburg Research Forschungsgesellschaft führende öster-reichische Medienunternehmen (ORF, Red Bull Media House, Salzburg AG undSalzburger Nachrichten) und Softwarehäuser (mediamid, Semantic Web Compa-ny, TECHNODAT) ein. Sie werden wissenschaftlich begleitet von Forschungsein-richtungen im Bereich der Multimedia-Technologien, des Semantic Web und dersozialen Medien (Studiengang MultiMediaTechnology der FH Salzburg, SemanticTechnology Institut der Universität Innsbruck, Salzburg Research).Wir hoffen, mit diesem vierten Band der „Linked Media Lab Reports“ einen gelun-genen Einblick in die Möglichkeiten der Bewertung von Annotationsvorschlägenund der Auswahl entsprechender Empfehlungsalgorithmen zu geben.Georg Güntnerwww.newmedialab.atZentrumsleiterOktober 2011
  • 4. Inhaltsverzeichnis Einleitung und Hintergrund........................................................................... 7 Annotatonen: Entstehung und Einsatz..........................................................9 Annotatonen .......................................................................................... 9 Ziele der Annotaton...............................................................................10 Annotatonsformen und Kombinatonen................................................ 10 Empfehlungssysteme und ihre Bewertung.................................................. 13 Empfehlungen im Web........................................................................... 13 Quellen für Empfehlungssysteme...........................................................13 Verfahren für Empfehlungssysteme....................................................... 14 Zielsetzungen von Empfehlungssystemen.............................................. 15 Allgemeine Ansätze zur Evaluaton von Empfehlungssystemen.............15 Empfehlungssysteme für Annotatonen.......................................................19 Quellen für Empfehlungen von Annotatonen........................................ 19 Eingesetzte Verfahren für Empfehlungen von Annotatonen.................26 Kombinaton von Quellen und Verfahren............................................... 27 Kriterien für „gute“ Empfehlungen für Annotatonen.................................. 29 Ein Beispiel: Wie gut sind diese Vorschläge?.......................................... 29 Mögliche Kriterien für gute Empfehlungen ............................................30 Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen....................................................................31 Verfahren zur Bewertung der Empfehlungen für Annotatonen im Überblick..................................................................................... 31 (a) Bewertung der einzelnen Empfehlung durch Experten.....................32 (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten................................................................................33 (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer...........34 (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen ............................................................. 36 (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen.............................................................. 37 (f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde.................................................... 40 (g) Die „goldene Strategie“: Vergleich mit Standarddaten......................41 Vergleich der Ansätze.............................................................................41
  • 5. Vorschläge zur Beurteilung von Nähe und Abweichungen von Annotatonen .......................................................................................................... 43 Begrifsähnlichkeit.................................................................................. 43 Syntaktsche Metriken............................................................................44 Semantsche Metriken............................................................................44Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen.............47 Mögliche Kennzahlen............................................................................. 47 Anmerkung zur Bewertung von Unterschieden...................................... 48 Diskussion.............................................................................................. 48
  • 6. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EINLEITUNG UND HINTERGRUNDUm Texte, Dokumente oder auch audio-visuelle Materialien gut erschließen zukönnen, wird mit Annotationen gearbeitet. Um den Vorgang der Annotation zuunterstützen – weil das Annotieren mühsam und zeitaufwändig ist – geben immermehr Systeme Empfehlungen für Annotationen. Für diese ersten Zeilen sollte unsso ein System, sofern es gute Empfehlungen für Annotation gibt, das Schlagwort„Einleitung“ geben.In diesem Lab Report werden Ansätze zusammengetragen und vorstellt, wie mandie Qualität dieser Empfehlungen für Annotationen bewerten und messen kann.Damit kann ein wesentlicher Beitrag zur Qualitätssicherung der Annotationen ge-leistet werden: Je besser die Empfehlungen für Annotationen, desto besser selbstsind schließlich die Annotationen.In diesem Lab-Bericht wird dazu zunächst einführend geklärt, was Annotationenund ihre Zielsetzungen sind und auch, welche Annotationsformen es gibt. Dazuwerden wir den Forschungs- und Praxistand zu folgenden Fragen beschreibenund um eigene Ideen ergänzen. Im Vordergrund stehen dabei die folgenden Frage-stellungen: – Wie bewertet man die Güte von Vorschlägen für Annotationen? – Wie funktionieren (allgemein) Empfehlungssysteme und wie bewertet man sie? – Wie funktionieren Empfehlungssysteme für Annotationen?Die Klärung dieser Fragen sind die Voraussetzung dafür, die Hauptfrage klären zukönnen: – Wie lässt sich die Qualität von Empfehlungen für Annotationen feststellen und messen?Dieser Beitrag bietet dabei keine abschließende Lösung, sondern stellt existieren-de und mögliche Lösungen und Ansätze vor, wie sie vorrangig in der Informatik inForschungsarbeiten zum Einsatz kommen. Zusätzlich haben wir diesen Status Quoin einer Expertenrunde des Salzburg NewMediaLab Ende Mai 2011 diskutiert undunsere Erfahrungen und Ansichten dazu, auch aus einer eher praktischen Per-spektive von Archivaren und Softwarehäusern, ausgetauscht. Dieser Lab Reportstellt damit eine Basis für weitere wissenschaftliche und praktische Maßnahmendar. 7
  • 7. Einleitung und Hintergrund8
  • 8. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen ANNOTATIONEN: ENTSTEHUNG UND EINSATZAnnotatonenIn der Wikipedia findet sich folgende Definition von „Annotation“: „Annotation be-deutet Anmerkung, Beifügung, Hinzufügung. In diesem Sinn haben Annotatio-nen bei Stichworten, Begriffsklärungen oder ausführlichen Texten den Charakterder Erklärung beziehungsweise Ergänzung. Annotationen halten Dinge fest, diezwar nicht als wesentlich für das Hauptstichwort oder den Haupttext erachtetwerden, aber wichtige Zusatzinformationen darstellen. Sie sind es immerhin wert,ausdrücklich festgehalten zu werden, und auf diese Weise erhalten die bezeichne-ten Inhalte einen Platz in der Ordnung des Ganzen, ohne die Struktur zu störenoder die Sinnlinie der Aussage zu unterbrechen.“ (Wikipedia, 2010) Abbildung 1: Handschriftliche Notizen und Annotationen. Quelle: http://rwtverio.ncte.org/lesson_images/lesson1132/AnnotationLarger2.GIF (2011-03-15)Nicht nur auf Papier, z. B. Notizen am Rand von Büchern, wird annotiert. Im WorldWide Web gibt es eine Vielzahl von Möglichkeiten, Texte und Webseiten oderauch Multimedia-Dateien wie Videos und Podcasts zu annotieren. Genau genom-men, kann alles, was im Web ein Pendant hat, z.B. auch Personen bzw. deren Ho-mepages oder Profile bei Facebook, annotiert werden. 9
  • 9. Annotatonen: Entstehung und EinsatzZiele der AnnotatonEs gibt ganz unterschiedliche Motive, warum man Annotationen zu (Web-) Mate-rialien hinzufügt bzw. sie hinzufügen lässt. Im wesentlichen lassen sich dabei Ab-sichten der Anbieter entsprechenden Plattformen von denjenigen der Nutzer un-terscheiden.Anbieter von Medienarchiven oder Webmaterialien unterstützen und nutzen An-notationen vor allem um – die Recherche der Materialien zu verbessern, – um gute Empfehlungen für passendes eigenes weiteres Material zu geben, – um die Materialien intelligent mit externen Daten und Ressourcen verknüp- fen zu können (z. B. mit dem Linked-Data-Ansatz) und – um mit Methoden des Webmonitoring das eigene Material und dessen Ent- wicklung beobachten und bewerten zu können.Aus Perspektive des einzelnen Nutzers ist die Annotation wichtig – für das eigene Informationsmanagement und – um Materialien für andere erschließbar zu machen, beispielsweise indem Fotos bei Facebook mit dem Namen von Kontakten versehen werden.Darüberhinaus werden Annotationen auch für das eigene Lernen oder im Unter-richt eingesetzt, um damit beispielsweise wesentliche Aussagen eines Textes zumarkieren oder offene Fragen zu notieren. Diese Variante steht jedoch nicht imFokus des Beitrags.Ob und wie einzelne Nutzer, beispielsweise bei Foto-Sharing-Angeboten ihre Fo-tos annotieren, hängt auch von der Art der Nutzung des Foto-Sharing-Angebotsab, also mit welchem Zweck sie es nutzen (Ames & Naaman, 2007). Wie sich zei-gen wird, entstehen Annotationen nicht zwangsläufig bewusst.Annotatonsformen und KombinatonenEs gibt unterschiedliche Formen der Annotation. Im Folgenden werden einige da-von vorgestellt.Professionelle KlassifkatonUm Texte recherchierbar zu machen, werden häufig Volltextsuchen eingesetzt.Dabei stößt man auf das Problem, dass man verwandte Begriffe oder Konzepte,die im Text bzw. den vorhandenen Annotationen nicht vorkommen, auch nicht re-cherchieren kann. Mit Hilfe von kontrollierten Vokabularen und Thesauri werdenTerme in Verbindung gebracht, so dass beispielsweise ein Text zu Skifahren demBereich „Sport“ zugeordnet werden kann. In traditionellen Medienarchiven wer-10
  • 10. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonenden Materialien zu Kategorien und Unterkategorien zugeordnet, welche häufigauch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten.Freie Verschlagwortung und Social TaggingIm Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oderandere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zumarkieren, sie zu „taggen“ (vom englischen. „tag“: Etikett). Mit Hilfe der Tags kön-nen Andere entsprechende Ressourcen recherchieren; schnell haben sich populä-re Webdienste entwickelt (vgl. Schaffert, Hilzensauer & Wieden-Bischof, 2009).Während die Erzeugung von traditionellen Metadaten eher einem ausgewähltenBenutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzerbeteiligt (Derntl et al., 2009). Es ist also „eine offene, effiziente Möglichkeit derKlassifikation von Dokumenten“, weil „eine breite Palette von unterschiedlichenTermen für die Beschreibung eines Dokuments bereitgestellt wird“ (Güntner, Sint& Westenthaler, 2009, 192).Automatsche AnnotatonNeben den von Personen durchgeführten Annotationen gibt es auch automatischgenerierte Annotationen. Dazu werden automatisch aus den Texten oder BildernInformationen generiert. Auch können die zahlreichen (Meta-) Informationen dieim Web anfallen und gesammelt werden, und bei der Entwicklung von Annotatio-nen berücksichtigt werden: Wie wird ein Beitrag bewertet, wir häufig wird er auf-gerufen, wen interessiert eine Webseite?Kombinaton der AnsätzeNutzen Laien ein Kategoriensystem, sind sie mit den Fachkategorien und -aus-drücken der Experten oft überfordert. Dabei kann „die semantische Lücke zwi-schen den Autor/inn/en des kontrollierten Vokabular und dem Domänenwissender Anwender/innen zu Problemen führen“, diese werden als „Vocabulary Pro-blem“ bezeichnet (s. Güntner, Sint & Westenthaler, 2009, 192). Umgekehrt ist esoft auch notwendig Materialien, die noch nicht von Experten oder Laien annotiertwurden, automatisch mit Annotationen zu versehen um sie recherchierbar zu ma-chen. Wenn Systeme hingegen auf Social Tagging aufbauen, haben sie mit demKaltstartproblem zu kämpfen: Solange keine Tags vorhanden sind, sind die Doku-mente z. B. über entsprechende Suchfunktionen nicht auffindbar.Um zu ausreichenden und qualitativ besseren Ergebnissen zu kommen, werdendie drei Formen der Generierung von Metadaten oft kombiniert eingesetzt (s. Kittl& Zeidler, 2007): die automatische Generierung von Metadaten (durch Informati-onsextraktion) mit manuell erzeugte Metadaten durch Tagging oder Klassifikati-on. 11
  • 11. Annotatonen: Entstehung und EinsatzBeispielsweise wurde für das integrierte Projekt LIVE1 ein Prototyp entwickelt,der versucht, die Vorteile des traditionellen Klassifizierens mit den Vorteilen desSocial Taggings zu verbinden (Güntner, Sint & Westenthaler, 2009).1 Live Staging of Media Events, htp://ist-live.org (2009-10-12)12
  • 12. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EMPFEHLUNGSSYSTEME UND IHRE BEWERTUNGIn einer Veröffentlichung zu webbasierten Empfehlungssystemen hat das Salz-burg NewMediaLab bereits einiges zu ihrer Konzeption und den Möglichkeiten ih-rer Evaluation zusammengetragen. Folgendes ist eine Zusammenschau aus dieserArbeit und gibt einen Einblick in webbasierte Empfehlungssysteme und ihre Be-wertung (Schaffert, Bürger, Hilzensauer, Schneider, Wieden-Bischof, 2010).Empfehlungen im WebWachsende Datenbestände machen es schwierig sich zu orientieren. Empfeh-lungssysteme werden daher immer häufiger eingesetzt. Sie schlagen zum BeispielProdukte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musik-gruppen oder potenzielle Freunde und Lebenspartner vor. Insbesondere durchden Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssys-teme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Emp-fehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zuempfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) verstehtunter einem Empfehlungssystem ein System, „das einem Benutzer in einem gege-benen Kontext aus einer gegebenen Entitätsmenge aktiv eine Teilmenge „nützli-cher“ Elemente empfiehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschenhäufig als „Recommender-Systeme“ bezeichnet.Quellen für EmpfehlungssystemeAls Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Infor-mationen über Nutzer sowie den Empfehlungselementen zur Verfügung. Bei-spielsweise sind dies (s. Schaffert u.a. 2009, 10): – das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten, – die Kommunikations- und Netzwerkstruktur als Möglichkeit die sozialen Ge- gebenheiten zu erfassen und zu nutzen, – Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Webseiten zu evaluieren und zu beurteilen, – Social Tagging als eine innovative und populäre Variante von gemeinschaft- licher Verschlagwortung von Dokumenten, – Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Me- tainformationen analysiert und abgeleitet werden können, – Metadatenformate als klassische Form von Metainformationen sowie schließlich – verknüpfte Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data). 13
  • 13. Empfehlungssysteme und ihre BewertungBei Empfehlungssystemen wird darüberhinaus auch damit experimentiert, bei-spielsweise Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfeh-lungen zu verbessern (Nunes & Blanc, 2008).Empfehlungen aufgrund der unterschiedlichen Quellen werden auch folgender-maßen unterschieden: Explizite Empfehlungen sind Empfehlungen durch Bewer-tungen von Nutzern, daneben gibt es verhaltensbasierte Empfehlungen durchsonstige Aktivitäten. Nach Neumann (2009) sind mit der Nutzung dieser unter-schiedlichen Quellen auch unterschiedliche Herausforderungen verbunden.Verfahren für EmpfehlungssystemeGrundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgen-den Verfahren oder eine Kombination von beiden genutzt: – Beim inhaltsbasierten Filtern (engl. „Content Based Filtering“) beruhen die Empfehlungen auf den Eigenschaften der Elemente, die empfohlen werden. Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerprofils ergeben hat, dass es ihn interessieren könnte (Klahold, 2009). – Beim kollaborativen Filtern (engl. „Collaborative Filtering“) werden Empfeh- lungen auf der Basis von Daten zu ähnlichen Benutzerprofilen gegeben. Bei- spielsweise werden hier Bücher empfohlen, die andere Nutzer mit ähnli- chem Benutzerprofil bereits gekauft, gelesen oder positiv bewertet haben (Klahold, 2009).Ein weiteres wichtiges Beschreibungsmerkmal eines Empfehlungssystem ist es,ob personalisierte Empfehlungen gegeben werden oder ob für jeden Nutzer diegleichen Empfehlungen gegeben werden. Darüberhinaus gibt es auch Systeme undAnwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönli-che) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005).Einen schnellen Einstieg in die unterschiedlichen Varianten der Empfehlungssys-teme zeigt ein kurzer Film des Salzburg NewMediaLab: Er zeigt, auf welche unter-schiedliche Arten man einen Süßigkeitenempfehlungsautomat konstruieren bzw.programmieren kann (vgl. Abbildung 2). Abbildung 2: Screenshot zum Video zu Empfehlungssystemen. Quelle: Salzburg NewMediaLab, 2010. http://www.vimeo.com/10231184 (2011-03-15)14
  • 14. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für AnnotatonenZielsetzungen von EmpfehlungssystemenEmpfehlungssysteme haben die Aufgabe, Nutzern von Anwendungen Objekte vor-zuschlagen, die für sie interessant sein können. Doch welche Ziele und Zweckeverfolgen Betreiber eines Angebots, das ein Empfehlungssystem enthält?Unmittelbare Zwecke, die Empfehlungssysteme erfüllen sollen, sind, dass – Nutzer für sie interessante, neuartige und nützliche Empfehlungen für Ex- perten, Produkte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhalten, und/oder – dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden.Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen darüberhinausverfolgen können, sind dabei: – mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen, – zufriedenere Nutzer zu erhalten, – sich durch besseren Service von Mitbewerbern zu unterscheiden sowie – höhere Umsätze und/oder Gewinne zu sichern.Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöh-te Umsätze durch das Vorschlagen passender, reizvoller weiterer Produkte, diefür die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäft beiAmazon oder dem iTunes Store nicht mehr mit den Verkaufsschlagern gemacht,sondern mit Nischenprodukten. Diese gilt es aber zu finden, daher sind Empfeh-lungssysteme unabdingbar (vgl. Klahold, 2009).Strategische Ziele, die damit verfolgt werden können, sind zum Beispiel: die Nut-zer an den eigenen Service zu binden, sie zu aktivieren und/oder ein Alleinstel-lungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitig, wennbeispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungs-systeme eingeführt werden können, ermöglichen Empfehlungssysteme auch leich-teres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch könnenBetreiber, beispielsweise in Handelsplattformen, Auswirkungen der Empfehlun-gen von Produkten oder personalisierter Werbung analysieren und dadurch auchWissen über gute Produktplatzierung und Werbung gewinnen.Allgemeine Ansätze zur Evaluaton von EmpfehlungssystemenWie lassen sich Empfehlungssysteme bewerten? Die Qualität einer Empfehlunglässt sich nur dann eindeutig bewerten, wenn es anerkannte Maßstäbe und Richt-linien für eine qualitativ hochwertige Empfehlung gibt. 15
  • 15. Empfehlungssysteme und ihre BewertungBewertung von Empfehlungen durch BefragungenRelativ einfach können Empfehlungssysteme bewertet werden, bei denen die kor-rekten bzw. optimalen Lösungen eindeutig und bekannt sind. Ein Beispiel hierfürist eine Routenempfehlung, bei der die Qualität anhand von Kilometern oder Fahr-zeit festgemacht werden kann. Wenn ein System die besten Empfehlungen gibt,arbeitet es optimal.Auch nicht eindeutige Empfehlungen verlangen nach einer Überprüfung ihrerQualität. Auch für sie wurden spezifische Qualitätskriterien entwickelt, um objek-tiv ihre Brauchbarkeit zu überprüfen. Klahold (2009) geht dabei auf Möglichkei-ten der Evaluation durch Befragungen ein (S. 37ff). – Eine Möglichkeit der Überprüfung ist die Bewertung der Empfehlungen im Hinblick auf ihre Nützlichkeit aus Nutzersicht. Allerdings sind dazu ausrei- chend viele Nutzer zu befragen. – Zudem kann das Empfehlungssystem systematisch mit Empfehlungen von Experten verglichen werden. Dazu müssen Experten auf Grundlage der zu empfehlenden Objekte Empfehlungen abgeben. Die Ähnlichkeit der Empfeh- lungen des Systems sowie der Empfehlungen der Experten kann wiederum berechnet werden und als Maßstab hergenommen werden. Eine Überein- stimmung von 100 Prozent ist hier die Zielgröße.Bewertung von Algorithmen durch Analysen mit TestdatenBei der Entwicklung von Empfehlungssystemen gilt es häufig einen Vergleich un-terschiedlicher Algorithmen und Verfahren vorzunehmen. Es ist dazu jedoch nichtzwangsläufig notwendig, wie bei Klahold (2009) beschrieben, Nutzer- oder Exper-tenbefragungen durchzuführen. Wenn beispielsweise Einschätzungen der Nutzerüber (zu empfehlende Elemente) oder ein paar Erkenntnisse über ihr Nutzerver-halten vorliegen, ist das folgende Verfahren möglich: Man greift darauf zurück,dass ein Empfehlungssystem „versucht, die Bewertung vorherzusagen, die derNutzer dem Objekt geben würde, falls er es nach der Benutzung selbst bewertenmüsste“ (Sorge, 2009, 19). Dazu berechnet man mit Hilfe der Algorithmen Bewer-tungen von Objekten die (eigentlich) bereits bekannt sind und vergleicht das Er-gebnis mit der tatsächlichen Bewertung.Dieses Vorgehen wird anhand der Evaluation unterschiedlicher Empfehlungsalgo-rithmen bei Shardanand und Maes (1995) genauer beschrieben: Ziel der Untersu-chung war es, den besten Algorithmus für ein Empfehlungssystem für Musik aus-zuwählen. Basis für Empfehlungen sind dabei die Nutzerbewertungen von Musik-stücken und ein kollaboratives Filtern. Jedes Musikstück wird auf einer Skala von1 („pass my earplugs“) bis 7 („one of my favorite few! cant live without them!!“)bewertet. Für die Evaluation der Empfehlungsalgorithmen wurden in 1.000 Nut-zerprofilen je 20 Prozent der bereits bewerteten Musikstücke in einem Nutzer-profil herausgenommen und als Zielmenge bestimmt. Die übrigen 80 Prozent der16
  • 16. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonenbewerteten Musikstücke wurden genommen, um daraus zu berechnen, welcheBewertung die Stücke aufgrund des verwendeten Algorithmus in der vorher be-stimmten Zielmenge für jeden Nutzer erhalten würden. Diese errechnete Bewer-tung wird mit der tatsächlichen Bewertung des Benutzers verglichen. Dabei kannuntersucht (und verglichen) werden, inwieweit die Bewertungen durch die Algo-rithmen mit den tatsächlichen abweichen: So sollte die Bewertung nicht nur imMittel möglichst korrekt geschätzt werden, sondern auch möglichst selten (hoch)abweichen. Weil nicht mit jedem Algorithmus gleichermaßen für jeden Fall Werteberechnet werden können, ist zudem zu untersuchen, wie hoch der Prozentsatz zuschätzender Werte ist (siehe Shardanand & Maes, 1995). Auf diese Weise ist es –vorausgesetzt, entsprechende Nutzerdaten liegen vor – sehr gut möglich (unter-schiedliche) Algorithmen zu bewerten.Kennzahlen für Empfehlungssysteme: Precision, Recall und NoveltyIm Bereich der Empfehlungssysteme gibt es zwei weitere Größen, die bei der Ein-schätzung der Qualität eines Systems berechnet werden können (Herlocker u.a.,2004). Sie werden „Precision“ und „Recall“ genannt. Precision (engl. für „Präzisi-on“) ist dabei der Anteil der relevanten Empfehlungen an den empfohlenen Objek-ten. Recall (engl. für „Aufruf“) ist der Anteil der empfohlenen Elemente an den re-levanten Elementen. Anhand einer Darstellung lässt es sich leichter darstellen,wie sich diese beiden Maßstäbe unterscheiden. Abbildung 3: Grundlagen für die Berechnung von Recall und Precision. Quelle: Abbildung nach einer Darstellung in Klahold, 2009, 40.Dazu das Berechnungsbeispiel aus Klahold (2009): „Gibt es beispielsweise 10 re-levante Empfehlungselemente und sind unter 15 empfohlenen Elementen 5 rele-vante, so hat Precision einen Wert von 33% und Recall einen Wert von 50%“ (S.41). Zwar geben die beiden Maßzahlen Prozentangaben an, die eine gewisse Ex-aktheit vorspiegeln. Da die beiden Maßzahlen jedoch wiederum auf Daten beru-hen, die mit obigen Verfahren erfasst wurden, ist ihre Genauigkeit und Brauchbar-keit nicht von vornherein gegeben.Neben der Genauigkeit muss ein System auch wirklich neue und nicht einfachnahe liegende Empfehlungen geben (Schickel-Zuber, 2007, 17): Wenn jemand den 17
  • 17. Empfehlungssysteme und ihre BewertungKinofilm über Harry Potter und den Orden der Phönix gesehen hat, wäre es aufden ersten Blick sinnvoll, ihm auch die ersten vier Harry-Potter-Filme zu empfeh-len. Allerdings ist die Wahrscheinlichkeit groß, dass er sie eh schon kennt. DieNeuartigkeit (engl. „Novelty“) einer Empfehlung zu überprüfen ist im Zweifel nurdurch Befragungen der Nutzer feststellbar. Trotzdem gibt es Algorithmen, die dieNeuartigkeit der Empfehlungen bewerten lassen (s. Schickel-Zuber, 2007, 19; erverweist auf Equation 2.4): Die Neuartigkeit wird dabei eruiert, in dem berechnetwird, wieviele der Empfehlungen auch in den allgemeinen Empfehlungen derCommunity auftreten. Je mehr es sind, desto weniger neuartig ist erwartungsge-mäß eine Empfehlung für einen Nutzer.Diskussion dieser VerfahrenDie vorgestellten beiden Verfahren zur Bewertung der Güte von Empfehlungenvon webbasierten Empfehlungen beschreiben zwei Varianten, wie vorgegangenwerden kann. Prinzipiell sind beide Verfahren auch für den Einsatz für die Bewer-tung von Annotationen einzusetzen, wie wir später zeigen werden. Allerdings gibtes auch einige Unterschiede und Besonderheiten bei Annotationsvorschlägen.18
  • 18. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen EMPFEHLUNGSSYSTEME FÜR ANNOTATIONENEmpfehlungssysteme werden nicht nur für (Web-) Materialien allgemein einge-setzt, sondern auch im Zuge der Annotation von (Web-) Materialien und Multime-dia. Dabei werden Nutzer/innen Vorschläge für Annotationen gemacht.Solche Empfehlungssysteme für Annotationen werden eingesetzt um: – den Prozess der Annotation zu beschleunigen, – den Prozess der Annotation zu verbessern sowie – die Annotationen anzureichern.Im folgenden beschreiben wir, auf welcher Grundlage Empfehlungen für Annota-tionen gegeben werden, welches also „Quellen“ für Empfehlungen von Annotatio-nen sein können. Geben Systeme Empfehlungen für Annotationen oder reichernsie Annotationen zusätzlich an spricht man regelmäßig, auch im deutschsprachi-gen von „Enhancing“ (engl. für Verbesserung/Anreicherung).Quellen für Empfehlungen von AnnotatonenWir haben bereits Quellen für Empfehlungssysteme genannt, die allgemein zurVerfügung stehen (s. Schaffert u.a. 2009, 10). Sie stehen prinzipiell auch für Emp-fehlungen für Annotationen zur Verfügung. Einen Überblick über unterschiedlicheQuellen, die für Annotationsvorschläge herangezogen werden können, gibt Kock-ler (2008) in seiner Diplomarbeit. Er bezieht sich dabei speziell auf Social Tagging,die dargestellten Möglichkeiten gelten aber für Annotationen allgemein (vgl. dazuMemmel, Kockler & Schirru, 2009). Seine Darstellung wurde adaptiert und auf An-notationsvorschläge übertragen (siehe Abbildung 4). 19
  • 19. Empfehlungssysteme für Annotatonen Abbildung 4: Quellen für Annotationsvorschläge. (in Anlehnung an Kockler, 2008 in Memmel, Kockler & Schirru, 2009)Im Folgenden stellen wir die entsprechenden Methoden und einzelne Anwendun-gen vor.Metadaten als Quelle für AnnotatonsempfehlungenMetadaten können als Quelle für Annoationsempfehlungen dienen. Das Exchange-able Image File Format, oder kurz Exif-Format, ist beispielsweise ein Standard fürMetadaten von Fotos, die mit Digitalkameras aufgenommen werden (vgl. Wikipe-dia, 2011). Darin enthalten sind die GPS-Angaben, also der Ort der Aufnahme inForm von GPS-Koordinaten. Luo, Yu, Joshi und Hao (2008) versuchen beispiels-weise so, aus den GPS-Koordinaten von Fotos, den Aufnahmezeiten und weiterenInformationen dargestellte Events zu identifizieren, also automatisch BildernEvents zuzuordnen. Allerdings ist zu ergänzen, dass nur ein sehr kleiner Teil derim Web gesammelten Bilder derzeit mit GPS-Koordinaten ausgestattet ist und essich hier noch um Forschungsarbeiten handelt, die erst zukünftig relevanter sind.Texte als Quellen für automatsch generierte AnnotatonsempfehlungenAuch Texte können als Quelle für Annotationen genutzt werden. Unter anderemkommen folgende Verfahren der „Information Extraction“, also Verfahren, um ausTexten automatisch weiterführende Informationen zu erlangen, zum Einsatz. „In-formation Extraction“ definiert sich als der selektiven Strukturierung und Kombi-20
  • 20. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonennation von impliziten oder expliziten Daten in einem oder mehreren Dokumenten.Information Extraction benutzt dazu semantische Klassifizierungen von Informa-tionen (vgl. Knoth, Schmidt & Smrž, 2008; Moens, 2006).Dabei kommen semantische als auch statistische Verfahren zum Einsatz (s. Knoth,Schmidt & Smrž, 2008): Semantische Verfahren versuchen, u. a. aus der Satzstel-lung heraus zu erkennen, welche Bedeutung der Text hat. Statistische Verfahrenbenötigen große Mengen an Text, um beispielsweise Häufigkeitsanalysen durch-zuführen. Beide Ansätze werden vielerlei kombiniert.Der SNML-Partner Semantic Web Company bietet mit dem Produkt „poolparty“eine entsprechende Lösung an. Für unterschiedliche Branchen lässt sich auf derHomepage testen (siehe Abbildung 5), dass die Kombination aus Textextraktionund das Wissen aus kontrollierten Vokabularen zu hilfreichen Tagvorschlägen fürden exemplarischen Text zur Wirtschaftspolitik aus der Wikipedia führt (u.a.Wirtschaftspolitik, Kosten, Einkommen, Finanzpolitik, u.a.). Abbildung 5: Screenshot poolparty (Demoversion): Tags und Empfehlungen für den Wikipedia-Artikel „Wirtschaftspolitik“ [2011-07-28]. Quelle: Screenshot http://poolparty.punkt.at/demozone/stw_de/ [2011-07-28]Multmediadaten als Quellen für automatsch generierte AnnotatonsempfehlungenWährend es für Texte schon länger Vorschläge und Verfahren gibt, nehmen dieBestrebungen, automatische Annotationsempfehlungen für audiovisuelle Quell-materialien zu geben, in den letzten Jahren deutlich zu. Ein prominentes Beispielist die Bilder-Suchfunktion der Suchmaschine Google: Sie wertet Bilder nach denhauptsächlich verwendeten Farben, der Größe, der Art (Strichzeichnung) und vie-len weiteren Aspekten automatisch aus und ermöglicht damit den Nutzern der 21
  • 21. Empfehlungssysteme für AnnotatonenSuchmaschine Recherchemöglichkeiten, die weit über die reine Textsuche hinausgehen. Abbildung 6: Screenshot der Google-Bildersuche zum Begriff „Engel“. Links: Einschränkung auf „blau“, rechts auf „Clipart“ Quelle: http://www.google.de (2011-03-15)Im Folgenden haben wir bei den größten offenen Foto- und Videoarchiven nach-geschaut, ob und (wenn möglich) wie hier Empfehlungen für Annotationen gege-ben werden. Das Ergebnis ist eindeutig: Bisher werden in diesen Systemen, zu-mindest beim Hochladen von Fotos und Videos, bisher keine Annotationsvor-schläge gegeben bzw. aus den Fotos und Videos heraus oder aus sonstigen Nutze-rinformationen heraus Annotationen erstellt. Name Start Kategorie URL Werden Annotatio- Wenn ja, welche? nen vorgeschlagen? Buzznet 2005 Musik, Filme, buzznet.com Ja, aber keine auto- Fixe Tagvorschläge: Music, Fotos matisch generier- Fashion, Art und Pop Cul- ten, Optionen sind ture vorgegeben und im- mer gleich. Flickr 2002 Fotos, Videos flickr.com nein (Zuordnung zu Alben) Fotki 1998 Fotos, Videos fotki.com nein (Zuordnung zu Alben) YouTube 2005 Videos youtube.com nein Tabelle 1: Bekannte offene Foto- und Videoarchive und Vorschläge für Annotationen (beim Hochladen). Quelle: Startjahr, Nutzerzahlen und Kategorie nach www.linqia.com, Angaben zum Tagging: eigene RecherchenEs gibt aber im gesamten Multimedia-Bereich zahlreiche Ansätze und Verfahren,die Versuchen, automatisch generierte Annotationen zu erstellen.Für Fotos ist der Lucence-Ansatz ein relativ bekanntes Verfahren, bei dem Farbenund Texturen von Fotos ausgewertet werden (Lux & Chatzichristofis, 2008). EinSystem, das mit Maschinenlernen arbeitet und relativ erfolgreiche auch Tiere und22
  • 22. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für AnnotatonenLandschaftsstrukturen auf Fotos automatisch erkennen kann, wenn es mit ent-sprechenden Testdaten trainiert wurde, ist der Ansatz „Supervised Multiclass La-beling“ (Carneiro et al., 2007; vgl. Abbildung 7). Abbildung 7: Modellierung von semantischen Klassen von Fotografien (a) Auswertung eines Bildes, (b) Auswertung der Texturen von Fotos einer Klasse (mit der gleichen Beschreibung, hier: mountain) (c) Vergleich mit Klassen. Quelle: Carneiro et al., 2007; figure 1, S. 396.Es gibt zahlreiche Spezialanwendungen für automatische Bild- und Mustererken-nung bzw. entsprechende Annotation in Videos: Um festzustellen, wo und wiehäufig das eigene Firmenlogo in Videos auftaucht; beispielsweise als Sponsor ei-nes Autorennens, wurde so eine eigene Anwendung entwickelt, die sich „BrandDetector“2 bezeichnet.Im Bereich der Musikdatenbanken hat Turnbull (2005) vier Ansätze beschrieben,wie versucht wird, aus Musikdateien zu erkennen, welchem Genre die Musik zu-zuordnen ist (vgl. Tabelle 2).2 vgl. htp://www.hs-art.com/html/products/brand_detector.html (2011-04-15) 23
  • 23. Empfehlungssysteme für Annotatonen Tabelle 2: Systeme und die verwendeten Extraktionsmethoden zur Genre-Zuordnung von Musikstücken. Quelle: Turnbull (2005), Tabelle 1Auch das Annotieren von Audio- und Videoaufzeichnungen stellt vor größere Her-ausforderungen. So werden immer häufiger Vorlesungen aufgenommen und Stu-dierenden zur Verfügung gestellt. Damit diese dann gezielt zu Stellen springenkönnen oder auch nach Begriffen recherchieren können muss das Audio- oder Vi-deomaterial erst mit Annotationen versehen werden. Dazu werden eine Reihe un-terschiedlicher Verfahren genutzt, zum Beispiel der Spracherkennung (Zupancic,2006). Aktuelle Experimente an der TU Graz kombinieren hier Verfahren, indemTexterkennungsprogramme den Text auf den aufgenommenen Folien auswertenund als Suchbegriffe für die Spracherkennung verwenden.Insgesamt zeigen die Recherchen, dass es eine Reihe von Anwendungen gibt, dieautomatisch Annotationen erzeugen und mit diesen arbeiten, dass diese jedochnicht immer Nutzern zur Annotation empfohlen werden. Dies kann auch daran lie-gen, dass die automatischen Annotationen als „perfekt“ und keiner weiteren Ana-lyse bedürftig eingeschätzt werden. So sind bei der Größe eines Bildes keine wei-tere Abstimmungen mehr notwendig.Es ist also nicht so einfach, Systeme zu finden, bei denen aus Multimediadateienautomatisch generierte Vorschläge für Annotationen erfolgen. Ein Beispiel ist hierdie „Gesichtserkennung“ bei Facebook: Lädt man ein Foto bei Facebook hoch, er-kennt Facebook automatisch Gesichter (markiert mit dem Rahmen) und schlägtdann automatisch die Namen der Kontakte bei Facebook vor (vgl. Abbildung 8).24
  • 24. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 8: Erkennen von Gesichtern bei Facebook (und Vorschlag der Facebook-Kontakte). Quelle: Facebook.com (2011-03-15)Verknüpfe Daten und Schemata als Quelle für AnnotatonsempfehlungenThesauri, Ontologien und Linked Data können Quellen für Annotationsempfehlun-gen sein. Im Forschungsprojekt KiWi3 wurde mit diesem Ansatz versucht, die Vor-schläge für andere Wiki-Inhalte zu verbessern und auch semantische Empfehlun-gen einzubauen, die auf den Tags der Nutzer des semantischen Wikis basieren(vgl. Dolog, 2009).Social Tagging als Quelle für AnnotatonsempfehlungenVielfach werden (existierende) Tags für Webmaterialien Nutzern als Annotationvorgeschlagen. Dabei werden unter anderen vorgeschlagen: – Tags, mit denen andere Nutzer das Material gekennzeichnet haben, – Tags, die man bisher verwendet hat, – Tags, die häufig verwendet werden oder – Tags, die bei ähnlichen Materialien verwendet werden.Delicious und MisterWong sind hier, als Social-Tagging-Plattformen zu allererstzu nennen. Nutzt man zum Beispiel Delicious und will man eine Webseite ver-schlagworten, erhält man Vorschläge für Tags, die man bereits genutzt hat. Es istzu vermuten, dass diese nicht beliebig vorgeschlagen werden, sondern dass Deli-cious hier eine Auswahl vornimmt, eventuell durch Extraktionsmethoden. Zusätz-lich werden Tags vorgeschlagen, die besonders häufig genutzt werden und wie-derum zur Webseite passen (siehe Abbildung 9; rechts unten „RecommendedTags“).3 htp://www.kiwi-project.eu, Stand 02/2011 25
  • 25. Empfehlungssysteme für Annotatonen Abbildung 9: Screenshot von Delicious beim Taggen der SNML-Homepage. Quelle: Delicious, htttp://newmedialab.at (2011-03-15)Weitere Quellen für die Empfehlungen für AnnotatonenQuelle für Empfehlungen kann auch das eigene Nutzerverhalten oder auch die be-stehenden Vernetzungen und sozialen Kontakte sein. Es wurden bereits zwei Bei-spiele dafür genannt: – Bei Delicious werden Tags vorgeschlagen, die man bereits vergeben hat (vgl. Abbildung 9). – Bei Facebook werden bei Fotos Namen der eigenen Facebook-Kontakte zur Markierung der Fotos vorgeschlagen (vgl. Abbildung 8).Insgesamt zeigt sich, dass oft mehrere Quellen und Verfahren kombiniert genutztwerden, wie auch die folgenden Ausführungen zeigen.Eingesetzte Verfahren für Empfehlungen von AnnotatonenWie allgemein bei Empfehlungssystemen gibt es auch bei den Empfehlungen vonAnnotationen zwei Verfahren: das inhaltsbasierte Filtern und das kollaborativeFiltern.In aller Regel werden Annotationen auf Grundlage der Inhalte gegeben: WerdenEmpfehlungen für Annotationen gegeben, wird in der Regel das inhaltsbasierteFiltern eingesetzt, dabei beruhen die Empfehlungen auf den Eigenschaften derElemente, die empfohlen werden. Wie dargestellt kommen hier häufig Verfahrender Datenextraktion zum Einsatz, oft wird dabei auch auf Thesauri zurückgegrif-fen.26
  • 26. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für AnnotatonenEs gibt aber auch Ansätze bei Empfehlungen von Annotationen, bei denen kollabo-ratives Filtern (engl. „Collaborative Filtering“) eingesetzt wird: Es werden z. B. beiDelicous Tags vorgeschlagen, die sehr häufig verwendet werden. Auch gibt es viel-fach personalisierte Vorschläge („bereits verwendete Tags“).Kombinaton von Quellen und VerfahrenWie bei den Empfehlungssystemen allgemein setzen auch Empfehlungssystemefür Annotationen häufig gleichzeitig auf mehrere Quellen und Verfahren um ihreErgebnisse zu optimieren.Folgendes Beispiel für einen Tag-Recommender stammt aus Schaffert u.a. (2009,50ff): Im Projekt „Interedu“4 des Salzburg NewMediaLab wurde ein System entwi-ckelt, das das Tagging von Lernressourcen unterstützt, indem es Tagvorschlägegeneriert. Dabei kommen inhaltsbasiertes als auch kollaboratives Filtern zum Ein-satz: – Die Hauptkomponentenanalyse ist ein statistisches Verfahren, dass mit Hilfe einer Analyse von „Trainingsdaten“ Rückschlüsse auf das Vorschlagen von Tags geben kann: Dazu werden die Texte der Trainingsdaten in Schlüssel- worte zerlegt, Stoppworte gefiltert und Stammformen gebildet, dann wird eine Dokument-Term-Matrix angelegt und Vektoren beschrieben. Weil allein durch das Vorkommen eines Schlüsselwortes nicht die Relevanz gezeigt ist, wird mit dem TF-IDF-Verfahren (Term Frequency/Inverse Document Fre- quency) festgestellt, ob es vergleichsweise häufig vorkommt, also „beson- ders“ ist. Ziel der Hauptkomponentenanalyse ist es nun, die bestehende Ma- trix so in der Anzahl der Dimensionen zu reduzieren, dass alle Hauptrichtun- gen vertreten sind. – Mit KEA können Texte klassifiziert werden und sogenannte Keyphrases oder „Schlüsselwortketten“ in Texten erkannt werden. KEA unterstützt zwei Ar- ten von Klassifizierungen: die freie Klassifizierung (Schlüsselwortextrakti- on) sowie die eingeschränkte Klassifizierung (Kategorisierung), bei der der Text in eine Kategorie eingeordnet wird. – Auch Assoziationsregeln können zum Vorschlagen von Tags oder Schlüssel- worte eingesetzt werden. Wenn eine Menge von Dokumenten signifikant häufig mit den selben Tags oder Schlüsselworten versehen wurde, kann ein Benutzer von dem Wissen der Vorgänger profitieren, indem seine Tags ver- vollständigt werden. Das Konzept der Assoziationsregeln setzt somit voraus, dass schon Tags vergeben worden sind.Neben inhaltsbasiertem Filtern wird also auch kollaboratives Filtern einge-setzt. Andere Verfahren setzten wiederum deutlich stärker auf das Tagging-Verhalten anderer Nutzer (s. Mishne, 2006).4 Partner: Salzburg Research, Educaton Highway und Punkt Netservices 27
  • 27. Empfehlungssysteme für Annotatonen28
  • 28. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen KRITERIEN FÜR „GUTE“ EMPFEHLUNGEN FÜR ANNOTATIONENMan möchte nun also herausbekommen, ob das eine oder andere Vorgehen beimVorschlagen von Annotationen besser oder schlechter ist.Ein Beispiel: Wie gut sind diese Vorschläge?Werden Empfehlungen für Annotationen gegeben, ist nicht von vorne herein klar,ob oder wie gut diese Annotationen sind. Am Beispiel eines Systems, das automa-tisch Bilder nach Texturen und Merkmalen auswertet (Carneiro et al, 2007, sieheAbbildung 10), wird deutlich, dass es nicht simpel ist zu bewerten, wie gut dieVorschläge des Systems sind: So verwendet der menschliche Experte beim erstenBild links oben die Schlagworte „Himmel, Jet, Flugzeug, Rauch“ und das Systemschlägt vor „Flugzeug, Jet, Rauch, Flug, Stützbalken“. Es ist schnell ersichtlich, dassdas System treffende Vorschläge macht und weniger zutreffende. Doch wie lässtsich die Qualität genauer beschreiben? Abbildung 10: Annotationsvorschläge eines Systems und Annotationen eines Experten. Quelle: Carneiro et al., 2007; figure 7, S. 405.Besonders wichtig ist es Aussagen zur Qualität zu erhalten, wenn unterschiedlicheEmpfehlungssysteme für Annotationen verglichen werden sollen: Macht Algorith-mus A oder Algorithmus B bessere Vorschläge für Annotationen? Hier Entschei-dungen zu treffen ist nicht trivial. 29
  • 29. Kriterien für „gute“ Empfehlungen für AnnotatonenMögliche Kriterien für gute EmpfehlungenGute Empfehlungen für Annotationen zeichnen laut Literatur und der Diskussionmit den SNML-Experten darin aus, dass – sie, ganz allgemein gesprochen die wesentlichen Inhalte und Konzepte er- fassen.Konkreter bedeutet dies unter anderem, dass diese Annotationsvorschläge – von Experten genutzt werden, – sie mit den Annotationen von Experten übereinstimmen, – sie nicht zu allgemein sind und möglichst genau ein Material beschreiben und eindeutig sind, – ähnliche Materialien auf ähnliche Arten und Weisen beschreiben, – entsprechenden Thesauri u.ä. entsprechenden Vereinbarungen entspre- chen, – häufig gewählt werden, – ggf. personalisiert sind, also an die Bedürfnisse eines Nutzer(-kreises) an- gepasst sind, – effektiv und im Arbeitsprozess integriert sind sowie – hilfreich und brauchbar sind für weitere Services (z. B. Rechercheanfra- gen).Für Praktiker/innen, insbesondere die Archivare des ORF, wurde darüberhinausals ein wesentliches Kriterium für gute Annotationsvorschläge ein System ge-nannt, das lernt, also aus guten bzw. schlechten Vorschlägen lernt und entspre-chend die Vorschläge verbessert.Diese Überlegungen helfen bei der Entwicklung von entsprechenden Bewertungs-verfahren.30
  • 30. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen METHODISCHE ANSÄTZE ZUR EVALUATION DER QUALITÄT VON ANNO- TATIONSVORSCHLÄGENIm diesem Abschnitt werden mögliche Ansätze vorgestellt, wie unterschiedlicheAlgorithmen und Verfahren für die Generierung von Vorschlägen für Annotatio-nen bewertet und verglichen werden können. Es geht also darum, Handwerkszeugund Methoden zu ermitteln, die die Auswahl und Bestimmung von besseren Algo-rithmen zur Empfehlung von Annotationen unterstützen.Das angestrebte Ergebnis ist also jeweils (vereinfacht) eine Aussage der Art – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4 – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6Ziel der Evaluation der Qualität von Empfehlungen für Annotationen soll also je-weils eine begründete Wahl von unterschiedlichen Algorithmen für die Annotati-onsvorschläge sein.Verfahren zur Bewertung der Empfehlungen für Annotatonen im Über-blickEs gibt mehrere Verfahren, die grundsätzlich zur Verfügung stehen und im Fol-genden detaillierter beschrieben werden. Zum einen sind dies reaktive und expe-rimentelle Verfahren, also Verfahren, bei denen zusätzliche Daten zur Qualität vonEmpfehlungen für Annotationen erhoben werden müssen bzw. sich die Nutzer/in-nen bewusst sind, an einer Bewertung und Optimierung weiterzuarbeiten: – (a) Befragung von Experten zur Qualität der empfohlenen Annotationen, – (b) direkter Vergleich der Annotationsempfehlungen durch Befragung von Experten, – (c) Optimierung von Empfehlungsalgorithmen durch die Nutzer (ALOE-An- satz), – (d) experimenteller Einsatz (Unterschiede in der Nutzung von Annotations- vorschlägen) sowie – (e) experimentelle Nutzungsszenarien zur Bewertung von Annotationsvor- schlägen.Daneben gibt es aber auch Verfahren, bei denen die Nutzer sich gar nicht aktiv ander Bewertung von Annotationsvorschlägen beteiligen müssen oder gleichzeitigunterschiedliche Algorithmen im Einsatz sind, sondern einfach non-reaktiv exis-tierende Datensätze genutzt werden können. 31
  • 31. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen – (f) Vergleich der Annotationen von Experten und mit den Annotationen, die das System vorschlagen würde, sowie – (g) die „goldene Strategie“, nämlich den Vergleich mit Standarddaten.Abschließend werden all diese Ansätze noch vergleichend dargestellt.(a) Bewertung der einzelnen Empfehlung durch ExpertenHier können Anleihen aus Arbeiten genommen werden, bei denen die Qualität au-tomatischer Annotationen evaluiert wurde.Beispiel: In Tabelle 3 ist exemplarisch das Bewertungsschema einer Software zurGenomentschlüsselung abgebildet. Experten wurden gebeten, mit dieser Hilfe festzu-stellen, wie gut (high, general oder low) die Software hier jeweils ist. Evaluaton Criteria for GO term assignment Criteria for protein associaton The GO term assignment was correct or The protein mentoned in the evidence High close to what a curator would choose, gi - text correctly represented the associated ven the evidence text. UniProt accession (correct species). The GO term assignment was in the cor- The evidence text did not support anno- rect lineage, given the evidence text, but taton to the associated UniProt accessi- General was too high level (parent of the correct on but was generally correct for the pro- GO term) e.g. biological_process or too tein family or orthologs (non-human spe- specifc. cies). The evidence text did not support the GO The evidence text did not menton the term assignment. Note: The GO term correct protein (e.g. for Rev7 protein (li- Low may have been correct for the protein gand) incorrect evidence text referred to but the evidence text did not support it. Rev7 receptor) or protein family. Tabelle 3: Evaluationskriterien für automatische Annotationen einer Software zur Genomentschlüsselung. Quelle: Camon et al. 2005, Tabelle 3Sollen mehrere Algorithmen für Annotationsvorschläge verglichen werden, müs-sen folglich Experten gebeten werden, Annotationsvorschläge unterschiedlicherHerkunft zu beurteilen. Im Anschluss kann dann beispielsweise berechnet wer-den, wie hoch die mittlere Qualität der Annotationsempfehlungen beim Algorith-mus A im Unterschied zum Algorithmus B ist.32
  • 32. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen (a) Bewertung der Empfehlung durch Experten Kurzbeschreibung Experten bewerten die Qualität der Annotatonen anhand von ausge - wählten Kriterien (z. B. Korrektheit, Eindeutgkeit). Herausforderungen Für ein solches Verfahren ist es notwendig, festzulegen, was geeignete und wichtge Qualitätskriterien für Annotatonen sind – dies variiert nach Einsatzgebiet ggf. stark. Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig. Um zu aussagekräfigen Ergebnissen zu gelangen, die es erlauben, unter- schiedliche Algorithmen zu unterscheiden, sind umfangreiche Datener- hebungen notwendig. Es sollten dabei die Annotatonsvorschläge für je - weils die gleichen Materialien bewertet werden. Chancen Bei entsprechender (kaum zu realisierender) Datenlage ein höchst ver- trauenswürdiges Verfahren. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde.(b) Direkter Vergleich der Annotatonsempfehlungen durch Befragungvon ExpertenEin ähnliches Design ist die gleichzeitige Anzeige und der direkte Vergleich vonden Annotationsempfehlungen auf der Grundlage unterschiedlicher Empfehlun-gen. Experten können hier direkt und vergleichend entscheiden, welches Vorge-hen bessere Annotationsempfehlungen gibt.Beispiel: Der Nutzer kann bewerten, ob ihm die Annotationsvorschläge des Verfah-rens A oder des Verfahrens B besser gefallen (exakter sind usw.) 33
  • 33. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (b) Direkter Vergleich der Annotatonsempfehlungen durch Befragung von Experten Kurzbeschreibung Experten bewerten die Qualität der Annotatonen von zwei Algorithmen anhand von ausgewählten Kriterien (z. B. Korrektheit, Eindeutgkeit) im Hinblick auf die „besseren“ Annotatosvorschläge. Herausforderungen Zur Bewertung der Annotatonsvorschläge ist in der Regel ein eigenes Tool notwendig. Die Experten sollten dabei nicht wissen, welche Empfehlungen jeweils mit welchem Verfahren entstanden sind („blindes“ Review). Das Verfahren macht nur bei Materialien Sinn, bei denen die Algorith- men unterschiedliche Vorschläge machen: Diese könnten auch gezielt bewertet werden. Chancen Ökonomischer als Verfahren (a) Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde.(c) Optmierung von Empfehlungsalgorithmen durch die NutzerWenn das System von Experten genutzt wird, kann im Vertrauen auf ihre Beurtei-lungskompetenz auch auf folgende Weise festgestellt werden, welche Algorithmenund Verfahren für sie besonders wertvolle Annotationsvorschläge machen:Beispiel: Mit der ALOE-Plattform wird derzeit versucht, eine Schnittstelle zu entwi-ckeln, die es Nutzern erlaubt, selbst die Regeln für die Erstellung der Tag-Vorschlägezu steuern. Wie die Abbildung der derzeitigen Nutzeroberfläche zeigt (s. Abbildung11. S. 35), kann beispielsweise vom Nutzer festgelegt werden, ob Tag-Vorschläge ausdem Tagging-Verhalten aller ALOE-Nutzer generiert werden sollen, oder ob nurKontakte einbezogen werden sollen.34
  • 34. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 11: ALOE-Interface zur Festlegung der Quellen für Tag-Vorschläge. Quelle: Memmel, Kockler & Schirru (2009), Abbildung 4, 688 35
  • 35. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (c) Optmierung von Empfehlungsalgorithmen durch die Nutzer Kurzbeschreibung Nutzer wählen und konfgurieren selbst im Rahmen der Systemnutzung die entsprechenden Verfahren für die Annotatonsempfehlungen. Herausforderungen Dieses Verfahren setzt voraus, dass sie Nutzer ständig und immer wieder überprüfen, ob und welche Verfahren ihnen besonders gute Annotaton - vorschläge liefert und sie auch entsprechendes Wissen und Wollen mit- bringen. Objektv gültge Ergebnisse können so nur eingeschränkt ermitelt wer- den. Chancen Wird ein solches Verfahren eingesetzt, können unterschiedliche Vorlie- ben von Experten festgestellt werden. Durch das ofene Verfahren sind so auch neuartge Einsichten möglich. Beispiele für den Ein- Inwieweit aus dem Einsatz von ALOE (siehe Memmel, Kockler & Schirru satz (2009) auch Empfehlungen für bestmmte Verfahren abgeleitet werden, ist unklar.(d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotat-onsvorschlägenSollen mehrere Empfehlungsalgorithmen miteinander verglichen werden, kannauch das Verhalten der Nutzer in laufenden Systemen genutzt werden. Dazu müs-sen ausgewählten Nutzergruppen Empfehlungen für Annotationen auf Grundlagevon unterschiedlichen Empfehlungsalgorithmen gegeben werden und verglichenwerden, wie häufig jeweils den Empfehlungen „Folge geleistet wird“ (Vergleichs-gruppendesign).Beispiel: Nutzergruppe A erhält Vorschläge für Annotationen nach dem Verfahren A,Nutzergruppe B erhält Vorschläge für Annotationen nach dem Verfahren B. WelcheNutzergruppe wählt mehr der Vorschläge?Auch könnte man, sofern Nutzer gleichzeitig mehrere Empfehlungen erhalten, be-obachten, welcher Empfehlung sie eher nachgehen und den dahinterliegenden Al-gorithmen dafür „Punkte“ geben.Beispiel: Der Nutzer schreibt einen Text und erhält eine Reihe von Vorschlägen fürAnnotationen. Davon sind einige das Ergebnis des Verfahrens A, andere Ergebnissedes Verfahrens B. Wählt der Nutzer mehr Vorschläge des Verfahrens A oder B?Es ist jedoch nicht damit getan, zu bewerten wie oft die Vorschläge auch akzep-tiert werden. Es ist auch wichtig festzustellen, welche Empfehlungen ein Systemnicht gibt oder wo die Empfehlungen unzureichend, beispielsweise zu allgemein,sind.Beispiel: Wie in den beiden vorherigen Beispielen wird gleichzeitig bewertet, wieviele und auch welche zusätzlichen Annotationen Nutzer machen.36
  • 36. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für AnnotatonenUm zu bewerten, wie weit die ergänzenden Annotationen der Nutzer von den An-notationsvorschlägen entfernt sind, sind die Hinweise auf S. 43ff hilfreich. (d) Experimenteller Einsatz: Unterschiede in der Nutzung von Annotatonsvorschlägen Kurzbeschreibung Es wird ausgewertet, wie häufg Vorschläge angenommen werden bzw. eigene Ergänzungen gemacht werden (und ggf. wie weit sie von den Vor - schlägen abweichen) Herausforderungen Es ist ggf. ein eigenes Tool zu entwickeln bzw. das Tool anzupassen. Es ist schwer zu sehen, warum Vorschläge nicht genommen werden (d.h., wie weit sie von einem guten Vorschlag enternt liegen). Chancen Ggf. kann dieses Verfahren im laufenden Betrieb eingesetzt werden und so relatv einfach (bei entsprechenden Nutzerzahlen) viele Daten gesam- melt werden. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren in der be - satz schriebenen Weise bereits zur vergleichenden Bewertung von Algorith- men zur Annotatonsvorschlägen eingesetzt wurde. Dass Vorschläge genutzt werden, wird jedoch gelegentlich als Indiz für die Qualität von Annotatonsvorschlägen gesehen.(e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatons-vorschlägenBei den bisherigen Verfahren wurde jeweils bei der Entstehung bzw. Wahl der An -notationsvorschläge angesetzt und aus dem Verhalten von Experten oder NutzernAbleitungen zur Qualität der Annotationsvorschläge gewonnen. Ein anderer An-satz besteht in der Analyse davon, wie brauchbar Annotationen bzw. Annotations-vorschläge für bestimmte Nutzungsszenarien sind.Alle vorgestellten Verfahren finden auf der Ebene der einzelnen Empfehlungenvon Annotationen für Webmaterialien statt. Darüberhinaus könnte man, sofernein bestimmtes Empfehlungssystem für Annotationen im Einsatz ist, auch derEbene der Nutzung Vergleiche ziehen.Beispiel: Man lässt Nutzer Ressourcen suchen und stoppt die Zeit, bis sie Materialienfinden die mit Hilfe von Annotationen, die mit dem Vorschlagsalgorithmus A gene-riert wurden. Vergleichsweise wird untersucht, ob dies (schneller) mit den Materiali-en gelingt, die mit dem Vorschlagsalgorithmus B generiert.Denkbar ist auch, Systeme zu vergleichen, wenn bekannt ist, dass unterschiedlicheAnnotationsempfehlungen im Einsatz sind. 37
  • 37. Methodische Ansätze zur Evaluaton der Qualität von AnnotatonsvorschlägenBeispiel: Man weiss von System A, dass es Annotationvorschläge nach dem Verfah-ren A macht, beim System B wird das Verfahren B genutzt. Vorausgesetzt, es wirddas gleiche Material (z. B. Bücher, Musikstücke, usw.) gekennzeichnet, kann unter-sucht werden, bei welchem System schneller (oder „besser“) recherchiert werdenkann.In einer unveröffentlichten Studie wurde so verglichen, wie die Recherche mit Hil-fe von Delicious (bei dem Nutzer taggen) im Vergleich zu Suchmaschinen undWebverzeichnissen abschneidet (s. Wichowski, 2009): Morrison (2007) stellte da-bei fest, dass Delicious hier einen knappen zweiten Platz einnimmt. Zudem stellteer jedoch fest, dass eine Kombination der Delicous-Tags mit einem kontrolliertenVokabular bessere Ergebnisse liefert als die Recherche in Webverzeichnissen.Parallel dazu könnte man so ein System X, bei dem der EmpfehlungsalgorithmusY für Annotationen eingesetzt wird, mit einem System W vergleichen, bei dem derEmpfehlungsalgorithmus Z eingesetzt wird, sofern eine Übereinstimmung der In-halte grundsätzlich gegeben ist. Dies ist beispielsweise im Bereich von Musik-stücken, von Buchbeschreibungen oder auch einer Best-Of-Liste von Websitendurchaus realistisch.Sogenannte „Ontogames“ werden entwickelt und konzipiert um Annotationen für(oft Multimedia-) Content zu erhalten, der sonst nur schwer zu erhalten sind.Durch mitreissende, spannende Spielszenarios werden Spieler beispielsweise auf-gefordert möglichst schnell Schlagworte einzutippen bei denen Spielerteams mög-lichst viele Übereinstimmungen haben (und gegen andere Teams antreten). – So-weit zumindest kurz zusammengefasst die erste Spielidee eines „Ontogames“ wiesie in der Gruppe um von Ahn entwickelt wurden.Betrachtet man Ontogames, beispielsweise die Sammlung auf der Website ontoga-me.org, fällt es nicht schwer daraus Spielideen abzuleiten, die es ermöglichen, dieAnnotationsvorschläge unterschiedlicher Annotationsvorschläge „spielerisch“ be-werten zu lassen.Dazu eine ausführlichere Beschreibung eines Spiels: Die Idee des Spiels „Phetch“ist es, mehr Informationen zu Bildern zu bekommen (vgl. von Ahn et al., 2006):Das Online-Spiel ist für je drei bis fünf Spieler entwickelt. Einer der Spieler wirdzufällig als „Beschreiber“ ausgewählt, die anderen sind die „Sucher“. Der „Be-schreiber“ erhält vom Spiel ein Bild vorgelegt, das er mit einem kurzen Text be-schreiben soll, beispielsweise mit „ein weißes Gespenst steht auf der Brücke undschreit“. Die Sucher, die das Bild nicht gesehen haben, müssen nun möglichstschnell das richtige Bild mit Hilfe einer Bildersuchmaschine finden, indem sie dortnach passenden Suchbegriffen recherchieren und sich dann für ein Bild entschei-den. Wer als erstes das richtige Bild wählt, erhält Punkte und ist in der nächstenRunde der „Beschreiber“. Wenn das richtige Bild gefunden wurde, erhält natürlichauch der „Beschreiber“ Punkte. Bei folgendem Foto würden die Beschreibungenbei Phetch folgendermaßen lauten: „halb-Mann-halb-Frau mit schwarzem Haar“38
  • 38. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonensowie „eine abstrakte Zeichnung mit einem Mann mit einer Violine und einer Fraumit einer Flöte“ (s. von Ahn et al., 2006). Abbildung 12: Beispielabbildungen zur Beschreibung des Spieles „Phetch“. Quelle: von Ahn et al., 2006, Abbildung 1Mit Hilfe dieses Spiels können also gute, hilfreiche Beschreibungen für Bilder ent-wickelt und validiert werden; durch den Spielcharakter kann dies mitunter rechtschnell gehen, so dass in kurzer Zeit eine große Zahl von Bildern beschriebenwird. Im Vergleich mit einer Spiel-Variante (dem ESP-Game), bei der nur Schlag-worte eingegeben werden sollen zeigt sich, dass Phetch-Beschreibungen in 98,5Prozent der Fälle richtig identifiziert wurden, hingegen traf dies nur bei 73,5 Pro-zent der Bilder mit ESP-Tags zu (von Ahn et al., 2006, 81).Unter dem Schlagwort „Ontogames“ wurden wie erwähnt in den letzten Jahrenzahlreiche Ideen entwickelt, wie spielerisch Annotationen gesammelt werdenkönnen und wie diese (siehe oben) auch verglichen und bewertet werden könn-ten. Daraus lassen sich auch Spiele entwicklen und ableiten, die bei der Evaluationvon Annotationsvorschlägen unterstützen können.Beispiel: In einem Spiel werden Annotationvorschläge für ein Bild angezeigt, die mitdem Algorithmus A generiert wurden, dazu das dazugehörige Bild und drei weitereBilder aus einer Datenbank. Die Spieler sind aufgefordert, möglichst schnell das kor-rekte Bild auszuwählen. In der zweiten Runde stammt bei einem neuen Bild die Be-schreibung aus dem Algorithmus B. Die Daten werden im Hinblick darauf ausgewer-tet, wie häufig und wie schnell die Spieler die korrekten Annotationen (je Empfeh-lungsalgorithmus A oder B) gewählt haben. 39
  • 39. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen (e) Experimentelle Nutzungsszenarien zur Bewertung von Annotatonsvorschlägen Kurzbeschreibung Die Qualität von Annotatonsvorschlägen kann spielerisch überprüf wer - den wenn es gelingt, ein anregendes Spiel zu kreieren, durch das indirekt die Qualität der Annotatonsvorschläge überprüf wird (z. B. die Spieler die Vorschläge des Vorschlagsalgorithmus A erhalten systematsch mehr Punkte als Spieler, die Vorschläge des Vorschlagsalgorithmus B erhalten). Herausforderungen Eine solche Spielidee und Anwendung muss erst entwickelt werden. Chancen Bei Gestaltung eines spannenden Spiels könnte es gelingen, hier relatv viele und gute Daten zu erhalten. Im Fokus solches Verfahren steht der „Gebrauchswert“ von Annotato - nen und weniger ihre abstrakte „Qualität“. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvor- schlägen eingesetzt wurde.(f) Vergleich der Annotatonen von Experten und den Annotatonen, diedas System vorschlagen würdeBeim vorherigen Abschnitt zur Bewertung von Empfehlungssystemen (vgl. S. 16in diesem Band) wurde bereits ein Verfahren beschrieben, das auch für Bewer-tung von Annotationsvorschlägen eingesetzt werden kann. Es wird im folgendenallgemein beschrieben.Beispiel: Man nehme Ressourcen und ihre von Experten vorgenommenen Annotatio-nen (oder eine Auswahl davon). Dann lässt man das Empfehlungssystem Annotatio-nen für die Ressourcen vorschlagen und vergleicht diese Ergebnisse mit den tatsäch-lichen Annotationen der Experten.Dieses Verfahren funktioniert nur bei Systemen, die Vorschläge auf Grundlage desinhaltsbasierten Filterns geben. Sind Empfehlungsalgorithmen die Grundlage, beider Nutzerdaten verwendet werden, muss es variiert werden.Beispiel: Bei Empfehlungsalgorithmen die z. B. auf dem kollaborativen Filtern basie-ren, kann es sinnvoll sein, nur Daten von sehr aktiven Experten zu nehmen und dannjeweils nur für einen kleineren Teil (z. B. 10 Prozent) das System Annotationsvor-schläge machen zu lassen. Diese werden wiederum mit den real existierenden Emp-fehlungen verglichen.Dieses Vorgehen wurde bereits für ein Empfehlungssystem für Musikstücke indiesem Band skizziert (vgl. Shardanand und Maes, 1995, S. 16) genauer beschrie-ben. Wählt man einen solchen Ansatz – vorausgesetzt, entsprechende Nutzerda-ten liegen vor – ist es hier sehr gut möglich (unterschiedliche) Algorithmen zu be-werten und damit „auf dem Trockenen“ Empfehlungsalgorithmen zu optimieren.40
  • 40. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen (f) Vergleich der Annotatonen von Experten und den Annotatonen, die das System vorschlagen würde Kurzbeschreibung Man nimmt existerende Ressourcen und ihre Annotatonen und lässt das Empfehlungssystem dafür Annotatonen vorschlagen. Dann werden die Vorschläge mit den existerenden Annotatonen verglichen. Herausforderungen Man muss Daten von Nutzern auswählen, die vorbildlich annoteren. Bei kollaboratvem Filtern muss ggf. eine entsprechende Stchprobe gezogen werden. Chancen Ein Verfahren, das erlaubt im Detail und „auf dem Trockenen“ erlaubt Feinabstmmungen von Algorithmen vorzunehmen. Abgesehen von der notwendigen Datenaufereitung sind keine speziellen Werkzeuge zu im- plementeren oder Maßnahmen zu ergreifen. Beispiele für den Ein- Es wurde kein Hinweis darauf gefunden, dass dieses Verfahren bereits satz zur vergleichenden Bewertung von Algorithmen zur Annotatonsvorschlä- gen eingesetzt wurde. Dieses Verfahren wurde jedoch z. B. bei der Evaluierung von Empfeh- lungssystemen für Musikstücke eingesetzt (siehe Shardanand und Maes, 1995)(g) Die „goldene Strategie“: Vergleich mit StandarddatenPrinzipiell ist schließlich ein Verfahren denkbar, dass die Qualität von Empfehlun-gen für einen Standarddatensatz errechnen lässt. Natürlich ist dies nur für Emp-fehlungsalgorithmen denkbar, die auf inhaltsbasiertem Filtern beruhen. Bishernur ein Gedankenspiel ist es dann, dass es anerkannte, große Testdatensätze gibt,die für Evaluationen und Ergebnisvergleiche immer wieder herangezogen wer-den. Zwar gäbe es immer Einschränkungen auf bestimmte Branchen und Themen,die in den Datensätzen im Vordergrund stehen, so eine Strategie würden aberBenchmarks ermöglichen und Vergleiche zwischen Systemen erlauben, obwohlsie nicht gleichzeitig in einem Untersuchungsdesign verwendet wurden.Beispiel: Ein Entwicklerteam prüft die Qualität ihres Empfehlungsalgorithmus mitHilfe des etablierten Standardtestdatensatz „Golden“ und stellt fest, dass die Zahlder passenden Empfehlungen über den bisherigen Benchmarks liegt. Sie veröffentli-chen die Ergebnisse und die Fachwelt ist beeindruckt.Vergleich der AnsätzeZur besseren Übersicht werden die skizzierten möglichen Ansätze noch einmalzusammengefasst dargestellt und verglichen. 41
  • 41. Methodische Ansätze zur Evaluaton der Qualität von Annotatonsvorschlägen Name Vorteil Nachteil a) Befragung von Experten Relatv valide hoher Aufwand (Befragung, extra zur Qualität der empfohle- Tool) nen Annotatonen (b) Direkter Vergleich der Relatv valide hoher Aufwand (Befragung, extra Annotatonsempfehlungen Tool, jedoch geringer als bei a) durch Befragung von Exper- ten (c) Optmierung von Emp- Durch das ofene Verfahren hoher Aufwand an das Tool fehlungsalgorithmen durch neuartge Einsichten möglich hohe Anforderung an Nutzer die Nutzer (ALOE-Ansatz) Validität eingeschränkt (d) Experimenteller Einsatz: Im laufenden Betrieb möglich Aufwand: Modifkatonen des Sys- Unterschiede in der Nutzung tems notwendig, Wahlverhalten von Annotatonsvorschlägen muss aufgezeichnet werden. Es ist schwer zu auszuwerten, warum Vorschläge nicht genom- men werden. (e) Experimentelle Nut- Im Fokus steht der „Gebrauchs- Kreatvität und eigene Lösungen zungsszenarien zur Bewer- wert“ von Annotatonen und im Hinblick auf Methode und Tool tung von Annotatonsvor- weniger ihre abstrakte „Quali- gefragt – ggf. sehr hoher Aufwand. schlägen tät“. (f) Vergleich der Annotato- Hier können „auf dem Tro- Es ist notwendig, ein Verfahren zu nen von Experten und mit ckenen“ mehrere, auch kleine entwickeln, dass die automatsche den Annotatonen, die das Varianten des Empfehlungsal- Bewertung der „Nähe“ von unter- System vorschlagen würde. gorithmus bewertet und mit- schiedlichen Annotatonen über- einander verglichen werden, nimmt (vgl. nächster Abschnit). ohne dass dazu ein großer Auf- wand für Befragungen oder Toolentwicklungen notwendig ist. (g) Die goldene Strategie Vergleiche von Empfehlungsal- Bisher nicht realisiert; zudem nur (nicht existerend) gorithmen werden möglich, für inhaltsbasiertes Filtern denk- auch wenn sie nicht getestet bar. werden.42
  • 42. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen VORSCHLÄGE ZUR BEURTEILUNG VON NÄHE UND ABWEICHUNGEN VON ANNOTATIONENBei einem sehr attraktiven vorgestellten Verfahren (f) fehlt die Beurteilung, obeine Annotation „gut oder schlecht“ ist, weil diese Einschätzung nicht von Nutze-rinnen oder Experten vorgenommen wird. Hier stellt sich die Frage, wie dieseNähe bewertet werden kann. Relativ einfach ist es, wenn das System identischeAnnotationen vorschlägt.Beispiel: Der Experte würde „Ananas“ als Annotation schreien, das Empfehlungssys-tem schlägt als Annotation eines Bildes „Ananas“ vor.Problematisch ist der weitaus häufigere Fall, dass die Vorschläge von den (ge-wünschten) Annotationen abweichen.Beispiel: Das Empfehlungssystem „A“ schlägt als Annotation für ein Bild „Flugzeug“vor, das Empfehlungssystem „B“ „Jumbojet“ (vgl. S. 29 in diesem Band). Der Expertehat jedoch als Annotation „Jet“ gewählt. Ist nun die Empfehlung des Systems A oderB besser? Und auch: Um wieviel genauer ist die Empfehlung von System A oder B ggf.besser?Dieses Beispiel zeigt – zumindest ist das die Idee – dass es nicht simpel ist, einesolche Bewertung vorzunehmen. Notwendig wäre es für die Evaluation jedoch,diese Einschätzung automatisch vornehmen zu können.BegrifsähnlichkeitOb zwei Begriffe die selbe Tatsache, oder allgemeiner, das selbe Ding beschreiben,also semantisch gleich sind, kann durch eine Analyse des semantischen Abstandsermittelt werden. Je ähnlicher sich die Begriffe in ihrer Bedeutung dabei sind, de-sto geringer wird deren Abstand. In der Mathematik ist der (minimale) Abstandzweier Punkte in einem metrischen Raum die Länge der kürzesten Verbindungsli-nie zwischen beiden. Die Berechnung der Streckenlängen wird durch die zugehö-rige Metrik vorgenommen. Im Fall der Bedeutungsähnlichkeit muss daher einepassende semantische Metrik gefunden werden. Syntaktische Metriken, also Me-triken, mit denen Aussagen über die syntaktische Ähnlichkeit getroffen werdenkönnen, führen meist nicht oder nur in Kombination mit semantischen Distanzbe-rechnungen zu verwertbaren Ergebnissen. Der Einsatz einer Metrik und die resul-tierende Ergebnisgüte hängen vom Vokabular ab und müssen ggf. im Vorfelddurch Testläufe (systematische Anwendung auf passenden Trainingsmengen undErgebnisanalyse) entschieden werden. 43
  • 43. Vorschläge zur Beurteilung von Nähe und Abweichungen von AnnotatonenSyntaktsche MetrikenOft werden syntaktische Metriken in der Vorverarbeitung verwendet, um zumBeispiel falsche oder unterschiedliche Schreibweisen zu korrigieren. Beispielhaftfür eine syntaktische Metrik erklären wir hier die sehr gebräuchliche LevenshteinDistanz (Levenshtein, 1966). Sie ergibt sich aus der minimalen Anzahl von Schrit-ten, die benötigt werden, um einen Begriff in den anderen überzuführen, wobeinur die drei Grundoperationen „Einfügen“, „Löschen“ und „Vertauschen“ auf ein-zelnen Gliedern der Zeichenkette erlaubt sind. Wie in folgendem Beispiel klarwird, beträgt die Levenshtein Distanz der Begriffe Tier und Tor 2 (vgl. Wikipedia-Eintrag zu Levenshtein, 2011-08-13): 1. Tier → Toer (ersetze i durch o) 2. Toer → Tor (lösche e)Weitere Metriken, die für die Untersuchung syntaktischer Ähnlichkeit verwendetwerden sind u.a. die Jaro-Winkler-Distanz (Winkler, 1990), der Hamming-Abstand(Hamming, 1950) und der Jaccard-Index (Jaccard, 1901).Semantsche MetrikenSemantische Metriken lassen sich in zwei Gruppen einteilen: topologische undstatistische. Während einer topologischen Metriken eine oder mehrere Ontologien(also sinnbehaftet verknüpfte Vokabulare) zu Grunde liegen, basieren statistischeVerfahren auf so genannten Textkorpi (Sammlungen von Texten).Topologische VerfahrenTopologische Verfahren verwenden als Grundlage eine oder mehrere Ontologien.Stark vereinfacht kann man ein Ontologie als eine Art gerichteten, gewichtetenGraphen ansehen. Die Konzepte bilden dabei die Knoten, die Verbindungen zwi-schen den Konzepten bilden die Kanten. Die Gewichtung ergibt sich aus der se-mantischen Bedeutung der Kante. Je nach Typ verwenden topologische VerfahrenInstanzen einer Ontologie und/oder die Ontologie selbst.Das folgende Beispiel beschreibt kein bestimmtes Verfahren, es soll nur einen ers-ten Einblick in die Welt der topologischen Ähnlichkeitsmessung liefern. Den Gra-phen einer sehr einfachen Ontologie zeigt Abbildung 13. Sie beschreibt ein Sche-ma für Personen und deren berufliche Ausrichtung. Den Kanten wurden aus Grün-den der Übersichtlichkeit keine Namen bzw. Richtungen zugeordnet.44
  • 44. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen Abbildung 13: Einfacher Beispielgraph.Basierend auf der Ontologie kann man nun a) die Ähnlichkeit der ontologischenKonzepte selbst oder b) die Ähnlichkeit verschiedener Instanzen der Ontologiebetrachten.a) Ähnlichkeit ontologischer KonzepteEin einfaches Distanzmaß in einem Graphen ist das des kürzesten Weges. Es ge-nügt, die Anzahl der Kanten zu zählen, die auf diesem Weg zwischen zwei Konzep-ten liegen. So ergibt sich aus obigen Beispiel, dass das Konzept Maler dem Kon-zept Musiker ähnlicher ist (Distanz 2) als dem des Politikers (Distanz 3). Auch istin diesem Beispiel das Konzept der Romantik in der Musik seinem literarischenPendant näher als dem der musischen Klassik.b) Ähnlichkeit ontologischer InstanzenAngenommen, es existieren drei Instanzen der obigen Ontologie: Mozart (Musiker– Klassik), Trakl (Schriftsteller – Symbolismus) und Josef II (Politiker). Geht manbei den Instanzen so vor, wie oben bei der konzeptionellen Berechnung, beträgtder Abstand zwischen Mozart, Trakl und Josef II jeweils 4. Berücksichtigt man nunzusätzlich instanzenspezifische Merkmale wie das Geburtsdatum der Personenverändert sich dieser Abstand. Der Abstand von Mozart zu Josef II beträgt 15 Jah-re, von Mozart und Trakl 131 Jahre. Bezieht man also das Geburtsjahr der Perso-nen in die Berechnung der semantischen Distanz ein, ist Mozart Josef II ähnlicherals Trakl. Berücksichtigt man zusätzlich weitere Eigenschaften, z.B. den Geburts-ort, rücken Mozart und Trakl (beide in Salzburg geboren) wieder näher zusam-men. Wie die Kanten einer Ontologie in die eines gewichteten Graphen umgesetztwerden und welche Faktoren in die Gesamtberechnung einfließen, wird in diver-sen Algorithmen unterschiedlich behandelt. Die Semantik der Relationen lässtsich in einem solchen Model durch die Gewichtung der Kanten ausdrücken. So hatder Pfad „Romantik (Literatur) ist verwandt zu Romantik (Musik)“ ggf. ein gerin-geres Kantengewicht als der Pfad „Musiker ist Vertreter der Epoche Romantik“.Beispiele für topologische Verfahren sind simGIC (Pesquita u.a., 2008), GraSM(Couto, Silva & Coutinho, 2007) und LDSD (Passant, 2010). 45
  • 45. Vorschläge zur Beurteilung von Nähe und Abweichungen von AnnotatonenStatstsche VerfahrenStatistische Verfahren gründen auf der Analyse einer a-priori definierten Mengevon textuellen Inhalten (Textkorpus). Diese Methoden bieten den Vorteil, dass siebei genügend großer Trainingsmenge/-zeit für das eigentliche Berechnen der Ab-stände wenig Zeit benötigen (im Vergleich zu z.B. topologischen Verfahren) und invielen Fällen ausreichend gute Ergebnisse liefern. Die Menge der statistischenVerfahren ist sehr groß, es werden hier deshalb nur zwei Verfahren näher erläu-tert.a) Latent Semantic AnalysisDas Latent-Semantic-Analysis-Verfahren (LSA) beruht auf der Vermutung, dassBegriffe mit ähnlicher Bedeutung (bzw. aus der selben Begriffswelt) in Texten nä-her beieinander stehen als nicht sinnverwandte. Mit diesem Verfahren ist es mög-lich, diese benachbarten Begriffe zu finden und einem Hauptkonzept (Hauptkom-ponente) zuzuordnen. So werden beispielsweise die Begriffe PKW, Wagen undRostlaube dem Konzept Auto zugeordnet.Der mathematische Hintergrund des LSA-Algorithmus basiert auf den mathemati-schen Prinzipien Singulärwertzerlegung und Dimensionsreduktion und kann z.B.bei Dumais (2004) genauer studiert werden.Ein Problem des LSA ist, dass beim Hinzukommen von neuen Begriffen (also beieiner Erweiterung des Textkorpus) die gesamte A-Priori-Berechnung wiederholtwerden muss. Auch die richtige Wahl der Dimensionsgröße kann ein Problem dar-stellen: Ist sie zu klein, leidet die Ergebnisgüte; ist sie zu groß, kann es zu Ressour-cenproblemen (Rechenleistung, Speicher) kommen.b) Normalisierte Google-DistanzDie normalisierten Google-Distanz (NGD) basiert auf der Annahme, das verwand-te Konzepte oft zusammen im gleichen Text vorkommen. Als Korpus dient der ak-tuelle Google Index. Der erste Schritt für die Berechnung besteht darin, die Anzahlder Suchtreffer für die beiden Konzepte zu ermitteln. Zusätzlich wird die Anzahlder Treffer einer Anfrage mit beiden Konzepten (mit logischem UND verbunden)und die Gesamtanzahl der indizierten Seiten benötigt. Die NGD wird mittels derfolgenden Formel berechnet. Abbildung 14: Normalisierte Google Distanz. Quelle: Cilibrasi & Vitanyi (2007)Dabei sind x und y die beiden Begriffe, f die Funktion, die eine Suchanfrage auf dieMächtigkeit deren Ergebnismenge abbildet, und M die Gesamtanzahl der von Goo-gle indizierten Seiten. Weitere Informationen zu NGD finden sich in bei Couto, Sil-va & Coutinho (2007). Weitere Beispiele für statistische Verfahren sind PMI (Bou-ma, 2009), SOC-PMI (Islam & Inkpen, 2008) und ESA (Gabrilovich & Markovitch,2007).46
  • 46. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen MÖGLICHE KENNZAHLEN ZUR BEWERTUNG VON ANNOTATIONSVOR- SCHLÄGENEs wurden bereits mehrere Verfahren genannt, die bei der Bewertung von Anno-tationsvorschlägen zum Einsatz kommen können. Ergänzend möchten wir Kenn-zahlen beschreiben, die bei der Beurteilung hilfreich sein können. Es zeigt sich da-bei, dass Kennzahlen wie die „Neuigkeit“ oder „Recall“ wenig Sinn machen, wennes um die Bewertung von Annotationvorschlägen geht. So sollte ein Buchvor-schlag bei Amazon z.B. einem Harry-Potter-Fan nicht alte Harry-Potter-Büchervorschlagen sondern etwas Neues, was er (eher) noch nicht kennt – bei Annotati-onsvorschlägen ist jedoch kein „Neuigkeitsfaktor“ erwünscht: Es macht in der Re-gel keinen Sinn, Nutzern möglichst neuartige Annotationen vorzuschlagen.Mögliche KennzahlenIm Folgenden skizzieren wir mögliche Kennzahlen, die bei der Bestimmung derQualität von Annotationsvorschlägen zum Einsatz kommen könnten.Abdeckung: Anteil der Ressourcen, zu denen Annotatonvorschläge gemacht werdenkönnenNicht in jedem Fall können Systeme Annotationen vorschlagen. Eine interessanteKennzahl ist so der Anteil, zu dem ein Algorithmus überhaupt Empfehlungen be-rechnen kann.Anteil der Fehler bei AnnotatonsvorschlägenManchmal ist möglich, eindeutig von „Fehlern“ bei den Annotationsvorschlägen zuschreiben. Der mittlere Fehler und die Standardabweichung für Fehler sind hiermögliche Kennzahlen.PräzisionIn Anlehnung an Herlocker (2004) könnte der Anteil der Annotationvorschläge,die als korrekt und relevant eingestuft werden als „Präzision“ bezeichnet werden.Nähe„Daneben ist auch vorbei“ ist eine Redensart, aber es kann eventuell Sinn machenzu bestimmen, wie „nah“ der Annotationsvorschlag an einer gewünschten Lösungist. 47
  • 47. Mögliche Kennzahlen zur Bewertung von AnnotatonsvorschlägenAnmerkung zur Bewertung von UnterschiedenDas angestrebte Ergebnis aller skizzierter Verfahren ist jeweils (vereinfacht) eineAussage der Art – Mittlere Qualität der Empfehlungen nach Algorithmus A: 3,4 – Mittlere Qualität der Empfehlungen nach Algorithmus B: 3,6Jedoch ist ein Unterschied von Mittelwerten u.ä. nicht notwendigerweise eine ge-eignete Grundlage für die Entscheidung für oder gegen einen bestimmten Algo-rithmus. Je nach Umfang der Datenquelle oder Stichprobe können solche Unter-schiede auch im Rahmen von zufälligen Schwankungen entstehen und sind nichtnotwendigerweise ein als statistisch signifikantes Indiz für einen besseren bzw.schlechteren Empfehlungsalgorithmus zu bewerten. Zur Auswertung und Inter-pretation solcher Daten, beispielsweise Mittelwertunterschieden, ist dabei aufVerfahren wie den T-Test bzw. auf die allgemeine statistische Methodenliteraturzu verweisen (z. B. Bortz & Döring, 2006).DiskussionBei unseren internen Diskussionen zeigte sich, dass die dargestellten Optionen fürKennzahlen nicht für jeden Experten sinnvoll erschienen bzw. innerhalb des Salz-burg NewMediaLabs deutlich unterschiedliche Abwägungen getroffen werden.Während die Forscher/innen eher klassische wissenschaftliche Gütekriterien ei-nes Empfehlungssystem erheben möchten und dabei auch einen möglichst hohendurchschnittlichen Wert erhalten wollen, haben die Archivare deutlich andere Be-dürfnisse: Ein Empfehlungssystem, das im Mittel „passable“ Empfehlungen gibt,ist für sie nicht unbedingt gut. Auch muss ein Empfehlungssystem aus ihrer Sichtnicht unbedingt eine gute Abdeckung haben (also für jeden Content Empfehlun-gen für Annotationen generieren können). Für die Archivare ist vielmehr wichtig,dass Annotationsvorschläge, schlichtweg sehr gut sein müssen – es aber gar nichtschlimm ist, wenn das System nichts empfiehlt, wenn es nichts „sehr gutes“ zuempfehlen hat. In der Praxis ist es einfach lästig, viele „weniger gute“ oder unge-eignet Vorschläge lesen oder löschen zu müssen.Auch wurde wiederum von den Archivaren darauf hingewiesen, dass ein Empfeh-lungssystem für Annotationen unbedingt lernen müsse. Es mache schlichtweg kei-nen Spaß und sei ermüdend, immer wieder Ähnliches korrigieren oder ablehnenzu müssen, diese Arbeit würde jedoch gerne gemacht, wenn das System dadurchbessere Empfehlungen geben könnte.48
  • 48. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen LITERATUR UND QUELLEN• von Ahn, L.; Ginosar, S., Kedia, M., Liu, R. & Blum, M. (2006). Improving Accesibility of the Web with a Compu- ter Game. Proceedings of the SIGCHI conference on Human Factors in computng systems table of contents, Montréal, Québec, Canada, 79-82.• Ames, Morgan & Naaman, Mor (2007). Why We Tag: Motvatons for Annotaton in Mobile and Online Media. Online verfügbar: htp://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=BE3E2E214C7C94F819FF65112A8B6696? doi=10.1.1.90.4934&rep=rep1&type=pdf [2011-02-01]• Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluaton für Human- und Sozialwissenschafler (4. Aufage). Berlin: Springer.• Bouma, G. (2009). Normalized (Pointwise) Mutual Informaton in Collocaton Extracton. Proceedings of Ge- sellschaf für Sprachtechnologie & Computerlinguistk (GSCL).• Brand-Haushofer, Richard (2005). Recommender Systeme in digitalen Bibliotheken. Bakk. Arbeit. Insttut: In- formatonsverarbeitung., Abt. f. Informatonswirtschaf. Wien, Wirtschafsuniv.. Online zugänglich unter: htp://epub.wu-wien.ac.at/dyn/virlib/bakkWI/showentry?ID=epub-wu-01_93d&style=aihtml (2010-01-04)• Camon, Evelyn B.; Barrell, Daniel G.; Dimmer, Emily C.; Lee, Vivian; Magrane, Michele; Maslen, John; Binns, David & Apweiler, Rolf (2005). An evaluaton of GO annotaton retrieval for BioCreAtIvE and GOA, In: BMC Bioinformatcs 2005, 6 (Suppl 1):S17doi:10.1186/1471-2105-6-S1-S17• Carneiro, Gustavo; Chan, Antoni B.; Moreno, Pedro J. & Vasconcelos, Nuno (2007). Supervised Learning of Se- mantc Classes for Image Annotaton and Retrieval. In: IEEE Transactons on Patern Analysis and Machine In - telligence (TPAMI), March 2007 (Vol. 29, No. 3), pp. 394-410.• Cilibrasi, Rudi & Vitanyi, Paul (2007). The Google Similarity Distance, IEEE Trans. Knowledge and Data Engi- neering, 19:3(2007), 370-383.• Couto, F., Silva, M., & Coutnho, P. (2007). Measuring semantc similarity between Gene Ontology terms. In: Data and Knowledge Engineering, 61:137–152• Derntl, Thomas; Hampel, Thorsten; Motschnig, Renate & Pitner, Tomas (2009). Social Tagging und Inclusive Universal Access. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 51-71.• Dolog, Peter (2009). Tag Based Recommendaton in KIWI. OntologSession, 12 February 2009. Online zugäng- lich unter: htp://ontolog.cim3.net/fle/work/SemantcWiki/SWiki-05_Applicaton-2_20090212/Tag-based- Recommendatons-in-KIWI--PeterDolog_20090212.pdf (2010-02-18)• Dumais, S. T. (2004). Latent semantc analysis. Annual Review of Informaton Science and Technology (ARIST), Volume 38, Chapter 4, 189-230.• Gabrilovich, E. & Markovitch, S. (2007). Computng Semantc Relatedness using Wikipedia-based Explicit Se- mantc Analysis. In: Proceedings of the 20th Internatonal Joint Conference on Artfcial Intelligence , Hydera- bad, India.• Güntner, Georg; Sint, Rolf & Westenthaler, Rupert (2009). Ein Ansatz zur Unterstützung traditoneller Klassif- katon durch Social Tagging. In: Birgit Gaiser, Thorsten Hampel & Stephanie Panke (Hrsg.), Good Tags – Bad Tags. Social Tagging in der Wissensorganisaton, Münster: Waxmann, 187-199.• Hamming, R.W. (1950). Error-detectng and error-correctng codes. In: Bell System Technical Journal XXIX (2): 147-160. 49
  • 49. Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen• Herlocker, J., Borchers, A., Konstan, J., and Riedl, J. (1999). An algorithmic framework for performing collabo- ratve fltering. In Proceedings of the 22nd annual internatonal ACM SIGIR conference on Research and deve- lopment in informaton retrieval, SIGIR’1999, pages 230-235.• Islam, A. & Inkpen, D. (2008). Semantc text similarity using corpus-based word similarity and string similarity. ACM Trans. Knowl. Discov. Data 2, 2 (Jul. 2008), 1–25.• Jaccard, Paul (1901). Étude comparatve de la distributon forale dans une porton des Alpes et des Jura. In: Bulletn de la Société Vaudoise des Sciences Naturelles 37: 547–579.• Klahold, André (2009). Empfehlungssysteme: Recommender Systems – Grundlagen, Konzepte und Lösungen. Wiesbaden: Vieweger + Teubner.• Knoth, Petr; Schmidt, Marek & Smrž, Pavel (2008). Informaton Extracton — State-of-the-Art. Knowledge in a Wiki (KiWi), Deliverable 2.5. htp://wiki.kiwi-project.eu/multmedia/kiwi-pub: KiWi_D2.5_fnal.pdf (2009-09- 02)• Kockler, Michael (2008). Concepton and Implementaton of Tagging Support Mechanisms in a Web 2.0 Social Media Sharing Platorm. Diplomarbeit an der Technischen Universität Karlsruhe.• Mishne, Gilad (2006). AutoTag: a collaboratve approach to automated tag assignment for weblog posts. WWW 2006: 953-954.• Levenshtein, V. I. (1966). Binary codes capable of correctng deletons, insertons, and reversals. In: Doklady Akademii Nauk SSSR. 163, Nr. 4, 1965, 845–848 (Russisch, Englische Übersetzung in: Soviet Physics Doklady, 10(8) 707–710, 1966).• Luhn, Hans Peter (1958). A Business Intelligence System. In: IBM Journal, 2, 4, 314-319.• Luo, Jiebo ; Yu, Jie; Joshi, Dhiraj & Hao, Wei (2008). Event recogniton: viewing the world with a third eye. In Proceeding of the 16th ACM internatonal conference on Multmedia (MM 08). ACM, New York, NY, USA, 1071-1080. DOI=10.1145/1459359.1459574 htp://doi.acm.org/10.1145/1459359.1459574• Lux, Mathias & Chatzichristofs, Savvas A. (2008). Lire: Lucene Image Retrieval – An Extensible Java CBIR Libra- ry. In proceedings of the 16th ACM Internatonal Conference on Multmedia, Vancouver, Canada, 2008, pp. 1085-1088.• Memmel, Martn; Kockler, Michael und Schiiru, Rafael (2009). Providing Mult Source Tag Recommendatons in a Social Resource Sharing Platorm. Journal of Universal Computer Science, vol. 15, no. 3, 678-691.• Neumann, Andreas W. (2009). Recommender Systems for Informaton Provides. Designing Customer Centric Paths to Informaton. Heidelberg: Physica-Verlag.• Nunes, Maria & Cerri, Stefano (2008). Improving Recommendatons by Using Personality Traits in User Prof- les. In: Proceedings of I-Know 08 and I-Media 08, Graz, Austria, 92-100.• Passant, A. (2010). dbrec - Music recommendatons using DBpedia. In Proceedings of the 9th Internatonal Se- mantc Web Conference (Part II), LNCS, Springer, 6497: 209-224, Springer.• Pesquita, Cata; Faria, Daniel; Bastos, Hugo; Ferreira, António; Falcao, Andre O. & Couto, Francisco (2008). Metrics for GO based protein semantc similarity: a systematc evaluaton. In: BMC Bioinformatcs, 5(9), 4.• Schafert, Sandra; Bürger, Tobias; Hilzensauer, Wolf; Schneider, Cornelia & Wieden-Bischof, Diana (2010). Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“ (hrsg. von Georg Güntner und Sebastan Schafert), Salzburg: Salzburg Research.• Schafert, Sandra; Eder, Julia; Hilzensauer, Wolf, Kurz, Thomas; Markus, Mark; Schafert, Sebastan; Wes- tenthaler, Rupert & Wieden-Bischof, Diana (2009). (Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. Erschienen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 2. Salzburg: Salzburg Research.50
  • 50. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen• Schafert, Sandra; Güntner, Georg; Lassnig, Markus & Wieden-Bischof, Diana (2010). Reputaton und Feed- back im Web. Einsatzgebiete und Beispiele. Erschienen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 4. Salzburg: Salzburg Research.• Schafert, Sandra; Hilzensauer, Wolf & Wieden-Bischof, Diana (2009). Social Tagging. In: Sandra Schafert u.a., (Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. Erschie- nen in der Reihe “Social Media”, hrsg. von Georg Güntner und Sebastan Schafert, Band 2. Salzburg: Salzburg Research, 34-46.• Schickel-Zuber, Vincent (2007). Ontology Filtering. Inferring Missing User’s Preferences in eCommerce Re- commender Systems. Thesis an der Ecole Polytechnique Federale de Lausanne. Online zugänglich unter: htp://vpaa.epf.ch/webdav/site/vpaa/shared/Prix%20de%20recherche%2008/Thesis_3934_Schickel.pdf [2010-01-23]• Shardanand, Upendra, Maes, Pate (1995). Social Informaton Filtering: Algorithms for Automatng „Word of Mouth“. In: Proceedings of ACM CHI95 Conference on Human Factros in Computng Systems, Denver, US, 210-217. Online zugänglich unter: htp://jolomo.net/ringo/chi-95-paper.pdf (2010-01-07)• Sorge, Christoph (2007). Selbstorganisierende Empfehlungssysteme im Internet. Eine interdisziplinäre zwi- schen Technik und Recht. Karlsruhe: Universitätsverlag.• Terveen L. & Hill W. (2001): Beyond Recommender Systems: Helping People Help Each Other, In: HCI in the New Millennium, Jack Carroll, ed., Addison-Wesley.• Turnbull, Douglas (2005). Automatc Music Annotaton. Research Exam Spring, Department of Computer Science, UC San Diego. URL: htp://citeseerx.ist.psu.edu/viewdoc/download? doi=10.1.1.130.7630&rep=rep1&type=pdf (2011-03-30)• Wikipedia (2010). Annotaton. Online verfügbar: htp://de.wikipedia.org/wiki/Annotaton [2010-12-12]• Wikipedia (2011). Exchangeable Image File Format. Online verfügbar: htp://de.wikipedia.org/wiki/Exchange- able_Image_File_Format [2011-06-23]• Winkler, W. E. (1990). String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. In: Proceedings of the Secton on Survey Research Methods (American Statstcal Associaton): 354–359.• Zupancic, Bernd (2006). Vorlesungsaufzeichnungen und digitale Annotatonen. Einsatz und Nutzen in der Leh- re. Dissertaton an der an der Fakultät für Angewandte Wissenschafen der Albert-Ludwigs Universität Frei- burg im Breisgau. Online zugänglich unter: htp://deposit.ddb.de/cgi-bin/dokserv? idn=980813530&dok_var=d1&dok_ext=pdf&flename=980813530.pdf [2011-02-01] 51
  • 51. Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen52
  • 52. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen LINKED MEDIA LAB REPORTS – DIE NEUE REIHE DES SNML-TNGDies ist das vierte Band in der neuen Reihe „Linked Media Lab Reports“ des Salz-burg NewMediaLab – The Next Generation (herausgegeben von Christoph Bauer,Georg Güntner und Sebastian Schaffert). In dieser Reihe werden in Deutsch oderin Englisch Werkstattberichte veröffentlicht, also Beiträge mit eher konzeptionel-len Charakter und Anleitungen. Die nächsten Bände sind bereits in Vorbereitung. Band 1 Linked Media. Ein White-Paper zu den Potentalen von Linked People, Linked Content und Linked Data in Unternehmen. (Salzburg NewMediaLab – The Next Generaton) ISBN 978-3-902448-27-9 Issue 2 (auf Englisch) Linked Media Interfaces Graphical User Interfaces for Search and Annotaton (Marius Schebella, Thomas Kurz and Georg Güntner) ISBN 978-3-902448-29-3 Issue 3 (auf Englisch) Media Objects in the Web of Linked Data Publishing Multmedia as Linked Data (Thomas Kurz) ISBN 978-3-902448-30-9 Band 4 Smarte Annotatonen. Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen. (Sandra Schön, Thomas Kurz und andere) ISBN 978-3-902448-31-6 Band 5 (geplant für November 2011) Qualitätssicherung bei Annotatonen Soziale und technologische Verfahren in der Medienbranche ISBN 978-3-902448-32-3 53
  • 53. Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen SOCIAL MEDIA – DIE PUBLIKATIONSREIHE DES SNML-TNGIn der Reihe „Social Media“ des Salzburg NewMediaLab (herausgegeben von Ge-org Güntner und Sebastian Schaffert) sind bisher folgende Bände erschienen: Band 1 Erfolgreicher Aufau von Online-Communitys. Konzepte, Szenarien und Handlungsempfehlungen. (Sandra Schafert und Diana Wieden-Bischof) ISBN 978-3-902448-13-2 Band 2 (Meta-) Informatonen von Communitys und Netzwerken. Entstehung und Nutzungsmöglichkeiten. (Sandra Schafert, Julia Eder, Wolf Hilzensauer, Thomas Kurz, Mark Markus, Sebastan Schafert, Rupert Westenthaler, Rupert und Diana Wieden-Bischof) ISBN 978-3-902448-15-6 Band 3 Empfehlungen im Web. Konzepte und Realisierungen. (Sandra Schafert, Tobias Bürger, Cornelia Schneider und Diana Wieden-Bischof) ISBN 978-3-902448-16-3 Band 4 Reputaton und Feedback im Web. Einsatzgebiete und Beispiele. (Sandra Schafert, Georg Güntner, Markus Lassnig und Diana Wieden-Bischof) ISBN 978-3-902448-17-0 Band 5 – in Kooperaton mit evolaris und Salzburg Research Mobile Gemeinschafen. Erfolgreiche Beispiele aus den Bereichen Spielen, Lernen und Gesundheit. (Sandra Schön, Diana Wieden-Bischof, Cornelia Schneider und Martn Schumann) ISBN 978-3-902448-25-554
  • 54. SMARTE ANNOTATIONEN Ein Beitrag zur Evaluaton von Empfehlungen für Annotatonen 55
  • 55. Mögliche Kennzahlen zur Bewertung von Annotatonsvorschlägen56