Empfehlungen im Web. Konzepte und Realisierungen

6,600 views

Published on

Schaffert, Sandra; Bürger, Tobias; Hilzensauer, Wolf; Schneider, Cornelia & Wieden-Bischof, Diana (2010). Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“ (hrsg. von Georg Güntner und Sebastian Schaffert), Salzburg: Salzburg Research. (ISBN 978-3-902448-16-3) - frei zugängliche Version (CC Lizenz!) - auch im Buchhandel erhältlich!

Published in: Business, Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
6,600
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
201
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Empfehlungen im Web. Konzepte und Realisierungen

  1. 1. Schriftenreihe: Social media band 3   © sxc.hu    B "    Empfehlungen im Web Konzepte und Realisierungen Sandra Schaffert, Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof
  2. 2. Sandra Schafert Empfehlungen im Web Konzepte und Realisierungen mit Beiträgen von Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof
  3. 3. Salzburg NewMediaLab (SNML), das Kompetenzzentrum für Neue Medien, gab die vorliegende Broschüre im Rahmen des Projekts „ComStudy“ (Leitung: Dr. Sandra Schafert) in Aufrag. Unter der Leitung von DI Georg Güntner arbeitet das SNML dar- an, digitale Inhalte clever zu strukturieren, verknüpfen, personalisieren, für alle auf- fndbar zu machen und nachhaltg zu nutzen. Das SNML ist ein industrielles Kompe- tenzzentrum im Rahmen der Aktonslinie Kind des Bundesministeriums für Wirtschaf und Arbeit (BMWA) und wird gefördert aus Miteln des BMWA und des Landes Salz- burg. Homepage: newmedialab.at © Salzburg NewMediaLab 2010 ISBN 978-3-902448-16-3 Sandra Schafert, Tobias Bürger, Wolf Hilzensauer, Cornelia Schneider und Diana Wieden-Bischof: Empfehlungen im Web. Konzepte und Realisierungen. Band 3 der Reihe „Social Media“, herausgegeben von Georg Güntner und Sebastan Schafert Verlag und Herstellung: Salzburg Research, Salzburg Umschlaggestaltung: Daniela Gnad, Salzburg Research Lektorat: Andreas Strasser und Renate Steinmann, Salzburg Research Bibliografsche Informaton der Deutschen Natonalbibliothek: Die Deutsche Natonalbibliothek verzeichnet diese Publikaton in der Deutschen Natonalbibliografe; detaillierte bibliografsche Daten sind im Internet über htp://dnb.d-nb.de abrufar.
  4. 4. VORWORT Das Kompetenzzentrum für Neue Medien, das Salzburg NewMediaLab, betrachtet im Rahmen seines Forschungsprogramms die Wechselwirkung zwischen digitalen Inhalten und ihren Autor(inn)en bzw. Konsument(inn)en aus technologischer und sozialer Per- spektve. Dabei ergibt sich naturgemäß die Frage, welche Art von Beziehungen zwischen Autor(inn)en und Leser(innen) untereinander, aber auch zu den von ihnen erstellten bzw. konsumierten Inhalten besteht. Weiters untersuchen wir, wie sich die aufgrund die- ser Beziehungen entstehenden Gemeinschafen auf die Atraktvität und Nutzung der In- halte sowie auf das Angebot von erweiterten Diensten auswirkt. Unter der Bezeichnung „ComStudy“ wurde im Oktober 2009 am Salzburg NewMediaLab eine Studie gestartet, die sich mit Orienterungs- und Entscheidungshilfen für den Auf- bau und die Nutzung von Online-Communitys beschäfigt. Dabei betrachten wir auch die in der Wechselwirkung von Inhalten und Communitys anfallenden Metainformato- nen und die auf den Inhalten basierenden Dienste, wie etwa Empfehlungs- und Reputa- tonssysteme. Das Informatonsangebot im Internet ist mitlerweile so angewachsen und unübersicht- lich geworden, dass Suchmaschinen alleine die Flut der Daten für die Benutzer(innen) nicht mehr ausreichend fltern und darstellen können. Deswegen gehen fortschritliche Informatonsplatormen und digitale soziale Netzwerke zunehmend dazu über, das Pa- radigma des Suchens umzukehren: Nicht mehr die Benutzer(innen) suchen nach Infor- matonen, sondern die Informatonen suchen (und fnden) die Benutzer(innen). Voraus- setzung dafür sind Empfehlungssysteme, die Informatonen nach unterschiedlichen Ge- sichtspunkten – z.B. anhand der Profle der Anwender(nnen) – (semi-)automatsch aus- wählen, fltern und vorschlagen. Der vorliegende Band stellt Ansätze und Methoden für Empfehlungssysteme vor, zeigt mögliche Einsatzgebiete auf und gibt praktsche Hinweise für die Implementerung solcher Systeme. Die Darstellung der Analyse und von deren Ergebnissen erfolgt – wie in den beiden vor- angehenden Publikatonen – stets unter dem Gesichtspunkt, den Leserinnen und Lesern praktsche Orienterungs- und Entscheidungshilfen für die Konzepton und Umsetzung zur Verfügung zu stellen. Im Namen des Salzburg NewMediaLab wünsche ich Ihnen in diesem Sinne bei der Lektüre viele brauchbare Anregungen und viel Erfolg bei der prak- tschen Umsetzung in Ihren Online-Communitys oder bei Ihren Informatonssystemen. Georg Güntner Leiter des Salzburg NewMediaLab Februar 2010
  5. 5. DANK & ANMERKUNG ZUR SCHREIBWEISE Herzlichen Dank an Prof. Dr. Peter Dolog, Dr. Hendrik Drachsler sowie Dr. Marco Kalz für Ihre Bereitschaf, uns in diesem Studie einige Fragen zu beantworten und uns so an ih- rer Expertse teilhaben zu lassen. Danke auch an meine Kolleginnen und Kollegen: an Mag. Diana Wieden-Bischof und Mag. Wolf Hilzensauer für ihre Unterstützung bei der Recherche und Beschreibung von Beispielen; an Dr. Tobias Bürger für seinen Beitrag zu LIVE und sein Feedback zur Studie sowie an DI (FH) Mag. Cornelia Schneider für ihren Beitrag zu Empfehlungssystemen im Gesundheitsbereich, an Mag. Renate Steinmann und Dr. Andreas Strasser für das Lekto- rat, danke auch an Daniela Gnad für das Titelbild! Da die Gefahr groß ist, die eine oder den anderen zu übersehen, der bei den Trefen, oder in E-Mails oder beim informellen Gespräch beim Kafee hilfreich war, danke ich den weiteren Kolleg(inn)en ohne einzelne Namen zu nennen: Wie bei jeder der Veröfentli- chungen im Rahmen des Projektes ComStudy stecken auch hier hinter vielen Ideen und Hinweisen auf interessante Tools, Projekte, Veröfentlichungen und Expert(inn)en zahl- reiche Kolleg(inn)en des Salzburg NewMediaLab und der Salzburg Research Forschungs- gesellschaf. Es macht Spaß, mit so vielen cleveren Köpfen zusammenzuarbeiten! Schließlich, wie bei den bisherigen Veröfentlichungen dieser Reihe auch hier: Um die- sen Beitrag nicht durch weibliche Endungen, Bindestriche und Klammern zu einem zwar korrekten, aber auch schwerer zu lesenden Werk zu machen, haben wir im Folgenden durchgehend darauf verzichtet, die gendergerechte Schreibweise zu verwenden. Zudem haben wir uns bemüht, auf englische Ausdrücke oder Lehenswörter zu verzichten, wo sie uns unnötg erschienen – aber im Bereich des Internets und der modernen Manage- mentheorie kommt man leider viel zu of nicht darum herum. Sandra Schafert Salzburg Research Forschungsgesellschaf Februar 2010
  6. 6. INHALTSVERZEICHNIS 1 Einleitung und Hintergrund........................................................................................ 9 1.1 Empfehlungen im Web........................................................................................... 9 1.2 Schwerpunkte, Forschungsfragen und Vorgehen.................................................10 1.3 Hintergrund.......................................................................................................... 10 2 Empfehlungssysteme: Ansätze und Methoden......................................................... 13 2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen................................. 13 2.2 Quellen für Empfehlungssysteme.........................................................................14 2.3 Personalisierte und allgemeine Empfehlungen ....................................................15 2.4 Inhaltsbasiertes Filtern......................................................................................... 15 2.5 Kollaboratves Filtern............................................................................................22 2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen..................25 2.7 Ähnlichkeit und weitere Kriterien.........................................................................28 2.8 Nachteile und Herausforderungen der Ansätze ...................................................28 2.9 Hybride Lösungen.................................................................................................30 3 Empfehlungssysteme: Ausgewählte Einsatzgebiete.................................................. 35 3.1 Überblick über fünf ausgewählte Einsatzgebiete..................................................35 3.2 Experten- und Arbeitsplatzsuche im Web............................................................ 36 3.3 Partnersuche im Web........................................................................................... 39 3.4 Produktempfehlungen .........................................................................................42 3.5 Empfehlungssysteme für Web-Materialien.......................................................... 51 3.6 Spezielle Einsatzgebiete und weitere Empfehlungssysteme................................. 58 4 Entwicklung von Empfehlungssystemen...................................................................67 4.1 Entwicklung im Überblick..................................................................................... 67 4.2 Aktve Einbindung von Nutzern............................................................................ 67 4.3 Ziel und Zweck des Empfehlungssystem...............................................................68 4.4 Konzeptonelle Beschreibung............................................................................... 68 4.5 Implementerung ................................................................................................69 4.6 Evaluaton: Überprüfung der Qualität und Nützlichkeit von Empfehlungen.........70 5 Ausblick....................................................................................................................73 Literatur und Quellen.................................................................................................. 75 Autorinnen und Autoren............................................................................................. 80 Social Media – Weitere Bände.....................................................................................80
  7. 7. 1 EINLEITUNG UND HINTERGRUND 1.1 Empfehlungen im Web Wachsende Datenbestände machen es schwierig sich zu orienteren. Empfehlungssyste- me werden daher immer häufger eingesetzt. Sie schlagen zum Beispiel Produkte, Dienstleistungen, Webseiten, Filme, Bilder, Lieder, Experten, Musikgruppen oder poten- zielle Freunde und Lebenspartner vor. Insbesondere durch den Anwuchs von Beiträgen in Social-Media-Anwendungen sind Empfehlungssysteme gefragt, damit interessante Beiträge und Personen nicht „untergehen“. Auch bei der gezielten und personalisierten Werbung im Web oder bei Suchmaschinen werden Verfahren der Empfehlungssysteme eingesetzt. Empfehlungen unterstützen auch Prozesse wie die Reiseplanung, das Lernen, das Tagging und auch das Verschreiben von Arzneimiteln. Empfehlungssysteme haben die Aufgabe (vgl. Sorge, 2008) „einem Nutzer Objekte zu empfehlen, die für ihn interessant sein könnten“ (S. 18). Klahold (2009) versteht unter einem Empfehlungssystem ein System, „das einem Benutzer in einem gegebenen Kon- text aus einer gegebenen Enttätsmenge aktv eine Teilmenge „nützlicher“ Elemente empfehlt“ (S. 1). Empfehlungssysteme werden auch im Deutschen häufg als „Recom- mender-Systeme“ bezeichnet. Als Voraussetzung für die Notwendigkeit von Empfehlungssystemen betrachtet Klahold (2009) das Anwachsen von Informatonen und den exponentellen Ansteg des Datenvo- lumens im 20. Jahrhundert (S. 16). Auch wenn es nicht als Empfehlungssystem bezeich- net wird, ist Klahold (2009) zufolge, die erste akademische Beschäfigung mit einem Empfehlungssystem das Werk von Luhn (1958): Er beschreibt ein System, dass selektv Informatonen an bestmmte Organisatonen verteilt. Ein Überblick über aktuelle Realisierungen und Erfahrungen mit solchen Empfehlungs- systemen, die als Service für Nutzer und Communitys einen entscheidenden Faktor für die Atraktvität eines Systems ausmachen können, wird hier gegeben, wobei auch die konkrete technologische Umsetzung und die Konzepte beschrieben werden. Während sich der Begrif der „Empfehlungssysteme“ in einigen Beiträgen nur auf automatsche Verfahren der Empfehlung beschränkt, beziehen wir in dieser Arbeit alle Formen der Empfehlungen mit ein. Grundsätzlich wird für Empfehlungssysteme in der Regel eines der beiden folgenden Verfahren oder eine Kombinaton von beiden genutzt: | Beim inhaltsbasierten Filtern (Engl. „Content Based Filtering“) beruhen die Empfeh- lungen auf den Eigenschafen der Elemente, die empfohlen werden. Beispielsweise wird ein Buch empfohlen, weil ein Abgleich des Klappentexts sowie des Benutzerpro- fls ergeben hat, dass es ihn interessieren könnte (Klahold, 2009). | Beim kollaboratven Filtern (Engl. „Collaboratve Filtering“) werden Empfehlungen auf der Basis von Daten zu ähnlichen Benutzerproflen gegeben. Beispielsweise wer- den hier Bücher empfohlen, die andere Nutzer mit ähnlichem Benutzerprofl bereits gekauf, gelesen oder positv bewertet haben (Klahold, 2009). Ein weiteres wichtges Beschreibungsmerkmal eines Empfehlungssystem ist es, ob per- sonalisierte Empfehlungen gegeben werden oder ob die Empfehlung für jeden Nutzer gleichermaßen gilt. Darüberhinaus gibt es auch Systeme und Anwendungen, die unterstützen, dass Nutzer anderen Nutzern direkte (persönliche) Empfehlungen geben (s. Terveen & Hill, 2001; Brand-Haushofer, 2005). 9
  8. 8. 1.2 Schwerpunkte, Forschungsfragen und Vorgehen Schwerpunkte unserer Ausführungen sind die unterschiedlichen Formen und Einsatz- möglichkeiten von Empfehlungssystemen im Web. Folgende, eher praktsche Fragen waren dabei forschungsleitend: | Welche Arten von Empfehlungssystemen im Web gibt es derzeit? | Wie und zu welchem Zweck werden sie eingesetzt? | Welche Erfahrungen wurden dabei bisher gemacht? Diese Publikaton verfolgt das Ziel, über unterschiedliche Branchen und Anwendungsbe- reiche hinweg, Realisierungsmöglichkeiten und Beispiele vorzustellen. Dabei wird be- trachtet, welchen Nutzen einzelne Benutzer eines Services oder einzelne Community- Mitglieder haben und wie ggf. die Nutzergruppe insgesamt davon proftert. Im Überblick beschäfigt sich die Studie also mit: | Motven für den Einsatz von Empfehlungssystemen, | unterschiedlichen Ansätze und technologischen Grundlagen, | Realisierungen für unterschiedliche Einsatzbereiche, | Hinweisen zur Entwicklung solcher Systeme sowie | Herausforderungen und zukünfigen Forschungsfragen. Ein gewisses technisches Grundverständnis voraussetzend, wendet sich diese Studie vor allem an Praktker, die sich durch die unterschiedlichen Nutzungsmöglichkeiten anregen lassen wollen, für ihre eigenen Webplatormen innovatve Empfehlungsservices zu ent- wickeln. Hierfür wurden Beispiele, Publikatonen und Experten einbezogen, um einen guten Einsteg und Überblick zum aktuellen Stand der Nutzung sowie anregende Einbli- cke ermöglichen zu können. Beim Entwurf des Projektes und der Forschungsschwerpunkte gab es keine deutschspra- chige umfangreichere Einführung in Empfehlungssysteme. Während der Recherchen er- schien jedoch ein neues Buch: Klahold (2009) führt in die unterschiedlichen Empfeh- lungssysteme, ihre Struktur und verwendete Technologien und Methoden systematsch für Studierende der Informatk ein. Diese Broschüre hat hingegen eher die unterschiedli- chen Einsatzgebiete und Erfahrungen sowie die Entwicklung von Empfehlungssystemen für Gestalter und Verantwortliche von Webplatormen im Fokus. Auf alle Fälle beein- fusste und inspirierte uns das Buch von Klahold (2009); häufg wird daher auf diese Quelle verwiesen. 1.3 Hintergrund Diese Broschüre ist ein Ergebnis der „ComStudy“, die am Salzburg NewMediaLab (SNML) im Zeitraum von Oktober 2008 bis Januar 2010 durchgeführt wurde. Das SNML, das Kompetenzzentrum für Neue Medien in Österreich, arbeitet daran, digitale Inhalte cle- ver zu strukturieren, verknüpfen, personalisieren, für alle aufndbar zu machen und nachhaltg zu nutzen und betrachtet dabei die Community als einen wesentlichen Faktor vieler Projekte. Im Rahmen der ComStudy wurde bereits eine Studie zum erfolgreichen Community- Aufau durchgeführt, die anhand von Literaturanalysen, Best-Practce-Beispielen, Fall- analysen und Expertenbefragungen für unterschiedliche Szenarien konkrete Implemen- terungsempfehlungen gibt (Schafert & Wieden-Bischof, 2009). In einer weiteren Bro- schüre wurde die Entstehung und Nutzung von (Meta-) Informatonen in Communitys 10
  9. 9. beschrieben. Unterschiedliche Einsatzgebiete und Nutzungen, von der Entwicklung von Services für die Communitys selbst bis zum unternehmensgetriebenen Webmonitoring werden dabei beschrieben (Schafert u.a., 2009). Auf diesen Vorarbeiten beruht im Rah- men des Projektes zudem eine Studie zu Feedback- und Reputatonssystemen (Schafert u.a., 2010). Auch dieser Band basiert darauf, da bei der Entwicklung von Empfehlungssystemen auf (Meta-) Informatonen unterschiedlichster Art zurückgegrifen werden kann (s. letzte Seite in diesem Band). 11
  10. 10. 12
  11. 11. 2 EMPFEHLUNGSSYSTEME: ANSÄTZE UND METHODEN In diesem Abschnit werden die unterschiedlichen Ansätze und Methoden von Empfeh- lungssystemen vorgestellt. Dazu werden zunächst Ziele und Zwecke ihres Einsatzes und ihre Quellen vorgestellt. Im Anschluss wir ein Einsteg in die unterschiedlichen Verfahren des inhaltsbasierten als auch kollaboratven Filtern und hybrider Ansätze geboten. Leider nutzen einige Forscher unterschiedliche Bezeichnungen für die gleichen Verfah- ren von Empfehlungssystemen, während andere identsche Bezeichnungen verwenden, aber ofensichtlich unterschiedliches verstehen (Schickel-Zuber, 2007, 21). Im Folgenden wurde Aufau und Bezeichnungen der Verfahren aus aktuelleren Veröfentlichungen ge- wählt und beschrieben (u.a. Schickel-Zuber, 2007; Klahold, 2009). 2.1 Ziele und Zwecke des Einsatzes von Empfehlungssystemen Einleitend wurde festgestellt, dass Empfehlungssysteme die Aufgabe haben, Nutzern von Anwendungen Objekte vorzuschlagen, die für sie interessant sein können. Doch welche Ziele und Zwecke verfolgen Betreiber eines Angebots, das ein Empfehlungssys- tem enthält? Unmitelbare Zwecke, die Empfehlungssysteme erfüllen sollen sind, dass | Nutzer für sie interessante, neuartge und nützliche Empfehlungen für Experten, Pro- dukte, Dienstleistungen, potenzielle Ehepartner, Lernpartner, Webseiten, usw. erhal- ten, und/oder | dadurch Prozesse, beispielsweise Recherchen, Lernen, Arzneiverordnung, Planung von Reisen etc. erleichtert, beschleunigt und verbessert werden. Ziele, die Betreiber mit dem Einsatz von Empfehlungssystemen verfolgen, können dabei sein: | mit Hilfe des Empfehlungssystems mehr Nutzer zu bekommen, | zufriedenere Nutzer zu erhalten, | sich durch besseren Service von Mitbewerbern zu unterscheiden sowie | höhere Umsätze und/oder Gewinne zu sichern. Insbesondere im Online-Handel versprechen gute Empfehlungssysteme so erhöhte Um- sätze durch das Vorschlagen passender, reizvoller weiterer Produkte, die für die Kunden auch tatsächlich interessant sind. So wird das Hauptgeschäf bei Amazon oder iTunes Store nicht mehr mit den Verkaufsschlagern gemacht, sondern mit Nischenprodukten. Diese gilt es aber zu fnden, daher sind Empfehlungssysteme unabdingbar (vgl. Klahold, 2009). Strategische Ziele, die damit verfolgt werden können sind zum Beispiel: die Nutzer an den eigenen Service zu binden, sie zu aktvieren und/oder ein Alleinstellungsmerkmal im Vergleich mit den Mitbewerbern zu erlangen. Gleichzeitg, wenn beispielsweise mit der Einführung von Empfehlungssystemen auch Bewertungssysteme eingeführt werden können, ermöglichen Empfehlungssysteme auch leichteres Monitoring und Auswertung der Nutzer und ihrer Interessen. Auch können Betreiber, beispielsweise in Handelsplatormen Auswirkungen der Empfehlungen von Produkten oder personalisierter Werbung analysieren und dadurch auch Wissen über gute Produktplatzierung und Werbung gewinnen. 13
  12. 12. 2.2 Quellen für Empfehlungssysteme Als Quellen für Empfehlungssysteme stehen eine ganze Reihe von (Meta-) Informato- nen über Nutzer sowie den Empfehlungselementen zur Verfügung. Beispielsweise sind dies (s. Schafert u.a. 2009, 10): | das Nutzerverhalten, beispielsweise das Such- und Browsingverhalten, | die Kommunikatons- und Netzwerkstruktur als Möglichkeit die sozialen Gegebenhei- ten zu erfassen und zu nutzen, | Bewertungen, die dazu genutzt werden, um Produkte, Personen, Objekte oder Web- seiten zu evaluieren und zu beurteilen, | Social Tagging als eine innovatve und populäre Variante von gemeinschaflicher Ver- schlagwortung von Dokumenten, | Texte, da aus dieser Datenquelle eine Reihe von (auch überraschenden) Metainfor- matonen analysiert und abgeleitet werden können, | Metadatenformate als klassische Form von Metainformatonen sowie schließlich | verknüpfe Daten und Schemata (z. B. Thesauri, Ontologien, Linked Data). Bei Empfehlungssystemen wird darüberhinaus auch damit experimentert, beispielswei- se Persönlichkeitsmerkmale abzufragen und auszuwerten, um Empfehlungen zu verbes- sern (Nunes & Blanc, 2008). Die unterschiedlichen Quellen werden in explizite Empfehlungen, d.h. Empfehlungen durch Bewertungen von Nutzern, sowie verhaltensbasierte Empfehlungen durch sonst- ge Aktvitäten der Nutzer unterschieden. Nach Neumann (2009) sind mit der Nutzung dieser unterschiedlichen Quellen auch unterschiedliche Herausforderungen verbunden. Nutzer Designprobleme der Mechanismen Nutzertyp Verhalten Explizite Empfehlungen Verhaltensbasierte Empfehlungen unvoreingenommen passiv passiver Konsum Free-Rider-Efekt, – Netzwerkefekte unvoreingenommen aktv wahrheitsgemäßer Beitrag Privatsphäre (Privatsphäre) voreingenommen, aktv voreingenommener Beitrag Voreingenommenheit, (Voreingenommenheit) Feedback-Efekte Glaubwürdigkeit Tabelle 1: Nutzertypen und Designprobleme von Empfehlungssystemen mit expliziten vs. verhaltensbasierten Empfehlungen Quelle: Neumann, 2009, Tabelle 3.1, 28 Prinzipiell sind bei beiden Verfahren v.a. Voreingenommenheit und Parteilichkeit bei Nutzern eine Herausforderung, insbesondere wenn bewusst und intensiv zugunsten oder gegen Produkte bewertet wird. Parteiische Nutzer können auch Feedback-Efekte hervorrufen, d.h. dass ein frühzeitges positves Feedback zu größeren Marktchancen von Produkten führt, ein frühes negatves Feedback jedoch die Chancen für spätere Ver- besserungen der Bewertungen und Absatzchancen stark einschränkt. Empfehlungen sind auch gewissermaßen ein öfentliches Gut, von dem jeder profteren kann. Dies gilt im besonderen Maße für Nutzer, die nur von den Bewertungen anderer 14
  13. 13. profteren, aber nicht selbst daran mitwirken („Free-Rider-Efekt“). Wünschenswert ist allerdings, dass alle Nutzer mitwirken und Netzwerkefekte entstehen können. 2.3 Personalisierte und allgemeine Empfehlungen Als erstes Unterscheidungsmerkmal der unterschiedlichen Verfahren wird häufg ausge- wählt, ob das System personalisierte, d.h. auf einen Nutzer zugeschnite, Empfehlungen gibt. Insbesondere Bewertungsplatormen wie die Nachrichtensammlung Digg1 geben auf der Startseite keine personalisierten Empfehlungen ab, sondern aggregieren aus den Bewertungen der Digg-Nutzer Empfehlungen von Nachrichten, die für alle Besucher der Seite gelten. Registrierte Nutzer bekommen jedoch auch ihr Profl zugeschnitene Emp- fehlungen (s. Abbildung 1). Ebenso keine personalisierten Empfehlungen in diesem Sinne geben beispielsweise Sys- teme, die zu einzelnen Produkten oder Webseiten weiterführende oder ähnliche Pro- dukte und Webseiten anbieten, wenn diese Empfehlungen nicht aufgrund des Nutzer- profls gegeben werden, sondern bei jedem Nutzer gleichermaßen angezeigt werden. Abbildung 1: Allgemeine Nachrichtenempfehlungen und die personalisierte Empfehlungsmaschine bei Digg Quelle: htp://digg.com (02/2010) Als registrierter Nutzer erhält man bei Digg jedoch personalisierte Empfehlungen für Ar- tkel: Vorgeschlagen werden Beiträge, die Nutzer mit einem ähnlichen Profl gut fnden. Personalisierte Empfehlungssysteme können auch die Nutzer-History berücksichtgen und (auch ohne Berücksichtgung anderer Nutzerprofle) Empfehlungen geben (Tanaka, Hori & Yamamoto 2008). Im Folgenden stellen wir die zwei grundsätzlich unterschiedliche Verfahren vor, die bei Empfehlungssystemen eingesetzt werden: das inhaltsbasierte sowie das kollaboratve Filtern. 2.4 Inhaltsbasiertes Filtern Das inhaltsbasierte Filtern hängt stark von den Objekten ab, die empfohlen werden sol- len: Bücher, Videos, Fotos, Musikdateien und andere Produkte sind dabei unterschied- lich beschrieben und nutzen auch unterschiedliche Metadatenformate. Die Eigenschaf- ten der Objekte sind die Basis für die Empfehlungen. Was andere Nutzer machen, spielt also keine Rolle. Folgende Abbildung gibt einen Überblick über die Prozesse beim in- haltsbasierten Filtern, die wir im Folgenden genauer vorstellen. 1 htp://digg.com, Stand 02/2010 15
  14. 14. Abbildung 2: Überblick über das Vorgehen bei inhaltsbasierten Empfehlungen Quelle: Nutzung von Abbildungen von Artkeln der folgenden Zeitschrifen: Oberbadisches Volksblat, Ahlener Zeitung, Rheinische Zeitung, Kleine Zeitung Eigenschafsanalyse Die Datenbasis des Systems kann beim inhaltsbasierten Filtern grundsätzlich unter- schiedlich erlangt werden: | Die Elemente können mit Hilfe von Experten beschrieben werden. Insbesondere Ler- nempfehlungen in Lernumgebungen werden aufgrund von Angaben von Experten, i.d.R. der Lehrenden gegeben. Dazu werden beispielsweise im Lernmanagementsys- tem Angaben zum Aufau der Lerneinheiten gemacht, welches Modul beispielsweise welchem Modul folgt bzw. folgen sollte. Eine Reihe von weiteren Empfehlungssyste- men verwenden Metadaten von Objekten, ohne dass spezifsche weitere Auswertun- gen vorgenommen werden: So können Bücher von gleichen Autoren empfohlen wer- den oder Bücher, die in der gleichen Rubrik veröfentlicht wurden. | Davon unterscheiden sich Empfehlungssysteme, die zu empfehlende Objekte bzw. deren Nutzer erst weiteren Auswertungen und Analysen unterziehen, um entspre- chende Daten zu erhalten. Viele Empfehlungssysteme greifen nicht auf explizite Ele- mentbeschreibungen wie z. B. Metadaten zurück. Of sind Eigenschafen der Empfehlungselemente eben noch nicht bekannt oder be- schrieben, sondern müssen erst analysiert werden (in der Abbildung 2 mit „a“ gekenn- zeichnet). 16
  15. 15. Auch für andere Formate wie Videos, Audios und Bilder gibt es Verfahren der automat- schen Analyse. Erprobter und sehr häufg im Einsatz sind bei Empfehlungssystemen je- doch vor allem Eigenschafsanalysen von Texten. Auf diesen Bereich gehen wir daher im Folgenden besonders ein. Eigenschafsanalyse am Beispiel von Texten Besonders bei Texten müssen deren Besonderheiten erst vom Empfehlungssystem fest- gestellt werden. Die Verfahren zur Analyse von Eigenschafen von Texten heißt „Feature Selecton“ bzw. eben Eigenschafsanalyse (vgl. Klahold, 2009, 42). Dazu gibt es eine Rei- he von Verfahren, die diese Analyse ermöglichen. Bei Texten ist es wichtg, die Schlüssel- worte (bzw. Stchworte) zu erhalten, die zentrale Bedeutung für den Text haben (siehe Klahold, 2009, 42f). Dabei kommen Verfahren der Informaton Extracton (auf Deutsch „Informatonsgewinnung“), zum Einsatz, also semantsche wie statstsche Verfahren (s. Knoth, Schmidt & Smrž, 2008). Nicht zuletzt durch Empfehlungssysteme ist die Nachfra- ge und Zitatonshäufgkeit von einschlägigen Werken wie „Informaton to modern infor- maton retrieval“ von Salton und McGill (1986) oder „Informaton Retrieval von van Rijs- bergen (1979) immer noch hoch (s. Heymann, 2004). Im Folgenden zeigen wir ein typisches Verfahren am Beispiel von vier Ausschniten aus Liedtexten. Hier werden zunächst Wörter, die in der deutschen Sprache sehr häufg sind und keinen Mehrwert für die Diferenzierung von Texten haben, gestrichen und nicht weiter ausgewertet. In solchen „Stopplisten“ stehen typischerweise Worte wie „auch“, „als“, „an“, „keine“, „kann“, „sind“, „oder“ sowie „und“. In der folgenden Tabelle wird ge- zeigt, welche Wortlisten sich aus drei Beispielsätzen ergeben, wenn Stopplistenwörter gestrichen werden, Wiederholungen gelöscht sowie Wörter auf ihre Grundformen zu- rückgeführt werden. Originalsatz (Liedtexte) Nach Streichung der Stoppwörter Text A „Wir tanzen Tango und möglichst lang. Es spielt sich eng wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng bei dem Gedräng.“ Text B „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, eins, zwei, Eins, zwei, drei, vier, beide Hände reich ich dir.“ drei, vier, beide, Hände, reich, ich, dir Text C „Oh, Donna Clara, ich hab dich tanzen gesehn, und deine oh, Donna, Clara, ich, tanzen, gesehn, deine, Schönheit, Schönheit hat mich toll gemacht.“ mich, toll, gemacht Text D „Komm, tanz den Tango mit mir! Und folge mir im Tango- komm, tanz, Tango, mir, folge, mir, Tangoschrit, hier, ich, schrit hier! Ich tanz den Tanz ganz lange mit dir.“ tanz, Tanz, ganz, lange, dir Tabelle 2: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten. Quelle: Textauszüge von Nina Hagen, Volksgut, Comedian Harmonists und Bodo Wartke Folgende Verfahren zur Textanalyse werden in der Praxis häufg eingesetzt: | Das Verfahren „Term Frequency – Inverse Document Frequency“ (kurz TF/IDF) ist ein statstsches Verfahren: Es zählt alle Wörter im Text. Wörter, die dabei in allen Texten (im gesamten Korpus) vorkommen, erhalten ein geringes Gewicht. Wörter, die nur in wenigen Texten vorkommen, erhalten ein größeres Gewicht und werden zur Be- schreibung eines Textes bedeutsamer eingeschätzt. Dabei werden in aller Regel auch Stemming- bzw. Lemmatsierungs-Verfahren eingesetzt, d.h. Worte werden auf ihre Stammformen gebracht, um beispielsweise unterschiedliche Beugungsformen kor- rekt zu zählen. 17
  16. 16. | Der Ansatz der „Mutual Informaton“ berechnet die Wahrscheinlichkeit, dass zwei Worte gemeinsam in einem Text vorkommen. Durch den Vergleich der Wahrschein- lichkeit des gemeinsamen Aufretens mit der des unabhängigen Aufretens der Wort- paare wird ein Ähnlichkeitsmaß von Texten berechenbar. Diese Ansätze wurden vielfältg präzisiert und weiterentwickelt, beispielsweise sind das „Okapi Weightng Scheme“ und das Okapi-BM2-Verfahren Weiterentwicklungen des TF/IDF-Verfahrens (s. Cummins & O’Riordan, 2006). Ein weiteres patentertes Verfahren ist das Latent Semantc Indexing. Marco Kalz beschreibt es im Expertengespräch (s. S. 65). Bei solchen statstschen Verfahren werden v.a. Wörter gezählt und seltener semant- sche Bezüge ausgewertet. Verwandte Wörter bzw. die Wortbedeutungen zu berücksich- tgen wird v.a. durch Einbezug von Thesauri, Synonym-Lexika und Wörterbüchern mög- lich. Bei mehrdeutgen Wörtern wie „Bank“ können beispielsweise über die assoziierten Wörter weitere Zuordnungen vorgenommen werden. Trit das Wort „Bank“ beispiels- weise im Zusammenhang mit „Kredit“, „Überweisung“ auf, passt dieser Beitrag wohl eher zu einem Artkel mit Beiträgen zu Geldinsttuten als zu anderen Beiträgen zur Sitz- gelegenheit „Bank“ (siehe ausführlich bei Klahold, 2009, 48). Ein Verfahren, das ebenso Wortbedeutungen auswertet ist der Ansatz der „Named Entty Recogniton“: Hier wer- den sogenannte „Enttätstypen“ durch die Stellung im Satz identfziert. Beispielsweise können das Personen, Firmen oder Orte sein, die aufgrund der Stellung im Satz, der Häufgkeit oder auch durch Abgleich mit Listen als Personennamen, Firmennamen oder Ortsnamen identfziert werden. Für Empfehlungssysteme wurden eigene Heuristken dafür entwickelt, welche Wörter wichtg sind bzw. den Inhalt des analysierten Textes widerspiegeln. Für ein Empfehlungs- system von Webseiten, dem InfoFinder, wurde beispielsweise folgende Heuristk einge- setzt (Krulwosh & Burkey, 1997; Übersetzung in Klahold, 2009, 112): | Worte, die in einer Stoppwortliste, stehen sind grundsätzlich unwichtg, | komplet groß geschriebene Worte sind wichtg (Vermutung, es handelt sich um ein Akronym), | in Klammern oder Anführungszeichen stehende Worte nach einem komplet groß ge- schriebenen Wort sind wichtg (Vermutung, es handelt sich dabei um eine Defniton eines Akronyms), | anders formaterte Wortolgen von zwei bis drei Worten, die kein eigenständiger Satz sind, sind wichtg (Vermutung, es handelt sich um die erstmalige Verwendung eines wichtgen Wortes), | Worte in Aufzählungen, Überschrifen, Bildunterschrifen, Tabellenspalten und -zei- len sind wichtg, | ofmals wiederholte Wortolgen sind wichtg, | Substantve in direkter Folge sind wichtg (Vermutung, es handelt sich um einen Fachbegrif), | Worte, die Sonderzeichen (beispielsweise einen Bindestrich), Zifern oder Großbuch- staben enthalten, sind wichtg. 18
  17. 17. Darstellung und Speicherung der Eigenschafen Eine einfache Darstellung von Eigenschafen eines Textes ist die einfache unstrukturierte Sammlung der Schlüsselworte („Bag of Words“, Klahold, 2009, 58). In der Regel werden die Eigenschafen in Form von Vektoren dargestellt (s. Klahold, 2009, 56f; Abbildung 2 mit „b“ gekennzeichnet). Texte werden dabei i.d.R. mit Vektoren repräsentert, die so viele Komponenten haben, wie der Korpus Worte besitzt. Anhand der Ähnlichkeit von Vektoren wird auf die Ähnlichkeit der analysierten Texte geschlossen (s. Abschnit 2.6, S. 25) Am obigen Beispiel der Liedtexte dargestellt (s. Tabelle 2, S. 17), können Vektoren bei- spielsweise folgendermaßen aussehen: Schlüsselworte Vektoraufau: wir, tanzen, Tango, möglichst, lange, spielt, eng, Gedräng, Zahl der eins, zwei, drei, vier, Brüderchen, komm, tanz, mir, beide, Hände, reich, ich, Schlüssel- dir, oh, Donna, Clara, gesehn, deine, Schönheit, mich, toll, gemacht, folge, worte ohne Tangoschrit, hier, Tanz, ganz Wiederho- lungen Text A wir, tanzen, Tango, mög- VRA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 8 lichst, lange, spielt, eng, VBA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) Gedräng Text B eins, zwei, drei, vier, Brü- VRB=(0,0,0,0,0,0,0,0,2,2,2,2,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 14 derchen, komm, tanz, mir, VBB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) eins, zwei, drei, vier, beide, Hände, reich, ich, dir Text C oh, Donna, Clara, ich, tan- VRC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 11 zen, gesehn, deine, Schön- VBC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) heit, mich, toll, gemacht Text D komm, tanz, Tango, mir, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,2,2,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) 12 folge, mir, Tangoschrit, VRD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) hier, ich, tanz, Tanz, ganz, lange, dir Tabelle 3: Darstellung der Schlüsselworte in Vektoren mit reellen und binären Komponenten In der Darstellung wird die Zahl der entsprechenden Worte im Vektor dargestellt. Mög- lich ist auch eine binäre Darstellung, bei der „1“ für „vorhanden“ und „0“ für „nicht vor- handen“ steht. Vektoren mit mehr als drei Dimensionen lassen sich dabei kaum bildlich vorstellen. In der Darstellung wird die Zahl der entsprechenden Worte im Vektor darge- stellt. Schon beim Betrachten der Vektoren kann man sich vorstellen, welche Vektoren ähnlich sind. Vergleich der Empfehlungselemente Sind die Eigenschafen von Empfehlungselementen analysiert bzw. bekannt, wird beim inhaltsbasierten Filtern ein Vergleich zwischen den Empfehlungselementen vorgenom- men. Dazu stehen wiederum unterschiedliche Verfahren bzw. Algorithmen zur Verfü- gung (in der Abbildung c). Typischerweise wird die Ähnlichkeit von Elementen als nütz- lich empfunden, um darauf aufauend Empfehlungen auszusprechen. Wir stellen ausge- wählte Verfahren in Abschnit 2.6 vor (s. S. 25). 19
  18. 18. Bei der Entscheidung für ein oder mehrere Verfahren bzw. einen Algorithmus ist es wichtg, dass die Ergebnisse in einer angemessenen Zeit zur Verfügung stehen: „Um die Laufzeitkomplexität zu reduzieren muss die Eigenschafsanalyse ein möglichst gutes Ver- hältnis zwischen der Menge der Eigenschafen und der dadurch gegebenen diskriminie- renden Wirkung bezüglich der Empfehlungselemente erzielen“ (Klahold, 2009, 42). Fallbezogenes und eigenschafsbezogenes Filtern Es können zwei Arten des inhaltsbasierten Filterns unterschieden werden. Zum einen werden beim eigenschafsbezogenen Filtern (Engl. „atributon based“) Emp- fehlungen aufgrund der Übereinstmmungen des Profls der Nutzer (z. B. seinen Qualif- katonen) mit den Elementen (z. B. Stellenanzeigen) gegeben (siehe Abbildung 3, rechts). Zum anderen werden beim fallbezogenen Verfahren (Engl. „case based“) personalisierte Empfehlungen auf Basis der Ähnlichkeiten von Elementen gegeben (siehe Abbildung 3, links): Hat jemand z. B. einen Text zu Delphinen hoch bewertet, so wird er weitere Texte zu diesem Thema vorgeschlagen bekommen. Abbildung 3: Inhaltsbasiertes Filtern: eigenschafsbezogenes (links) und fallbezogenes Filtern (rechts) Quelle: Darstellung in Anlehnung an Kim, 2006, abgebildet in Drachsler, 2009 20
  19. 19. Beispiele für Empfehlungssysteme mit inhaltsbasiertem Filtern Ausgewählte Beispiele für Empfehlungssysteme, die auf inhaltsbasiertem Filtern beru- hen, werden in Klahold (2009, 102f) vorgestellt und hier zusammengefasst. Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur lungsele- ment Informaton E-Mail E-Mails erhalten Manuelle Ergänzung Manuelle Erstel- Regelbasiert Malone, Grant, Lense Metadaten (Ort, der Metadaten lung des Interes- (einfache Über- Turbak (1986) Produkt etc.) sensprofls durch einstmmung) Nutzer Infoscope Usenet- Vorhandene Filterre- Heuristk, manuelle Manuelle Pfege regelbasiert Fischer & Ste- Nachrichten geln für eine „virtu- Metadaten, Text- vens (1991) elle“ Newsgroup struktur, NLP, Basis- werden bewertet korpus-Statstk, TF- IDF-Derivat Letzia Webseiten Webseiten (Subsei- TF-IDF-Derivat Manuelle Pfege Cosinus-Ähn- Liebermann ten oder Links) wer- (Schlüsselworte) lichkeitsmaß (1995) den empfohlen WebWatcher Webseiten Hyperlinks auf Web- TF-IDF-Derivat Manuelle Pfege Mutual Infor- Armstrong, Frei- seiten und neue (Interessensspezif- maton tag, Joachims & Webseiten werden katon) Mitchell (1995) empfohlen u.a. Syskill & We- Webseiten Webseiten werden TF-IDF-Derivat Auf Basis von Be- Naiver-Bayes- Pazanni, mUra- bert empfohlen wertungen des Klassifkator matsu & Billsus Nutzers von Web- (1996) seiten (Schlüssel- worte) InfoFinder Webseiten Webseiten werden Heuristk Auf Basis von Be- ID3-Algorithmus Krulwosh & Bur- empfohlen wertungen des key (1997) Nutzers (Smiley anklicken) LIBRA Bücher Bücherempfehlun- Manuelle Metada- Auf Basis von Naiver-Bayes- Mooney & Roy gen ten Buchbewertungen Klassifkator (2000) des Nutzers Tabelle 4: Übersicht über ausgewählte Empfehlungssysteme, die inhaltsbasiertes Filtern verwenden. Quelle: Klahold, 2009, 102f Die hier genannten Verfahren zur Distanzermitlung werden in Abschnit 2.6 (S.25) be- schrieben. 21
  20. 20. 2.5 Kollaboratves Filtern Beim kollaboratven Filtern werden Empfehlungen aufgrund anderer ähnlicher Benutzer- profle gegeben (Klahold, 2009, 62f). Folgende Abbildung gibt einen Überblick über das Verfahren, dass wir im Folgenden detaillierter beschreiben. Abbildung 4: Überblick des Vorgehens beim kollaboratven Filtern Implizite und explizite Bewertungen Grundlage für das kollaboratve Filtern sind die Bewertungen von Nutzern (siehe Abbil- dung 4 mit „a“ gekennzeichnet). Diese können implizit durch Auswertung des Nutzerver- haltens generiert werden, zum Beispiel kann vermerkt werden, welche Elemente an- geklickt und/oder länger betrachtet wurden oder was gekauf wurde. So wird bei WAIR, einem Empfehlungssystem für Webseiten, die Bewertung einer Webseiten nicht explizit durch den Nutzer erbeten: Bewertungen von Webseiten werden hier aus dem Nutzer- verhalten abgeleitet beispielsweise der Lesedauer, Setzen von Lesezeichen, Scrollen, Be- nutzen von Hyperlinks (in der Webseite; s. Seo & Zang, 2000; Klahold, 2009, 133f). Häu- fg werden jedoch auch explizite Bewertungen der Nutzer erbeten, beispielsweise auf ei- ner Skala mit fünf Sternen. Unterschiedliche Verfahren kollaboratven Filterns Mit Hilfe dieser Daten wird nun berechnet, wie relevant ein Empfehlungselement für einen Nutzer ist. Dazu gibt es beim kollaboratven Filtern wiederum mindestens vier An- sätze zu unterscheiden (in der Abbildung 4 mit „b“ gekennzeichnet, Klahold, 2009, 62f; Kim, 2006; Drachsler, 2009 u.a.). 22
  21. 21. Abbildung 5: Nutzer- und elementbasiertes kollaboratves Filtern Quelle: Darstellung in Anlehnung an Kim, 2006; abgebildet in Drachsler, 2009 (i) Beim nutzerbezogenen Algorithmus wird festgestellt, welche Nutzer besonders ähn- lich sind und deren Bewertungen eines Empfehlungselement als Relevanzmaß festge- legt: Was ähnliche Nutzer als gut befnden, erhält eine hohe Relevanz und wird dem Nutzer empfohlen (in der Abbildung 5 links). (ii) Beim elementbezogenen Algorithmus werden eigene, als gut bewertete Elemente ge- nommen und dann wird paarweise nach Elementen gesucht, die ebenso gut bewertet werden. Die Relevanz berechnet sich beispielsweise in Form eines „gewichteten Durch- schnits der Bewertungen des Benutzers für die (..) ähnlichsten Empfehlungselemente“ (Klahold, 2009, 65, in der Abbildung 5 rechts). Abbildung 6: Modell- bzw. speicherbasiertes Verfahren beim kollaboratven Filtern (iii) Beim modell- bzw. speicherbasierten Verfahren werden alle Benutzerdaten und das Benutzerverhalten in den Filterprozess eingebunden. Dabei kommen multvariate Ver- fahren zum Einsatz, die am Ende von Abschnit 2.6 (S. 25) beschrieben werden, bei- spielsweise K-Means-Clustering. (iv) Wenn die Zuordnung nicht aufgrund solcher Verfahren, sondern auf Basis einfacher Angaben wie beispielsweise Alter und Geschlecht erfolgt, werden darauf beruhende Empfehlungen für Elemente, die Gleichaltrige und Gleichgeschlechtliche als stereotypes bzw. demographisches kollaboratves Filtern bezeichnet (siehe z. B. Drachsler, 2009, 57). 23
  22. 22. Beispiele von Empfehlungssystemen für kollaboratves Filtern Ausgewählte Beispiele für Empfehlungssysteme, die auf kollaboratven Filtern beruhen, werden in Klahold (2009) vorgestellt und hier zusammengefasst. Name Empfeh- Kurzbeschreibung Eigenschafsanalyse Proflbildung Distanzmaß Literatur lungsele- ment Tapestry E-Mails Anzeige von E-Mails, Relevanzbewertung Manuelle Pfege regelbasiert Goldberg u.a. die von anderen durch Nutzer (muss Nutzer aus- (1992) Nutzern als relevant wählen, dessen eingestuf werden Einschätzungen man nutzen will) Ringo Musik Vorschläge für Inter- Bewertungen durch Bewertung von Regelbasiert Shardanand & preten und Alben Nutzer Musikstücken (benutzerbezo- Maes (1995) gener Korrelat- onskoefzient) Group Lense Usenet- In Newsgroup-Rea- Bewertungen auf ei- Bewertung von Pearson Korre- Resnick u.a. Nachrichten dern werden Nach- ner Skala von 1-5 Usenet-Nachrich- latonskoefzi- (1994) richten gekennzeich- ten ent net Siteseer Bookmark- Browser-Bookmark- Manuelle Metada- Bookmarks und Nearest-Neig- Rucker & Polanco Empfehlun- vergleich ten und Bookmarks ihre Gruppierun- bours-Verfahren (1997) gen gen Jester (Eigen- Witze Witzempfehlungen Bewertung auf Initale Bewertung Nearest-Neig- Goldberg u.a. taste) 200er-Skala ausgewählter Wit- bours-Verfahren (2000) ze auf 200er-Skala, Zuordnung in Be- nutzergruppen (Clusteranalyse, 40 Gruppen) Amazon Bücher Bücherempfehlun- Kaufverhalten (ele- Weitere Empfeh- Kosinus-Ähn- Linden, Smith & gen „Käufer dieses mentbasiertes kolla- lungen zu aktuell lichkeitsmaß York (2003) Buches kaufen boratves Filtern) aufgerufenen Bü- zwischen Buch- auch...“ chern vektoren SurfLen Webseiten Empfehlungen im Webseitenaufrufe Weitere Empfeh- Heuristk Fu, Budzik & Browser-Plugin (elementbasiertes lungen zu aktuell Hammond (2000) kollaboratves Fil- aufgerufenen Web- tern) seiten Tabelle 5: Übersicht über ausgewählte Empfehlungssysteme die kollaboratves Filtern verwenden. Quelle: Klahold, 2009, 87f In dieser Übersicht werden, wie auch schon beim inhaltsbasierten Filtern, Verfahren der Ähnlichkeitsfeststellung genannt, auf die wir im Folgenden eingehen werden. 24
  23. 23. 2.6 Verfahren der Ähnlichkeitsfeststellung von Nutzern bzw. Elementen Beim inhaltsbasierten wie beim kollaboratven Filtern wird in aller Regel versucht, ähnli- che Nutzer bzw. ähnliche Elemente zu identfzieren: Es werden entweder ähnliche Nut- zerprofle oder auch ähnliche Elemente gesucht, um daraus Empfehlungen abzuleiten. Dazu kommen beim inhaltsbasierten und kollaboratven Filtern die gleichen Methoden zum Einsatz. Einige davon beschreiben wir im Folgenden kurz: Zum einen kommen dabei Verfahren, die Distanzen zwischen bzw. Ähnlichkeiten von Vektoren berechnen zum Ein- satz, denn wie oben dargestellt sind Vektoren die übliche Darstellung von Eigen- schafsproflen. Zum anderen werden Verfahren eingesetzt, die versuchen, Empfeh- lungselemente oder auch Nutzergruppen zuzuordnen. Distanzen und Ähnlichkeitsmaße von Vektoren Wenn es darum geht, „ähnliche“ Elemente zu empfehlen, müssen Aussagen über die Ähnlichkeiten von (allen) Elementen eines Korpus von möglichen Empfehlungselemen- ten vorliegen. Es gibt eine Vielzahl von Möglichkeiten, Aussagen über Ähnlichkeiten von Vektoren zu generieren. Bei den Verfahren werden in aller Regel zwei Vektoren miteinander verglichen. | Ein einfaches Verfahren beruht darauf zu zählen, wie of an der gleichen Stelle eines Vektors eine „1“ vorkommt, d.h. in unserem Beispiel, zu zählen, wieviele gemeinsa- me Worte zwei Texte aufweisen. Schnell wird allerdings klar, dass so längere Texte mit diesem Verfahren deutlich häufger „Ähnlichkeiten“ aufweisen als kürzere. Hier sind Korrekturen vorzunehmen. Folgende beiden Koefzienten wurden daher u.a. entwickelt. | Der Overlap-Koefzient berechnet sich aus dem Quotenten der gemeinsamen Wort- menge und der kleineren der beiden Wortmengen und kann als „Maß für die wech- selseitge Inklusion“ interpretert werden (Klahold, 2009, 73). Für den Vergleich von Vektor B und Vektor D des Beispiels berechnet er sich folgendermaßen: 5/12=0,42; 5 ist dabei die Zahl der gemeinsamen Worte, 12 die kleinere Wortmenge beider Vekto- ren. | Der Dice-Koefzient berechnet sich dem Quotenten der doppelten Anzahl der ge- meinsamen Worte und der Summe der Worte beider Wortmengen. Die Beziehung wird auch hier aus dem Grad des gemeinsamen Vorkommens von Worten abgeleitet. Im Beispiel berechnet sich der Koefzient für die Vektoren B und D folgendermaßen: 2*5/(14+12)=0,38; 5 ist dabei die Zahl der gemeinsamen Worte, 14 die Zahl der Wor- te von Vektor B, 12 die Zahl der Worte von Vektor D. Bei beiden Koefzienten kennzeichnen also höhere Werte eine größere Ähnlichkeit der Vektoren. Exemplarisch zeigen wir die Ergebnisse dieser Berechnungen an unserem Bei- spiel des Vergleichs von Liedertexten (s. Tabelle 2, S. 17 Und Tabelle 3, S. 19). 25
  24. 24. Ver- Vektoren gemein- Overlap- Dice-Koef- Pearson Kor- gleich same Koefzient zient relatonsko- Wort- efzient menge A,B VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,43 VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) B,C VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 1 0,09 0,08 -0,41 VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) C,D VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) 1 0,09 0,09 -0,34 VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) A,C VA=(1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 0 0,00 0,00 -0,21 VC=(0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,1,1,1,1,1,1,1,1,1,0,0,0,0,0) B,D VB=(0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 5 0,42 0,38 0,04 VD=(0,0,1,0,1,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,1,1,1,1,1) Tabelle 6: Ausgewählte Koefzienten zum Vergleich von Vektoren In unserem Beispiel zeigt sich durch die Berechnung dieser Koefzienten (s. Tabelle 6), dass die Zeilen „Eins, zwei, drei, vier, Brüderchen, komm tanz mit mir. Eins, zwei, drei, vier, beide Hände reich ich dir“ sowie „Komm, tanz den Tango mit mir! Und folge mir im Tangoschrit hier! Ich tanz den Tanz ganz lange mit dir“ die größte Ähnlichkeit im Bezug auf die ihre (auf simple Weise extrahierten) Schlüsselwörter haben. Das Beispiel macht also auch deutlich, dass das Verfahren der Text-Extrahierung nicht immer brauchbare Er- gebnisse für nützliche Empfehlungen ergeben. Es erscheint wenig wahrscheinlich, dass jemand der ein Kinderlied mag, die Empfehlung eines Schlagers als sehr nützlich ein- schätzt. Schließlich gibt es weitere Verfahren der Ähnlichkeitsberechnungen, die das Streuungs- verhalten der Vektoren vergleichen (Klahold, 2009, 71): Der Pearson-Korrelatonskoef- zient vergleicht so die jeweiligen Abweichungen von den mitleren Werten für jede Ei- genschaf und kann Werte von -1 bis +1 ergeben. Eine negatve Korrelaton (-1) würde in unserem Beispiel bedeuten, dass die beiden zu vergleichenden Vektoren quasi spiegel- bildlich aufgebaut sind, z. B. V1=(0,0,1,1) und V2=(1,1,0,0). Gleiche bzw. ähnliche Vekto- ren würden hoch korrelieren (bis max. +1). Distanzen sind „der klassische Weg, die Dimension der 'Ähnlichkeit' mathematsch bere- chenbar zu machen“ (Klahold, 2009, 68). Im Folgenden werden zwei Beispiele für Di- stanzberechnungen vorgestellt: | Der Euklidische Abstand ist „die Wurzel der Summe der quadrierten Diferenzen über alle Koordinaten“ (Rahnenführer, 2009, 8). Im zwei- bzw. dreidimensionalen Raum ist der Euklidische Abstand der Abstand zwischen zwei Punkten im Koordinatensystem. | Der „Manhatan Abstand“ oder auch „City-Block-Abstand“ ist die „Summe der abso- luten (unquadrierten) Diferenzen über alle Koordinaten“ (Rahnenführer, 2008, 9). Im zweidimensionalen Raum ist der Manhaten-Abstand der Weg, den man gehen muss, wenn man nicht zu einem anderen Punkt geht, sondern sich nur in Richtung der Di- mensionen bewegen kann. In der Darstellung erinnern diese Abstände an die recht- winkligen Straßenpläne des Zentrums von New York. Ein weiteres Maß, das häufg eingesetzt wird, ist das Cosinus-Ähnlichkeitsmaß. Es be- rechnet den Unterschied zwischen den Winkeln der Vektoren durch deren Cosinus. Zwar 26
  25. 25. lässt sich dieses Vorgehen insbesondere bei den vieldimensionalen Vektoren unserer Beispiele bildlich kaum vorstellen, es handelt sich dabei allerdings um ein Standardver- fahren des Vektorenvergleichs. Je ähnlicher sich Vektoren sind, desto kleiner ist der Win- kel zwischen ihnen (s. Klahold, 2009, 72). Bei der Wahl eines Verfahrens sind neben der Laufzeitkomplexität auch weitere grund- sätzliche Überlegungen wichtg. Beispielsweise ist zu überlegen, ob grobe Unterschiede bei den Abweichungswerten (Streuungsmaß) der einzelnen Eigenschafen durch eine Normalisierung ausgeglichen werden sollten. Umgekehrt könnte auch überlegt werden, ob es Eigenschafen gibt, die wichtger bzw. unwichtger bei der Berechnung der Ähn- lichkeit sind und dementsprechend Gewichtungen vorgenommen werden sollten. Bei- spielsweise würde ein gleichwertger Einbezug aller Eigenschafen von Kleidungsstücken auf einer Handelsplatorm kaum nützliche Empfehlungen für Käufer ergeben: Hohe Zu- sammenhänge bzw. Ähnlichkeitsmaße würden sich typischerweise für die gleichen Pro- dukte in unterschiedlichen Konfektonsgrößen ergeben. Nützliche Empfehlungen sind je- doch eher passende oder ergänzende Kleidungsstücke in der gleichen Konfektonsgröße, beispielsweise das Hemd zur Jeans in der gleichen Konfektonsgröße (siehe auch Ab- schnit 2.7, S. 28). Klassifkatonsverfahren Während die bisher vorgestellten Verfahren versuchen, jedes Element in einem System miteinander zu vergleichen, versuchen die folgenden Verfahren, Elemente zu gruppie- ren. Empfohlen werden dann Elemente aus einer Gruppe. In der Regel werden die Grup- pen mit Trainingsdaten bzw. der aktuellen Version des Korpus unter Einbezug von Exper- tenwissen gebildet; weitere Elemente werden dann den Gruppen zugeordnet. Das Spek- trum an multvariaten Verfahren stellt zahlreiche Möglichkeiten und Ansätze zur Verfü- gung. Im Folgenden möchten wir nur kurz einige Ansätze skizzieren (s. Klahold, 2009, 77f): | Das Minimum-Descripton-Length-Verfahren verfolgt den Ansatz, dass ein Empfeh- lungselement immer derjenigen Klasse zugeordnet wird, bei deren erweiterter binär- codierten Darstellung am wenigsten Speicherplatz benötgt wird. Es basiert also auf der Annahme, dass das kompakteste Modell optmal ist. | Der Naive-Bayes-Klassifkator berechnet die bedingte Wahrscheinlichkeit, dass ein Empfehlungselement einer Klasse zugehörig ist. Es wird dabei von der (naiven) An- nahme ausgegangen, dass alle Atribute unabhängig voneinander aufreten. | Beim ID3-Verfahren wird mit Trainingsdaten ein Entscheidungsbaum aufgebaut. Dazu durchläuf ein Algorithmus die Daten, der jeweils diejenigen Eigenschafen (Vektor- positonen) auswählt, die den Korpus am deutlichsten teilen. Das kann bei Personen beispielsweise das Rauchverhalten sein (Raucher bzw. Nichtraucher). Alle Elemente werden dann in diesem Baum zugeordnet. | K-Means-Clustering ist das klassische Clustering-Verfahren. Besonderheit beim Clus- tering ist, dass die Gruppierungen erst im Verfahren entstehen und nicht schon vor- her bekannt sind. Es werden willkürlich im Vektorenraum Punkte ausgewählt und es wird geschaut, ob diese brauchbare „Zentren“ für Ansammlungen von Elementen (im mehrdimensionalen Vektorraum) sind. Dann wird solange iteratv verbessert, bis pas- sende „Cluster“ entdeckt und ausgewählt sind. 27
  26. 26. Soziale Netzwerkanalyse als alternatver Ansatz für die Ähnlichkeitssuche beim kolla- boratven Filtern Neben den oben beschriebenen „klassischen“ Verfahren der Ähnlichkeitsfeststellung gibt es Versuche, auch die Soziale Netzwerkanalyse als eigenständiges Verfahren für Empfehlungssysteme fruchtbar zu machen. Typischerweise spannen sich Kontakte und Kommunikaton wie ein Netz auf: Man kommuniziert mit jemandem, der wiederum mit anderen kommuniziert. Aus den Sozialwissenschafen gibt es mit der sozialen Netzwerk- analyse ein Verfahren, das die Vernetzung berechnen und darstellen lässt. Es kann also auch Nähe berechnet werden. Nun steckt hinter der Verwendung der sozialen Netz- werkanalyse in Empfehlungssystemen die Absicht, ein alternatves Instrument zur Be- rechnung von „Nähe“ zu erproben. Es gibt dazu erste Untersuchungen, die dermaßen generierte Empfehlungen mit herkömmlich generierten Empfehlungen vergleichen und mit beiden Verfahren ähnliche Ergebnisse erzielen (Kamper, Meyer & Reichart, 2008). 2.7 Ähnlichkeit und weitere Kriterien Häufg wird das Kriterium der Ähnlichkeit als Grundlage für Empfehlungen gewählt. So werden beispielsweise in Online-Shops Bücher mit ähnlichen Inhalten angeboten, weil man davon ausgeht, dass diese für den potenziellen Käufer interessant sind. Es wird da- von ausgegangen, dass Nutzer mit ähnlichem Profl auch ähnliche Interessen und Ge- schmack haben, so dass darauf aufauend nützliche Empfehlungen entstehen können. Allerdings ist das Kriterium der Ähnlichkeit nicht immer hilfreich. So kann es sein, dass bei der Suche nach einem portugiesischen Restaurant auch andere Restaurants empfoh- len werden, die ähnlich sind: Wenn diese jedoch in einem weit enternten Ort liegen, am gesuchten Tag geschlossen haben usw., ist die Ähnlichkeit kein nützliches Kriterium. Was also „nützlich“ erscheint, muss nicht zwangsläufg „ähnlich“ zu einem bestmmten Element sein oder auf Ähnlichkeiten mit anderen Benutzern beruhen. Weitere Kriterien können sein: Räumliche Nähe, Aktualität, Bewertungen, Komplementarität oder auch Vollständigkeit (siehe auch Abschnit 4.6, S. 71f). 2.8 Nachteile und Herausforderungen der Ansätze Die beiden vorgestellten Ansätze haben Vorteile, auf die im wesentlichen bereits einge- gangen wurde. Im folgenden werden kurz Einschränkungen und Herausforderungen der Verfahren beschrieben. Einschränkungen und Herausforderungen inhaltsbasierten Filterns Beim (reinen) inhaltsbasierten Filtern liegen folgende Einschränkungen und Herausfor- derungen für den Einsatz vor: | Es müssen bereits zahlreiche Daten über die zu empfehlenden Elemente vorliegen (z. B. in Form von Metadaten), durch Experten erstellt werden oder automatsch gene- riert werden. Während letzteres bei Texten, wie dargestellt, noch vergleichsweise einfach ist, ist es für textarme Materialien wie Videos, Musik und Fotos deutlich schwerer und stark eingeschränkt. | Das inhaltsbasierte Filtern vertraut nur auf die Inhalte der Objekte selbst und lässt Empfehlungen oder Erfahrungen von anderen (ähnlichen) Nutzern ausser Acht. 28
  27. 27. | Die Gewichtung der Eigenschafen von Empfehlungselementen, die bevorzugt bei Empfehlungen zum Tragen kommen sollen, ist sorgfältg vorzunehmen. So ist es beim Einkaufen im Online-Modeshop eher sinnvoll, ergänzende und passende Kleidung in der gleichen Konfektonsgröße empfohlen zu bekommen. Ein wesentlicher Vorteil der Nutzung vorhandener Daten ist beim inhaltsbasierten Fil- tern, dass solche Systeme von Anfang an „laufen“ und sinnvolle Empfehlungen geben können. Herausforderungen kollaboratven Filterns Beim inhaltsbasierten Filtern werden folgende Probleme gesehen (s. Klahold, 2009, 66f; sofern keine andere Quelle genannt): | Es gibt ein sogenanntes „Kaltstart-Problem“: Wenn eine gewisse kritsche Masse an Daten nicht vorhanden ist, können keine (sinnvollen) Empfehlungen gegeben wer- den. Voraussetzung eines solchen Systems ist also, dass es bereits eine aktve Com- munity und Nutzer bzw. generierte Daten gibt. Daher gibt es Ansätze, wie solche feh- lenden Daten, beispielsweise für neue Elemente (Neuerscheinungen) vorhergesagt werden können (s. Givon & Lavrenko, 2009). | Diese Abhängigkeit von den Aktvitäten der Nutzer ergibt auch die Herausforderung der „Spärlichkeit“: Benutzerbasierte Metadaten, die von den Benutzern selbst aktv vergeben wurden (Bewertung, Präferenzen, Empfehlungen), sind of nur spärlich vor- handen. | Das Problem der „grauen Schafe“ liegt vor, „wenn ein Benutzer bezüglich seiner Be- wertungen zwar Profl-Überdeckungen mit anderen Benutzern hat, diese aber in Sa- chen Bewertung so stark variieren, dass keine 'verwandten' Benutzer selektert wer- den können“ (Klahold, 2009, 150) Weitere Herausforderungen beziehen sich weniger auf die Datenlücken als auf die Be- sonderheiten kollaboratver Empfehlungen: | Der „Lemming-Efekt“ bezieht sich auf das Phänomen, dass Empfehlungen zu Selbst- läufern werden. Empfohlene Elemente werden häufg betrachtet oder gekauf. Da- durch wird die Relevanz „künstlich“ erhöht. Potenzielle Bestseller bei Amazon, bei- spielsweise von populären Krimiautoren, tauchen auf einmal in vielen Einkaufslisten auf; werden folglich in vielen Buchbeschreibungen als Kaufempfehlung gelistet, ob- wohl sachlich kein Zusammenhang besteht und sie bekommen dadurch eine erhöhte Aufmerksamkeit. Sprichwörtlich „wie die Lemminge“ kaufen Amazonkunden dann auf einmal ein Buch, nach dem sie ursprünglich gar nicht gesucht haben. | Wenn sich ein System nur auf die Nutzergemeinschaf „verlässt“ kann dies auch dazu führen, dass andere relevante, bzw. neue Empfehlungselemente nur schwer aufge- nommen werden, da alle mit den bereits vorhandenen Empfehlungen „eingedeckt sind“. Hier läuf das System bzw. ihre Nutzer in die Gefahr eines Tunnelblicks (Kla- hold, 2009, 118). Um solche Efekte vorzubeugen, empfehlt es sich zufällige „Emp- fehlungen“ zu geben. Aus Nutzersicht können sich weitere Schwächen ergeben. So kann es sein, dass bei- spielsweise Nutzerprofle relatv früh (bei der Registrierung) festgelegt werden und Ver- änderungen im Profl nicht unbedingt wahrgenommen werden müssen. 29
  28. 28. 2.9 Hybride Lösungen Eine Lösung, mit den Vor- und Nachteilen der beiden Ansätze des kollaboratven sowie des inhaltsbasierten Filterns umzugehen, ist die Kombinaton beider Verfahren. Tatsäch- lich wird dies inzwischen auch in vielen, wenn nicht sogar den meisten Empfehlungssys- temen im Web in dieser Weise realisiert. Bei einigen Systeme können sich Nutzer gegen- seitg „persönliche Empfehlungen“ schicken. Pfadbasierte Empfehlungen Ausgehend von der Erfahrung, dass viele die gleichen Wege nutzen um durch das Web zu navigieren, wurde das sogenannte pfadbasierte Verfahren (Engl. trail based) für Emp- fehlungen entwickelt (u.a. Gams & Reich, 2004). Dazu wurde ein Konzept entwickelt, wie solche Pfade im Web beschrieben werden können, wie Ähnlichkeiten der Pfade berech- net werden können und wie Benutzer mit ähnlichen Spuren gefunden werden können (Gams, 2005). Auf Grundlage dieser Fußspuren von Gleichgesinnten und -interessierten sollen dann Empfehlungen für die weitere Navigaton gegeben werden. Der Ansatz wur- de also für die Informatonsrecherche im Web vorgeschlagen und entwickelt. Bei Gams (2005) wurden im Experiment drei Szenarien durchgespielt und zwar jeweils mit und ohne Unterstützung durch den Empfehlungsservice. Dabei galt es vier Rechercheaufga- ben zu erledigen, u.a. mussten Projektpläne von vier Projekten gefunden werden, die mit Miteln der Europäischen Kommission ko-fnanziert wurden. Das System erhielt hier erwartungsgemäß positve Werte. Tabelle 7, 8: Durchschnitliche Zahl der Schrite und Zeiten für die Erledigung von 4 Aufgaben mit und ohne pfadbasierten Empfehlungen (n=14) Quelle: Gams, 2005, Tabellen 7.4 und 7.5, 152 Ontologiebasierte Ansätze Ontologiebasierte Ansätze verwendet weder inhaltsbasiertes noch kollaboratves Filtern wie oben beschrieben. Dieser Ansatz beruht im wesentlichen darauf, dass Ontologien verwendet werden. Mit ihrer Hilfe werden in diesem Fall auf fehlende Informatonen zu dem Nutzer geschlossen. Dadurch wird vermieden, dass die Nutzer z. B. fehlende Anga- ben in Fragebögen ergänzen müssen bzw. trotz lückenhafer Profle Empfehlungen gege- ben werden können. Ontologien sind eine Technologie, welche es erlaubt, reichhaltge Beziehungen auch für Computer berechenbar zu defnieren. Ontologien sind also kom- plexe Systeme der Datenbeschreibung, die von Experten entwickelt werden und Wis- sensbestände beschreiben. Mit ihnen lassen sich hierarchische Gliederungssysteme von Wissen (Taxonomien, z. B. Artenbeschreibungen in der Biologie), aber auch komplexe Angaben über die Relatonen von Wissen in einer Form darstellen, dass auch Computer diese verarbeiten können (vgl. Schafert u.a., 2009). 30
  29. 29. Schickel-Zuber (2007, 12) schließt bei den Einsatzmöglichkeiten die Finanzbranche, den Gaming- und den Gesundheitssektor aus. Dort würde er eher regelbasierte Ansätze ver- wenden. Für die von ihm untersuchten Anwendungsbereiche des Online-Handels mit umfangreichen Produktkatalogen hat er seinen Ansatz mit anderen Verfahren verglichen und gute Ergebnisse erhalten. Dabei zeigt sich u.a., dass der ontologiebasierte Ansatz v.a. im Bezug auf die Neuartgkeit der Empfehlungen sehr gute Werte erhält (S. 130). Die Ausarbeitungen von Schickel-Zuber (2007) wurden patentert und werden unter der Be- zeichnung „Prediggo Technologie“2 stark beworben. Tag-basierte Empfehlungen In traditonellen Medienarchiven werden Materialien zu Kategorien und Unterkategori- en zugeordnet, welche häufg auch zusätzliche Kurzbeschreibungen und Schlagworte beinhalten. Im Web hat sich ein Verfahren etabliert, das Nutzern ermöglicht, Webseiten oder andere Ressourcen (Bilder, Videos, Musikstücke) mit eigenen Schlagworten zu mar- kieren, sie zu „taggen“ (von Engl. „tag“: Etket). Mit Hilfe der Tags können andere ent- sprechende Ressourcen recherchieren; schnell haben sich populäre Webdienste entwi- ckelt (vgl. Schafert, Hilzensauer & Wieden-Bischof, 2009). Während die Erzeugung von traditonellen Metadaten eher einem ausgewählten Benutzerkreis vorbehalten ist, sind beim Social Tagging potenziell alle Benutzer beteiligt (Derntl et al., 2009). Es ist also „eine ofene, efziente Möglichkeit der Klassifkaton von Dokumenten“, weil „eine brei- te Palete von unterschiedlichen Termen für die Beschreibung eines Dokuments bereit- gestellt wird“ (Güntner, Sint & Westenthaler, 2009, 192). Tags werden als gute Datenbasis für Empfehlungen gesehen, da anzunehmen ist, dass Beiträge und Objekte ähnlich sind, wenn sie mit den identschen Tags versehen werden. Beispielsweise wird dieser Ansatz bei Librarything.com (2006) eingesetzt. Im Forschungsprojekt KiWi3 wird mit diesem Ansatz versucht, die Vorschläge für andere Wiki-Inhalte zu verbessern und auch semantsche Empfehlungen einzubauen, die auf den Tags der Nutzer des semantschen Wikis basieren (vgl. Dolog, 2009). Wir haben dazu Peter Dolog als zuständigen Experten Fragen gestellt. 2 htp://www.prediggo.com, Stand 12/2009 3 htp://www.kiwi-project.eu, Stand 02/2010 31
  30. 30. Interview mit Peter Dolog zu tagbasierten Empfehlungen ? Social Tagging ist sehr populär. Warum ist es aus Ihrer Sicht hilfreich, auf Grundlage von nutzergenierten Schlagworten Empfehlungen zu geben? ! Da gibt es zwei Aspekte des Social Tagging: den persönlichen Aspekt (eigene Tags) sowie den sozialen Aspekt, nämlich Tags von Personen in der Community, mit denen man in Beziehung steht. In beiden Fällen repräsenteren Tags Interesse, persönlicher oder gemeinschaflicher Art. Wenn daher die Tags gut kombiniert werden, kann das helfen, neue Entwicklungen, Informatonen, Diskussionen und so weiter zu fnden und aufzuzeigen. ? Tags sind manchmal nur persönliche Aufgabenbeschreibungen wie "erledigen". Wie gehen Sie mit sol- chen Tags um, die ofensichtlich für andere keinen Sinn machen? ! Es gibt immer einen Weg der Normalisierung. Einige Tags können einfach bei der Berechnung von Empfehlungen ausgeschlossen werden, wenn sie keinen Sinn machen. Das ist jedoch domänenabhängig und benötgt Konfguratonen. Aber auch "Erledigen"-Tags sind wichtg, weil sie aktuelle Aufgaben re- präsenteren, die von anderen genutzt werden können, weil sie Hinweise darauf geben, für was die Res- source nützlich sein könnte. Auch diese Tags könnten also hilfreich sein, um Ressourcen zu empfehlen, aber dies hängt vom Kontext ab. ? Was empfehlen Sie Entwicklern, die über ein tag-basiertes Empfehlungssystem nachdenken? ! Sie sollten die Tags mit zusätzlichen Informatonen verknüpfen, um sie für Empfehlungen nützlich zu machen. Dr. Peter Dolog ist Professor für „Intelligent Web and Informaton Systems“ am Computer Science De- partment der Universität Aalborg in Dänemark. Er forscht dort zu tag-basierten Empfehlungssystemen. Ein vollständiges Profl fndet sich auf seiner Homepage htp://www.cs.aau.dk/~dolog/ (12/2010) 32
  31. 31. Beispiele für hybride Empfehlungssysteme Eine Übersicht über Beispiele für solche hybriden Lösungen fndet sich in Klahold (2009): Name Emp.- Kurzbeschrei- Eigenschafsanalyse Proflbildung Distanzmaß Literatur ele- bung ment Fab Web- Einzelne Analyse TF-IDF-Derivat Erstellung und Vergleich von Cosinus-Ähnlich- Balabano- seiten zwischen Doku- Benutzerproflen (Verhalten keitsmaß, Nearest vic u.a. menten und Be- und Bewertungen) Neighbours Verfah- (1997) nutzern Empfehlungen auf Basis der ren Ähnlichkeit von Benutzern PHOAKS Web- Nach News- Manuelle Metadaten, Manuelle Erstellung des Pro- Cosinus-Ähnlich- Terveen, (People Help seiten groups gruppier- Heuristk, TF-IDF-Deri- fls durch Auswahl der News- keitsmaß, Nearest Hill, Amen- One another te Empfehlungen vat group Neighbours Verfah- to, Mc Do- Know Stuf) relevanter Web- ren nald & Cre- seiten ter (1997) Let's Browse Web- Webseiten (Sub- TF-IDF-Derivat Analyse einer „Start-Websei- Cosinus-Ähnlich- Lieberman, seiten seiten, Links) te“ (einfaches explizites keitsmaß Van Dyke & werden empfoh- Strukturprofl) sowie Verfol- Vivacqua len gung der Links (1999) CASMIR Doku- Empfehlung von TF-IDF-Derivat Erstellung eines Profls durch Cosinus-Ähnlich- Klahold mente Dokumenten die Gewichtung von Wort- keitsmaß (2009) nach Relevanz vektoren (Interesse) LaboUr Web- Auf Basis des TF-IDF-Derivat Generierung eines Benutzer- Naiven Bayes Klas- Pohl & Nick (Learning seiten Profls werden profls aus dem impliziten sifkator (NBK), (1999) about the verwandte Be- Verhalten Pearson Korrelat- User) nutzer gesucht onskoefzienten (PC) Tango Artkel Noch nicht gele- Manuelle Metadaten, Manuelle Pfege (Kategorien, Overlap Koefzient Claypool sene Artkel wer- TF-IDF-Derivat, Schlüsselworte) (OK), Pearson Kor- u.a. (1999) den empfohlen Bewertung von Artkel relatonskoefzein- auf einer Skala von 1- ten (PC) 10 Nakif Filme Filme werden TF-IDF-Derivat Manuelle Pfege: Benutzer Heuristk Klahold empfohlen sowie die Empfehlungsele- (2009) mente (z. B. Filme) haben ei- gene Profle; Kombinaton von Wertungsspalten MovieLens Filme Filme werden DoppelgaengerBots Bewertung von Filmen auf ei- Heuristk, Pearson Good, empfohlen (TF-IDF-Derivat) ana- ner Skala von 1-5 Korrelatonskoef- Schafer, lysieren die Filmbe- zienten (PC), Cosi- Konstan & schreibung nus-Ähnlichkeits- Borchers RipperBots – iterat- maß (1999) ven Regelerzeugung GenreBots bewerten Filme in Abhängigkeit des Genres Tabelle 9: Übersicht über ausgewählte hybride Empfehlungssysteme Quelle: Klahold, 2009, 144f 33
  32. 32. 34
  33. 33. 3 EMPFEHLUNGSSYSTEME: AUSGEWÄHLTE EINSATZGEBIETE Überall dort, wo mit pffgen Ideen und guten Lösungen Geld verdient werden kann, ist es schwierig, konkrete Aussagen über technologische Lösungen zu bekommen. Dies trift nach unseren Erfahrungen insbesondere auf Empfehlungssysteme zu: Gute Lösun- gen für Empfehlungssysteme lassen sich in der Regel mit geringen Adaptonen an meh- rere Kunden aus unterschiedlichen Branchen verkaufen. Dabei gibt es jedoch keine Ver- lautbarungen dazu, welche Systeme, die zum Teil in der wissenschaflichen Literatur be- schrieben werden, bei Firmen eingesetzt werden. Hinzu kommt wohl auch, dass die ex- akten Vorgänge und Algorithmen of schwer zu beschreiben sind. Abbildung 7: Ausschnit aus der SonntagsZeitung zu einem Artkel über Gavin Poter, Entwickler eines Empfehlungssystem Quelle: SonntagsZeitung, 13. Juli 2008, 81 Auf alle Fälle haten wir bei den folgenden Beschreibungen von Realisierungen der Emp- fehlungssysteme das Problem, dass es in der Regel nur unzureichende Beschreibungen der konkreten Lösung frei verfügbar gibt. Was da genau passiert, wird of mit einem Halbsatz abgehandelt, nach dem Moto „and the magic occurs“, oder es werden andere esoterische Bezüge gegeben (siehe Auszug der SonntagsZeitung in Abbildung 7). 3.1 Überblick über fünf ausgewählte Einsatzgebiete Im Folgenden haben wir uns fünf Einsatzgebiete, in denen Reputatonssysteme zur Erfül- lung von unterschiedlichen Zwecken eingesetzt werden können, genauer angeschaut. Die Einsatzgebiete wurde gezielt so ausgewählt, dass eine möglichst weite Spanne abge- deckt und viele verschiedene Varianten vorgestellt werden können. 35
  34. 34. Einsatzgebiet Experten- und Ar- Partnersuche Produkte und Web-Materialien Prozess- beitsplatzsuche Dienstleistungen empfehlungen Absicht Arbeitsstellen bzw. Finden von Lebens- Unterstützung bei Empfehlungen für diverse (u.a. Arznei- Experten mit größt- partnern der Entscheidung für kostenlos zugängli- verschreibung, Unter- möglicher Passung Produkte und che Materialien stützung Lernender, zu fnden Dienstleistungen Fernsehprodukton) Verfahren Suchanfragen und Eingangsbefragung, Alle bekannten Emp- of tagbasierte Emp- Inhaltsbasierte und Ergebnisse aufgrund Partnervorschläge fehlungsverfahren fehlungen und kolla- kollaboratve Ansätze eigenschafsbasier- aufgrund paarpsy- sind im Einsatz boratves Filtern ter Verfahren; aber chologischer Er- auch Inhalts- und kenntnisse, eigen- Netzwerkanalysen schafsbasierte, teils fallbasierte Verfah- ren Visualisierung Ranglisten (v.a. Su- Ranglisten mit Fo- u.a. Treferlisten für Markierung im Text, Treferlisten, Vor- chergebnisse) tos, teils inkl. „Mat- Empfehlungen am Ranglisten schläge, auch Signal- ching-Punkte“, auch Seitenrand, Ranglis- ton (Alarm!) Benachrichtung per ten, E-Mail-Benach- E-Mail richtgung Anmerkung Gewichtung der Ei- Partnervorschläge Online-Händler für - Einige der Beispiele genschafen (z. B. nach Passung der Ei- Bestseller verwen- sind nicht webbasiert räumliche Nähe) z. T. genschafen, auf- den eher kollabort- notwendig grund persönlich- ves Filtern, Nischen- keitspsychologischer händler und Spezia- Untersuchungen listen eher inhalts- basiertes Filtern Beispiele Virtueller Arbeits- Parship, Friens- Amazon, Zappas, Photoree, fwd, Re- ALOE, LIVE u.a. markt, Manager cout24, Elitepartner Last.fm, Library- Mashed u.a. Lounge, Biomedex- Things, Preiser Re- perts cords, Pandora, Mo- vielens u.a. Tabelle 10: Charakteristk der Empfehlungssysteme in ausgewählten Einsatzgebieten Im folgenden stellen wir die einzelnen Bereiche und Beispiele vor, soweit wir dazu Infor- matonen gefunden haben. 3.2 Experten- und Arbeitsplatzsuche im Web Während es nicht weiter schlimm ist, mal eine Filmempfehlungen zu erhalten, die nicht ganz den eigenen Geschmack trift, sind Fehlgrife bei der Personalauswahl deutlich ver- heerender. Nicht zuletzt daher wird hier versucht, „fehlerhafe“ Empfehlungen weitest- gehend zu vermeiden. Ofensichtliche Vorteile bieten Online-Jobbörsen, Business-Clubs und Karriere- oder Expertenplatormen daher nicht nur für Unternehmen, sondern auch für Arbeitssuchende selbst. Im folgenden stellen wir Empfehlungssysteme für die Arbeitsplatz- und Expertensuche vor. Wie sich zeigt, arbeiten diese, soweit wir dies von aussen beurteilen können, fast alle mit einem eigenschafsbasierten Ansatz, d.h. Empfehlungen werden aufgrund des Nutzerprofls bzw. der Sucheingaben gegeben. Bei der vorgestellten Expertensuche im biomedizinischen Bereich wird neben semantsch unterstützten Auswertungen der Ver- öfentlichungen als Grundlage eine soziale Netzwerksanalyse verwendet. Schließlich stellen wir kurz das Modell eines Empfehlungsservices für Arbeitnehmer vor, der auf kol- laboratvem Filtern, nämlich Angaben von Arbeitgebern, beruhen soll. 36
  35. 35. Virtueller Arbeitsmarkt der deutschen Arbeitsagenturen Am „Virtuellen Arbeitsmarkt“, der Stellen- und Bewerberbörse der deutschen Bundesan- stalt für Arbeit, werden Arbeitssuchenden Stellenvorschläge gemacht. Als Arbeitssu- chender kann man in der Detailsuche bis zu 15 Kriterien angeben, beispielsweise Regi- on, PLZ, Mindestgehalt. Im System können sich auch Arbeitgeber Stellensuchende vor- schlagen lassen, dabei sind u.a. auch persönliche und soziale Fähigkeiten auswählbar. Diese Informatonen beruhen auf den Selbstauskünfen der Stellensuchenden. Zwar unterliegen die genauen verwendeten Empfehlungsverfahren der Geheimhaltung, es ist aber bekannt, dass die Sofware ELISE 5.0 von der Firma WCC eingesetzt wird, die auch beim englischen Arbeitsmarktservice, dem „Job Center Plus“ verwendet wird (vgl. Heymann, 2004, 14). Daher werden wird uns im folgenden darauf beschränken müssen, die Funktonalitäten zu beschreiben. Ofensichtlich wird im System jedoch kein kollabo- ratves Filtern eingesetzt, weil keine entsprechenden Daten erfragt werden (z. B. Bewer- tungen von Arbeitgebern oder Arbeitssuchenden). In einer Seminararbeit weisst Heymann darauf hin, dass das System Schwierigkeiten hat, die korrekte Semantk zu erkennen: „So erhält man bei der Suche nach einem „Astro- nom“ eine 100%ige Trefergenauigkeit für einen „Gastronom“. Gibt man die im Arbeits- leben synonymen Begrife „Logopäde“, „Sprachtherapeut“ und „Sprachheilpädagoge“ an (…), so werden nur Trefer mit der exakten Berufsbezeichnung geliefert“ (Heymann, 2004, 15). Ein Test hat ergeben, dass auch heute bei der Suche nach dem Beruf „Astro- nom“ auch diverse Gastronomie-Berufe vorgeschlagen werden und Stellensuchende un- bedingt alle synonym verwendeten Berufsbezeichnungen verwenden sollten, um alle Stellenanzeigen zu sehen: Weiterhin erhält man bei der Suche nach „Logopäde“ nicht auch automatsch alle Anzeigen für „Sprachtherapeut“ oder „Sprachheilpädagoge“4. Da im Formular angekreuzt werden kann „Keine Stellenangebote mit ähnlichen Berufen an- zeigen“ geht ein Stellensucher höchstwahrscheinlich (und irrtümlich) davon aus, ver- wandte Stellen angezeigt zu bekommen. Heymann (2004) fasst zusammen, und auf- grund des von uns gewonnen Eindruck bestätgen wir diesen Eindruck, „dass das Ge- samtsystem derzeit noch nicht die Leistung bietet, die a) von der Bundesagentur ange- strebt wird und b) den Anwendern des Systems den Eindruck vermitelt, ein kompe- tentes Empfehlungssystem zu sein“ (S. 16). Die Jobbörse Manager-Lounge Manager-Lounge5 ist eine internetbasierte Jobbörse, die sich auf die Vermitlung von Top-Management-Positonen ab einem Jahresgehalt von 100.000 Euro spezialisiert hat und dabei wie ein Businessclub agiert. Die streng defnierten Aufnahmebedingungen (z. B. mehrjährige Personal-, Budget- und Führungsverantwortung) sollen Exklusivität ga- ranteren. Derzeit gibt es einen geschlossenen Mitgliederkreis von über 2.200 Personen, die sich auch auf regelmäßig statindenden lokalen Versammlungen trefen. Erst nach einer erfolgreichen Testphase (z. B. Coaching- und Aufnahme-Telefonat, Einhaltung der Clubregeln, Engagement) wird das Mitglied in den kostenpfichtgen Club aufgenommen. Die Daten für das Profl des Bewerbers werden nach und nach manuell von Manager- Lounge selbst in den sogenannten MatchManager übertragen und stellen die Basis für den Vermitlungsprozess dar. Die Erhebung der Daten erfolgt dabei durch ein elektroni- sches oder schrifliches Antragsformular, das von dem Bewerber mit den wichtgsten 4 Diese Überprüfung wurde am 23.1.2010 vorgenommen. 5 htps://manager-lounge.manager-magazin.de, Stand 02/2010 37
  36. 36. Daten (z. B. Kontakt, Alter, derzeitge Stelle) ausgefüllt werden muss, sowie ein telefoni- sches Coaching- und Aufnahmegespräch, in dem die Angaben des Antragstellers über- prüf sowie ein Lebenslauf und Fähigkeitenprofl erstellt werden. Unternehmen, die nach Bewerbern in der Manager-Lounge suchen, geben ein Suchpro- fl in den sogenannten Match-Manager ein. Dieses wird mit den in der Datenbank vor- handenen Proflen abgeglichen. Als Abfragekriterium sind auch Und- und Oder-Verknüp- fungen möglich. Das Suchprofl umfasst sieben Kategorien, wie beispielsweise Positon, Funkton, Branche und Alter. Als Ergebnis werden anonymisierte Mitglieder angezeigt, die den Auswahlkriterien entsprechen. Hat das Unternehmen Interesse an einem be- stmmten Person gefunden, dann kann es mit dem Kandidaten in Kontakt treten. Dem Angeschriebenen steht es dann auch frei, seine Anonymität aufzuheben und seinen Le- benslauf zur Ansicht freizugeben (Heymann, 2004, 17f). Biomedexperts Strukturiertes Wissen und ein vielseitges Netzwerk sind wichtge Voraussetzungen für die wissenschafliche Zusammenarbeit. Biomedexperts6 ist ein soziales Netzwerk, das Forscher und Experten im Anwendungsfeld der Biowissenschafen sowie Mediziner und Fachjournalisten zusammenbringt, um einen länderübergreifenden wissenschaflichen Austausch sowie ein gemeinsames Arbeiten zu ermöglichen und zu verbessern. Die für Mitglieder kostenlose Platorm wurde 2008 von Collexis7 ins Leben gerufen. Seitdem sind über 270.000 Biowissenschafler dem Netzwerk beigetreten. Nachdem sich der Nutzer angemeldet hat und sein Fachgebiet angegeben hat, liefert ihm das System Ex- perten aus dem Sachgebiet auf der Basis der Häufgkeit von wissenschaflichen Publika- tonen. Biomedexpert wertet dazu kontnuierlich Publikatonen aus dem Fachgebiet aus und generiert und ergänzt so automatsch Profle der Mitglieder. Biomedexperts schaft es auf diesem Weg weltweit fast alle Forscher im Bereich der Biowissenschafen, die in den letzten zehn Jahren publiziert haben, in das Netzwerk einzubeziehen, sämtliche re- levanten professionellen Verbindungen innerhalb des Netzwerks zu analysieren und neue mögliche Forschungspartner, Mitautoren, usw. ausfndig zu machen. Mitglieder können im System nach Name, Land oder Schlüsselwörter (z. B. Krankheiten, Sympto- me) suchen und so ihr eigenes Netzwerk aufauen, welches auch die Koautoren von Ko- autoren umfasst. Wie bei sozialen Netzwerken üblich, können neue Kollegen eingeladen werden und Mitglieder dem eigenen Netzwerk hinzufügen. Auch ist ein detailliertes wis- senschafliches Profl mit den Publikatonen des Mitglieds, deren Relevanz sowie der Pu- blikatonshäufgkeit im Verlauf der Jahre einzusehen. Eine geographische Darstellung zeigt in welchen Ländern der jeweilige Experte vernetzt ist (Herzog & Dix, 2009). Durch die sogenannte „Fingerprint-Technologie“ (Engl. für „Fingerabdruck“), die hinter dem System von Biomedexperts steckt, werden mehrdeutge oder irrelevante Ergebnis- se automatsch eliminiert. Dies ist durch eine semantsche Analyse von Textdokumen- ten, durch die interne und externe Dokumente analysiert, aggregiert und semantsch verknüpf werden können, möglich. „Die semantsche Analyse erfolgt auf der Basis eines oder mehrerer Thesauri. Bei der Indexierung eines Textes wird jeder Begrif des Doku- mentes mit den eingebundenen Fachthesauri verglichen. Taucht ein Begrif sowohl im Text als auch im Thesaurus auf, wird er in dem sogenannten Fingerprint des Dokuments gespeichert. Für jeden Begrif des Fingerprints wird nun mitels komplexer Algorithmen die Relevanz im Kontext des verarbeitenden Textes ermitelt. So wird eine gewichtete In- 6 htp://www.biomedexperts.com, Stand 02/2009 7 htp://www.collexis.com, Stand 02/2010 38

×