SlideShare a Scribd company logo
1 of 28
Download to read offline
KI BEI SUCHMASCHINEN
Wie Suchmaschinen künstliche Intelligenz einsetzen und was das für unsere
tägliche Informationsrecherche bedeutet
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg
Stuttgarter Zukunftssymposium „Ethik und KI“
24. November 2018
„At Bing, AI is the foundation of our services
and experiences.“
https://blogs.bing.com/search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data-
breakthrough
2.000.000.000.000
Suchanfragen pro Jahr in Google
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
GLIEDERUNG
1
Die „neue Welt der Suche“
2
Wozu führt maschinelles Lernen in Suchmaschinen?
3
Herausforderungen und mögliche Lösungen
3
1
DIE „NEUE WELT DER SUCHE“
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
„ALTES MODELL“ DER SUCHE
5
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
6
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
MULTIMODALE EIN- UND AUSGABE, DATENQUELLEN UND
SUCHMODI
Multimodale Ein- und Ausgabe
• Text, gesprochene Sprache, Bilder, etc.
Datenquellen
• Aufgaben: Aufgabenrelevante Suchhistorie des Nutzers, Kontextinformationen aus der
verwendeten Anwendung, historische Daten anderer Nutzer mit gleicher Aufgabe
• Persönliche Daten: Such- und Browsingdaten, momentane Verfassung, persönliche
Informationen aus Anwendungen (E-Mails, Dokumente), Daten von Sensoren
• Soziale Daten: u.a. aus sozialen Netzwerken
• Welt/allgemein: Aggregierte Such- und Browsingdaten, Dokumentensammlungen,
aktuelle Ereignisse
Suchmodi
• Reaktiv: Aktive Eingabe des Nutzers (System reagiert)
• Proaktiv: Vorschläge durch das System (System sieht das Informationsbedürfnis des
Nutzers voraus)
7White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
8White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
9White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
BEREICHE, IN DENEN SUCHMASCHINEN MASCHINELLES
LERNEN EINSETZEN (AUSWAHL)
1. Analyse bzw. „Verstehen“ der Inhalte des Web: Suchmaschinen bilden komplexe
Repräsentationen der Inhalte
2. Ausschluss unerwünschter Inhalte (Spam)
3. Sammlung und Analyse von Nutzerdaten: Suchmaschinen bilden komplexe
Repräsentationen ihrer Nutzer
4. Ranking: Reihung der Ergebnisse
5. Personalisierung: Anpassung der Ergebnisse an den individuellen Nutzer
6. Dialogfähigkeit: Suche als Dialog
10
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
BEISPIEL BING: ZWEI PERSPEKTIVEN
11https://searchengineland.com/bing-adds-multi-perspective-intelligent-answers-search-results-291369
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
12
© Raimond Spekking / CC BY-SA 4.0 (via Wikimedia Commons) (https://commons.wikimedia.org/wiki/File:Kölner_Dom_
-_Westfassade-1091.jpg), https://creativecommons.org/licenses/by-sa/4.0/legalcode
2
WOZU FÜHRT MASCHINELLES LERNEN IN
SUCHMASCHINEN?
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
14
(2016)
(2016)
"Search is a reflection of the content that
exists on the web.“
(Google 2016)
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
16
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
PROBLEME DER ALGORITHMISCHEN
QUALITÄTSBEWERTUNG
Typische „Fehlinterpretationen“/Verzerrungen
• Propaganda/Hassseiten: „Martin Luther King“ (Piper 2000), „Jew“ (Bar-Ilan 2006)
• Geschlechter- und Rassenstereotypen: „Black Girls“ (Noble 2018)
• Bevorzugung von Verschwörungstheorien bei entsprechenden Anfragen („Chemtrails“)
(Ballatore, 2015)
• Dramatische Interpretation von Krankheitssymptomen („Headache“) (White & Horwitz 2009)
17
Ballatore, A. (2015). Google chemtrails: A methodology to analyze topic representation in search engine results. First Monday,
20(7).
Bar-Ilan, J. (2006). Web links and search engine ranking: The case of Google and the query ‘Jew’. Journal of the American Society
for Information & Techology, 57(12), 1581–1589.
Noble, S. U. (2018). Algorithms of Oppression: How Search Engines Reinforce Racism. New York, USA: New York University Press.
Piper, P. S. (2000). Better Read That Again: Web Hoaxes and Misinformation. Searcher. Searcher, 8(8), 40.
White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23.
https://doi.org/10.1145/1629096.1629101
„If you have ever been involved in any machine learning or AI project you know that
frequently the key to success is good training data (a set of labeled examples
that helps train the algorithm).”
https://blogs.bing.com/search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data-
breakthrough
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
VERZERRUNGEN IM WEB
19
Baeza-Yates, R. (2018). Bias on the web. Communications of the ACM, 61(6), 54–61. https://doi.org/10.1145/3209581
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN
Cyberchondria = “the unfounded escalation of concerns about common symptomatology,
based on the review of search results and literature on the Web." (p. 2)
Problem: Suchende könnten die Reihung der Ergebnisse missverstehen als eine Reihung
nach der Wahrscheinlichkeit des Auftretens einer bestimmten Krankheit.
Berechnung der Wahrscheinlichkeiten, bei der Eingabe harmloser Symptome (headache,
muscle twitches, chest pain) auf bestimmte Gründe zu kommen (bpsw. "brain tumor").
20
White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23.
https://doi.org/10.1145/1629096.1629101
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN
• Vergleich der Suchmaschinenergebnisse mit Web Crawl (Baseline) und Domain Search
(Fachquellen)
• In allen Fällen ist die Wahrscheinlichkeit, bei der Websuche (top 100 Ergebnisse) am
höchsten, auf überzogene Gründe zu kommen (liegen bei der Suche in den
Fachquellen bei 0 bzw. bei 0,1).
21
White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23.
https://doi.org/10.1145/1629096.1629101
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN
• Vergleich der Suchmaschinenergebnisse mit Web Crawl (Baseline) und Domain Search
(Fachquellen)
• In allen Fällen ist die Wahrscheinlichkeit, bei der Websuche (top 100 Ergebnisse) am
höchsten, auf überzogene Gründe zu kommen (liegen bei der Suche in den
Fachquellen bei 0 bzw. bei 0,1).
22
White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23.
https://doi.org/10.1145/1629096.1629101
3
HERAUSFORDERUNGEN UND MÖGLICHE
LÖSUNGEN
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
SIND VERZERRUNGSFREIE SUCHMASCHINEN MÖGLICH?
Unterscheidung zwischen verzerrungsfrei und fair.
Verzerrungsfrei
• Wäre nur möglich unter der Annahme, dass es eine objektiv richtige Reihung der
Ergebnisse gibt und diese vom Rankingalgorithmus angenähert/erreicht werden kann.
• Kern des Rankings ist gerade eine Interpretation von Suchanfrage und
Informationsobjekten.
Fair
• Index: Jedes Informationsobjekt hat die gleiche Chance, in den Datenbestand
aufgenommen zu werden.
• Ranking: Jedes Informationsobjekt im Datenbestand hat die gleiche Chance, auf eine
Suchanfrage hin ausgegeben zu werden; alle Informationsobjekte werden vom
Rankingalgorithmus gleich behandelt.
24
Lewandowski, D.: Is Google responsible for providing fair and unbiased results? In: Floridi, L.; Taddeo, M. (eds.):
The Responsibilities of Online Service Providers. Berlin Heidelberg: Springer, 2017. S. 61-77.
https://doi.org/10.1007/978-3-319-47852-4_4
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
REAKTION DER SUCHMASCHINENBETREIBER
„Ausgleich“ für die schlimmsten Fehler (Beispiele)
• Google filtert Suchvorschläge (seit 2018 stärker)
• Ergebnisse werden verändert (Bsp. Holocaust-Ergebnisse USA, direkte Antworten)
Selbstverpflichtungen der Betreiber in Bezug auf Desinformation / „Fake News“
25
FAKULTÄT DMI, DEPARTMENT INFORMATION
Prof. Dr. Dirk Lewandowski
LÖSUNGSVORSCHLÄGE
Transparenz (suchmaschinenintern)
• Aufklärung über das grundlegende Zustandekommen der Suchergebnisse
Vielfalt suchmaschinenintern (Ranking und Darstellung von Suchergebnissen)
• Personalisierung sollte abschaltbar sein
• Nutzer sollten unter verschiedenen Rankingmöglichkeiten auswählen können
Vielfalt suchmaschinenextern (Suchmaschinenmarkt)
Ideen u.a.:
• Öffentlich-rechtliche Suchmaschine (Hege & Flecken, 2014)
• Google-Index für Fremdanbieter öffnen (Weber, 2017)
• Offener Web-Index als Infrastrukturmaßnahme (Lewandowski, 2014)
26
Hege, H., & Flecken, E. (2014). Debattenbeitrag: Gibt es ein öffentliches Interesse an einer alternativen Suchmaschine? In B.
Stark, D. Dörr, & S. Aufenanger (Eds.), Die Googleisierung der Informationssuche (pp. 224–244). Berlin: De Gruyter.
Lewandowski, D. (2014). Why we need an independent index of the Web. In R. König & M. Rasch (Eds.), Society of the Query
Reader: Reflections on Web Search (pp. 49–58). Amsterdam: Institute of Network Culture.
Weber, J. M. (2017). Zugang zu den Softwarekomponenten der Suchmaschine Google nach Art. 102 AEUV. Baden-Baden:
Nomos.
VIELEN DANK FÜR IHRE
AUFMERKSAMKEIT!
Prof. Dr. Dirk Lewandowski
Hochschule für Angewandte Wissenschaften Hamburg
dirk.lewandowski@haw-hamburg.de
Twitter: @Dirk_Lew
www.searchstudies.org/dirk

More Related Content

Similar to Künstliche Intelligenz bei Suchmaschinen

Linked Data nach dem Hype
Linked Data nach dem HypeLinked Data nach dem Hype
Linked Data nach dem HypeKai Eckert
 
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Matthias Stürmer
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebKatrin Weller
 
PersoApp - Sichere und benutzerfreundliche Internet-Anwendungen
PersoApp - Sichere und benutzerfreundliche Internet-AnwendungenPersoApp - Sichere und benutzerfreundliche Internet-Anwendungen
PersoApp - Sichere und benutzerfreundliche Internet-AnwendungenSven Wohlgemuth
 
Warum wir Alternativen zu Google benötigen
Warum wir Alternativen zu Google benötigenWarum wir Alternativen zu Google benötigen
Warum wir Alternativen zu Google benötigenDirk Lewandowski
 
Open Science in wissenschaftlichen Einrichtungen
Open Science in wissenschaftlichen Einrichtungen Open Science in wissenschaftlichen Einrichtungen
Open Science in wissenschaftlichen Einrichtungen Heinz Pampel
 
Mit Daten kompetent umgehen - aus Sicht der Informationswissenschaft
Mit Daten kompetent umgehen - aus Sicht der InformationswissenschaftMit Daten kompetent umgehen - aus Sicht der Informationswissenschaft
Mit Daten kompetent umgehen - aus Sicht der InformationswissenschaftHans-Christoph Hobohm
 
„Data Policies“ - Zuckerbrot oder Peitsche?
„Data Policies“ - Zuckerbrot oder Peitsche?    „Data Policies“ - Zuckerbrot oder Peitsche?
„Data Policies“ - Zuckerbrot oder Peitsche? Heinz Pampel
 
VDI Expertenforum WMiE 2014
VDI Expertenforum WMiE 2014VDI Expertenforum WMiE 2014
VDI Expertenforum WMiE 2014Cogneon Akademie
 
Modernes Datenmanagement: Linked Open Data und die offene Bibliothek
Modernes Datenmanagement: Linked Open Data und die offene BibliothekModernes Datenmanagement: Linked Open Data und die offene Bibliothek
Modernes Datenmanagement: Linked Open Data und die offene BibliothekJens Mittelbach
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Stefan Dietze
 
Wissensmanagement 2.0 Mehr Als Eine Web 2.0
Wissensmanagement 2.0   Mehr Als Eine Web 2.0Wissensmanagement 2.0   Mehr Als Eine Web 2.0
Wissensmanagement 2.0 Mehr Als Eine Web 2.0Guido Schmitz
 
Management, Marketing & Informationssysteme - Marketing in Netzeffektmärkten
Management, Marketing & Informationssysteme - Marketing in NetzeffektmärktenManagement, Marketing & Informationssysteme - Marketing in Netzeffektmärkten
Management, Marketing & Informationssysteme - Marketing in NetzeffektmärktenLeonhard Dobusch
 
Semantic Web für Dummies
Semantic Web für DummiesSemantic Web für Dummies
Semantic Web für Dummieskostaedt
 
IT-Ringvorlesung - Präsentation Unister
IT-Ringvorlesung - Präsentation UnisterIT-Ringvorlesung - Präsentation Unister
IT-Ringvorlesung - Präsentation UnisterEmpfehlungsbund
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swcOGD-DACHLI Konferenzreihe
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Dirk Lewandowski
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...Martin Kaltenböck
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Datakostaedt
 
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin?
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin? Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin?
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin? Vito Mediavilla
 

Similar to Künstliche Intelligenz bei Suchmaschinen (20)

Linked Data nach dem Hype
Linked Data nach dem HypeLinked Data nach dem Hype
Linked Data nach dem Hype
 
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
Datenvisualisierungen mit der Open Source JavaScript Bibliothek D3.js – und a...
 
Wissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic WebWissensrepräsentation im Social Semantic Web
Wissensrepräsentation im Social Semantic Web
 
PersoApp - Sichere und benutzerfreundliche Internet-Anwendungen
PersoApp - Sichere und benutzerfreundliche Internet-AnwendungenPersoApp - Sichere und benutzerfreundliche Internet-Anwendungen
PersoApp - Sichere und benutzerfreundliche Internet-Anwendungen
 
Warum wir Alternativen zu Google benötigen
Warum wir Alternativen zu Google benötigenWarum wir Alternativen zu Google benötigen
Warum wir Alternativen zu Google benötigen
 
Open Science in wissenschaftlichen Einrichtungen
Open Science in wissenschaftlichen Einrichtungen Open Science in wissenschaftlichen Einrichtungen
Open Science in wissenschaftlichen Einrichtungen
 
Mit Daten kompetent umgehen - aus Sicht der Informationswissenschaft
Mit Daten kompetent umgehen - aus Sicht der InformationswissenschaftMit Daten kompetent umgehen - aus Sicht der Informationswissenschaft
Mit Daten kompetent umgehen - aus Sicht der Informationswissenschaft
 
„Data Policies“ - Zuckerbrot oder Peitsche?
„Data Policies“ - Zuckerbrot oder Peitsche?    „Data Policies“ - Zuckerbrot oder Peitsche?
„Data Policies“ - Zuckerbrot oder Peitsche?
 
VDI Expertenforum WMiE 2014
VDI Expertenforum WMiE 2014VDI Expertenforum WMiE 2014
VDI Expertenforum WMiE 2014
 
Modernes Datenmanagement: Linked Open Data und die offene Bibliothek
Modernes Datenmanagement: Linked Open Data und die offene BibliothekModernes Datenmanagement: Linked Open Data und die offene Bibliothek
Modernes Datenmanagement: Linked Open Data und die offene Bibliothek
 
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
Human-in-the-Loop: das Web als Grundlage interdisziplinärer Data Science Meth...
 
Wissensmanagement 2.0 Mehr Als Eine Web 2.0
Wissensmanagement 2.0   Mehr Als Eine Web 2.0Wissensmanagement 2.0   Mehr Als Eine Web 2.0
Wissensmanagement 2.0 Mehr Als Eine Web 2.0
 
Management, Marketing & Informationssysteme - Marketing in Netzeffektmärkten
Management, Marketing & Informationssysteme - Marketing in NetzeffektmärktenManagement, Marketing & Informationssysteme - Marketing in Netzeffektmärkten
Management, Marketing & Informationssysteme - Marketing in Netzeffektmärkten
 
Semantic Web für Dummies
Semantic Web für DummiesSemantic Web für Dummies
Semantic Web für Dummies
 
IT-Ringvorlesung - Präsentation Unister
IT-Ringvorlesung - Präsentation UnisterIT-Ringvorlesung - Präsentation Unister
IT-Ringvorlesung - Präsentation Unister
 
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
10 dirschl kaltenböck_ogd_d-a-ch-li 20121004_wkd-swc
 
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
Können Nutzer echte Suchergebnisse von Werbung in Suchmaschinen unterscheiden?
 
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
eGovernment Konferenz 2013,Österreich - Workshop: Grundlagen und Mehrwerte vo...
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin?
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin? Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin?
Künstliche Intelligenz in der Medizin: Wo stehen wir – wo geht es hin?
 

More from Dirk Lewandowski

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexDirk Lewandowski
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search EnginesDirk Lewandowski
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsDirk Lewandowski
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Dirk Lewandowski
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenDirk Lewandowski
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web IndexDirk Lewandowski
 
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Dirk Lewandowski
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Dirk Lewandowski
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenDirk Lewandowski
 
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Dirk Lewandowski
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenDirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Dirk Lewandowski
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Dirk Lewandowski
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheDirk Lewandowski
 
Suchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftSuchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftDirk Lewandowski
 
Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Dirk Lewandowski
 

More from Dirk Lewandowski (20)

The Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web IndexThe Need for and fundamentals of an Open Web Index
The Need for and fundamentals of an Open Web Index
 
In a World of Biased Search Engines
In a World of Biased Search EnginesIn a World of Biased Search Engines
In a World of Biased Search Engines
 
Analysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topicsAnalysing search engine data on socially relevant topics
Analysing search engine data on socially relevant topics
 
Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?Are Ads on Google search engine results pages labeled clearly enough?
Are Ads on Google search engine results pages labeled clearly enough?
 
Wie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretierenWie Suchmaschinen die Inhalte des Web interpretieren
Wie Suchmaschinen die Inhalte des Web interpretieren
 
Perspektiven eines Open Web Index
Perspektiven eines Open Web IndexPerspektiven eines Open Web Index
Perspektiven eines Open Web Index
 
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
Wie entwickeln sich Suchmaschinen heute, was kommt morgen?
 
Suchmaschinen verstehen
Suchmaschinen verstehenSuchmaschinen verstehen
Suchmaschinen verstehen
 
Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?Neue Trends: Google, SEO und Co.?
Neue Trends: Google, SEO und Co.?
 
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und EntwicklungsperspektivenInternet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
Internet-Suchmaschinen: Aktueller Stand und Entwicklungsperspektiven
 
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
Ordinary Search Engine Users Assessing Difficulty, Effort and Outcome for Sim...
 
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von SuchmaschinenVerwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
Verwendung von Skalenbewertungen in der Evaluierung von Suchmaschinen
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (3)
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (2)
 
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
Neue Entwicklungen bei Suchmaschinen und deren Relevanz für Bibliotheken (1)
 
Nutzer verstehen
Nutzer verstehenNutzer verstehen
Nutzer verstehen
 
Medientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der SucheMedientage 2013: Die Zukunft der Suche
Medientage 2013: Die Zukunft der Suche
 
Suchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der GesellschaftSuchmaschinen: Googlerisierung der Gesellschaft
Suchmaschinen: Googlerisierung der Gesellschaft
 
Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?Wie beeinflussen Suchmaschinen den Informationsmarkt?
Wie beeinflussen Suchmaschinen den Informationsmarkt?
 
Web-Index-Workshop 2014
Web-Index-Workshop 2014Web-Index-Workshop 2014
Web-Index-Workshop 2014
 

Künstliche Intelligenz bei Suchmaschinen

  • 1. KI BEI SUCHMASCHINEN Wie Suchmaschinen künstliche Intelligenz einsetzen und was das für unsere tägliche Informationsrecherche bedeutet Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg Stuttgarter Zukunftssymposium „Ethik und KI“ 24. November 2018
  • 2. „At Bing, AI is the foundation of our services and experiences.“ https://blogs.bing.com/search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data- breakthrough
  • 4. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski GLIEDERUNG 1 Die „neue Welt der Suche“ 2 Wozu führt maschinelles Lernen in Suchmaschinen? 3 Herausforderungen und mögliche Lösungen 3
  • 5. 1 DIE „NEUE WELT DER SUCHE“
  • 6. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski „ALTES MODELL“ DER SUCHE 5
  • 7. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 6
  • 8. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski MULTIMODALE EIN- UND AUSGABE, DATENQUELLEN UND SUCHMODI Multimodale Ein- und Ausgabe • Text, gesprochene Sprache, Bilder, etc. Datenquellen • Aufgaben: Aufgabenrelevante Suchhistorie des Nutzers, Kontextinformationen aus der verwendeten Anwendung, historische Daten anderer Nutzer mit gleicher Aufgabe • Persönliche Daten: Such- und Browsingdaten, momentane Verfassung, persönliche Informationen aus Anwendungen (E-Mails, Dokumente), Daten von Sensoren • Soziale Daten: u.a. aus sozialen Netzwerken • Welt/allgemein: Aggregierte Such- und Browsingdaten, Dokumentensammlungen, aktuelle Ereignisse Suchmodi • Reaktiv: Aktive Eingabe des Nutzers (System reagiert) • Proaktiv: Vorschläge durch das System (System sieht das Informationsbedürfnis des Nutzers voraus) 7White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
  • 9. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 8White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
  • 10. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 9White, R. W. (2016). Interactions with Search Systems. New York: Cambridge University Press.
  • 11. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski BEREICHE, IN DENEN SUCHMASCHINEN MASCHINELLES LERNEN EINSETZEN (AUSWAHL) 1. Analyse bzw. „Verstehen“ der Inhalte des Web: Suchmaschinen bilden komplexe Repräsentationen der Inhalte 2. Ausschluss unerwünschter Inhalte (Spam) 3. Sammlung und Analyse von Nutzerdaten: Suchmaschinen bilden komplexe Repräsentationen ihrer Nutzer 4. Ranking: Reihung der Ergebnisse 5. Personalisierung: Anpassung der Ergebnisse an den individuellen Nutzer 6. Dialogfähigkeit: Suche als Dialog 10
  • 12. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski BEISPIEL BING: ZWEI PERSPEKTIVEN 11https://searchengineland.com/bing-adds-multi-perspective-intelligent-answers-search-results-291369
  • 13. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 12 © Raimond Spekking / CC BY-SA 4.0 (via Wikimedia Commons) (https://commons.wikimedia.org/wiki/File:Kölner_Dom_ -_Westfassade-1091.jpg), https://creativecommons.org/licenses/by-sa/4.0/legalcode
  • 14. 2 WOZU FÜHRT MASCHINELLES LERNEN IN SUCHMASCHINEN?
  • 15. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 14 (2016) (2016)
  • 16. "Search is a reflection of the content that exists on the web.“ (Google 2016)
  • 17. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski 16
  • 18. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski PROBLEME DER ALGORITHMISCHEN QUALITÄTSBEWERTUNG Typische „Fehlinterpretationen“/Verzerrungen • Propaganda/Hassseiten: „Martin Luther King“ (Piper 2000), „Jew“ (Bar-Ilan 2006) • Geschlechter- und Rassenstereotypen: „Black Girls“ (Noble 2018) • Bevorzugung von Verschwörungstheorien bei entsprechenden Anfragen („Chemtrails“) (Ballatore, 2015) • Dramatische Interpretation von Krankheitssymptomen („Headache“) (White & Horwitz 2009) 17 Ballatore, A. (2015). Google chemtrails: A methodology to analyze topic representation in search engine results. First Monday, 20(7). Bar-Ilan, J. (2006). Web links and search engine ranking: The case of Google and the query ‘Jew’. Journal of the American Society for Information & Techology, 57(12), 1581–1589. Noble, S. U. (2018). Algorithms of Oppression: How Search Engines Reinforce Racism. New York, USA: New York University Press. Piper, P. S. (2000). Better Read That Again: Web Hoaxes and Misinformation. Searcher. Searcher, 8(8), 40. White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23. https://doi.org/10.1145/1629096.1629101
  • 19. „If you have ever been involved in any machine learning or AI project you know that frequently the key to success is good training data (a set of labeled examples that helps train the algorithm).” https://blogs.bing.com/search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data- breakthrough
  • 20. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski VERZERRUNGEN IM WEB 19 Baeza-Yates, R. (2018). Bias on the web. Communications of the ACM, 61(6), 54–61. https://doi.org/10.1145/3209581
  • 21. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN Cyberchondria = “the unfounded escalation of concerns about common symptomatology, based on the review of search results and literature on the Web." (p. 2) Problem: Suchende könnten die Reihung der Ergebnisse missverstehen als eine Reihung nach der Wahrscheinlichkeit des Auftretens einer bestimmten Krankheit. Berechnung der Wahrscheinlichkeiten, bei der Eingabe harmloser Symptome (headache, muscle twitches, chest pain) auf bestimmte Gründe zu kommen (bpsw. "brain tumor"). 20 White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23. https://doi.org/10.1145/1629096.1629101
  • 22. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN • Vergleich der Suchmaschinenergebnisse mit Web Crawl (Baseline) und Domain Search (Fachquellen) • In allen Fällen ist die Wahrscheinlichkeit, bei der Websuche (top 100 Ergebnisse) am höchsten, auf überzogene Gründe zu kommen (liegen bei der Suche in den Fachquellen bei 0 bzw. bei 0,1). 21 White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23. https://doi.org/10.1145/1629096.1629101
  • 23. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski BEISPIEL: SUCHE NACH KRANKHEITSSYMPTOMEN • Vergleich der Suchmaschinenergebnisse mit Web Crawl (Baseline) und Domain Search (Fachquellen) • In allen Fällen ist die Wahrscheinlichkeit, bei der Websuche (top 100 Ergebnisse) am höchsten, auf überzogene Gründe zu kommen (liegen bei der Suche in den Fachquellen bei 0 bzw. bei 0,1). 22 White, R. W., & Horvitz, E. (2009). Cyberchondria. ACM Transactions on Information Systems, 27(4), Article No. 23. https://doi.org/10.1145/1629096.1629101
  • 25. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski SIND VERZERRUNGSFREIE SUCHMASCHINEN MÖGLICH? Unterscheidung zwischen verzerrungsfrei und fair. Verzerrungsfrei • Wäre nur möglich unter der Annahme, dass es eine objektiv richtige Reihung der Ergebnisse gibt und diese vom Rankingalgorithmus angenähert/erreicht werden kann. • Kern des Rankings ist gerade eine Interpretation von Suchanfrage und Informationsobjekten. Fair • Index: Jedes Informationsobjekt hat die gleiche Chance, in den Datenbestand aufgenommen zu werden. • Ranking: Jedes Informationsobjekt im Datenbestand hat die gleiche Chance, auf eine Suchanfrage hin ausgegeben zu werden; alle Informationsobjekte werden vom Rankingalgorithmus gleich behandelt. 24 Lewandowski, D.: Is Google responsible for providing fair and unbiased results? In: Floridi, L.; Taddeo, M. (eds.): The Responsibilities of Online Service Providers. Berlin Heidelberg: Springer, 2017. S. 61-77. https://doi.org/10.1007/978-3-319-47852-4_4
  • 26. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski REAKTION DER SUCHMASCHINENBETREIBER „Ausgleich“ für die schlimmsten Fehler (Beispiele) • Google filtert Suchvorschläge (seit 2018 stärker) • Ergebnisse werden verändert (Bsp. Holocaust-Ergebnisse USA, direkte Antworten) Selbstverpflichtungen der Betreiber in Bezug auf Desinformation / „Fake News“ 25
  • 27. FAKULTÄT DMI, DEPARTMENT INFORMATION Prof. Dr. Dirk Lewandowski LÖSUNGSVORSCHLÄGE Transparenz (suchmaschinenintern) • Aufklärung über das grundlegende Zustandekommen der Suchergebnisse Vielfalt suchmaschinenintern (Ranking und Darstellung von Suchergebnissen) • Personalisierung sollte abschaltbar sein • Nutzer sollten unter verschiedenen Rankingmöglichkeiten auswählen können Vielfalt suchmaschinenextern (Suchmaschinenmarkt) Ideen u.a.: • Öffentlich-rechtliche Suchmaschine (Hege & Flecken, 2014) • Google-Index für Fremdanbieter öffnen (Weber, 2017) • Offener Web-Index als Infrastrukturmaßnahme (Lewandowski, 2014) 26 Hege, H., & Flecken, E. (2014). Debattenbeitrag: Gibt es ein öffentliches Interesse an einer alternativen Suchmaschine? In B. Stark, D. Dörr, & S. Aufenanger (Eds.), Die Googleisierung der Informationssuche (pp. 224–244). Berlin: De Gruyter. Lewandowski, D. (2014). Why we need an independent index of the Web. In R. König & M. Rasch (Eds.), Society of the Query Reader: Reflections on Web Search (pp. 49–58). Amsterdam: Institute of Network Culture. Weber, J. M. (2017). Zugang zu den Softwarekomponenten der Suchmaschine Google nach Art. 102 AEUV. Baden-Baden: Nomos.
  • 28. VIELEN DANK FÜR IHRE AUFMERKSAMKEIT! Prof. Dr. Dirk Lewandowski Hochschule für Angewandte Wissenschaften Hamburg dirk.lewandowski@haw-hamburg.de Twitter: @Dirk_Lew www.searchstudies.org/dirk