Lezing op de VOGIN-IP-lezing op 28 maart 2018 bij de Openbare Bibliotheek Amsterdam.
DISCLAIMER: dit praatje is een mooi stukje ouderwetse (menselijke) manipulatie: expert komt met een 5-tal aanbevelingen :-).
"Tegenwoordig kijkt men steeds vaker met argusogen naar technologiebedrijven die op grote schaal gebruikersgedrag verzamelen. In dit praatje zet ik uiteen waarom het inzetten van gebruikersgedrag van belang is, en hoe het wordt gebruikt om informatie effectief te kunnen ontsluiten en doorzoekbaar maken, of het nu gaat om een zoekmachine als Google, die zich een weg moet banen door een web van miljarden pagina’s, of een service als Spotify, die haar gebruikers graag de juiste muziek blijft aanbieden."
Hoe zet u in 3 stappen een pakkende contentstrategie neervalantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
[Webinar] Zo zet u in 3 stappen een pakkende contentstrategie neervalantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
Hoe zet u in 3 stappen een pakkende contentstrategie neervalantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
[Webinar] Zo zet u in 3 stappen een pakkende contentstrategie neervalantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
Digital Marketing Live! 2019 | Data Driven PersonasOrangeValley
Digital Marketeer Manon Kepel heeft tijdens de roundtablesessie op Digital Marketing Live! gesproken over de impact van Data-driven Personas op je digitale strategie. Data-driven zorgen voor een grote optimalisatieslag in je digitale strategie en dragen tegelijkertijd bij aan een resultaatgericht ontwikkelingsproces, waarbij je klant centraal staat. Anders dan buyer personas zijn data-driven persona’s volledig opgebouwd op basis van first & third party datasets.
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).
Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?
Zo zet u in 3 stappen een pakkende contentstrategie neer valantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
Privacy First Digital Marketing Event 2024 - De impact op social media.pdfOrangeValley
Wil je weten hoe je jouw online aanwezigheid naar nieuwe hoogtes tilt? We ontrafelen het cookieless tijdperk, de strijd tussen first en third party data, en hoe platformen zich steeds verder ontwikkelen om relevant te blijven! Benieuwd naar de toekomst van online adverteren zonder cookies? Ontdek de kracht van first party versus third party data en laat je inspireren door de recente ontwikkelingen in de branche, waaronder de spraakmakende rechtszaak tegen Meta ads. Leer hoe platformen zoals WeChat in China de toekomst vormgeven door hun gebruikers op één plek te houden en ontdek de opkomst van social commerce. Verken hoe content de nieuwe targeting is. Ben jij klaar om de toekomst van marketing te verkennen? Sluit je dan aan bij ons evenement en laat je inspireren!
Slidedeck of my lecture at SIKS Course "Advances in Information Retrieval"
Read more here: https://graus.nu/blog/bias-in-recommendations-lecture-siks-course-on-advances-in-ir/
More Related Content
Similar to Zoeken, vinden, en aanbevelen: personalisatie vs. privacy
Digital Marketing Live! 2019 | Data Driven PersonasOrangeValley
Digital Marketeer Manon Kepel heeft tijdens de roundtablesessie op Digital Marketing Live! gesproken over de impact van Data-driven Personas op je digitale strategie. Data-driven zorgen voor een grote optimalisatieslag in je digitale strategie en dragen tegelijkertijd bij aan een resultaatgericht ontwikkelingsproces, waarbij je klant centraal staat. Anders dan buyer personas zijn data-driven persona’s volledig opgebouwd op basis van first & third party datasets.
Hoe zoeken mensen door historische kranten? | Netwerkdag Oorlogsbronnen 2018Netwerk Oorlogsbronnen
De presentatie 'Hoe zoeken mensen door historische kranten?' tijdens de Netwerkdag Oorlogsbronnen 2018 'Lost and Found'.
Door Martijn Kleppe (hoofd afdeling Onderzoek Koninklijke Bibliotheek) en Jacco van Ossenbruggen (hoofd Information Access Onderzoeksgroep Centrum voor Wiskunde en Informatica).
Digitale collecties zoals Delpher.nl worden steeds meer gebruikt. Hoe kunnen we het gebruik van dit soort digitale collecties analyseren? Wat voor soort zoekers kun je identificeren als je alle gebruikers analyseert? En wellicht net zo belangrijk: hoe kunnen we het gedrag van klanten op een verantwoorde en transparante manier analyseren?
Zo zet u in 3 stappen een pakkende contentstrategie neer valantic NL
Een goede contentstrategie straalt expertise uit en is van toegevoegde waarde voor uw doelgroep. Maar hoe maakt u content waar uw bezoekers op zitten te wachten? ISM'er Felice vertelde hoe u de interesses van uw doelgroep achterhaalt en deze kennis inzet voor het ontwikkelen van een winnende contentstrategie.
Privacy First Digital Marketing Event 2024 - De impact op social media.pdfOrangeValley
Wil je weten hoe je jouw online aanwezigheid naar nieuwe hoogtes tilt? We ontrafelen het cookieless tijdperk, de strijd tussen first en third party data, en hoe platformen zich steeds verder ontwikkelen om relevant te blijven! Benieuwd naar de toekomst van online adverteren zonder cookies? Ontdek de kracht van first party versus third party data en laat je inspireren door de recente ontwikkelingen in de branche, waaronder de spraakmakende rechtszaak tegen Meta ads. Leer hoe platformen zoals WeChat in China de toekomst vormgeven door hun gebruikers op één plek te houden en ontdek de opkomst van social commerce. Verken hoe content de nieuwe targeting is. Ben jij klaar om de toekomst van marketing te verkennen? Sluit je dan aan bij ons evenement en laat je inspireren!
Similar to Zoeken, vinden, en aanbevelen: personalisatie vs. privacy (20)
Slidedeck of my lecture at SIKS Course "Advances in Information Retrieval"
Read more here: https://graus.nu/blog/bias-in-recommendations-lecture-siks-course-on-advances-in-ir/
Layman's Talk: Entities of Interest --- Discovery in Digital TracesDavid Graus
Slides of the 10 min layman's talk that preceded my PhD defence. In this talk I summarize ~4yrs of research in 10 minutes, so it's a very high-level overview.
Slides of the talk I gave at PyData Amsterdam.
Abstract:
"The FD Mediagroep collects, analyses and filters valuable and relevant information, 24/7, for an influential group of professionals, business executives and high net worth individuals. Company.info (part of FDMG) provides complete, reliable, up-to-date company information and business news about no less than 2.7 million companies and other legal entities in the Netherlands. For Company.info we continuously monitor and crawl hundreds of (online) news sources, resulting in a large archive of (Dutch) business-related news, spanning hundreds of thousands of articles. These articles are automatically enriched, by linking the profiles of companies that are mentioned in the articles, using a custom in-house entity linking framework built in Python. In this talk, I will briefly explain the entity linking task, I will detail the implementation of our custom entity linking framework, and our pipeline for crawling and enriching news articles."
De Macht van Data --- Hoe algoritmen ons leven vormgevenDavid Graus
Slides of the introductory talk I gave at an event at De Balie: "De macht van data" on June 18th, 2017.
For a video recording of the talk see: http://graus.co/blog/mini-college-algoritmen/
Talk I gave at the Data Science Northeast Netherlands Meetup, where I detail the custom in-house entity linking framework, sentiment analysis, and entity salience scoring model we developed for Company.info, in addition to showing some example applications of our corpus of news articles linked to organization profiles.
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsDavid Graus
The manual curation of knowledge bases is a bottleneck in fast paced domains where new concepts constantly emerge. Identification of nascent concepts is important for improving early entity linking, content interpretation, and recommendation of new content in real-time applications. We present an unsupervised method for generating pseudo-ground truth for training a named entity recognizer to specifically identify entities that will become concepts in a knowledge base in the setting of social streams. We show that our method is able to deal with missing labels, justifying the use of pseudo-ground truth generation in this task. Finally, we show how our method significantly outperforms a lexical-matching baseline, by leveraging strategies for sampling pseudo-ground truth based on entity confidence scores and textual quality of input documents.
Semantic Annotation of the Cyttron DatabaseDavid Graus
Final Presentation for my MSc Graduation Project.
Abstract:
"Semantic annotation uses human knowledge formalized in ontologies to enrich texts, by providing structured and machine-understandable information of its content. This paper proposes an approach for automatically annotating texts of the Cyttron Scientific Image Database, using the NCI Thesaurus ontology. Several frequency-based keyword extraction algorithms were implemented and evaluated, aiming to extract important concepts and exclude less relevant ones. Furthermore, topic classification algorithms were applied to identify important concepts which do not occur in the text. The algorithms were evaluated by comparison to annotations provided by experts. Semantic networks were generated from these annotations and an ontology-based similarity metric was applied to perform the comparison. Finally the networks were visualized to provide further insights into the differences of the semantic structure generated by humans, and the algorithms."
More information: http://graus.nu/category/thesis
15. 1: het MOET
• Relevantie van zoekresultaten is:
• Subjectief [low inter-annotator agreement]
• Afhankelijk van (voor)kennis
• Afhankelijk van interesse in onderwerp
• Dynamisch
• Afhankelijk van tijd
• Afhankelijk van welke resultaten zijn bekeken
[1] Mizarro, “Relevance: The Whole History” (1997)
16. 1: het MOET
• Hoeveelheid data
• “High-precision” search
Personalized results
17. 2: het is GOED
• Iedereen wint:
• “Consument”
• “Discover items you might not have found otherwise”
• “Producent”
• Vergroot bereik
• Ontsluit de long-tail
22. Samenvattend
• Personalisatie moet:
• Relevantie is persoonsgebonden & contextafhankelijk.
• Noodzakelijk om dingen te kunnen vinden op web-
schaal.
• Personalisatie is goed:
• Lever de juiste info bij de juist doelgroep, verbeter
informatieontsluiting.
31. II. Collaborative Filtering
Make predictions (“filtering”) about the interests of a user, by
collecting preferences from many users (“collaborating”)
38. III. Evalueer+leer
• Korte termijn: Genereer rankings op basis van
voorspellingen, meet ‘kwaliteit’
• Lange(re) termijn: average time on page, aantal bezochte
pagina’s, returning visits, etc.
39. Samenvattend
• Schat voorkeuren in op basis van gedrag;
• Van één gebruiker
• Van een groep/alle gebruikers
• Voorspel voorkeuren
• Meet effect (evalueer)
40. What about
the Filter Bubbel?
By Knight Foundation - Eli Pariser, author of The Filter Bubble,
CC BY-SA 2.0, https://commons.wikimedia.org/w/index.php?curid=19516187
41. Filter bubbel
“A filter bubble is a state of intellectual isolation that can
result from personalized searches when a
website algorithm selectively guesses what information a user
would like to see based on information about the user.”
42. Filter bubbel
“Users become separated from information that disagrees
with their viewpoints, effectively isolating them in their own
cultural or ideological bubbles.”
45. 1. Moeten we ons zorgen
maken?
[We] focus on empirical evidence of the spread of
personalised news services and its likely effects on
political polarisation and political information.
[Zuiderveen Borgesius et al., 2016]
46. 1. Moeten we ons zorgen
maken?
• Het blijkt moeilijk jezelf volledig in een bubbel op te sluiten:
• Zowel offline:
• “Those who use a lot of partisan information also use an above-average
amount of mainstream news.”
• “[M]ost people by far still get their news via traditional sources, most
notably public-service television.”
• Als online:
• “People who choose personalisation are more likely to use an above-
average amount of general-interest news as well.”
• “A recent study suggests that the influence of [the Facebook] algorithm is
lower than the influence of the user’s choices.”
[Zuiderveen Borgesius et al., 2016]
47. 1. Moeten we ons zorgen
maken?
• “[T]here is no empirical evidence that warrants any
strong worries about filter bubbles.”
• “One lesson we should have learned from the past is that
panic does not lead to sane policies. More evidence is
needed on the process and effects of personalisation,
so we can shift the basis of policy discussions from fear
to insight.”
[Zuiderveen Borgesius et al., 2016]
48. 1. Moeten we ons zorgen
maken?
“Personalisation on news sites is still at an infant stage, and
personalised content does not constitute a substantial
information source for most citizens.”
[Zuiderveen Borgesius et al., 2016]
51. 2. Methode
1. 👤
1. Verzamel 200 vrijwilligers met Google accounts.
2. Laat ze dezelfde zoekopdrachten invoeren.
3. Vergelijk resultaten.
2. 🤖
1. Maak Google “bots” (kunstmatige accounts).
• Varieer aspecten als locatie, demografische informatie, klikgedrag,
browsegeschiedenis, zoekgeschiedenis, etc.
2. Laat ze dezelfde zoekopdrachten invoeren.
3. Vergelijk resultaten.
[Hannák et al., 2013]
52. 2. Bevindingen 👤
• On average, 11.7% of results show differences due to
personalization on Google.
• Top ranks tend to be less personalized than bottom
ranks.
[Hannák et al., 2013]
53. 2. Bevindingen 👤
• ✅ A great deal of
personalization based on
location (especially for
company names, where users
received different store
locations).
• ❌ The least personalized
results tend to be factual and
health related queries.
[Hannák et al., 2013]
54. 2. Bevindingen 🤖
✅ Ingelogde vs. “cleared cookies” gebruikers
✅ Geolocatie
❌ Gender
❌ Age
❌ Search history
❌ Click history
❌ Browsing history
[Hannák et al., 2013]
57. 3. Methode
• Deel MovieLens (een film aanbeveling (CF) & rating site)
gebruikers in twee groepen:
• Volgers: gebruikers die films uit hun aanbevelingen raten.
• Negeerders: gebruikers die films raten die niet in hun
aanbevelingen staan.
• Vergelijk tussen beide groepen, over tijd:
• Diversiteit van aanbevelingen
• Waardering voor films
[Nguyen et al., 2014]
58. 3. Bevindingen
1. Diversiteit:
• Bij zowel volgers als negeerders daalt de diversiteit van
hun aanbevelingen over tijd.
• Die daling is sterker bij negeerders dan bij volgers (!)
2. Waardering:
• Bij negeerders daalt de gemiddelde score (3.74 naar 3.55).
• Bij volgers blijft hij stabiel (rond de 3.68).
[Nguyen et al., 2014]
61. 4. Doel
Increase exposure to varied political opinions
with a goal of improving civil discourse
[Yom-Tov et al. 2014]
62. 4. Methode
• Deel zoekmachinegebruikers in op political leaning (op
basis van geo/kiesdistrict)
[Yom-Tov et al. 2014]
63. 4. Methode
• Ken (op basis van gebruikers+bezochte nieuwssites) de
onderliggende nieuwsbronnen political leaning-score toe.
[Yom-Tov et al. 2014]
64. 4. Methode
• Identificeer gepolariseerde zoekopdrachten (met sterke
political leaning beide kanten op).
[Yom-Tov et al. 2014]
65. 4. Methode
• Treatment group: Meng bij zoekresultaten bij blauwe
gebruikers rode websites in, en bij rode gebruikers
blauwe websites.
• Control group: Pas de zoekresultaten niet aan.
[Yom-Tov et al. 2014]
66. 4. Methode
1. Korte termijn: Vergelijk clicks/gedrag tussen treatment
group & control group.
2. Lange termijn: meet gedurende twee weken, per
gebruiker:
1. Polarisatie: Het verschil tussen leaning-score van een
gebruiker t.o.v. de gemiddelde leaning van alle
bronnen.
2. Engagement: Gemiddeld aantal zoekopdrachten +
gemiddeld aantal gelezen artikelen.
67. 4. Bevindingen 1
• Minder clicks op de ingemengde opposing
nieuwsbronnen.
• Maar, wanneer een opposing nieuwsbron kwa taalgebruik
lijkt op dat van (wat) de gebruiker (leest), is een gebruiker
eerder geneigd het artikel te lezen.
• “Results pages of the opposing viewpoint which had a
similarity higher than the average tended to be
clicked 38% more than those below the average.”
[Yom-Tov et al. 2014]
68. 4. Bevindingen 2
• Polarisatie:
• Treatment: gemiddelde leaning ‘daalt’ ~25% naar centrum
• Control: verwaarloosbare verschuiving (1%)
• Engagement:
• Treatment: Aantal zoekopdrachten: +9% / artikelen: +4%
• Control: Lichte afname in beiden (~2.5%)
[Yom-Tov et al. 2014]
69. Take-home
• Je kunt mensen ‘nudgen’ om hun gedrag te ‘manipuleren’
• [Vermoedelijk] alleen bij mensen die ‘zweven’/niet sterk
gepolariseerd zijn.
• Is in die context een nudge niet een democratisch goed?
[Yom-Tov et al. 2014]
71. 5. Methode
• 🤖 Genereer aanbevelingen bij Volkskrant artikelen op basis van
verschillende (standaard) aanbevelingssystemen (CF & CB).
• 👤 Vergelijk met handgeselecteerde aanbevelingen van redactie.
• Meet “diversiteit” van artikelen in een set aanbevelingen:
• artikelinhoud
• tags
• categorieën
• sentiment/subjectiviteit
[Möller et al. 2018]
74. Daarnaast
• Technisch: Diversiteit kun je kwantificeren én inbouwen
(en willekeur is triviaal).
• Technisch: Feedback loop + “diversity in recommendation
sets increases user satisfaction” — aannemelijk dat
diversiteit ingebakken zit/als bijeffect komt.
• Technisch: Je weet nog niks van een nieuw item; je zult
die moeten aanbieden om signaal te krijgen.
75. Refs
1. Zuiderveen Borgesius, F. & Trilling, D. & Möller, J. & Bodó, B. & de Vreese, C. & Helberger, N. (2016).
Should we worry about filter bubbles?. Internet Policy Review, 5(1). DOI: 10.14763/2016.1.401
2. Hannák, A. & Sapiezynski, P & Kakhki, A.M. & Krishnamurthy, B. & Lazer, D. & Mislove, A, & Wilson, C,
(2013). Measuring personalization of web search. In Proceedings of the 22nd international conference
on World Wide Web (WWW '13). ACM, New York, NY, USA, 527-538. DOI: 10.1145/2488388.2488435
3. Nguyen, T. T. & Hui, P. M. & Harper, F. M. & Terveen, L. & Konstan, J. A. (2014). Exploring the filter
bubble: the effect of using recommender systems on content diversity. In Proceedings of the 23rd
international conference on World wide web (WWW '14). ACM, New York, NY, USA, 677-686. DOI:
10.1145/2566486.2568012
4. Yom-Tov, E. & Dumais, S. & Guo, Q. (2014). Promoting Civil Discourse Through Search Engine
Diversity. Soc. Sci. Comput. Rev. 32, 2 (April 2014), 145-154. DOI: 10.1177/0894439313506838
5. Möller, J. & Trilling, D. & Helberger, N. & van Es, B. (2018). Do not blame it on the algorithm: an
empirical assessment of multiple recommender systems and their impact on content
diversity. Information, Communication & Society, DOI: 10.1080/1369118X.2018.1444076