Hoe zoekmachines nieuwe documenten op relevante wijze sorteren
Relevant nieuws
“Hoe zoekmachines nieuwsdocumenten op relevantie sorteren”
Informatie aan Zee 2019 – Oostende
Marco van Gennip
Director of Product Management
LexisNexis | Nexis Solutions
Relevant nieuws | Informatie aan Zee 2019
Na deze presentatie weet u iets meer over:
- mij en LexisNexis (introductie)
- verschillen in zoekgedrag
- wat algoritmen zijn en verschillende algoritmen in zoekmachines
- hoe kwaliteit van een algoritme berekend kan worden
- een voorbeeld: nieuwsresultaten gerangschikt op relevantie
Formerly Business
Insight Solutions (BIS)
Over mezelf
Geef leiding aan een internationaal team van
Product Managers voor een aantal van de
beste Nexis Solutions producten inclusief
Nexis, Nexis Uni en Company Dossier
20+ jaar ervaring in de informatievergaring
sector
10+ jaar ervaring in product management
Contact:
E-mail: Marco.vangennip@lexisnexis.com
LinkedIn:
https://www.linkedin.com/in/marcovangennip/
Meest volledige en betrouwbare informatie
TELEVISIE
SOCIALE
MEDIA
& BLOGS
JURIDISCHE
DATA
BEDRIJFS-
INFORMATIE
RADIO
MARKTEN EN
LANDEN
PATENTEN
PEP &
SANCTIES
GEDRUKTE
EN ONLINE
MEDIA
BESTUURDERS
Nexis
Solutions
Expert/Expert
Lange zoekvragen
Precieze termen
Booleaanse operatoren
Informatiespecialist
Novice/Novice
Korte zoekvragen
Ambivalente termen
Vrije tekst zoeken
1ste-jaarsstudenten, Stagiaires
Novice/Expert
Oriënterende zoekvragen
Booleaanse operatoren
Media intelligence consultant
Meeronderwerpkennis
Meer zoekervaring
Zoekgedrag – Kennis en ervaring
Expert/Novice
Lange zoekvragen
Precieze termen
Vrije tekst zoeken
PR-managers, strategieconsultants,
4de-jaarsstudenten
Zoekgedrag – privé versus zakelijk
Het verschil tussen privé en zakelijk zoekgedrag leidt tot
verschillende zoek- en relevantie-algoritmen.
Prive Zakelijk
“Gratis” Afgekocht
Hoog volume (Google, FB) Lager volume
Gelijksoortige zoekacties Specifieke zoekacties
Veel kleine persoonlijke beslissingen Potentiële bedrijfsimpact
Waardeert gesponsorde resultaten Waardeert neutrale resultaten
Clickgedrag Zoekgedrag
Risico: Clickbait en nepnieuws
Kwaliteitsmeting
Discounted cumulative gain
Meet de kwaliteit van het sorteren op relevantie. Elk document in de top X (3, 5, 10, 25) van een resultatenlijst wordt
gewaardeerd op zijn relevantie en vervolgens vergeleken op zijn nut (Gain) binnen de resultatenlijst.
Twee veronderstellingen:
1. Het is handig om de meest relevante documenten bovenin de resultatenlijst te hebben
2. Relevante resultaten zijn nuttiger dan minder of niet relevante resultaten
Beperkingen DCG:
1. Houdt geen rekening met irrelevante resultaten
2. Houdt geen rekening met missende resultaten
0
Twee methodes om relevantie te testen
0
Selecteer
zoekvragen om
te testen
Domein experts
scoren de top x
resultaten
Converteer naar
een DCG score
Analyseer lage
scores
Pas algoritme
aan
A/B test
Score op basis
van interactie
Converteer naar
een eDCG score
Vergelijk &
Analyseer A/B
Pas algoritme
aanHuman
Relevance
Testing (HRT)
Engagement
Relevance
Testing (ERT)
Discounted Cumulative Gain voor nieuws in Nexis & Nexis Uni
# Zoekvragen DCG[3] DCG[5]
Alle zoekvragen 1000 6.33 8.89
Expert/Expert 500 6.68 9.23
Novice/Novice 500 6.20 8.77
Basisscore na eerste implementatie algoritme
Samenvatting
- Verschillen in zoekgedrag:
- ervaring (Novice vs Expert)
- consumenten vs zakelijk
- Wat algoritmen zijn en verschillende algoritmen
in zoekmachines:
- reeks instructies naar een bepaald resultaat
- retrieval (recall & precision)
- sorteren
- kwaliteit
- Kwaliteitsmeting:
- (e)DCG
- HRT & ERT
- Nieuws relevantie:
- term frequency, variance & proximity
- boosts en deboosts
Nexis Solutions is the division of LexisNexis L&P that serves business users with the largest collection of both licenced and online news, business, and regulatory content
We are a truly global business with teams located across 17 countries, serving customers in over across the world
Retrieval: De resultaten de een zoekmachine op basis van een zoekvraag oplevert
Precision: % relevant t.o. de zoekvraag
Recall: Success %
Sortering: datum, lengte, alfabet, relevantie voor de zoeker
Two assumptions are made in using DCG and its related measures.
Highly relevant documents are more useful when appearing earlier in a search engine result list (have higher ranks)
Highly relevant documents are more useful than marginally relevant documents, which are in turn more useful than non-relevant documents.
Limitations to DCG:- Does not penalize irrelevant documents in the top
- Does not penalize missed documents