Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Hoe zoekmachines nieuwe documenten op relevante wijze sorteren

48 views

Published on

Informatie aan Zee 2019

  • Be the first to comment

  • Be the first to like this

Hoe zoekmachines nieuwe documenten op relevante wijze sorteren

  1. 1. Relevant nieuws “Hoe zoekmachines nieuwsdocumenten op relevantie sorteren” Informatie aan Zee 2019 – Oostende Marco van Gennip Director of Product Management LexisNexis | Nexis Solutions
  2. 2. Relevant nieuws | Informatie aan Zee 2019 Na deze presentatie weet u iets meer over: - mij en LexisNexis (introductie) - verschillen in zoekgedrag - wat algoritmen zijn en verschillende algoritmen in zoekmachines - hoe kwaliteit van een algoritme berekend kan worden - een voorbeeld: nieuwsresultaten gerangschikt op relevantie
  3. 3. Formerly Business Insight Solutions (BIS) Over mezelf Geef leiding aan een internationaal team van Product Managers voor een aantal van de beste Nexis Solutions producten inclusief Nexis, Nexis Uni en Company Dossier 20+ jaar ervaring in de informatievergaring sector 10+ jaar ervaring in product management Contact: E-mail: Marco.vangennip@lexisnexis.com LinkedIn: https://www.linkedin.com/in/marcovangennip/
  4. 4. Risk & Business Analytics Exhibitions Scientific, Technical & Medical Nexis Solutions LEGAL PROFESSIONAL Asia EMEA N. America UK/ Ireland, Pacific Legal & Professional Wat is Nexis Solutions?
  5. 5. Meest volledige en betrouwbare informatie TELEVISIE SOCIALE MEDIA & BLOGS JURIDISCHE DATA BEDRIJFS- INFORMATIE RADIO MARKTEN EN LANDEN PATENTEN PEP & SANCTIES GEDRUKTE EN ONLINE MEDIA BESTUURDERS Nexis Solutions
  6. 6. Zoekgedrag
  7. 7. Expert/Expert Lange zoekvragen Precieze termen Booleaanse operatoren Informatiespecialist Novice/Novice Korte zoekvragen Ambivalente termen Vrije tekst zoeken 1ste-jaarsstudenten, Stagiaires Novice/Expert Oriënterende zoekvragen Booleaanse operatoren Media intelligence consultant Meeronderwerpkennis Meer zoekervaring Zoekgedrag – Kennis en ervaring Expert/Novice Lange zoekvragen Precieze termen Vrije tekst zoeken PR-managers, strategieconsultants, 4de-jaarsstudenten
  8. 8. Zoekgedrag – privé versus zakelijk Het verschil tussen privé en zakelijk zoekgedrag leidt tot verschillende zoek- en relevantie-algoritmen. Prive Zakelijk “Gratis” Afgekocht Hoog volume (Google, FB) Lager volume Gelijksoortige zoekacties Specifieke zoekacties Veel kleine persoonlijke beslissingen Potentiële bedrijfsimpact Waardeert gesponsorde resultaten Waardeert neutrale resultaten Clickgedrag Zoekgedrag Risico: Clickbait en nepnieuws
  9. 9. Algoritmen
  10. 10. 0 https://www.facebook.com/OmroepPowNed/posts/3375130025831320? Wat zijn algoritmen?
  11. 11. Recall Precision 0 Algoritmen in zoekmachines Resultaat Kwaliteit Sorteren Retrieval
  12. 12. Kwaliteit
  13. 13. Kwaliteitsmeting Discounted cumulative gain Meet de kwaliteit van het sorteren op relevantie. Elk document in de top X (3, 5, 10, 25) van een resultatenlijst wordt gewaardeerd op zijn relevantie en vervolgens vergeleken op zijn nut (Gain) binnen de resultatenlijst. Twee veronderstellingen: 1. Het is handig om de meest relevante documenten bovenin de resultatenlijst te hebben 2. Relevante resultaten zijn nuttiger dan minder of niet relevante resultaten Beperkingen DCG: 1. Houdt geen rekening met irrelevante resultaten 2. Houdt geen rekening met missende resultaten 0
  14. 14. Twee methodes om relevantie te testen 0 Selecteer zoekvragen om te testen Domein experts scoren de top x resultaten Converteer naar een DCG score Analyseer lage scores Pas algoritme aan A/B test Score op basis van interactie Converteer naar een eDCG score Vergelijk & Analyseer A/B Pas algoritme aanHuman Relevance Testing (HRT) Engagement Relevance Testing (ERT)
  15. 15. Discounted Cumulative Gain voor nieuws in Nexis & Nexis Uni # Zoekvragen DCG[3] DCG[5] Alle zoekvragen 1000 6.33 8.89 Expert/Expert 500 6.68 9.23 Novice/Novice 500 6.20 8.77 Basisscore na eerste implementatie algoritme
  16. 16. Nieuws op relevantie
  17. 17. Relevantie algoritme Term Frequency Inverse Document Frequency Term Proximity Date boost Title boost Content Type de- boost Term Variance
  18. 18. Samenvatting - Verschillen in zoekgedrag: - ervaring (Novice vs Expert) - consumenten vs zakelijk - Wat algoritmen zijn en verschillende algoritmen in zoekmachines: - reeks instructies naar een bepaald resultaat - retrieval (recall & precision) - sorteren - kwaliteit - Kwaliteitsmeting: - (e)DCG - HRT & ERT - Nieuws relevantie: - term frequency, variance & proximity - boosts en deboosts
  19. 19. Hartelijk dank.

×