Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Relevanzranking (in VuFind) aus der Nähe

199 views

Published on

Anhand der VuFind-Instanzen tub.find (TU Hamburg, https://katalog.tub.tuhh.de/) und Beluga (SUB Hamburg, https://beluga.sub.uni-hamburg.de/) wird die Gewichtung von Treffern in der Ergebnisliste untersucht. Die Präsentation enthält Tipps, wie die Relevanzbewertung konfiguriert werden kann und wie der Scorewert erklärt werden kann.

Published in: Education
  • Be the first to comment

  • Be the first to like this

Relevanzranking (in VuFind) aus der Nähe

  1. 1. Relevanzranking aus der Nähe Wie Treffergewichtungen in VuFind/Solr zustandekommen und optimiert werden können Oliver Goldschmidt https://orcid.org/0000-0002-5468-401X Universitätsbibliothek der TU Hamburg 28.09.2017 Oliver Goldschmidt TUB Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  2. 2. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 Brainstorming Wünsche an das Relevanzranking https://creativecommons.org/licenses/by/4.0/
  3. 3. ● Aktuelleres höher gewichten ● Exact Match höher gewichten ● Medienart höher gewichten (Lehrbuch-Boosting, E-Book- Boosting, …) ● Phrasentreffer-Boosting Oliver Goldschmidt TU Hamburg-Harburg Wünsche an das Relevanzranking 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  4. 4. ● Wege suchen, wie das Erscheinungsjahr und exact matches besser in die Relevanzbewertung in VuFind eingeflochten werden können ● Schaffung eines Problembewusstseins für die Relevanzgewichtung ● Diskussion für weitere Verbesserungvorschläge bzw. Ideen zur Verbesserung des Relevanzrankings Oliver Goldschmidt TU Hamburg-Harburg Ziel des Workshops 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  5. 5. ● Kurzer Suchbegriff mit Zahl ● Erwartung: MSN-202 prominent gewichtet ● Ergebnis: MSN-202 gar nicht auf erster Trefferseite Oliver Goldschmidt TU Hamburg-Harburg Beispiel Ad 2000 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  6. 6. ● „Allerweltsbegriff“ als Suchbegriff ● Erste Treffer: Lehrbücher („Lehrbuchboosting“) ● Exact matches im Titel geringer gewichtet Oliver Goldschmidt TU Hamburg-Harburg Beispiel Thermodynamik 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  7. 7. ● Produktname als Suchbegriff ● Ergebnis nicht gut, erster Treffer zur Software InDesign in tub.find ist Treffer 8 (in Beluga nicht auf den ersten 20 Seiten) Oliver Goldschmidt TU Hamburg-Harburg Beispiel InDesign 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  8. 8. ● Band aus Schriftenreihe als Suchbegriff Oliver Goldschmidt TU Hamburg-Harburg Beispiel VDI-Berichte 2217 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  9. 9. ● Band aus Schriftenreihe als Suchbegriff Oliver Goldschmidt TU Hamburg-Harburg Beispiel DIN-Taschenbuch 126 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  10. 10. ● Zeitschriftentitel als Suchbegriff ● Ähnlich der Schriftenreihe- Suche ● Erwartungshaltung: Gesamt-TA weit oben finden ● Ergebnisse nicht gut ● Workaround: Suche nach Zeitschriftentitel Oliver Goldschmidt TU Hamburg-Harburg Beispiel Nature/Science 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  11. 11. Oliver Goldschmidt TU Hamburg-Harburg Beispiel Graphentheorie 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 ● Beispiellink ● Verschiedene Auflagen werden gefunden ● Relevanzbewertung sollte aktuellere Auflage höher gewichten ● Optimierungsbedarf Score: 42355,82 Score: 42300,203 Score: 42200,203 Score: 40642,887 Score: 40569,08 https://creativecommons.org/licenses/by/4.0/
  12. 12. Oliver Goldschmidt TU Hamburg-Harburg DisMax Boosting Parameter 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 q Defines the raw input strings for the query. q.alt Calls the standard query parser and defines query input strings, when the q parameter is not used. qf Query Fields: specifies the fields in the index on which to perform the query. If absent, defaults to df. mm Minimum "Should" Match: specifies a minimum number of clauses that must match in a query. If no 'mm' parameter is specified in the query, or as a default in solrconfig.xml, the effective value of the q.op parameter (either in the query, as a default in solrconfig.xml, or from the defaultOperator option in the Schema) is used to influence the behavior. If q.op is effectively AND'ed, then mm=100%; if q.op is OR'ed, then mm=1. Users who want to force the legacy behavior should set a default value for the 'mm' parameter in their solrconfig.xml file. Users should add this as a configured default for their request handlers. This parameter tolerates miscellaneous white spaces in expressions (e.g., " 3 < -25% 10 < -3n", " n-25%n ", " n3n "). pf Phrase Fields: boosts the score of documents in cases where all of the terms in the q parameter appear in close proximity. ps Phrase Slop: specifies the number of positions two terms can be apart in order to match the specified phrase. qs Query Phrase Slop: specifies the number of positions two terms can be apart in order to match the specified phrase. Used specifically with the qf parameter. tie Tie Breaker: specifies a float value (which should be something much less than 1) to use as tiebreaker in DisMax queries. Default: 0.0 bq Boost Query: specifies a factor by which a term or phrase should be "boosted" in importance when considering a match. bf Boost Functions: specifies functions to be applied to boosts. (See for details about function queries.) Quelle: https://cwiki.apache.org/confluence/display/solr/The+DisMax+Query+Parser https://creativecommons.org/licenses/by/4.0/
  13. 13. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 Bewertungsgrundlage tub.find pf Phrase Fields: boosts the score of documents in cases where all of the terms in the q parameter appear in close proximity. - [pf, title_short^5 title_full_unstemmed^400 title_full^5 title^5 title_alt^5 title_new^5 series^5 series2^5 author^10 author_fuller^10 topic_unstemmed^20 topic_title^20 topic^5 contents^0 allfields_unstemmed^0 fulltext_unstemmed^0 geographic genre description] ps Phrase Slop: specifies the number of positions two terms can be apart in order to match the specified phrase. - [ps, 10] bf Boost Functions: specifies functions to be applied to boosts. # Basic boosting for year of publication - [bf, ord(publishDateSort)^10] # More boosting on the year of publication, depending on the type of record - [bf, "if(exists(query({!v=format:Journal})),ord(publishDateSort),0)^0"] - [bf, "if(exists(query({!v=format:Book})),ord(publishDateSort),0)^10"] - [bf, "if(exists(query({!v=format:eBook})),ord(publishDateSort),0)^12"] - [bf, "if(exists(query({!v=collection:Website})),ord(publishDateSort),0)^0.1"] - [bf, "if(exists(query({!v=collection:Weblog})),ord(publishDateSort),0)^0"] https://creativecommons.org/licenses/by/4.0/
  14. 14. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 Bewertungsgrundlage tub.find bq Boost Query: specifies a factor by which a term or phrase should be "boosted" in importance when considering a match. # Additional format boosting - [bq, format:Book^30] - [bq, format:eBook^50] - [bq, format:Journal^50] - [bq, format:eJournal^25] - [bq, collection:Website^8] # Additional boost for text book collection - [bq, standort_iln_str_mv:"23:LBS"^150] https://creativecommons.org/licenses/by/4.0/
  15. 15. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 ● Erklärung Treffer 1: – 7064.5713 title_full_unstemmed algorithmische – 7238.854 title_full_unstemmed graphentheorie – 14303.426 title_full_unstemmed algorithmische graphentheorie – 48.970158 format:book (30-faches Boosting von 1.6323386) – 6850.0 Erscheinungsdatum (10- faches Boosting von 685) – 6850.0 zusätzliches Buch- Erscheinungsjahr-Boosting Score: 42355,82 Beispiel Graphentheorie https://creativecommons.org/licenses/by/4.0/
  16. 16. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 ● Erklärung Treffer 4: – 6223.7314 title_full_unstemmed algorithmische – 6377.271 title_full_unstemmed graphentheorie – 12601.002 title_full_unstemmed algorithmische graphentheorie – 48.970158 format:book (30-faches Boosting von 1.6323386) – 1311.9124 Lehrbuch-Boosting – 7040.0 Erscheinungsdatum (10- faches Boosting von 704) – 7040.0 zusätzliches Buch- Erscheinungsjahr-Boosting Score: 40642,887 Beispiel Graphentheorie https://creativecommons.org/licenses/by/4.0/
  17. 17. Oliver Goldschmidt TU Hamburg-Harburg 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 ● Erklärung Treffer 5: – 6392.8774 title_full_unstemmed algorithmische – 6284.0864 title_full_unstemmed graphentheorie – 12676.964 title_full_unstemmed algorithmische graphentheorie – 162.27933 format:ebook (50-faches Boosting von 3.2455864 ) – 6850.0 Erscheinungsdatum (10- faches Boosting von 685) – 8220.0 zusätzliches eBook- Erscheinungsjahr-Boosting (12-faches Boosting von 685) Score: 40569,08 Beispiel Graphentheorie https://creativecommons.org/licenses/by/4.0/
  18. 18. Oliver Goldschmidt TU Hamburg-Harburg Beispiel 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  19. 19. Oliver Goldschmidt TU Hamburg-Harburg Fragen und Schlussfolgerungen 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 ● Warum werden die Erscheinungsjahre von Treffer 1 und 5 (1996 und 2010) gleich behandelt (beide haben einen Score von 685)? ● Erscheinungsjahr-Berücksichtigung hat offenbar gar keine Auswirkung?! ● Warum entstehen unterschiedliche Scores in title_full_unstemmed, obwohl der Titel in allen drei Fällen identisch ist? https://creativecommons.org/licenses/by/4.0/
  20. 20. Oliver Goldschmidt TU Hamburg-Harburg Beispiel 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 Treffer 1 Treffer 4 Treffer 5 Feld Algorithmische Graphentheorie Volker Turau Algorithmische Graphentheorie Turau, Christoph Weyer Algorithmische Graphentheorie Elektronische Ressource von Volker Turau title_full_unstemmed nein ja nein Lehrbuch Book Book eBook Formatboosting 1996 2015 2010 Erscheinungsjahr ● Titel ist im Index nicht identisch! https://creativecommons.org/licenses/by/4.0/
  21. 21. ● Searchspecs.yaml zur Anwendung von Boostingfunktionen ● DisMax Boosting Parameter https://cwiki.apache.org/confluence/display/solr/The+DisMa x+Query+Parser ● Solr-Parameter debugQuery=true zum Analysieren des Scorings ● Boosting-Funktionen https://wiki.apache.org/solr/FunctionQuery – recip (funktioniert im findex- oder Sharding-Kontext nicht) – ord / rord Oliver Goldschmidt TU Hamburg-Harburg Konfiguration in VuFind 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  22. 22. ● debugQuery=true an Solr-Anfrage anhängen Oliver Goldschmidt TU Hamburg-Harburg Relevanzerklärung aus Solr 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 https://creativecommons.org/licenses/by/4.0/
  23. 23. Oliver Goldschmidt TU Hamburg-Harburg Vielen Dank 6th German VuFind-Meeting University Library Hamburg, Germany 2017/09/28 Viel Erfolg beim Optimieren https://creativecommons.org/licenses/by/4.0/

×