Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
iSearch
Testsamling til evaluering af integreret søgning
Marianne...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Dagens emner
• Projektets formål og problemstilling
• Testsamling...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Formål og problemstilling
‘Why is Google so
easy and the library
...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Formål og problemstilling
Haves:
Mange digitale samlinger med for...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Formål og problemstilling
Integreret søgning er løsningen:
• Rele...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Formål og problemstilling
• Overordnet handler projektet Værktøje...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
iSearch testsamling
En testsamling til at evaluere værktøjer til ...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
iSearch testsamling
• Testsamling indenfor fagområdet fysik
• Tes...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Informationsbehov
• 65 søgeopgaver
• Indsamlet gennem 3 workshops...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Informationsbehov
5 perspektiver
Perspective Question
a) Current ...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Informationsbehov
Formål
Task purpose %
Theoretical background 54...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Informationsbehov
Søgefacetter
Search facets Task description que...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Informationsbehov
Antal søgetermer
Task description questions (av...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Relevansbedømmelser
No. of tasks
Range of relevant docs. N = 65
>...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Søgeperformance
0
0.1
0.2
0.3
0.4
0.5
0.6
Previous results Design...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Søgeperformance
0.0
0.2
0.4
0.6
0.8
1.0
Short length (2-4 terms) ...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Opsamling og videre arbejde
• Oprettelse af testsamling til evalu...
Marianne Lykke, AAU eLLFabita temadag, 11. november 2010
Litteratur
Lykke, M., Ingwersen, P., Bogers, T., Lund, H. & Larse...
Upcoming SlideShare
Loading in …5
×

Marianne Lykkes presentation at Deff fabita 2010

641
-1

Published on

Published in: Technology, Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
641
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Marianne Lykkes presentation at Deff fabita 2010

  1. 1. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 iSearch Testsamling til evaluering af integreret søgning Marianne Lykke, Peter Ingwersen, Birger Larsen, Haakon Lund og Toine Bogers DEFF projekt 2008 - 2009
  2. 2. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Dagens emner • Projektets formål og problemstilling • Testsamlingen • Resultater vedr. testsamling • Resultater vedr. informationsbehov • Resultater vedr. søgeperformance • Opsamling og det videre arbejde
  3. 3. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Formål og problemstilling ‘Why is Google so easy and the library so hard?’ (Claire Duddy - student) United Kingdom Serials Group 2009 Annual conference
  4. 4. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Formål og problemstilling Haves: Mange digitale samlinger med forskellige medier, genrer, dokumenttyper, metadata og vokabularer Ønskes: En søgemaskine, der kan finde de mest relevante resultater på tværs af det hele.
  5. 5. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Formål og problemstilling Integreret søgning er løsningen: • Relevante informationsobjekter høstes • Posterne normaliseres til et enkelt metadata forma • De indekseres i et stort fælles indeks • Der tilføjes en Google-like søgeboks og rangering • (…en slags federated search 2.0)
  6. 6. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Formål og problemstilling • Overordnet handler projektet Værktøjer til integreret søgning om at teste og evaluere, hvilke søgealgoritmer og indekseringskonfigurationer, der giver de bedste søgeresultater ved integreret søgning • I praksis har det største arbejde været at udvikle og etablere et realistisk testmiljø, hvor søge- og rangordningsalgoritmer kan evalueres systematisk og metodisk korrekt
  7. 7. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 iSearch testsamling En testsamling til at evaluere værktøjer til integreret søgning kræver som minimum: • En samling af forskellige dokumenttyper, med forskellige dokumentrepræsentationer • Et sæt søgeopgaver • Relevansvurderinger i forhold til søgeopgaver • Formålet er at foretage både realistiske og kontrollerede testsøgninger
  8. 8. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 iSearch testsamling • Testsamling indenfor fagområdet fysik • Testsamling bestående af: – 18.841 bogposter – 291,244 artikelposter, inkl. abstrakts – 143,569 fuldtekst artikler • Varieret sæt af metadata formater og vokabularer • 65 realistiske informationsbehov • 4-skala relevansbedømmelser • Demografisk information om fysikere • Holdningsinformation om metadata, søgning, relevansbedømmelse, tilfredshed med søgeresultat
  9. 9. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Informationsbehov • 65 søgeopgaver • Indsamlet gennem 3 workshops afholdt på DTU, KU og AAU • 23 fysikere, seniorforskere, phd’ere, specialestuderende) • Spørgeskema • Beskrivelse af informationsbehov ud fra 5 perspektiver • Demografiske data • Holdningsdata
  10. 10. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Informationsbehov 5 perspektiver Perspective Question a) Current information need What are you looking for? b) Work task situation Why are you looking for this? c) Current knowledge state What is you background knowledge of this topic? d) Ideal answer What should am ideal answer contain to solve problem or task? e) Adequate search terms Which central search terms would you use to express situation and information need?
  11. 11. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Informationsbehov Formål Task purpose % Theoretical background 54 Previous results 26 Research methodology 20
  12. 12. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Informationsbehov Søgefacetter Search facets Task description questions a) b) c) d) e) All Common topic 316 545 310 234 242 1647 Method 47 73 66 37 48 271 Info type 38 26 29 145 5 243 Application 1 7 1 1 1 11 Other n/a 15 11 5 n/a 31
  13. 13. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Informationsbehov Antal søgetermer Task description questions (average) Task purpose a) b) c) d) e) All Theoretical background 6.7 10.5 6.1 7.1 4.8 35.2 Previous results 5.5 10.1 6.1 5.4 4.7 31.8 Research methodology 5.8 9.6 6.9 6.3 3.8 32.4 All 6.2 10.2 6.4 6.5 4.6 33.8
  14. 14. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Relevansbedømmelser No. of tasks Range of relevant docs. N = 65 > 100 9 75 - 100 3 50 - 74 8 25 - 49 13 15 - 24 12 10 - 14 8 < 10 12
  15. 15. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Søgeperformance 0 0.1 0.2 0.3 0.4 0.5 0.6 Previous results Design methodology Theory & background knowledge NDCG NDCG for different task purposes and document types All document types Book records Full text articles Metadata records
  16. 16. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Søgeperformance 0.0 0.2 0.4 0.6 0.8 1.0 Short length (2-4 terms) Long length (5-12 terms) NDCG NDCG for different task lengths and document types All document types Book records Full text articles Metadata records
  17. 17. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Opsamling og videre arbejde • Oprettelse af testsamling til evaluering af søgealgoritmer og indekseringskonfigurationer ved integreret søgning • Realistisk og kontrolleret test setting • Informationssøgning indenfor fagområdet Fysik: – 3 overordnede typer informationsbehov – Muligt at identificere 5 perspektiver på informationsbehov med forskelligt antal facetter – BT/NT, forkortelser, få andre synonyme variationer • Søgeeffektivitet varierer på tværs af informationsbehovstyper og dokumentrepræsentationer • Fremtidigt arbejde: – Analyser af sammenhæng mellem informationsbehovstyper, facetter, dokumenttyper, vokabularer og dokumentrepræsentationer – Kvalitative, forklarende analyser
  18. 18. Marianne Lykke, AAU eLLFabita temadag, 11. november 2010 Litteratur Lykke, M., Ingwersen, P., Bogers, T., Lund, H. & Larsen, B. (2010): Physicists' Information Tasks: Structure, Length and Retrieval Performance. In: Belkin, N. J. & Kelly, D. (reds.) IIiX'10 Proceeding of the Third Symposium on Information Interaction in Context, New Brunswick, NJ, USA, August 18-21, 2010.New York: ACM, p. 347- 351. Ingwersen, P., Lykke, M., Bogers, T., Larsen, B. & Lund, H. (2010): Assessors' Search Result Satisfaction Associated with Relevance in a Scientific Domain. In: Belkin, N. J. & Kelly, D. (reds.) IIiX'10 Proceeding of the Third Symposium on Information Interaction in Context, New Brunswick, NJ, USA, August 18-21, 2010.New York: ACM, p. 283-287. Lykke, M., Larsen, B., Lund, H. & Ingwersen, P. (2010): Developing a Test Collection for the Evaluation of Integrated Search. In: Gurrin, C. & al. eds. Advances in Information Retrieval, 32nd European Conference on IR Research, ECIR 2010, Milton Keynes, UK, March 28-31, 2010, Proceedings. Berlin: Springer, p. 627-630. (Lecture Notes in Computer Science ; 5993)

×