iSearch: brugerbehov og testresultater i integreret søgning
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

iSearch: brugerbehov og testresultater i integreret søgning

  • 436 views
Uploaded on

 

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
436
On Slideshare
412
From Embeds
24
Number of Embeds
1

Actions

Shares
Downloads
1
Comments
0
Likes
0

Embeds 24

http://www.ell.aau.dk 24

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. iSearch: brugerbehov ogtestresultater i integreret søgningMarianne Lykke, professor, PhD.Aalborg UniversityInstitut for Kommunikation, eLearning Lab
  • 2. Dagens emner• Projektets formål og problemstilling• Testsamlingen• Resultater vedr. testsamling• Resultater vedr. informationsbehov• Resultater vedr. søgeperformance• Opsamling og det videre arbejde
  • 3. Formål og problemstilling ‘Why is Google so easy and the library so hard?’ (Claire Duddy - student) United Kingdom Serials Group 2009 Annual conference
  • 4. Formål og problemstillingHaves:Mange digitale samlinger med forskellige medier, genrer, dokumenttyper, metadata og vokabularerØnskes:En søgemaskine, der kan finde de mest relevante resultater på tværs af det hele
  • 5. Formål og problemstillingIntegreret søgning er en mulig løsning:• Relevante informationsobjekter høstes• Posterne normaliseres til et enkelt metadata format• De indekseres i et stort fælles indeks• Der tilføjes en Google-like søgeboks og rangering• (…en slags federated search 2.0)
  • 6. Formål og problemstilling• Overordnet handler projektet Værktøjer til integreret søgning om at teste og evaluere, hvilke søgealgoritmer og indekseringskonfigurationer, der giver de bedste søgeresultater ved integreret søgning• I praksis har det største arbejde været at udvikle og etablere et realistisk testmiljø, hvor søge- og rangordningsalgoritmer kan evalueres systematisk og metodisk korrekt
  • 7. iSearch testsamlingEn testsamling til at evaluere værktøjer til integreret søgning kræver som minimum:• En samling af forskellige dokumenttyper, med forskellige dokumentrepræsentationer• Et sæt søgeopgaver• Relevansvurderinger i forhold til søgeopgaver• Formålet er at foretage både realistiske og kontrollerede testsøgninger
  • 8. iSearch testsamling• Testsamling indenfor fagområdet fysik• Testsamling bestående af: – 18.841 bogposter – 291,244 artikelposter, inkl. abstrakts – 143,569 fuldtekst artikler• Varieret sæt af metadata formater og vokabularer• 65 realistiske informationsbehov• 4-skala relevansbedømmelser• Demografisk information om fysikere• Holdningsinformation om metadata, søgning, relevansbedømmelse, tilfredshed med søgeresultat
  • 9. Informationsbehov • 65 søgeopgaver • Indsamlet gennem 3 workshops afholdt på DTU, KU og AAU • 23 fysikere, seniorforskere, phd’ere, specialestuderende) • Spørgeskema • Beskrivelse af informationsbehov ud fra 5 perspektiver • Demografiske data • Holdningsdata • Op til 200 relevansbedømmelser per opgave • 4 skalaer: highly, faily, marginally and not relevant
  • 10. Informationsbehov5 perspektiverPerspective Questiona) Current information need What are you looking for?b) Work task situation Why are you looking for this? What is you backgroundc) Current knowledge state knowledge of this topic? What should am ideal answerd) Ideal answer contain to solve problem or task? Which central search terms woulde) Adequate search terms you use to express situation and information need?
  • 11. iSearch information need No. 49a) Information Need: Information on characterization by photo luminescence of highly doped ZnO filmsb) Work Task: For my master thesis I work with characterization of ZnO films by photo luminescence. The films are manufactured by RF magnetron sputtering and have thicknesses of approximately 100 nm. The films are either intrinsic or doped with Al. Green luminescence are of particular interest, but other defect modes are also of interest. The aim is to document a simple way of characterizing films in a non intrusive manor, and maybe to implement the technique in the production to monitor film growth. In particular information on sub band gab excitation is interesting as only a 405 nm laser is readily available at the institutec) Background: I have worked with the topic for a year and a half. We have made experiments with photo luminescence and have observed green luminescence. I have read quite a lot of review articles on the subject and have been seeking articles with comparable parametersd) Ideal Answer: An article containing examples of luminescence from samples made by rf magnetron sputtering. Graphs with photoluminescence data from ZnO films are essential. Ideally Al doped ZnO films would be featured in the articlee) Search terms: ZnO, rf magnetron sputtering, photo luminescence, al doped, green luminescence
  • 12. InformationsbehovFormålTask purpose %Theoretical background 54Previous results 26Research methodology 20
  • 13. InformationsbehovSøgefacetterSearch facets Task description questions a) b) c) d) e) AllCommon topic 316 545 310 234 242 1647Method 47 73 66 37 48 271Info type 38 26 29 145 5 243Application 1 7 1 1 1 11Other n/a 15 11 5 n/a 31
  • 14. InformationsbehovAndre facetter • Research groups • Specific reference • Source • Year • Location • Disciplinary field • Audience
  • 15. InformationsbehovAntal søgetermer Task description questions (average)Task purpose a) b) c) d) e) AllTheoretical 6.7 10.5 6.1 7.1 4.8 35.2backgroundPrevious results 5.5 10.1 6.1 5.4 4.7 31.8Research 5.8 9.6 6.9 6.3 3.8 32.4methodologyAll 6.2 10.2 6.4 6.5 4.6 33.8
  • 16. Relevansbedømmelser No. of tasks Range of relevant docs. N = 65 > 100 9 75 - 100 3 50 - 74 8 25 - 49 13 15 - 24 12 10 - 14 8 < 10 12
  • 17. Søgeperformance - dokumenttyper 0,50 0,45 0,40 Alle rel. 0,35 rel. Bogposter 0,30 rel. Fuldtekst rel. Metadata Præcision 0,25 0,20 0,15 0,10 0,05 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Recall
  • 18. Søgeperformance - fusion 0,50 0,45 0,40 Alle rel. rel. Bogposter 0,35 rel. Fuldtekst 0,30 rel. Metadata 0,25 Precisiopn 0,20 0,15 0,10 0,05 0,00 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 Recall
  • 19. Søgeperformance - metadata 0,50 0,45 0,40 description fulltext 0,35 0,30 subject title 0,25 Precisiopn 0,20 0,15 0,10 0,05 0,00 0,00 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 Recall
  • 20. Relevansbedømmelse - metadata 80,0 Extremely useful Somewhat useful Not at all useful 70,0 60,0 50,0 40,0 30,0 20,0 10,0 0,0 Author Description Date Comment Subjects
  • 21. Søgeperformance – description 0,50 0,45 0,40 Alle rel. 0,35 rel. Bogposter 0,30 rel. Fuldtekst 0,25 rel. Metadata Precisiopn 0,20 0,15 0,10 0,05 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Recall
  • 22. Søgeperformance - dokumenttyper NDCG for different task purposes and document types 0,6 0,5 0,4 NDCG 0,3 0,2 0,1 0 Previous results Design methodology Theory & background All document types Book records knowledge Full text articles Metadata records
  • 23. Søgeperformance - søgetermer NDCG for different task lengths and document types 1,0 0,8 0,6NDCG 0,4 0,2 0,0 Short length (2-4 terms) Long length (5-12 terms) All document types Book records Full text articles Metadata records
  • 24. Opsamling og videre arbejde • Oprettelse af testsamling til evaluering af integreret søgning • Realistisk og kontrolleret test setting • Informationssøgning indenfor fagområdet Fysik: – 3 overordnede typer informationsbehov – Muligt at identificere 5 perspektiver på informationsbehov med forskelligt antal facetter – BT/NT, forkortelser, få andre synonyme variationer • Søgeeffektivitet varierer på tværs af informationsbehovstyper og dokumentrepræsentationer • Fremtidigt arbejde: – Analyser af sammenhæng mellem informationsbehovstyper, facetter, dokumenttyper, vokabularer og dokumentrepræsentationer – Kvalitative, forklarende analyser – Analyser i ”virkelighedens verden”
  • 25. Erfaringer• Hensyntagen til dokumenttyper med hensyn til vægtning og fusion• Analysere informationsbehovstyper, længde og struktur – Opsætning – Interface og brugter-systemdialog – Undervisning
  • 26. LitteraturIngwersen, P., Lykke, M., Bogers, T., Larsen, B. & Lund, H. (2010): Assessors Search Result Satisfaction Associated with Relevance in a Scientific Domain. In: Belkin, N. J. & Kelly, D. (reds.) IIiX10 Proceeding of the Third Symposium on Information Interaction in Context, New Brunswick, NJ, USA, August 18-21, 2010.New York: ACM, p. 283-287.Ingwersen, P., Toine, B. & Lykke, M. (2010). Does degree of work task completion influence retrieval performance. In: Proceedings of the 73rd ASIS&T Annual Meeting. Grove, A. (red.). 47. American Society for Information Science and TechnologyLykke, M., Ingwersen, P., Bogers, T., Lund, H. & Larsen, B. (2010): Physicists Information Tasks: Structure, Length and Retrieval Performance. In: Belkin, N. J. & Kelly, D. (reds.) IIiX10 Proceeding of the Third Symposium on Information Interaction in Context, New Brunswick, NJ, USA, August 18-21, 2010.New York: ACM, p. 347-351.Lykke, M., Larsen, B., Lund, H. & Ingwersen, P. (2010): Developing a Test Collection for the Evaluation of Integrated Search. In: Gurrin, C. & al. eds. Advances in Information Retrieval, 32nd European Conference on IR Research, ECIR 2010, Milton Keynes, UK, March 28-31, 2010, Proceedings. Berlin: Springer, p. 627-630. (Lecture Notes in Computer Science ; 5993)