Do it ourselves : Social Technologies for Information Retrieval

1,655 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,655
On SlideShare
0
From Embeds
0
Number of Embeds
76
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Do it ourselves : Social Technologies for Information Retrieval

  1. 1. Workshop Do It Ourselves: Social Technologies for Information Retrieval 2008 ELISAD MEETING Gruppo Abele Torino – 9/10 ottobre 2008
  2. 2. Program <ul><li>Little intro to Web 2.0 concepts and information scenario </li></ul><ul><li>Tools to select and filter information online -> Customised Search Engines </li></ul><ul><li>How Google CSE works </li></ul><ul><li>Y O U and Google CSE </li></ul><ul><li>Outcomes sharing </li></ul>
  3. 3. Web 2.0 = Read/Write Web <ul><li>Il Web di seconda generazione (che in realtà invera il Web 1.0)‏ </li></ul><ul><li>Non più spettatori isolati che isolatamente fruiscono e consumano informazione </li></ul><ul><li>Ma collaboratori nella creazione di conoscenza online (blog, wiki, social network, folksonomy etc.)‏ </li></ul><ul><li>Tutte le attività umane sono toccate da questo cambiamento: il giornalismo, la politica, l'economia etc. ma è chiaramente il mondo dell'informazione che subisce i contraccolpi più evidenti </li></ul>
  4. 4. Qualità dalla quantità <ul><li>Uno degli inconvenienti del Read/Write Web è la crescita indiscriminata e incontrollabile di siti che porta all' information overload </li></ul><ul><li>Essere sovrastati da così tanta informazione da non riuscire a trovare le risorse di interesse </li></ul><ul><li>Il modello della directory che categorizza (v. Yahoo!) ha dovuto lasciare il posto agli indici dei motori di ricerca </li></ul><ul><li>Il cui processo, che determina una rilevanza generale basata su algortimi, non riesce però a determinare la rilevanza per ognuno dei ricercanti </li></ul>
  5. 5. Collaborative Filtering <ul><li>Invece di (oltre che) affidarsi ai soli algoritmi, il social web ha puntato sulla capitalizzazione delle conoscenze implicite ed esplicite delle masse </li></ul><ul><li>Harness collective intelligence, Wisdom of crowds, Long Tail, Architecture of Participation etc. </li></ul><ul><li>Attraverso strumenti di selezione collaborativa delle informazioni, gli utenti hanno cominciato a trarre vantaggio dalla proprie stesse esperienze e conoscenze </li></ul>
  6. 6. Collaborative Filtering <ul><li>La comunicazione è il più valido strumento contro l' information overload ! </li></ul><ul><li>Socializzare la qualità, condividere le responsabilità di una navigazione consapevole </li></ul><ul><li>Reputation/recommendation systems </li></ul><ul><li>Social tagging/bookmarking (folksonomy)‏ </li></ul><ul><li>Newsmastering (RSS feeds)‏ </li></ul><ul><li>Customised Search Engines (CSEs)‏ </li></ul>
  7. 7. Informazione medico-sociale <ul><li>“ The healthcare knowledge base is expanding at an unprecedented rate </li></ul><ul><li>Approximately 50,000 new records are added annually to Medline database alone </li></ul><ul><li>Open Access publishers such as BioMed Central have growing collections of full-text scientific articles </li></ul><ul><li>Only 20% of biological knowledge and data is available in structured format or database </li></ul><ul><li>The remaining 80% is hidden in the unstructured, free text of scientific publications” </li></ul><ul><li>Il Deep Web nuoce al reperimento di conoscenza e dunque alla generazione di nuova conoscenza (alla formazione corretta degli operatori, alla scoperta di nuovi farmaci, alla sperimentazione di cure più efficaci etc.). </li></ul><ul><li>Di conseguenza la perdita di informazione può essere intesa come una perdita per l'intera società </li></ul><ul><li>citations from C. Galvez, Knowledge management for biomedical literature </li></ul>“ a) Information Retrieval (IR)‏ to gather, select and filter documents that may prove useful b) Natural Language Processing (NLP)‏ c) Information Extraction (IE) ”
  8. 8. Informazione medico-sociale <ul><li>Grande varietà di fonti – da quelle governative ai siti personali </li></ul><ul><li>Grande varietà di formati: pagine Web, schede di database, bibliografie su pdf, video, cataloghi online, statistiche, articoli in Word etc. </li></ul><ul><li>Grande varietà di modalità di ricerca, ognuna dedicata a un sito o a un segmento </li></ul><ul><li>Rischio elevatissmo di informazioni distorte o non correttamente dimensionate rispetto all'utenza, bufale, spam, siti “canaglia” (vendita di prodotti o servizi contraffatti o inesistenti)‏ </li></ul><ul><li>Necessità di strumenti di IR che aiutino i professionisti a vagliare l'immane letteratura pubblicata sul Web </li></ul><ul><li>Necessità di portali affidabili e certificati che espongano informazioni specialistiche e di qualità ma in grado di soddisfare anche le esigenze dei profani </li></ul>Ruolo delle biblioteche e dei centri di doumentazione
  9. 9. Customised Search Engines <ul><li>Elenco di siti e risorse accreditati </li></ul><ul><li>Ricerca full-text nei documenti (.pdf, .doc etc.)‏ </li></ul><ul><li>Indicizzazione di (meta)repertori (directory, enciclopedie online, basi di dati, open archive etc.)‏ </li></ul><ul><li>Risorse ad integrazione nel tempo (censimento continuo)‏ </li></ul><ul><li>Selezione collaborativa </li></ul><ul><li>Possibilità di (dis)approvare i risultati </li></ul><ul><li>Inclusione delle maschere di ricerca in siti Web e blog </li></ul><ul><li>Tag/Label per restringere il focus della ricerca </li></ul><ul><li>Upload/download del knowledge base </li></ul>
  10. 10. Customised Search Engines <ul><li>Swicki </li></ul><ul><li>Rollyo </li></ul><ul><li>Live Search Macros </li></ul><ul><li>Altri servizi disponibili online ( Yahoo! BOSS , per esempio!)‏ </li></ul><ul><li>Grandi siti fanno uso abitualmente, da qualche anno, di motori specializzati invece del vecchio Google Search sul sito </li></ul><ul><li>Il gadget è utile per “spread the search” </li></ul>
  11. 11. Google CSE <ul><li>Librarian's E-library (Google CSE) - Selected resources on Libraries and Librarianship from the American Library Association (ALA) Library and a growing list of volunteers </li></ul><ul><li>Addiction Search Engine - Designed to help people find the information (...) relating to addiction and drug related issues </li></ul><ul><li>LIS-ITA-EJ - LIS italian electronic journals </li></ul><ul><li>SO-LIB Social software for libraries (Google CSE) - Online resources and information on social software applications in libraries </li></ul>
  12. 12. Google CSE - Funzionalità <ul><li>Configurazione (interfaccia, scelta tipologia, collaboratori etc.)‏ </li></ul><ul><li>Elenchi di siti preferiti </li></ul><ul><li>Pattern URL per specificare siti (e parti di essi) da includere nel knowledge base </li></ul><ul><li>Perfezionamenti: label utili a restringere la ricerca su alcuni siti + possibilità di aggiungere parole alla stringa di ricerca </li></ul><ul><li>Import/export siti (“annotazioni”) e configurazioni (“contesto”) via TSV e XML (anche feed RSS, OPML, file .html)‏ </li></ul><ul><li>Attribuzione di uno score di rilevanza tra -1 e +1 per stabilire una gerarichia delle fonti </li></ul><ul><li>Possibilità di embeddare il motore di ricerca in pagine Web come un qualsiasi gadget </li></ul><ul><li>Stored o Linked CSE </li></ul>
  13. 13. Google CSE - Funzionalità <ul><li>Google Marker per aggiungere on the fly un sito al knowledge base </li></ul><ul><li>Statistiche </li></ul><ul><li>Esclusione di annunci pubblicitari (enti non profit) o guadagno con Google Ads </li></ul><ul><li>Messa a punto di parole chiave, punteggio, redirect e gestione dei sinonimi (solo) nel file XML di contesto </li></ul><ul><li>API e Ajax </li></ul><ul><li>Subscribed links: funzionalità utile a creare risultati integrati che vengono presentati in testa all‘elenco dei risultati della query. Possono essere associati e quindi richiamati (triggered) da specifiche parole chiave </li></ul><ul><li>Integrazione con terze parti per aumentare le funzionalità (es.: upload bookmark da del.icio.us)‏ </li></ul>In definitiva Google CSE è molto semplice ma anche sufficientemente elaborato da costituire un ottimo (il migliore IMHO) strumento per la ricerca in biblioteca o in un centro di documentazione Drawback: la ricerca viene effettuata solo in Google Web e Scholar (a parte i “redirect”); disallineamenti con Google; funzioni “sinonimi”, “score”, upload file .hmtl, redirect vanno effettuate attraverso il file XML
  14. 14. Creazione di un repertorio di risorse utili <ul><li>Per i vostri colleghi </li></ul><ul><ul><li>che lavorano nello stesso ente </li></ul></ul><ul><ul><li>che lavorano in altri enti ma sulle stesse tematiche </li></ul></ul><ul><ul><li>con cui partecipate a determinati progetti </li></ul></ul><ul><li>Per gli utenti </li></ul><ul><ul><li>come motore di partenza per interrogare tutte le vostre risorse </li></ul></ul><ul><ul><li>per information literacy e reference </li></ul></ul><ul><ul><li>come knowledge base di una disciplina o di un percorso tematico </li></ul></ul><ul><ul><li>come strumento metodologico generale da sostituire a Google per una navigazione consapevole (siti anti-bufale etc.)‏ </li></ul></ul><ul><li>L'elenco potrebbe essere collaborativo, aggiornato nel corso del tempo, condiviso con altri utenti Internet etc. </li></ul>
  15. 15. Valutazioni parallele <ul><li>Target di riferimento </li></ul><ul><li>Livello di approfondimento </li></ul><ul><li>Obiettivi (v. slide precedente)‏ </li></ul><ul><li>Criteri di inclusione ed esclusione dei siti e delle altre risorse </li></ul><ul><li>Valenza interna alla biblioteca, all'ente, nazionale, internazionale (-> relativamente a ciò sceglierete anche la lingua)‏ </li></ul><ul><li>Tipologia dei contenuti (solo siti o anche video, podcast etc.)‏ </li></ul><ul><li>Apertura ai collaboratori: </li></ul><ul><ul><li>Sì -> chi (policy chiara: solo colleghi, solo utenti, libero etc.)‏ </li></ul></ul><ul><ul><li>No </li></ul></ul><ul><li>... </li></ul>
  16. 16. Sitografia <ul><li>Google CSE </li></ul><ul><li>Google CSE Blog </li></ul><ul><li>Google CSE Forum </li></ul><ul><li>Directory dei CSE </li></ul><ul><li>Swicki </li></ul><ul><li>Rollyo </li></ul><ul><li>Live Search Macros </li></ul><ul><li>Comparazione dei software per creare motori personalizzati </li></ul>
  17. 17. Bonaria Biancu Biblioteca Università di Milano-Bicocca Web: http://www.biblio.unimib.it/ Blog: http//bonariabiancu.wordpress.com Email: bonariabiancu@gmail.com Grazie e buon lavoro!

×