Bibliografia e motori di ricerca: Google e non solo

1,101 views

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,101
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
29
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Bibliografia e motori di ricerca: Google e non solo

  1. 1. 1 Bologna, 13 maggio 2013 Michele Santoro Bibliografia e motori di ricerca: Google e non solo Michele Santoro Università di Bologna e-mail: michele.santoro@unibo.it
  2. 2. 2 La realtà di Internet  Internet è un contenitore di informazioni da cui è impossibile prescindere  ma è proprio l’immensa mole di informazioni che provoca i problemi maggiori quando si effettua una ricerca bibliografica: information overload data deluge
  3. 3. 3 La soluzione per eccellenza? qual è la chiave del suo successo? senza dubbio il suo “algoritmo di ricerca”
  4. 4. 4 La ricerca con Google  il criterio adottato da Google per definire il “ranking” di una pagina  è basato sul grado di “popolarità” della pagina stessa  ossia sul numero di legami (links) che essa riceve da parte di altre pagine più una pagina è linkata, più è conosciuta e quindi (si suppone), più è importante e utile
  5. 5. 5 La ricerca con Google  ben presto però si è capito che quello della popolarità (“molti links molta importanza”) non era l’unico criterio impiegato da Google per indicizzare le pagine web  e offrirle all’utente in un preciso ordine di rilevanza  così sono stati “scoperti” gli elementi che compongono il famoso (anche se ufficialmente “segreto”) algoritmo di ricerca di Google
  6. 6. 6 L’algoritmo di ricerca di Google  il “punteggio” ottenuto da una risorsa in seguito ad una ricerca con Google è dato da:  utilizzo delle parole chiave (0.3)  importanza del dominio (0.25)  link in ingresso (0.25)  dati degli utenti (0.1)  qualità del contenuto (0.1)  altre variabili
  7. 7. 7 La ricerca con Google  tutto bene, dunque?  per le nostre ricerche possiamo affidarci con fiducia alla potenza di calcolo di Google ed alla razionalità del suo algoritmo?  non esattamente...  proviamo a porci qualche domanda:
  8. 8. 8 La ricerca con Google  siamo proprio sicuri che con Google si ottenga tutto ciò che è disponibile su Internet?  siamo proprio sicuri che ciò che troviamo con Google su un certo argomento sia davvero tutto ciò che esiste su quell’argomento?  siamo proprio sicuri che le soluzioni offerte da Google siano autorevoli, cioè adeguate ai fini di una seria ricerca bibliografica? lo stesso Google ha compreso la necessità di strumenti di ricerca più specifici dando vita a Google Books e Google Scholar
  9. 9. 9 Google Books  progetto in base a cui milioni di libri sono stati digitalizzati e messi a disposizione gratuitamente:  per quanto il progetto abbia avuto fasi alterne a causa di problemi legati ai diritti d’autore  Google Books è una fonte ricchissima e utilissima per la ricerca bibliografica  modalità di ricerca analoghe a quelle di Google  anche se, nella maggior parte dei casi, non è possibile né stampare né fare il download delle pagine !!! http://books.google.it/
  10. 10. …_
  11. 11. 15 Google Scholar  ma, come si è visto, Google Books si rivolge alle monografie  mentre la maggior parte dell’informazione nei diversi ambiti di studio è veicolata dai periodici  per questo Google ha creato Google Scholar, un motore di ricerca specifico che esplora le diverse tipologie di documenti e in particolare i periodici
  12. 12. 16 Google Scholar  Google Scholar infatti indicizza non solo libri  ma anche articoli di riviste liberamente disponibili in rete o concessi a Google da autori o editori  altri articoli sono invece accessibili sulla base di determinati requisiti  anche se gran parte dei documenti indicizzati sono di ambito scientifico e in lingua inglese  Google Scholar è uno strumento molto importante per la ricerca bibliografica
  13. 13. 19 Non solo Google  per quanto raffinati, i criteri di ricerca di Google presentano comunque numerosi limiti Google e i suoi “derivati” (Books e Scholar) non sono in grado di offrire una copertura esaustiva delle risorse di rete per cui sono comparsi nuovi strumenti che si presentano come più “intelligenti” e “semanticamente” affidabili  fra questi, si segnala il motore di ricerca “computazionale” Wolphram Alpha, che interessa soprattutto le discipline scientifico-tecniche
  14. 14. E per le discipline umanistiche?  in primo luogo vediamo cosa offre il Portale delle biblioteche dell’Università di Bologna http://www.biblioteche.unibo.it/portale  ed in particolare il settore delle banche dati http://www.biblioteche.unibo.it/portale/home/portale /risorse-elettroniche/banche-dati (sono risorse ad accesso riservato per tutti gli utenti Unibo)
  15. 15. Motori di ricerca per le discipline umanistiche/1 JURN (http://www.jurn.org/):  indicizza 4.507 free e-journals (vantaggi e limiti)  UK-centrico: le risorse sono indicizzate con una specifica attenzione agli interessi degli studiosi inglesi  presenta una lista integrale dei titoli indicizzati (http://www.jurn.org/jurn-listoftitles.pdf)  e una directory più sintetica (http://www.jurn.org/directory/)  utilizza Google CSE (Custom Search Engine), uno strumento che permette di creare - anche in modo sofisticato - motori di ricerca personalizzati
  16. 16. Motori di ricerca per le discipline umanistiche/2 ISIDORE (http://www.rechercheisidore.fr/)  piattaforma di ricerca sviluppata in Francia  indicizza una quantità di risorse digitali ad accesso aperto relative alle scienze umane e sociali  e quindi permette l’accesso a milioni di documenti  comprese le tesi di dottorato e i contributi scientifici disponibili su Revues.org, Cairn, Persée
  17. 17. …_
  18. 18. 31 Oltre i motori di ricerca  Google e i suoi derivati, così come i motori di ricerca specifici, sono strumenti molto importanti per il reperimento dell’informazione  essi infatti rendono disponibile un patrimonio conoscitivo enorme  ma…  la ricerca sul web continua ad essere ancora problematica
  19. 19. 32 Problemi del web  problemi legati al linguaggio naturale:  polisemia (termini con più significati)  sinonimia (diversi termini con lo stesso significato)  integrazione di informazioni provenienti da più fonti  assenza di “macchine intelligenti”  cioè in grado di comprendere le informazioni strutturate in maniera differente e di “ragionarci sopra”
  20. 20. 33 Il web profondo  oltre al web “di superficie”, ossia quello visibile e ricercabile attraverso i motori di ricerca  esiste un “web profondo”, detto anche “web invisibile” o “web sommerso”  che risulterebbe essere molto più grande (da 400 a 550 volte) rispetto a quello di superficie  deep web: parte del web che non è accessibile ai motori di ricerca  per diversi motivi tra cui:
  21. 21. 34 Il web profondo 1. il sito è protetto da password (ad esempio un periodico elettronico non accessibile gratuitamente) 2. il contenuto informativo del sito è raggiungibile solo attraverso una ricerca interattiva in una base di dati (esempio tipico: gli opac!)  numerosi studi rilevano che il web profondo è il più consultato (ha il 50% del traffico in più)  cresce più velocemente  ed è di qualità più elevata
  22. 22. 35 Possibili soluzioni 1) individuare dei criteri per “forzare” il web profondo 2) perfezionare la tecnologia e rendere le macchine più intelligenti 3) migliorare gli algoritmi di ricerca dei motori 4) accrescere la “significatività” delle parole utilizzate per le ricerche
  23. 23. 36 Possibili soluzioni  tutte queste possibilità sono state sviluppate negli anni più recenti  in particolare, l’idea di migliorare i criteri di recupero per termini significativi ha trovato una sua realizzazione attraverso l’impiego dei metadati  che permettono di descrivere le risorse elettroniche, i testi e i documenti multimediali  rendendo meno caotico l’ambiente digitale  e consentendo un più efficace recupero dell’informazione ricercata
  24. 24. 37 I metadati  si tratta di un criterio assai simile a quello della tradizionale descrizione bibliografica  ma diversamente dalla catalogazione tradizionale  che dà vita a prodotti “esterni” ai documenti descritti (e cioè schede catalografiche o record bibliografici)  i metadati sono inclusi nella stessa risorsa che descrivono
  25. 25. Un esempio di “vecchi” metadati/1
  26. 26. Un esempio di “vecchi” metadati/2 Campbell, Ann-Jeanette Viaggio nello spazio : guida essenziale all'astronomia / Ann-Jeanette Campbell ; prefazione di Franco Foresta Martin. – Nuova ed. rinnovata. – Bari : Dedalo, [1998]. – 198 p. : ill. ; 21 cm. - (Nuova biblioteca Dedalo ; 205) Trad. di Elena Joli ISBN 88-220-6205-1 Serie: Nuova biblioteca Dedalo, 205. CDD: 520(21.) 1. Astronomia 2. Universo I. Foresta Martin, Franco
  27. 27. Un esempio di “vecchi” metadati/3
  28. 28. 41 Un esempio di “nuovi” metadati
  29. 29. 42 Metadati “descrittivi”  fra i molti set di metadati predisposti per la descrizione delle risorse di Internet  si è imposto (in particolare nel mondo bibliotecario) il modello Dublin Core (http://dublincore.org/)  sviluppato a partire dal Metadata Workshop del marzo 1995 tenutosi presso la sede dell’OCLC a Dublin (Ohio)  e sponsorizzato da Online Computer Library Center (OCLC) e dal National Center for Supercomputing Applications (NCSA)
  30. 30. 43 I quindici elementi del Dublin Core “simple” 1. Title Titolo della risorsa 2. Subject Parole chiave o termini tratti da un vocabolario controllato 3. Description Descrizione o abstract 4. Creator Persona o organizzazione primariamente responsabile del contenuto intellettuale della risorsa 5. Publisher Editore 6. Contributor Autore di ulteriore contributo al contenuto intellettuale della risorsa 7. Date Data associata con la creazione o la disponibilità della risorsa 8. Type Genere della risorsa (home page, articolo, tesi, data set, etc.) 9. Format Normalmente di tipo MIME (ad es. text/html) 10. Identifier URL, DOI, ISBN, ISSN, URN o altro identificatore 11. Source Risorsa da cui deriva la risorsa descritta 12. Language Lingua della risorsa 13. Relation Identificatore di una seconda risorsa e sue relazioni con la risorsa descritta 14. Coverage Caratteristiche spazio-temporali della risorsa 15. Rights Condizioni di copyright della risorsa
  31. 31. 44 Una pagina XML con metadati …_
  32. 32. 45 Web semantico  il termine “Semantic Web” è stato proposto per la prima volta nel 2001 da Tim Berners Lee  da allora il termine è stato associato all’idea di un web nel quale vi siano applicazioni in grado di comprendere il significato dei documenti presenti sulla rete  quindi guidare l’utente direttamente verso l’informazione ricercata  o sostituirsi a lui nello svolgimento di alcune operazioni
  33. 33. 46 Web semantico  il web semantico quindi rende possibile una ricerca più evoluta  attraverso la costruzione di reti di relazioni e connessioni tra documenti  in base a logiche più elaborate rispetto a quella basata sui semplici link ipertestuali  difatti, è vero che il web è un insieme di testi collegati tra loro  ma questi collegamenti sono “deboli”, nel senso che sono troppo generici e vaghi
  34. 34. 47 Web semantico  con il web semantico invece è possibile recuperare documenti esprimendo query complesse:  partendo da concetti semplici, si può raffinare la ricerca esprimendo vere e proprie asserzioni  composte da un soggetto, un predicato e un oggetto  si può quindi fare una richiesta del tipo: aziende (soggetto) che hanno come servizio (predicato) la fornitura di scarpe (oggetto)
  35. 35. 48 Web semantico  tale possibilità è radicalmente diversa dall’interrogazione effettuata con un motore di ricerca  attraverso il quale si possono indicare i tre concetti di azienda, di servizio e di scarpe  ma non si può esprimere in nessun modo il legame esistente fra essi e da ciò derivano tutte le imprecisioni tipiche dei motori di ricerca
  36. 36. Web semantico e linked data  oggi per la realizzazione del web semantico viene impiegata la tecnologia dei linked data  ossia dati pubblicati sul web in una modalità leggibile, interpretabile e utilizzabile da una macchina  il cui significato deve essere esplicitamente definito da un insieme di parole e marcatori (tags)  importanza bibliografico-documentale dei linked data:  i metadati bibliotecari possono “uscire” dal deep web  aumenta la qualità delle ricerche sul web 49
  37. 37. 50 Michele Santoro Bibliografia e motori di ricerca: Google e non solo Grazie per l’attenzione!

×