Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche

237 views

Published on

Intervento di Giulio Blasi al convegno Open Data, Machine Learning e Biblioteche (7 novembre 2016, Biblioteca Sormani, Milano)

Published in: Data & Analytics
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
237
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Giulio Blasi. Da Babele a Bayes: manifesto per una terza fase di digitalizzazione delle biblioteche

  1. 1. la biblioteca bayesiana manifesto per una terza fase di digitalizzazione delle biblioteche. in biblioteca Giulio Blasi 1
  2. 2. •  tre fasi di digitalizzazione delle biblioteche •  la terza fase sta accadendo fuori dalle biblioteche •  come fare a coinvolgerle? il tema 2
  3. 3. dagli schedari all’OPAC 3
  4. 4. e-lending 4
  5. 5. e-lending e OPAC… 5 API aperte OPAC Gestionale … E-lending
  6. 6. •  “Machine Learning is the study of computer algorithms that improve automatically through experience” •  “A computer program is said to learn from experience E with respect to some class of task T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E” * 6 dalla ricerca booleana al “Machine Learning” * Tom M. Mitchell, Machine Learning, McGraw Hill, 1997
  7. 7. machine learning + big data 7 La ricerca “biblioteca” come primo risultato propone la biblioteca della città in cui mi trovo. La ricerca Google include centinaia di parametri contestuali che profilano il risultato per il singolo utente. L’algoritmo di ranking è basato su meccanismi di intelligenza artificiale che migliorano l’adattamento dei risultati di una query alla richiesta dell’utente.
  8. 8. machine learning + big data 8 Parameter type Domain (16) Domain History: Domain Age Domain Ownership changes Domain Registration: Domain Length of time Domain Owner information hidden/anonymous Domain Top level domain (TLD): Domain Geography (e.g. .com versus co.uk) Domain Non-geographical (e.g. .com versus .info) Domain Subdomain? Domain Keyword(s) in name Domain Non-linked citations/mentions Domain Presence in Google News Domain Presence in Google Blog Search Domain Use of Google products: Domain AdWords Domain AdSense Domain Analytics Domain Custom Search Domain Webmaster Tools Domain Geographically targeted? Server-side (5) Server-side Server geographical location Server-side Server reliability / uptime Server-side Server speed Server-side Domain IP: Server-side Changes in Server-side Neighbors Architecture (13) Architecture URL structure Architecture HTML structure 200 parametri contestuali nell’algoritmo di ricerca di Google
  9. 9. machine learning + big data 9
  10. 10. machine learning + big data 10 “Chi ha acquistato questo articolo ha acquistato anche”. Le raccomandazioni di Amazon e di tanti altri Content Provider sul web sono basate su sistemi di filtrazione collaborativa che contribuiscono in modo decisivo all’usabilità di cataloghi di milioni di item (come spesso quelli delle biblioteche sono)
  11. 11. machine learning + big data 11 Il sistema di Captcha di Google sfrutta sistemi di intelligenza artificiale per categorizzare immagini con etichette semantiche e sfrutta la validazione degli utenti per aumentare il numero di immagini etichettate e aumentare quindi la precisione del sistema.
  12. 12. Perché è necessario l’apprendimento dai dati in biblioteca? ●  il concetto corrente di ricerca documentale è basato sul machine learning e non più sui principi bilioteconomici della catalogazione e sulla logica booleana: nel giro di 10 anni, “cercare un documento” sarà nella nostra cultura qualcosa di non più collegato alle biblioteche (se continuiamo così) ●  i concetti di community e di user-centered design (oggi centrali in biblioteconomia) non possono più essere basati sui soli indicatori biblioteconomici tradizionali (prestiti, impatto, trend qualitativi nei prestiti, carta delle collezioni…): questi numeri (pur importanti) non sono adeguati a “rappresentare” la complessità dell’utenza di una biblioteca 12
  13. 13. da Borges a Bayes :) 13 ʹDn,k = n⋅n⋅⋅⋅⋅⋅n k volte ! "# $# = nk P A| B( )= P(B| A)P(A) P(B) disposizioni con ripetizione teorema di Bayes
  14. 14. Thomas Bayes (1701-1761) 14 “An Essay towards Solving a Problem in the Doctrine of Chances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in a Letter to John Canton, A. M. F. R. S.”, 1763. [https://archive.org/details/ philtrans09948070]
  15. 15. il teorema di Bayes 15 P A | B( )= P(B | A)P(A) P(B) P a posteriori P condizionale P a priori Evidenze (test)
  16. 16. Basic Bayes: interpretare correttamente un test clinico 16 Test clinico U/Ū = malato/non malato +/- = test positivo/negativo P(U) 0.5% P(+ | U) 99% P(U ∩ +) 0.495% P(- | U) 1% P(U ∩ -) 0.005% P(Ū) 99.5% P(+ | Ū) 1% P(Ū ∩ +) 0.995% P(- | Ū) 99% P(Ū ∩ -) 98.505%
  17. 17. Basic Bayes: interpretare correttamente un test clinico 17 P(U |test+)= P(test+|U)P(U) P(test+) = 0.495 1.49 = 0.332 =33.2% N.B. un secondo test positivo darebbe come risultato l’84.2% di probabilità di aver contratto la malattia
  18. 18. algoritmi di ML •  Regressione •  Alberi di classificazione •  K-Nearest-Neighbours •  Support Vector Machines •  Reti Neurali •  Naive Bayes •  Random Forest •  Gradient Boosting Trees •  ... 18
  19. 19. esempio: soggettazione automatica 19 P(soggettoCCE |"Bacone","Saggi","Morali")= P("Bacone"I"Saggi"I"Morali"|soggettoCCE)P(soggettoCCE) P("Bacone"I"Saggi"I"Morali")
  20. 20. esempio: soggettazione automatica (e filtri anti- spam) 20 CCE = H Morali Saggi Bacone
  21. 21. esempio: soggettazione automatica (e filtri anti- spam) 21 P(soggettoCCE |keyword)= P(keyword |soggettoCCE)P(soggettoCCE) P(keyword)
  22. 22. classificare risorse OPEN con l’algoritmo NB 22
  23. 23. 23 Library
  24. 24. altre applicazioni del ML in biblioteca? •  raccomandazioni (per gli utenti e per… i bibliotecari) •  analisi delle relazioni tra collezione, acquisti e prestiti •  algoritmi per l’adattamento della collezione ai profili dei lettori •  sviluppare un “social graph” bibliotecario in grado di connettere utenti, contenuti, biblioteche con relazioni predittive •  connettere ontologie (metadati, LOD) e utenti •  visualizzazione della community analytics •  profili demografici di utenti anonimizzati •  ... 24
  25. 25. su quali dati si lavora? Record catalografici Transazioni utente anonimizzate Transazioni acquisti bibliotecari Dati anagrafici utenti anonimizzati Collezione analogica Collezione digitale
  26. 26. che fare (1)? i dati Open Data 26
  27. 27. che fare (2)? competenze •  le competenze catalografiche e sui metadati dei bibliotecari vanno integrate con competenze di Data Science e Machine Learning •  la progettazione di servizi bibliotecari data driven non può essere demandata a sole competenze “esterne” 27
  28. 28. che fare (3) ? fare •  Sperimentare •  Condividere •  Contest 28
  29. 29. proposta operativa (1) data-set di prova •  un data set per ciascuno dei sistemi bibliotecari oggi presenti: chi partecipa? •  procedura di anonimizzazione e analisi legale •  12 mesi di tempo per un “contest” cui partecipano tutti soggetti interessati •  ci ritroviamo nel novembre 2017 per capire cosa è accaduto e cosa siamo stati capaci di fare 29
  30. 30. proposta operativa (2) gruppo di lavoro per un manifesto sugli open data bibliotecari •  creiamo oggi stesso un gruppo di lavoro FB •  condividiamo un manifesto per gli open data bibliotecari •  coinvolgiamo AIB per una posizione ufficiale dell’associazione •  raccogliamo una lista di best practice nel mondo sui vari fronti 30
  31. 31. 31 ? - - - - - + + + + + +
  32. 32. 32 Grazie! +

×