SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
1. Data mining, data warehouse e
motori computazionali
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
2. Il DATA MINING
Il data mining è un metodo statistico applicato
in
diversi ambiti aziendali (marketing, CRM,
controllo di gestione, risk management, ricerca
e
sviluppo) e in numerosi settori:
banche, assicurazioni, industrie farmaceutiche,
aziende produttrici di beni di largo consumo,
3. Introduzione al Data Mining
Il Data Mining è la risposta tecnologica
all’esigenza di analizzare e ricavare conoscenze
utili, dalle enormi quantità di dati grezzi che si
raccolgono in tutti i contesti operativi della
nostra società.
4. Introduzione al Data Mining - 2
Esempi:
• Solo il database del settore consegne della UPS ha
una dimensione di 17 Tera-Byte. Questi dati vanno
analizzati sia per capire come migliorare il servizio
ai clienti, sia per migliorare l’efficienza interna
dell’azienda
• I servizi segreti militari raccolgono una infinità di
immagini via satellite, che devono saper classificare
per riconoscere se è stato fotografato un semplice
trattore o un carro armato!
• Le aziende farmaceutiche, per progettare un nuovo
farmaco, utile e sicuro per l’uomo, devono
analizzare e selezionare milioni di composti chimici.
5. Introduzione al Data Mining- 3
La risposta all’esigenza di analisi di enormi
quantità di dati raccolti
è rappresentata dal
Data Mining
(= estrazione di dati)
6. Data Mining: cos’è
Il data mining è il processo di analisi, svolto in
modo semiautomatico, di una grande quantità di
dati grezzi al fine di scoprire il modello
(“pattern”) che li governa, o una regola
significativa, da cui ricavare conoscenze utili
applicabili al nostro contesto operativo (come ad
esempio previsioni e classificazioni).
7. Uso del Data Mining
Il data mining (estrazione di dati) ha una duplice
valenza:
• Estrazione, con tecniche analitiche, di una
informazione implicita, nascosta, da dati già
strutturati, per renderla disponibile e
direttamente utilizzabile;
• Esplorazione ed analisi, eseguita in modo
automatico o semiautomatico, su grandi
quantità di dati allo scopo di scoprire pattern
(schemi) significativi.
8. Sviluppo del DATA MINING
Fattori principali:
• grandi accumulazioni di dati in formato
elettronico;
• data storage poco costoso;
• nuovi metodi e tecniche di analisi
(apprendimento automatico, riconoscimento di
pattern)
9. Le tecniche del DATA MINING
• Clustering
• Reti neurali
• Alberi di decisione
• Analisi delle associazioni
(es.: individuazione di prodotti acquistati
congiuntamente).
10. Tecniche di data mining
Le tecniche di data mining sono fondate su
specifici algoritmi.
Si individuano dei «pattern», o modelli, schemi
ricorrenti. Questi possono essere, a loro volta, il
punto di partenza per ipotizzare e poi verificare
nuove relazioni di tipo causale fra fenomeni.
Possono servire in senso statistico per
formulare previsioni su nuovi insiemi di dati.
11. L’algoritmo di data mining
Un algoritmo di data mining è un set di calcoli
che consente di creare un modello di data
mining dai dati. Per creare un modello, tramite
l'algoritmo vengono innanzitutto analizzati i dati
forniti, ricercando tipi specifici di modelli o
tendenze. I risultati dell'analisi vengono utilizzati
dall'algoritmo per definire i parametri ottimali
per la creazione del modello di data mining.
12. Tecniche di data mining 2
Tra le tecniche maggiormente utilizzate in
questo ambito vi sono:
•Clustering;
•Reti neurali;
•Alberi di decisione;
•Analisi delle associazioni (individuazione dei
prodotti acquistati congiuntamente).
Un'altra tecnica molto diffusa per il data mining
è l'apprendimento mediante classificazione.
13. Il DATA MINING in biblioteca
Per quanto riguarda le possibili applicazioni di tali
tecniche in biblioteca, il primo pensiero va al prestito
dei libri e ai documenti accessibili nella biblioteca
digitale.
Come cogliere le regolarità eventualmente presenti
nelle transazioni avvenute con l’utenza, sulle quali
basare le raccomandazioni di lettura o consultazione?
La rilevazione di relazioni nel comportamento degli
utenti può essere effettuata tramite il data mining.
14. Il profilo del lettore
Si possono elaborare proposte e offerte mirate
ai vari profili lettori, da tenere presenti in
occasione della redazione della Carta delle
collezioni, della revisione delle raccolte, degli
acquisti, della promozione della lettura diretta
agli utenti reali di cui si desidera conservare il
grado di fidelizzazione.
15. Il profilo del lettore. Esempi
Per esemplificare:
– chi ha preso in prestito il libro a ha preso in
prestito anche il libro b;
– le ripartizioni dei prestiti del lettore L nella
classificazione Dewey;
– le ripartizioni diacroniche dei prestiti del
lettore L (il 50% in inverno, il 25% in autunno e il
restante 25% in primavera).
17. Dal DATA MINING al DATA
WAREHOUSE
Nel contesto aziendale il data mining è
considerato parte del processo che porta alla
creazione di un data warehouse.
Valorizzazione delle informazioni aziendali
contenute in grandi depositi di dati.
18. Data warehouse (o DW)
Termine traducibile con magazzino di dati, archivio
informatico contenente i dati di un'organizzazione.
I DW sono progettati per consentire di produrre
facilmente relazioni ed analisi.
Sono componenti essenziali di un sistema Data
warehouse gli strumenti per localizzare i dati,
per estrarli, trasformarli e caricarli e gli strumenti
per gestire un dizionario dei dati.
Sono strumenti per gestire e recuperare i metadati e
per gestire le proprie informazioni in modo
intelligente.
19. MEMO: Business Intelligence (BI)
E’ l’insieme dei processi, dei metodi e degli
strumenti utilizzati per raccogliere, organizzare
ed analizzare i dati a disposizione a supporto
dei processi decisionali di carattere operativo,
tattico e strategico di un’azienda o di un Ente.
20. Data warehouse e livelli di dati
• Dati attuali di dettaglio:
sono i dati al massimo livello di dettaglio che si ritiene possa
essere utile ai processi decisionali. Hanno già subito
operazioni di filtraggio delle informazioni non necessarie,
interrogazione delle informazioni da fonti diverse,
trasformazione rispetto allo schema dati del data warehouse.
• Dati storici di dettaglio:
i dati di dettaglio che non sono “attuali”, ma che rientrano
nella finestra temporale del data warehouse. Vengono
collocati su supporti meno impegnativi e costosi, accessibili
meno comodamente.
• Dati aggregati:
la loro presenza deriva da considerazioni di efficienza e
praticità nella risposta alle richieste degli utenti; infatti tutte
le informazioni ricavabili dai dati aggregati sono in teoria
ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in
volta il loro ri-calcolo.
21. Il successo dei DATA WAREHOUSE
Un processo decisionale rapido ed efficace è
molto
importante nel mondo competitivo odierno.
Per soddisfare la richiesta di business intelligence,
analisi avanzata, data mining, modellazione
previsionale, normative rigorose e reportistica
molto rapida, sono necessarie capacità maggiori di
quelle di un tradizionale sistema di gestione dei
dati.
22. 2009-05-18 18:35
INTERNET: ARRIVA WOLFRAM ALPHA
«Un motore di ricerca 'intelligente' (ANSA) –
ROMA, 18 MAG - Wolfram Alpha, il motore di ricerca
semantico che punta a cambiare il modo di cercare
informazioni sul web e' in linea su Internet. E' stato ideato
dall'informatico britannico Stephen Wolfram. La differenza
con i motori di ricerca tradizionali sta nell'interpretazione
semantica. Se in Google o Yahoo! si digita una domanda i
motori riportano i link alle pagine web che contengono tutte
o alcune delle parole. Wolfram Alpha, invece, e' in grado di
comprendere la domanda e di fornire la risposta.»
23.
24. Wolfram Alpha
E’ nato con l’obiettivo di leggere ed interpretare le
domande dell’utente, poste in modo naturale e di
cercare di fornire una risposta coerente, molto diversa
quindi dalle migliaia di pagine a cui Google ci ha
abituati in questi anni.
I link di risposta forniti da questo motore di ricerca
sono frutto di algoritmi messi a punto proprio da
Stephen Wolfram, scienziato specializzato in fisica, che
ha cercato di creare il primo search engine con
capacità
semantiche.
25. Wolfram Alpha: un solo risultato
• “Basta con i milioni di risultati restituiti da Google
senza alcun approccio critico: il prossimo metodo di
ricerca rispetterà il linguaggio naturale, cioè
l’espressione delle domande esattamente come
avviene tra due interlocutori umani.
• Dopo aver decifrato il quesito, Wolfram Alpha
propone un risultato completo di grafici e dati
statistici, per supportare scientificamente il valore
della propria risposta.
• Oltre a presentare risultati diretti, il motore
confronta i dati di diversa natura, paragonando così
valori astratti come le lunghezze o gli avvenimenti
storici
26. Walfram Alpha: come funziona
• Non si tratta di un motore di ricerca.
• Non consiste in un database di siti web archiviati per parole
chiave
• Non è formato da una serie di domande e risposte
preconfezionate.
Wolfram Alpha è un «motore computazionale della conoscenza»
che interpreta ed elabora proprio come un cervello,
incrociando tutti i dati a disposizione.
Il software affronta gli ostacoli del linguaggio e della cultura,
analizzando il significato di ciascuna domanda, distinguendo
tra i diversi livelli semantici.
27. «Where is Rome»
Se ad esempio viene chiesto "Where is Rome",
un motore di ricerca tradizionale si limita ad
elencare le pagine che contengono tale frase,
mentre un motore di ricerca computazionale
elabora la domanda, "scomponendola" nei suoi
elementi (che nel caso sarebbero "Rome" e
"location"), poi sulla base di questi mostra la
posizione di Roma (senza aggiungere dati
inutili).