SlideShare a Scribd company logo
1 of 29
Data mining, data warehouse e
motori computazionali
SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito
Il DATA MINING
Il data mining è un metodo statistico applicato
in
diversi ambiti aziendali (marketing, CRM,
controllo di gestione, risk management, ricerca
e
sviluppo) e in numerosi settori:
banche, assicurazioni, industrie farmaceutiche,
aziende produttrici di beni di largo consumo,
Introduzione al Data Mining
Il Data Mining è la risposta tecnologica
all’esigenza di analizzare e ricavare conoscenze
utili, dalle enormi quantità di dati grezzi che si
raccolgono in tutti i contesti operativi della
nostra società.
Introduzione al Data Mining - 2
Esempi:
• Solo il database del settore consegne della UPS ha
una dimensione di 17 Tera-Byte. Questi dati vanno
analizzati sia per capire come migliorare il servizio
ai clienti, sia per migliorare l’efficienza interna
dell’azienda
• I servizi segreti militari raccolgono una infinità di
immagini via satellite, che devono saper classificare
per riconoscere se è stato fotografato un semplice
trattore o un carro armato!
• Le aziende farmaceutiche, per progettare un nuovo
farmaco, utile e sicuro per l’uomo, devono
analizzare e selezionare milioni di composti chimici.
Introduzione al Data Mining- 3
La risposta all’esigenza di analisi di enormi
quantità di dati raccolti
è rappresentata dal
Data Mining
(= estrazione di dati)
Data Mining: cos’è
Il data mining è il processo di analisi, svolto in
modo semiautomatico, di una grande quantità di
dati grezzi al fine di scoprire il modello
(“pattern”) che li governa, o una regola
significativa, da cui ricavare conoscenze utili
applicabili al nostro contesto operativo (come ad
esempio previsioni e classificazioni).
Uso del Data Mining
Il data mining (estrazione di dati) ha una duplice
valenza:
• Estrazione, con tecniche analitiche, di una
informazione implicita, nascosta, da dati già
strutturati, per renderla disponibile e
direttamente utilizzabile;
• Esplorazione ed analisi, eseguita in modo
automatico o semiautomatico, su grandi
quantità di dati allo scopo di scoprire pattern
(schemi) significativi.
Sviluppo del DATA MINING
Fattori principali:
• grandi accumulazioni di dati in formato
elettronico;
• data storage poco costoso;
• nuovi metodi e tecniche di analisi
(apprendimento automatico, riconoscimento di
pattern)
Le tecniche del DATA MINING
• Clustering
• Reti neurali
• Alberi di decisione
• Analisi delle associazioni
(es.: individuazione di prodotti acquistati
congiuntamente).
Tecniche di data mining
Le tecniche di data mining sono fondate su
specifici algoritmi.
Si individuano dei «pattern», o modelli, schemi
ricorrenti. Questi possono essere, a loro volta, il
punto di partenza per ipotizzare e poi verificare
nuove relazioni di tipo causale fra fenomeni.
Possono servire in senso statistico per
formulare previsioni su nuovi insiemi di dati.
L’algoritmo di data mining
Un algoritmo di data mining è un set di calcoli
che consente di creare un modello di data
mining dai dati. Per creare un modello, tramite
l'algoritmo vengono innanzitutto analizzati i dati
forniti, ricercando tipi specifici di modelli o
tendenze. I risultati dell'analisi vengono utilizzati
dall'algoritmo per definire i parametri ottimali
per la creazione del modello di data mining.
Tecniche di data mining 2
Tra le tecniche maggiormente utilizzate in
questo ambito vi sono:
•Clustering;
•Reti neurali;
•Alberi di decisione;
•Analisi delle associazioni (individuazione dei
prodotti acquistati congiuntamente).
Un'altra tecnica molto diffusa per il data mining
è l'apprendimento mediante classificazione.
Il DATA MINING in biblioteca
Per quanto riguarda le possibili applicazioni di tali
tecniche in biblioteca, il primo pensiero va al prestito
dei libri e ai documenti accessibili nella biblioteca
digitale.
Come cogliere le regolarità eventualmente presenti
nelle transazioni avvenute con l’utenza, sulle quali
basare le raccomandazioni di lettura o consultazione?
La rilevazione di relazioni nel comportamento degli
utenti può essere effettuata tramite il data mining.
Il profilo del lettore
Si possono elaborare proposte e offerte mirate
ai vari profili lettori, da tenere presenti in
occasione della redazione della Carta delle
collezioni, della revisione delle raccolte, degli
acquisti, della promozione della lettura diretta
agli utenti reali di cui si desidera conservare il
grado di fidelizzazione.
Il profilo del lettore. Esempi
Per esemplificare:
– chi ha preso in prestito il libro a ha preso in
prestito anche il libro b;
– le ripartizioni dei prestiti del lettore L nella
classificazione Dewey;
– le ripartizioni diacroniche dei prestiti del
lettore L (il 50% in inverno, il 25% in autunno e il
restante 25% in primavera).
Software per il DATA MINING
Dal DATA MINING al DATA
WAREHOUSE
Nel contesto aziendale il data mining è
considerato parte del processo che porta alla
creazione di un data warehouse.
Valorizzazione delle informazioni aziendali
contenute in grandi depositi di dati.
Data warehouse (o DW)
Termine traducibile con magazzino di dati, archivio
informatico contenente i dati di un'organizzazione.
I DW sono progettati per consentire di produrre
facilmente relazioni ed analisi.
Sono componenti essenziali di un sistema Data
warehouse gli strumenti per localizzare i dati,
per estrarli, trasformarli e caricarli e gli strumenti
per gestire un dizionario dei dati.
Sono strumenti per gestire e recuperare i metadati e
per gestire le proprie informazioni in modo
intelligente.
MEMO: Business Intelligence (BI)
E’ l’insieme dei processi, dei metodi e degli
strumenti utilizzati per raccogliere, organizzare
ed analizzare i dati a disposizione a supporto
dei processi decisionali di carattere operativo,
tattico e strategico di un’azienda o di un Ente.
Data warehouse e livelli di dati
• Dati attuali di dettaglio:
sono i dati al massimo livello di dettaglio che si ritiene possa
essere utile ai processi decisionali. Hanno già subito
operazioni di filtraggio delle informazioni non necessarie,
interrogazione delle informazioni da fonti diverse,
trasformazione rispetto allo schema dati del data warehouse.
• Dati storici di dettaglio:
i dati di dettaglio che non sono “attuali”, ma che rientrano
nella finestra temporale del data warehouse. Vengono
collocati su supporti meno impegnativi e costosi, accessibili
meno comodamente.
• Dati aggregati:
la loro presenza deriva da considerazioni di efficienza e
praticità nella risposta alle richieste degli utenti; infatti tutte
le informazioni ricavabili dai dati aggregati sono in teoria
ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in
volta il loro ri-calcolo.
Il successo dei DATA WAREHOUSE
Un processo decisionale rapido ed efficace è
molto
importante nel mondo competitivo odierno.
Per soddisfare la richiesta di business intelligence,
analisi avanzata, data mining, modellazione
previsionale, normative rigorose e reportistica
molto rapida, sono necessarie capacità maggiori di
quelle di un tradizionale sistema di gestione dei
dati.
2009-05-18 18:35
INTERNET: ARRIVA WOLFRAM ALPHA
«Un motore di ricerca 'intelligente' (ANSA) –
ROMA, 18 MAG - Wolfram Alpha, il motore di ricerca
semantico che punta a cambiare il modo di cercare
informazioni sul web e' in linea su Internet. E' stato ideato
dall'informatico britannico Stephen Wolfram. La differenza
con i motori di ricerca tradizionali sta nell'interpretazione
semantica. Se in Google o Yahoo! si digita una domanda i
motori riportano i link alle pagine web che contengono tutte
o alcune delle parole. Wolfram Alpha, invece, e' in grado di
comprendere la domanda e di fornire la risposta.»
Wolfram Alpha
E’ nato con l’obiettivo di leggere ed interpretare le
domande dell’utente, poste in modo naturale e di
cercare di fornire una risposta coerente, molto diversa
quindi dalle migliaia di pagine a cui Google ci ha
abituati in questi anni.
I link di risposta forniti da questo motore di ricerca
sono frutto di algoritmi messi a punto proprio da
Stephen Wolfram, scienziato specializzato in fisica, che
ha cercato di creare il primo search engine con
capacità
semantiche.
Wolfram Alpha: un solo risultato
• “Basta con i milioni di risultati restituiti da Google
senza alcun approccio critico: il prossimo metodo di
ricerca rispetterà il linguaggio naturale, cioè
l’espressione delle domande esattamente come
avviene tra due interlocutori umani.
• Dopo aver decifrato il quesito, Wolfram Alpha
propone un risultato completo di grafici e dati
statistici, per supportare scientificamente il valore
della propria risposta.
• Oltre a presentare risultati diretti, il motore
confronta i dati di diversa natura, paragonando così
valori astratti come le lunghezze o gli avvenimenti
storici
Walfram Alpha: come funziona
• Non si tratta di un motore di ricerca.
• Non consiste in un database di siti web archiviati per parole
chiave
• Non è formato da una serie di domande e risposte
preconfezionate.
Wolfram Alpha è un «motore computazionale della conoscenza»
che interpreta ed elabora proprio come un cervello,
incrociando tutti i dati a disposizione.
Il software affronta gli ostacoli del linguaggio e della cultura,
analizzando il significato di ciascuna domanda, distinguendo
tra i diversi livelli semantici.
«Where is Rome»
Se ad esempio viene chiesto "Where is Rome",
un motore di ricerca tradizionale si limita ad
elencare le pagine che contengono tale frase,
mentre un motore di ricerca computazionale
elabora la domanda, "scomponendola" nei suoi
elementi (che nel caso sarebbero "Rome" e
"location"), poi sulla base di questi mostra la
posizione di Roma (senza aggiungere dati
inutili).
4a Data Mining e motori computazionali
4a Data Mining e motori computazionali

More Related Content

Viewers also liked

Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaValerio Torriero
 
20233 data mining
20233   data mining20233   data mining
20233 data miningGRAZIA88
 
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)Keen Consulting
 
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...SMAU
 
Digital agenda - opendata at work
Digital agenda - opendata at workDigital agenda - opendata at work
Digital agenda - opendata at workMaurizio Napolitano
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorniMaurizio Girometti
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger PracticesEmanuela Zaccone
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwarelorenzov
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso Istituto nazionale di statistica
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data MiningAndrea Frison
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiVincenzo Manzoni
 
Big Data
Big DataBig Data
Big DataNGDATA
 

Viewers also liked (20)

Big Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social MediaBig Data 2014: Marketing & Social Media
Big Data 2014: Marketing & Social Media
 
20233 data mining
20233   data mining20233   data mining
20233 data mining
 
Presentazione_V3
Presentazione_V3Presentazione_V3
Presentazione_V3
 
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
Big Data e Terza Piattaforma (Eataly Smeraldo, 29 ottobre 2015)
 
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
Smau Bologna 2014 - Business Intelligence, Analytics e Big Data: una guida pe...
 
Digital agenda - opendata at work
Digital agenda - opendata at workDigital agenda - opendata at work
Digital agenda - opendata at work
 
Data mining, business intelligence e dintorni
Data mining, business intelligence e dintorniData mining, business intelligence e dintorni
Data mining, business intelligence e dintorni
 
Big Data, Bigger Practices
Big Data, Bigger PracticesBig Data, Bigger Practices
Big Data, Bigger Practices
 
data mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftwaredata mining & collaborative intelligence @bettersoftware
data mining & collaborative intelligence @bettersoftware
 
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso  M. Scannapieco - Big Data e Open Data:  Istruzioni (o quasi) per l’Uso
M. Scannapieco - Big Data e Open Data: Istruzioni (o quasi) per l’Uso
 
Sistemi di rating
Sistemi di ratingSistemi di rating
Sistemi di rating
 
Big data-simonetta
Big data-simonettaBig data-simonetta
Big data-simonetta
 
Big Data & Data Mining
Big Data  & Data MiningBig Data  & Data Mining
Big Data & Data Mining
 
FANTIN BIG DATA (1)
FANTIN BIG DATA (1)FANTIN BIG DATA (1)
FANTIN BIG DATA (1)
 
Big Data - Rapporto del Gruppo Miur
Big Data - Rapporto del Gruppo MiurBig Data - Rapporto del Gruppo Miur
Big Data - Rapporto del Gruppo Miur
 
Introduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati datiIntroduzione ai Big Data e alla scienza dei dati - I formati dati
Introduzione ai Big Data e alla scienza dei dati - I formati dati
 
What is big data?
What is big data?What is big data?
What is big data?
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Big Data
Big DataBig Data
Big Data
 
Big data ppt
Big  data pptBig  data ppt
Big data ppt
 

Similar to 4a Data Mining e motori computazionali

La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...Denodo
 
2014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 62014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 6Gianluigi Cogo
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligenceAndrea Mecchia
 
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...CONFINDUSTRIA TOSCANA NORD
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaAlessandro Greppi
 
Pug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenariPug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenariArnaldo Morena
 
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione datiMicrofocusitalia
 
Big data e business intelligence
Big data e business intelligenceBig data e business intelligence
Big data e business intelligenceMarco Pozzan
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaGianluigi Cogo
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata MadeeGianluigi Cogo
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliDenodo
 
Big data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiBig data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiDelta Sales
 
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018Data-labs
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conferenceFelice Russo
 

Similar to 4a Data Mining e motori computazionali (20)

Data Mining
Data MiningData Mining
Data Mining
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
 
2470620 data-warehouse
2470620 data-warehouse2470620 data-warehouse
2470620 data-warehouse
 
2014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 62014 ottobre Big Data per Madee 6
2014 ottobre Big Data per Madee 6
 
Il data warehouse nella business intelligence
Il data warehouse nella business intelligenceIl data warehouse nella business intelligence
Il data warehouse nella business intelligence
 
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
Industria 4.0. Lucca, 5 luglio 2017 - VAR Sirio Industria "IoT - BigData - An...
 
Blockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanzaBlockchain e AI: verso una nuova finanza
Blockchain e AI: verso una nuova finanza
 
presentazione_data
presentazione_datapresentazione_data
presentazione_data
 
Pug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenariPug piccola panoramica su grandi scenari
Pug piccola panoramica su grandi scenari
 
edSENSE.AI
edSENSE.AIedSENSE.AI
edSENSE.AI
 
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
Micro Focus Data Express 4.0 - Conformità,  produttività  e  protezione datiMicro Focus Data Express 4.0 - Conformità,  produttività  e  protezione dati
Micro Focus Data Express 4.0 - Conformità, produttività e protezione dati
 
Big data e business intelligence
Big data e business intelligenceBig data e business intelligence
Big data e business intelligence
 
Big Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital AccademiaBig Data per Madee 7 at Digital Accademia
Big Data per Madee 7 at Digital Accademia
 
Presentazione bigdata Madee
Presentazione bigdata MadeePresentazione bigdata Madee
Presentazione bigdata Madee
 
Data Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendaliData Strategy per trasformare i dati in asset strategici aziendali
Data Strategy per trasformare i dati in asset strategici aziendali
 
Bigdata per Madee 4
Bigdata per Madee 4Bigdata per Madee 4
Bigdata per Madee 4
 
Big data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccoltiBig data e data analitycs come e cosa fare dei dati raccolti
Big data e data analitycs come e cosa fare dei dati raccolti
 
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018
Datalabs - Digital360 Awards - analisi predittiva-big data analytics - 2018
 
Data mining Winter Lab conference
Data mining Winter Lab conferenceData mining Winter Lab conference
Data mining Winter Lab conference
 
DS4Biz - Data Science for Business
DS4Biz - Data Science for BusinessDS4Biz - Data Science for Business
DS4Biz - Data Science for Business
 

More from Mau-Messenger

5b. Linked Data in biblioteca
5b. Linked Data in biblioteca5b. Linked Data in biblioteca
5b. Linked Data in bibliotecaMau-Messenger
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei datiMau-Messenger
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDFMau-Messenger
 
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBRMau-Messenger
 
2d. lezione ss bd e standard
2d. lezione ss bd e standard2d. lezione ss bd e standard
2d. lezione ss bd e standardMau-Messenger
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archiveMau-Messenger
 
2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale orgMau-Messenger
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitaliMau-Messenger
 
1 2. lezione ss piattaforme distribuzione
1 2. lezione ss   piattaforme distribuzione1 2. lezione ss   piattaforme distribuzione
1 2. lezione ss piattaforme distribuzioneMau-Messenger
 
1 1. lezione ss e-book strumenti innovazione
1 1. lezione ss   e-book strumenti innovazione1 1. lezione ss   e-book strumenti innovazione
1 1. lezione ss e-book strumenti innovazioneMau-Messenger
 
1 0. lezione ss e-book
1 0. lezione ss   e-book1 0. lezione ss   e-book
1 0. lezione ss e-bookMau-Messenger
 

More from Mau-Messenger (13)

5b. Linked Data in biblioteca
5b. Linked Data in biblioteca5b. Linked Data in biblioteca
5b. Linked Data in biblioteca
 
5a. Linked Data
5a. Linked Data5a. Linked Data
5a. Linked Data
 
3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati3b WEB SEMANTICO: struttura e organizzazione dei dati
3b WEB SEMANTICO: struttura e organizzazione dei dati
 
3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF3c WEB SEMANTICO. Ontologie e RDF
3c WEB SEMANTICO. Ontologie e RDF
 
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
3a Il documento in biblioteca in ambiente elettronico. Il modello FRBR
 
2d. lezione ss bd e standard
2d. lezione ss bd e standard2d. lezione ss bd e standard
2d. lezione ss bd e standard
 
2c. architettura open archive
2c. architettura open archive2c. architettura open archive
2c. architettura open archive
 
2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org2b. lezione ss biblioteca digitale org
2b. lezione ss biblioteca digitale org
 
2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali2a. lezione ss archivi e biblioteche digitali
2a. lezione ss archivi e biblioteche digitali
 
1 3. lezione ss drm
1 3. lezione ss   drm1 3. lezione ss   drm
1 3. lezione ss drm
 
1 2. lezione ss piattaforme distribuzione
1 2. lezione ss   piattaforme distribuzione1 2. lezione ss   piattaforme distribuzione
1 2. lezione ss piattaforme distribuzione
 
1 1. lezione ss e-book strumenti innovazione
1 1. lezione ss   e-book strumenti innovazione1 1. lezione ss   e-book strumenti innovazione
1 1. lezione ss e-book strumenti innovazione
 
1 0. lezione ss e-book
1 0. lezione ss   e-book1 0. lezione ss   e-book
1 0. lezione ss e-book
 

Recently uploaded

Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxtecongo2007
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxlorenzodemidio01
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxlorenzodemidio01
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoyanmeng831
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxtecongo2007
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileNicola Rabbi
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................giorgiadeascaniis59
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....giorgiadeascaniis59
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................giorgiadeascaniis59
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaSalvatore Cianciabella
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxlorenzodemidio01
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxtecongo2007
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxlorenzodemidio01
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxlorenzodemidio01
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxlorenzodemidio01
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxlorenzodemidio01
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxtecongo2007
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.camillaorlando17
 

Recently uploaded (18)

Descrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptxDescrizione Piccolo teorema di Talete.pptx
Descrizione Piccolo teorema di Talete.pptx
 
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptxLorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
Lorenzo D'Emidio- Lavoro sulla Bioarchittetura.pptx
 
Tosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptxTosone Christian_Steve Jobsaaaaaaaa.pptx
Tosone Christian_Steve Jobsaaaaaaaa.pptx
 
Quadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceoQuadrilateri e isometrie studente di liceo
Quadrilateri e isometrie studente di liceo
 
descrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptxdescrizioni della antica civiltà dei sumeri.pptx
descrizioni della antica civiltà dei sumeri.pptx
 
Scrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibileScrittura seo e scrittura accessibile
Scrittura seo e scrittura accessibile
 
Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................Oppressi_oppressori.pptx................
Oppressi_oppressori.pptx................
 
case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....case passive_GiorgiaDeAscaniis.pptx.....
case passive_GiorgiaDeAscaniis.pptx.....
 
LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................LE ALGHE.pptx ..........................
LE ALGHE.pptx ..........................
 
Presentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione CivicaPresentazioni Efficaci e lezioni di Educazione Civica
Presentazioni Efficaci e lezioni di Educazione Civica
 
Lorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptxLorenzo D'Emidio_Francesco Petrarca.pptx
Lorenzo D'Emidio_Francesco Petrarca.pptx
 
Aristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptxAristotele, vita e opere e fisica...pptx
Aristotele, vita e opere e fisica...pptx
 
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptxLorenzo D'Emidio_Vita e opere di Aristotele.pptx
Lorenzo D'Emidio_Vita e opere di Aristotele.pptx
 
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptxNicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
Nicola pisano aaaaaaaaaaaaaaaaaa(1).pptx
 
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptxScienza Potere Puntoaaaaaaaaaaaaaaa.pptx
Scienza Potere Puntoaaaaaaaaaaaaaaa.pptx
 
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptxLorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
Lorenzo D'Emidio_Vita di Cristoforo Colombo.pptx
 
discorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptxdiscorso generale sulla fisica e le discipline.pptx
discorso generale sulla fisica e le discipline.pptx
 
Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.Vuoi girare il mondo? educazione civica.
Vuoi girare il mondo? educazione civica.
 

4a Data Mining e motori computazionali

  • 1. Data mining, data warehouse e motori computazionali SAPIENZA UNIVERSITA’ DI ROMA DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI Anno accademico 2012-2013 Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE Prof. Giovanni Solimine Modulo integrativo INFORMATICA PER LE BIBLIOTECHE Prof. Maurizio Caminito
  • 2. Il DATA MINING Il data mining è un metodo statistico applicato in diversi ambiti aziendali (marketing, CRM, controllo di gestione, risk management, ricerca e sviluppo) e in numerosi settori: banche, assicurazioni, industrie farmaceutiche, aziende produttrici di beni di largo consumo,
  • 3. Introduzione al Data Mining Il Data Mining è la risposta tecnologica all’esigenza di analizzare e ricavare conoscenze utili, dalle enormi quantità di dati grezzi che si raccolgono in tutti i contesti operativi della nostra società.
  • 4. Introduzione al Data Mining - 2 Esempi: • Solo il database del settore consegne della UPS ha una dimensione di 17 Tera-Byte. Questi dati vanno analizzati sia per capire come migliorare il servizio ai clienti, sia per migliorare l’efficienza interna dell’azienda • I servizi segreti militari raccolgono una infinità di immagini via satellite, che devono saper classificare per riconoscere se è stato fotografato un semplice trattore o un carro armato! • Le aziende farmaceutiche, per progettare un nuovo farmaco, utile e sicuro per l’uomo, devono analizzare e selezionare milioni di composti chimici.
  • 5. Introduzione al Data Mining- 3 La risposta all’esigenza di analisi di enormi quantità di dati raccolti è rappresentata dal Data Mining (= estrazione di dati)
  • 6. Data Mining: cos’è Il data mining è il processo di analisi, svolto in modo semiautomatico, di una grande quantità di dati grezzi al fine di scoprire il modello (“pattern”) che li governa, o una regola significativa, da cui ricavare conoscenze utili applicabili al nostro contesto operativo (come ad esempio previsioni e classificazioni).
  • 7. Uso del Data Mining Il data mining (estrazione di dati) ha una duplice valenza: • Estrazione, con tecniche analitiche, di una informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile; • Esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati allo scopo di scoprire pattern (schemi) significativi.
  • 8. Sviluppo del DATA MINING Fattori principali: • grandi accumulazioni di dati in formato elettronico; • data storage poco costoso; • nuovi metodi e tecniche di analisi (apprendimento automatico, riconoscimento di pattern)
  • 9. Le tecniche del DATA MINING • Clustering • Reti neurali • Alberi di decisione • Analisi delle associazioni (es.: individuazione di prodotti acquistati congiuntamente).
  • 10. Tecniche di data mining Le tecniche di data mining sono fondate su specifici algoritmi. Si individuano dei «pattern», o modelli, schemi ricorrenti. Questi possono essere, a loro volta, il punto di partenza per ipotizzare e poi verificare nuove relazioni di tipo causale fra fenomeni. Possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
  • 11. L’algoritmo di data mining Un algoritmo di data mining è un set di calcoli che consente di creare un modello di data mining dai dati. Per creare un modello, tramite l'algoritmo vengono innanzitutto analizzati i dati forniti, ricercando tipi specifici di modelli o tendenze. I risultati dell'analisi vengono utilizzati dall'algoritmo per definire i parametri ottimali per la creazione del modello di data mining.
  • 12. Tecniche di data mining 2 Tra le tecniche maggiormente utilizzate in questo ambito vi sono: •Clustering; •Reti neurali; •Alberi di decisione; •Analisi delle associazioni (individuazione dei prodotti acquistati congiuntamente). Un'altra tecnica molto diffusa per il data mining è l'apprendimento mediante classificazione.
  • 13. Il DATA MINING in biblioteca Per quanto riguarda le possibili applicazioni di tali tecniche in biblioteca, il primo pensiero va al prestito dei libri e ai documenti accessibili nella biblioteca digitale. Come cogliere le regolarità eventualmente presenti nelle transazioni avvenute con l’utenza, sulle quali basare le raccomandazioni di lettura o consultazione? La rilevazione di relazioni nel comportamento degli utenti può essere effettuata tramite il data mining.
  • 14. Il profilo del lettore Si possono elaborare proposte e offerte mirate ai vari profili lettori, da tenere presenti in occasione della redazione della Carta delle collezioni, della revisione delle raccolte, degli acquisti, della promozione della lettura diretta agli utenti reali di cui si desidera conservare il grado di fidelizzazione.
  • 15. Il profilo del lettore. Esempi Per esemplificare: – chi ha preso in prestito il libro a ha preso in prestito anche il libro b; – le ripartizioni dei prestiti del lettore L nella classificazione Dewey; – le ripartizioni diacroniche dei prestiti del lettore L (il 50% in inverno, il 25% in autunno e il restante 25% in primavera).
  • 16. Software per il DATA MINING
  • 17. Dal DATA MINING al DATA WAREHOUSE Nel contesto aziendale il data mining è considerato parte del processo che porta alla creazione di un data warehouse. Valorizzazione delle informazioni aziendali contenute in grandi depositi di dati.
  • 18. Data warehouse (o DW) Termine traducibile con magazzino di dati, archivio informatico contenente i dati di un'organizzazione. I DW sono progettati per consentire di produrre facilmente relazioni ed analisi. Sono componenti essenziali di un sistema Data warehouse gli strumenti per localizzare i dati, per estrarli, trasformarli e caricarli e gli strumenti per gestire un dizionario dei dati. Sono strumenti per gestire e recuperare i metadati e per gestire le proprie informazioni in modo intelligente.
  • 19. MEMO: Business Intelligence (BI) E’ l’insieme dei processi, dei metodi e degli strumenti utilizzati per raccogliere, organizzare ed analizzare i dati a disposizione a supporto dei processi decisionali di carattere operativo, tattico e strategico di un’azienda o di un Ente.
  • 20. Data warehouse e livelli di dati • Dati attuali di dettaglio: sono i dati al massimo livello di dettaglio che si ritiene possa essere utile ai processi decisionali. Hanno già subito operazioni di filtraggio delle informazioni non necessarie, interrogazione delle informazioni da fonti diverse, trasformazione rispetto allo schema dati del data warehouse. • Dati storici di dettaglio: i dati di dettaglio che non sono “attuali”, ma che rientrano nella finestra temporale del data warehouse. Vengono collocati su supporti meno impegnativi e costosi, accessibili meno comodamente. • Dati aggregati: la loro presenza deriva da considerazioni di efficienza e praticità nella risposta alle richieste degli utenti; infatti tutte le informazioni ricavabili dai dati aggregati sono in teoria ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in volta il loro ri-calcolo.
  • 21. Il successo dei DATA WAREHOUSE Un processo decisionale rapido ed efficace è molto importante nel mondo competitivo odierno. Per soddisfare la richiesta di business intelligence, analisi avanzata, data mining, modellazione previsionale, normative rigorose e reportistica molto rapida, sono necessarie capacità maggiori di quelle di un tradizionale sistema di gestione dei dati.
  • 22. 2009-05-18 18:35 INTERNET: ARRIVA WOLFRAM ALPHA «Un motore di ricerca 'intelligente' (ANSA) – ROMA, 18 MAG - Wolfram Alpha, il motore di ricerca semantico che punta a cambiare il modo di cercare informazioni sul web e' in linea su Internet. E' stato ideato dall'informatico britannico Stephen Wolfram. La differenza con i motori di ricerca tradizionali sta nell'interpretazione semantica. Se in Google o Yahoo! si digita una domanda i motori riportano i link alle pagine web che contengono tutte o alcune delle parole. Wolfram Alpha, invece, e' in grado di comprendere la domanda e di fornire la risposta.»
  • 23.
  • 24. Wolfram Alpha E’ nato con l’obiettivo di leggere ed interpretare le domande dell’utente, poste in modo naturale e di cercare di fornire una risposta coerente, molto diversa quindi dalle migliaia di pagine a cui Google ci ha abituati in questi anni. I link di risposta forniti da questo motore di ricerca sono frutto di algoritmi messi a punto proprio da Stephen Wolfram, scienziato specializzato in fisica, che ha cercato di creare il primo search engine con capacità semantiche.
  • 25. Wolfram Alpha: un solo risultato • “Basta con i milioni di risultati restituiti da Google senza alcun approccio critico: il prossimo metodo di ricerca rispetterà il linguaggio naturale, cioè l’espressione delle domande esattamente come avviene tra due interlocutori umani. • Dopo aver decifrato il quesito, Wolfram Alpha propone un risultato completo di grafici e dati statistici, per supportare scientificamente il valore della propria risposta. • Oltre a presentare risultati diretti, il motore confronta i dati di diversa natura, paragonando così valori astratti come le lunghezze o gli avvenimenti storici
  • 26. Walfram Alpha: come funziona • Non si tratta di un motore di ricerca. • Non consiste in un database di siti web archiviati per parole chiave • Non è formato da una serie di domande e risposte preconfezionate. Wolfram Alpha è un «motore computazionale della conoscenza» che interpreta ed elabora proprio come un cervello, incrociando tutti i dati a disposizione. Il software affronta gli ostacoli del linguaggio e della cultura, analizzando il significato di ciascuna domanda, distinguendo tra i diversi livelli semantici.
  • 27. «Where is Rome» Se ad esempio viene chiesto "Where is Rome", un motore di ricerca tradizionale si limita ad elencare le pagine che contengono tale frase, mentre un motore di ricerca computazionale elabora la domanda, "scomponendola" nei suoi elementi (che nel caso sarebbero "Rome" e "location"), poi sulla base di questi mostra la posizione di Roma (senza aggiungere dati inutili).