4a Data Mining e motori computazionali
Upcoming SlideShare
Loading in...5
×
 

4a Data Mining e motori computazionali

on

  • 304 views

SAPIENZA UNIVERSITA’ DI ROMA ...

SAPIENZA UNIVERSITA’ DI ROMA
DIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHE
SCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARI
Anno accademico 2012-2013
 
Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHE
Prof. Giovanni Solimine
  
Modulo integrativo
INFORMATICA PER LE BIBLIOTECHE
Prof. Maurizio Caminito

Statistics

Views

Total Views
304
Views on SlideShare
304
Embed Views
0

Actions

Likes
1
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

4a Data Mining e motori computazionali 4a Data Mining e motori computazionali Presentation Transcript

  • Data mining, data warehouse emotori computazionaliSAPIENZA UNIVERSITA’ DI ROMADIPARTIMENTO DI SCIENZE DOCUMENTARIE, LINGUISTICO-FILOLOGICHE E GEOGRAFICHESCUOLA DI SPECIALIZZAZIONE IN BENI ARCHIVISTICI E LIBRARIAnno accademico 2012-2013Insegnamento: INFORMATICA PER GLI ARCHIVI E LE BIBLIOTECHEProf. Giovanni SolimineModulo integrativoINFORMATICA PER LE BIBLIOTECHEProf. Maurizio Caminito
  • Il DATA MININGIl data mining è un metodo statistico applicatoindiversi ambiti aziendali (marketing, CRM,controllo di gestione, risk management, ricercaesviluppo) e in numerosi settori:banche, assicurazioni, industrie farmaceutiche,aziende produttrici di beni di largo consumo,
  • Introduzione al Data MiningIl Data Mining è la risposta tecnologicaall’esigenza di analizzare e ricavare conoscenzeutili, dalle enormi quantità di dati grezzi che siraccolgono in tutti i contesti operativi dellanostra società.
  • Introduzione al Data Mining - 2Esempi:• Solo il database del settore consegne della UPS hauna dimensione di 17 Tera-Byte. Questi dati vannoanalizzati sia per capire come migliorare il servizioai clienti, sia per migliorare l’efficienza internadell’azienda• I servizi segreti militari raccolgono una infinità diimmagini via satellite, che devono saper classificareper riconoscere se è stato fotografato un semplicetrattore o un carro armato!• Le aziende farmaceutiche, per progettare un nuovofarmaco, utile e sicuro per l’uomo, devonoanalizzare e selezionare milioni di composti chimici.
  • Introduzione al Data Mining- 3La risposta all’esigenza di analisi di enormiquantità di dati raccoltiè rappresentata dalData Mining(= estrazione di dati)
  • Data Mining: cos’èIl data mining è il processo di analisi, svolto inmodo semiautomatico, di una grande quantità didati grezzi al fine di scoprire il modello(“pattern”) che li governa, o una regolasignificativa, da cui ricavare conoscenze utiliapplicabili al nostro contesto operativo (come adesempio previsioni e classificazioni).
  • Uso del Data MiningIl data mining (estrazione di dati) ha una duplicevalenza:• Estrazione, con tecniche analitiche, di unainformazione implicita, nascosta, da dati giàstrutturati, per renderla disponibile edirettamente utilizzabile;• Esplorazione ed analisi, eseguita in modoautomatico o semiautomatico, su grandiquantità di dati allo scopo di scoprire pattern(schemi) significativi.
  • Sviluppo del DATA MININGFattori principali:• grandi accumulazioni di dati in formatoelettronico;• data storage poco costoso;• nuovi metodi e tecniche di analisi(apprendimento automatico, riconoscimento dipattern)
  • Le tecniche del DATA MINING• Clustering• Reti neurali• Alberi di decisione• Analisi delle associazioni(es.: individuazione di prodotti acquistaticongiuntamente).
  • Tecniche di data miningLe tecniche di data mining sono fondate suspecifici algoritmi.Si individuano dei «pattern», o modelli, schemiricorrenti. Questi possono essere, a loro volta, ilpunto di partenza per ipotizzare e poi verificarenuove relazioni di tipo causale fra fenomeni.Possono servire in senso statistico performulare previsioni su nuovi insiemi di dati.
  • L’algoritmo di data miningUn algoritmo di data mining è un set di calcoliche consente di creare un modello di datamining dai dati. Per creare un modello, tramitelalgoritmo vengono innanzitutto analizzati i datiforniti, ricercando tipi specifici di modelli otendenze. I risultati dellanalisi vengono utilizzatidallalgoritmo per definire i parametri ottimaliper la creazione del modello di data mining.
  • Tecniche di data mining 2Tra le tecniche maggiormente utilizzate inquesto ambito vi sono:•Clustering;•Reti neurali;•Alberi di decisione;•Analisi delle associazioni (individuazione deiprodotti acquistati congiuntamente).Unaltra tecnica molto diffusa per il data miningè lapprendimento mediante classificazione.
  • Il DATA MINING in bibliotecaPer quanto riguarda le possibili applicazioni di talitecniche in biblioteca, il primo pensiero va al prestitodei libri e ai documenti accessibili nella bibliotecadigitale.Come cogliere le regolarità eventualmente presentinelle transazioni avvenute con l’utenza, sulle qualibasare le raccomandazioni di lettura o consultazione?La rilevazione di relazioni nel comportamento degliutenti può essere effettuata tramite il data mining.
  • Il profilo del lettoreSi possono elaborare proposte e offerte mirateai vari profili lettori, da tenere presenti inoccasione della redazione della Carta dellecollezioni, della revisione delle raccolte, degliacquisti, della promozione della lettura direttaagli utenti reali di cui si desidera conservare ilgrado di fidelizzazione.
  • Il profilo del lettore. EsempiPer esemplificare:– chi ha preso in prestito il libro a ha preso inprestito anche il libro b;– le ripartizioni dei prestiti del lettore L nellaclassificazione Dewey;– le ripartizioni diacroniche dei prestiti dellettore L (il 50% in inverno, il 25% in autunno e ilrestante 25% in primavera).
  • Software per il DATA MINING
  • Dal DATA MINING al DATAWAREHOUSENel contesto aziendale il data mining èconsiderato parte del processo che porta allacreazione di un data warehouse.Valorizzazione delle informazioni aziendalicontenute in grandi depositi di dati.
  • Data warehouse (o DW)Termine traducibile con magazzino di dati, archivioinformatico contenente i dati di unorganizzazione.I DW sono progettati per consentire di produrrefacilmente relazioni ed analisi.Sono componenti essenziali di un sistema Datawarehouse gli strumenti per localizzare i dati,per estrarli, trasformarli e caricarli e gli strumentiper gestire un dizionario dei dati.Sono strumenti per gestire e recuperare i metadati eper gestire le proprie informazioni in modointelligente.
  • MEMO: Business Intelligence (BI)E’ l’insieme dei processi, dei metodi e deglistrumenti utilizzati per raccogliere, organizzareed analizzare i dati a disposizione a supportodei processi decisionali di carattere operativo,tattico e strategico di un’azienda o di un Ente.
  • Data warehouse e livelli di dati• Dati attuali di dettaglio:sono i dati al massimo livello di dettaglio che si ritiene possaessere utile ai processi decisionali. Hanno già subitooperazioni di filtraggio delle informazioni non necessarie,interrogazione delle informazioni da fonti diverse,trasformazione rispetto allo schema dati del data warehouse.• Dati storici di dettaglio:i dati di dettaglio che non sono “attuali”, ma che rientranonella finestra temporale del data warehouse. Vengonocollocati su supporti meno impegnativi e costosi, accessibilimeno comodamente.• Dati aggregati:la loro presenza deriva da considerazioni di efficienza epraticità nella risposta alle richieste degli utenti; infatti tuttele informazioni ricavabili dai dati aggregati sono in teoriaricavabili dai dati di dettaglio, ma ciò richiederebbe di volta involta il loro ri-calcolo.
  • Il successo dei DATA WAREHOUSEUn processo decisionale rapido ed efficace èmoltoimportante nel mondo competitivo odierno.Per soddisfare la richiesta di business intelligence,analisi avanzata, data mining, modellazioneprevisionale, normative rigorose e reportisticamolto rapida, sono necessarie capacità maggiori diquelle di un tradizionale sistema di gestione deidati.
  • 2009-05-18 18:35INTERNET: ARRIVA WOLFRAM ALPHA«Un motore di ricerca intelligente (ANSA) –ROMA, 18 MAG - Wolfram Alpha, il motore di ricercasemantico che punta a cambiare il modo di cercareinformazioni sul web e in linea su Internet. E stato ideatodallinformatico britannico Stephen Wolfram. La differenzacon i motori di ricerca tradizionali sta nellinterpretazionesemantica. Se in Google o Yahoo! si digita una domanda imotori riportano i link alle pagine web che contengono tutteo alcune delle parole. Wolfram Alpha, invece, e in grado dicomprendere la domanda e di fornire la risposta.»
  • Wolfram AlphaE’ nato con l’obiettivo di leggere ed interpretare ledomande dell’utente, poste in modo naturale e dicercare di fornire una risposta coerente, molto diversaquindi dalle migliaia di pagine a cui Google ci haabituati in questi anni.I link di risposta forniti da questo motore di ricercasono frutto di algoritmi messi a punto proprio daStephen Wolfram, scienziato specializzato in fisica, cheha cercato di creare il primo search engine concapacitàsemantiche.
  • Wolfram Alpha: un solo risultato• “Basta con i milioni di risultati restituiti da Googlesenza alcun approccio critico: il prossimo metodo diricerca rispetterà il linguaggio naturale, cioèl’espressione delle domande esattamente comeavviene tra due interlocutori umani.• Dopo aver decifrato il quesito, Wolfram Alphapropone un risultato completo di grafici e datistatistici, per supportare scientificamente il valoredella propria risposta.• Oltre a presentare risultati diretti, il motoreconfronta i dati di diversa natura, paragonando cosìvalori astratti come le lunghezze o gli avvenimentistorici
  • Walfram Alpha: come funziona• Non si tratta di un motore di ricerca.• Non consiste in un database di siti web archiviati per parolechiave• Non è formato da una serie di domande e rispostepreconfezionate.Wolfram Alpha è un «motore computazionale della conoscenza»che interpreta ed elabora proprio come un cervello,incrociando tutti i dati a disposizione.Il software affronta gli ostacoli del linguaggio e della cultura,analizzando il significato di ciascuna domanda, distinguendotra i diversi livelli semantici.
  • «Where is Rome»Se ad esempio viene chiesto "Where is Rome",un motore di ricerca tradizionale si limita adelencare le pagine che contengono tale frase,mentre un motore di ricerca computazionaleelabora la domanda, "scomponendola" nei suoielementi (che nel caso sarebbero "Rome" e"location"), poi sulla base di questi mostra laposizione di Roma (senza aggiungere datiinutili).