1. Sono dati liberamente accessibili a tutti le cui
eventuali restrizioni sono l'obbligo di citare la
fonte o di mantenere la banca dati sempre
aperta
Open Data
2. Open Data
➔ I dati aperti devono essere indicizzati dai motori
di ricerca;
➔i dati aperti devono essere disponibili in un
formato aperto, standardizzato e leggibile da
un'applicazione informatica per facilitare la loro
consultazione ed incentivare il loro riutilizzo
anche in modo creativo;
➔i dati aperti devono essere rilasciati attraverso
licenze libere che non impediscano la diffusione
e il riutilizzo da parte di tutti i soggetti interessati.
3. Big data
è il termine usato per descrivere una raccolta di
dati così estesa in termini di
● volume( Zettabyte, ovvero miliardi di Terabyte)
● velocità
● varietà
…....Verdicità?
4. Data mining
●
Il concetto di data mining è simile ma con una sostanziale differenza: la
statistica permette di elaborare informazioni generali riguardo ad una
popolazione (es. percentuali di disoccupazione, nascite) mentre il data mining
viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli
individui; ad esempio sapendo il comportamento di un cliente in una
compagnia telefonica cerco di prevedere quanto spenderà nell'immediato
futuro.
●
In sostanza il data mining è " l'analisi matematica eseguita su database di
grandi dimensioni". Il termine data mining è diventato popolare nei tardi anni
'90 come versione abbreviata della definizione appena esposta.
5. Data Mining
● Che cosa "non è" data mining?
● cercare un numero di telefono nell'elenco;
● fare una ricerca in Internet su "vacanze alle Maldive".
● Che cosa "è" data mining?
● fare una ricerca nel web su una parola chiave e classificare i
documenti trovati secondo un criterio semantico (per esempio
"corriere": nome di giornale, professione, ecc.);
● scoprire chi sono i clienti che hanno maggiore propensione di
acquisto su certi prodotti o campagne pubblicitarie.
6. ● Un concetto correlato al data mining è quello di apprendimento automatico (Machine
learning); infatti, l'identificazione di pattern può paragonarsi all'apprendimento, da parte del
sistema di data mining, di una relazione causale precedentemente ignota, cosa che trova
applicazione in ambiti come quello degli algoritmi euristici e dell'intelligenza artificiale.
Tuttavia, occorre notare che il processo di data mining è sempre sottoposto al rischio di
rivelare relazioni causali che poi si rivelano inesistenti.
● Tra le tecniche maggiormente utilizzate in questo ambito vi sono:
● Clustering;
● Reti neurali;
● Alberi di decisione;
● Analisi delle associazioni (individuazione dei prodotti acquistati congiuntamente).
7. Weka
● Weka, acronimo di "Waikato Environment for
Knowledge Analysis", è un software per
l'apprendimento automatico sviluppato
nell'università di Waikato in Nuova Zelanda. È
open source e viene rilasciato con licenza GNU
General Public License.