I dati, in sé, possiedono valore solo in forma potenziale ovvero sono solo un contenitore dell’informazione. La statistica applicata, e più in generale l’analisi dati, fornisce la “tecnologia” necessaria per trasformare i dati in informazione utile per chi deve prendere importanti decisioni aziendali. L’obiettivo ultimo dell’analisi dati è costruire un modello avanzato che utilizza le più recenti metodologie di machine learning e di statistica avanzata per comprendere il presente e prevedere il futuro.
Durante questo intervento mostro i risultati ottenuti applicando le metodologie di analisi dati ai consumi energetici di un impianto industriale allo scopo di ottimizzare i consumi individuando sacche di inefficienza. Grazie a questo approccio, le conoscenze acquisite consentono di attuare politiche di risparmio energetico dove una visione del futuro è trasformata in una decisione nel presente, e dove i modelli analitici vengono trasformati in interventi di manutenzione.
I dati, in sé, possiedono valore solo in forma potenziale ovvero sono solo un contenitore dell’informazione. La statistica applicata, e più in generale l’analisi dati, fornisce la “tecnologia” necessaria per trasformare i dati in informazione utile per chi deve prendere importanti decisioni aziendali. L’obiettivo ultimo dell’analisi dati è costruire un modello avanzato che utilizza le più recenti metodologie di machine learning e di statistica avanzata per comprendere il presente e prevedere il futuro.
Durante questo intervento mostro i risultati ottenuti applicando le metodologie di analisi dati ai consumi energetici di un impianto industriale allo scopo di ottimizzare i consumi individuando sacche di inefficienza. Grazie a questo approccio, le conoscenze acquisite consentono di attuare politiche di risparmio energetico dove una visione del futuro è trasformata in una decisione nel presente, e dove i modelli analitici vengono trasformati in interventi di manutenzione.
Analisi Di Modelli Di Opinion Formation In Reti Complesse
User Based Prediction Model
1. Università degli studi di Catania
Laurea specialistica in Ingegneria Gestionale
Corso di Sistemi Informativi
Prof.ssa D. Giordano
Progetto di Datamining
USER BASED PREDICTION MODEL
Gabriele Manno
Ing. F. MAIORANA Ivan Santini
Nazareno Lo Iacono
2. USER BASED PREDICTION MODEL
JESTER PREDIZIONE DEI GIUDIZI NON ESPRESSI DAGLI
UTENTI SULL’INSIEME DI ITEM VOTABILI
DATASET
ESTRAZIONE DI UN DATASET DI DATI STORICI
COSTRUZIONE
DI UN MANIPOLAZIONE DEI DATI PER OTTENERE UNA
MODELLO PER MATRICE PIENA
LA PREDIZIONE
CLUSTERIZZAZIONE DELLA MATRICE OTTENUTA
3. USER BASED PREDICTION MODEL
JESTER PREDIZIONE DEI GIUDIZI NON ESPRESSI DAGLI
UTENTI SULL’INSIEME DI ITEM VOTABILI
DATASET
ESTRAZIONE DI UN DATASET DI DATI SU CUI
EFFETTUARE LA PREDIZIONE
CALCOLO
DELL’ERRORE
DI SI EFFETTUA LA PREDIZIONE DI UN
PREDIZIONE SOTTOINSIEME DEGLI ITEM VOTATI
CALCOLO ERRORE DI PREDIZIONE
4. USER BASED PREDICTION MODEL
COSTRUZIONE DI UN MODELLO PER LA PREDIZIONE
ESTRAZIONE DI UN ESTRAZIONE DELLA SOTTOMATRICE
DATASET DI DATI STORICI Xmod DALLA MATRICE DEI DATI
SOSTITUZIONE DEI DATI MANCANTI CON LA
MEDIA DELLE MEDIE DI RIGA E COLONNA
MANIPOLAZIONE DEI
DATI PER OTTENERE
UNA MATRICE PIENA
APPLICAZIONE DELLA PROCEDURA IPCA
PER LA SOSTITUZIONE DEFINITIVA DEI
DATI MANCANTI
CLUSTERIZZAZIONE APPLICAZIONE DELL’ALGORITMO
DELLA MATRICE X NON GERARCHICO DEL K-MEANS
OTTENUTA
5. USER BASED PREDICTION MODEL
PROCEDURA IPCA PER LA SOSTITUZIONE DEI DATI
MANCANTI
CENTRAMENTO DELLA MATRICE
RICAVATA AL PASSO PRECEDENTE DECOMPOSIZIONE AI VALORI SINGOLARI
RISPETTO ALLE MEDIE DI DELLA MATRICE RETTANGOLARE DEI DATI
COLONNA
SCELTA DELLA NUMEROSITA’ DEI VALORI
ANALISI ALLE COMPONENTI PRINCIPALI SINGOLARI
DELLA MATRICE CENTRATA
RIDUZIONE DEL RANGO DELLA MATRICE
SDECENTRAMENTO DELLA CENTRATA
MATRICE RIDOTTA
SOSTITUZIONE DEI DATI MANCANTI CON I RELATIVI VALORI PROCEDURA
DELLA MATRICE RICAVATA AL PASSO PRECEDENTE
ITERATIVA
6. USER BASED PREDICTION MODEL
ALGORITMO PER LA COSTRUZIONE DEL MODELLO
Matrice Xmod
Sostituzione media delle medie ai dati mancanti
Calcolo di X attraverso IPCA
Clusterizzazione della matrice X
7. USER BASED PREDICTION MODEL
ALGORITMO PER LA COSTRUZIONE DEL MODELLO
Matrice Xmod
Sostituzione media delle medie ai dati mancanti
Calcolo di X attraverso IPCA
Clusterizzazione della matrice X
8. USER BASED PREDICTION MODEL
ALGORITMO PER LA COSTRUZIONE DEL MODELLO
Matrice Xmod
Calcolo di A (matrice centrata)
Sostituzione media delle medie ai dati mancanti
Calcolo di X attraverso IPCA Calcolo di Ak matrice di rango ridotto
Clusterizzazione della matrice X
Calcolo di A’ (matrice sdecentrata)
Sostituzione dei dati mancanti
(aggiornamento X)
Uscita?
9. USER BASED PREDICTION MODEL
CALCOLO DELL’ERRORE DI PREDIZIONE
ESTRAZIONE DI UN
DATASET DA UTILIZZARE ESTRAZIONE DELLA SOTTOMATRICE
COME MATRICE DI TEST Xtest DALLA MATRICE DEI DATI
SCELTA DEGLI ITEM VOTATI DEI QUALI
EFFETTUARE LA PREDIZIONE
APPLICAZIONE DEL METODO IPCA PER LA
ASSOCIAZIONE DEL GENERICO USER AD SOSTITUZIONE DEI DATI MANCANTI DEL
UN GRUPPO DEFINITO IN FASE DI GENERICO USER DELLA MATRICE DI TEST
MODELLIZZAZIONE
CALCOLO DISTANZA TRA IL GENERICO USER E I
CENTROIDI DEI GRUPPI INDIVIDUATI NELLA
FASE DI MODELLIZZAZIONE
PREDIZIONE DEI VALORI DEGLI ITEM
ATTRAVERSO L’ASSOCIAZIONE CON IL
VALORE RELATIVO AL CENTROIDE PIU’ CALCOLO DELL’ERRORE
SIMILE
10. USER BASED PREDICTION MODEL
PROCEDURA IPCA PER LA SOSTITUZIONE DEI DATI
MANCANTI NEL GENERICO USER DELLA MATRICE DI TEST
VENGONO SCELTE m ULTIME
RIGHE DELLA MATRICE X MATRICE DI m+1 RIGHE
RICAVATA IN FASE DI
MODELLIZAZIONE
VETTORE DEL GENERICO SOSTITUZIONE DEI DATI MANCANTI CON LA
USER MEDIA DELLE MEDIE DI RIGA E COLONNA
E’ NECESSARIO CALCOLARE
L’ERRORE PER DIVERSI VALORI PROCEDURA IPCA PER
DI m PER LA SCELTA DEL
VALORE OTTIMO DEL LA SOSTITUZIONE DEI
PARAMENTRO DATI MANCANTI
12. USER BASED PREDICTION MODEL
ALGORITMO PER LA PREDIZIONE DELL’ERRORE
Percentuale h di Item votati vengono
Matrice Xtest scelti per la predizione in modo
casuale
Creazione Xtest1 Composta da una sottomatrice dei dati
storici e il vettore utente
Ciclo per ogni utente
Creazione matrice B Sostituzione dei dati mancanti
all’utente vettore b
Creazione BB tramite IPCA ed estrazione di b
Associazione dell’elemento al gruppo più simile
Calcolo dell’Errore associato ad un unico utente
Ciclo per diversi m
Calcolo dell’Errore totale
13. USER BASED PREDICTION MODEL
CONCLUSIONI
È richiesto un grosso sforzo computazionale
nella fase di modellizzazione quando si è in
presenza di matrici di grandi dimensioni.
L’algoritmo si presenta comunque rapido nei
confronti della predizione poiché si utilizzano
solo m delle righe totali della matrice-modello.
Futuri sviluppi possono consistere nello
sviluppare una procedura di aggiornamento del
modello quando un nuovo user entra nel
sistema.