SlideShare a Scribd company logo
1 of 43
Download to read offline
PROJECT WORK
DEFINIZIONE DI UN MODELLO DI
CLASSIFICAZIONE PER IL CALCOLO DEL RISCHIO
INTRINSECO DI UN NUOVO PROGETTO
INDUSTRIALE
Dataset
Dati in input:
• Ambito proge-uale e area di

riferimento
• Tecnologie coinvolte
• Cara-eris9che quan9ta9ve e
qualita9ve delle risorse impiegate nel
proge-o
• Modalità di svolgimento
• Esito proge-o
[512 x 16]
TECNOLOGIE
E LIBRERIE UTILIZZATE
Python 3.6 Pandas Numpy
scikit-learn matplot-lib
Fasi del processo di Advanced Analytics
si del processo di Advanced Analytics
• Analisi esplorativa:
• Univariata
• bivariata
• Pre elaborazione
dati:
• Presenta
risultati
• Impleme
del mod
in produ
• Definizione del
problema di
business
• Traduzione in un
problema di
machine learning
Exploration Phase
Target definition
Data
Preparation
Model
Selection
Solu
implem
io
• Feature Selection
• Separazione
Dataset in
training,cross-
validation e test
set
Definizione Obiettivo Analisi: Individuare il grado
di rischio (probabilità che il progetto abbia esito
negativo) associato allo svolgimento di un progetto
in termini di tempo previsto e/o costi associati al
progetto stesso, attraverso l’analisi del modello di
machine learning che meglio si adatta a risolvere tale
problema.

Problema:
problema di classificazione (apprendimento
supervisionato).
Individuazione variabile target: “Project Failure”
1. TARGET DEFINITION
COMPANY
NAME
DARE “UNA FORMA” AI DATI
COMPANY
NAME
2. DATA EXPLORATION
[DATA PREPARATION:
CLEANING, TRANSFORMATION E REDUCTION]
COMPANY
NAME
2. DATA EXPLORATION
alla ricerca di dati sporchi o ridondanti che determinano poca
affidabilità del modello.
COMPANY
NAME
2. DATA EXPLORATION
Come gestire i dati mancanti e incompleti?
2. DATA EXPLORATION
2. DATA EXPLORATION
COMPANY
NAME
2. DATA EXPLORATION
Come trattare i dati categorici?
One Hot Encoding
One Hot Encoding
2. DATA EXPLORATION
3. DEFINIZIONE MODELLI
• LR – LOGISTIC REGRESSION 

• DT – DECISION TREE 

• RF – RANDOM FOREST 

• SVM – SUPPORT VECTOR MACHINE 

• GNB – GAUSSIAN NAIVE BAYES
“Suppongo che sia
allettante, quando
l’unico strumento che
hai a disposizione è
un martello, trattare
tutto come se fosse un
chiodo”
A. MASLOW, 1966
REGRESSIONE LOGISTICA
DECISION TREE
RANDOM FOREST
L’algoritmo a foresta casuale può essere riepilogato in 4 semplici passi:
1. Scegliere casualmente n campioni dal training set con ottenendo un campione
casuale detto bootstrap.
2. Far crescere un albero decisionale dal campione di bootstrap. Per
ogni nodo:
1. selezionare casualmente d caratteristiche;
2. suddividere il nodo utilizzando la caratteristica che fornisce la migliore
suddivisione sulla base della funzione obiettivo, per
esempio massimizzando il guadagno informativo.
3. Ripetere per k volte i passi 1 e 2.
4. Aggregare le previsioni di ciascun albero per assegnare l’etichetta
della classe sulla base di un voto a maggioranza.
Il Random Forest è un classificatore d’insieme composto da molteplici alberi.
Obiettivo: massimizzare il margine.
SUPPORT VECTOR MACHINE (SVM)
GAUSSIAN NAIVE BAYES
Rappresentano un approccio probabilistico per risolvere problemi di
classificazione.
L’idea di base è quella di definire una funzione associata alla probabilità che un
dato elemento estratto dal dataset di training sia classificato in una delle due
classi {0,1} di Y. Ciò è dato dal teorema di Bayes:
Training: insieme sul quale vengono
calcolati i parametri migliori del modello.
70%
DIVISIONE DATASET
Test: stima l’errore del modello
30% 

DIVISIONE DATASET
“""
Il seguente metodo prende in input le matrici X, Y del Train e del Test set e applica ad essi tutti i classificatori 

specificati nel dictionary dict_classifier.
I modelli applicati e l’accuratezza relativa sono salvati in un dictionary. Il motivo di usare un dizionario
risiede nel fatto che è molto facile gestirlo.
Generalmente i modelli SVM e Random Forest ci impiegano un po’ di tempo.
"""
Ottimizzazione iperparametri
• Gli iperparametri sono parametri

che non vengono appresi 

direttamente dagli stimatori.
• Iperparametri come “manopole”
COMPARAZIONE BEST 

2 MODELS
Confusion Matrix: Logistic Regression
Precision, Recall, F1-Score
TN
FN
FP
TP
Curva di ROC: Logistic Regression
Confusion Matrix: Random Forest
Precision, Recall, F1-Score
TN
FN
FP
TP
Curva di ROC: Random Forest
2° DATASET
REPEAT
2° DATASET
REPEAT
Confusion Matrix: Logistic Regression
Precision, Recall, F1-Score
TN
FN
FP
TP
Curva di ROC: Logistic Regression
Confusion Matrix: Random Forest
Precision, Recall, F1-Score
TN
FN
FP
TP
Curva di ROC: Random Forest
Precision Recall F1-Score
Logistic
Regression
Dataset 1 82% 82% 82%
Dataset 2 66% 66% 66%
Random Forest
Dataset 1 75% 77% 75%
Dataset 2 58% 56% 56%
Metriche di comparazione
Curva di ROC
1 dataset 2 dataset

More Related Content

Similar to Definizione e comparazione dei modelli di classificazione con Scikit-Learn

Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiPietro Corona
 
Classificazione documenti spark_ml_ciuffa
Classificazione documenti spark_ml_ciuffaClassificazione documenti spark_ml_ciuffa
Classificazione documenti spark_ml_ciuffaDeep Learning Italia
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Nicola Procopio
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...Leonardo Di Donato
 
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiClassificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiLuca Vitale
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data miningFrancesco Tamburini
 
Support Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiSupport Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiGioele Ciaparrone
 
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...Roberto Nani
 
Comparazione di Modelli Machine Learning
Comparazione di Modelli Machine LearningComparazione di Modelli Machine Learning
Comparazione di Modelli Machine LearningARIANET
 
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...MicheleScomina
 
Data Profiling with Metanome
Data Profiling with MetanomeData Profiling with Metanome
Data Profiling with MetanomeMatteo Senardi
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - SchedeNicola Gentili
 
Mobile price classification
Mobile price classificationMobile price classification
Mobile price classificationMircoBarbero
 
Deep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasDeep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasMarco Cannici
 
Data Express 4.0 - Conformità, produttività e privacy con dati di Test
Data Express 4.0 -  Conformità, produttività e privacy con dati di TestData Express 4.0 -  Conformità, produttività e privacy con dati di Test
Data Express 4.0 - Conformità, produttività e privacy con dati di TestMicrofocusitalia
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...MichaelFuser
 
Bpr group - Case history: database tempi standard e preventivatore
Bpr group - Case history: database tempi standard e preventivatoreBpr group - Case history: database tempi standard e preventivatore
Bpr group - Case history: database tempi standard e preventivatoreBPR Group
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clusteringRosario Turco
 
An MPI approach to build philogenetics trees
An MPI approach to build philogenetics treesAn MPI approach to build philogenetics trees
An MPI approach to build philogenetics treesAlessandro Della Rocca
 

Similar to Definizione e comparazione dei modelli di classificazione con Scikit-Learn (20)

Profilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzatiProfilazione utente in ambienti virtualizzati
Profilazione utente in ambienti virtualizzati
 
Classificazione documenti spark_ml_ciuffa
Classificazione documenti spark_ml_ciuffaClassificazione documenti spark_ml_ciuffa
Classificazione documenti spark_ml_ciuffa
 
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
Modelli di Durata: un'analisi sull'utilizzo del portale Web dell'Università d...
 
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
CRADLE: Clustering by RAndom minimization Dispersion based LEarning - Un algo...
 
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbiClassificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
Classificazione in efMRI: Un caso di studio sulla coniugazione dei verbi
 
La metodologia statistica nel data mining
La metodologia statistica nel data miningLa metodologia statistica nel data mining
La metodologia statistica nel data mining
 
Support Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempiSupport Vector Machines: concetti ed esempi
Support Vector Machines: concetti ed esempi
 
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...ANALYSIS OF METHODS FOR PRODUCT INNOVATION:  CLASSIFICATION OF PATENTS AND SC...
ANALYSIS OF METHODS FOR PRODUCT INNOVATION: CLASSIFICATION OF PATENTS AND SC...
 
Comparazione di Modelli Machine Learning
Comparazione di Modelli Machine LearningComparazione di Modelli Machine Learning
Comparazione di Modelli Machine Learning
 
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
Extended Summary of "Evolutionary Optimization of Deep Learning Activation Fu...
 
Data Profiling with Metanome
Data Profiling with MetanomeData Profiling with Metanome
Data Profiling with Metanome
 
Machine learning - Schede
Machine learning - SchedeMachine learning - Schede
Machine learning - Schede
 
Mobile price classification
Mobile price classificationMobile price classification
Mobile price classification
 
Deep Learning on Event-Based Cameras
Deep Learning on Event-Based CamerasDeep Learning on Event-Based Cameras
Deep Learning on Event-Based Cameras
 
Presentazione ufficiale
Presentazione ufficialePresentazione ufficiale
Presentazione ufficiale
 
Data Express 4.0 - Conformità, produttività e privacy con dati di Test
Data Express 4.0 -  Conformità, produttività e privacy con dati di TestData Express 4.0 -  Conformità, produttività e privacy con dati di Test
Data Express 4.0 - Conformità, produttività e privacy con dati di Test
 
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
Progetto e sviluppo di un sistema di rilevamento di anomalie su sistemi infor...
 
Bpr group - Case history: database tempi standard e preventivatore
Bpr group - Case history: database tempi standard e preventivatoreBpr group - Case history: database tempi standard e preventivatore
Bpr group - Case history: database tempi standard e preventivatore
 
Algoritmi di clustering
Algoritmi di clusteringAlgoritmi di clustering
Algoritmi di clustering
 
An MPI approach to build philogenetics trees
An MPI approach to build philogenetics treesAn MPI approach to build philogenetics trees
An MPI approach to build philogenetics trees
 

Definizione e comparazione dei modelli di classificazione con Scikit-Learn