Definizione e comparazione dei modelli di classificazione con Scikit-Learn

PROJECT WORK
DEFINIZIONE DI UN MODELLO DI
CLASSIFICAZIONE PER IL CALCOLO DEL RISCHIO
INTRINSECO DI UN NUOVO PROGETTO
INDUSTRIALE

Dataset
Dati in input:
• Ambito proge-uale e area di 
riferimento
• Tecnologie coinvolte
• Cara-eris9che quan9ta9ve e
qualita9ve delle risorse impiegate nel
proge-o
• Modalità di svolgimento
• Esito proge-o

TECNOLOGIE
E LIBRERIE UTILIZZATE
Python 3.6 Pandas Numpy
scikit-learn matplot-lib

Fasi del processo di Advanced Analytics
si del processo di Advanced Analytics
• Analisi esplorativa:
• Univariata
• bivariata
• Pre elaborazione
dati:
• Presenta
risultati
• Impleme
del mod
in produ
• Definizione del
problema di
business
• Traduzione in un
problema di
machine learning
Exploration Phase
Target definition
Data
Preparation
Model
Selection
Solu
implem
io
• Feature Selection
• Separazione
Dataset in
training,cross-
validation e test
set

Deﬁnizione Obiettivo Analisi: Individuare il grado
di rischio (probabilità che il progetto abbia esito
negativo) associato allo svolgimento di un progetto
in termini di tempo previsto e/o costi associati al
progetto stesso, attraverso l’analisi del modello di
machine learning che meglio si adatta a risolvere tale
problema. 
Problema:
problema di classiﬁcazione (apprendimento
supervisionato).
Individuazione variabile target: “Project Failure”
1. TARGET DEFINITION
COMPANY
NAME

COMPANY
NAME
2. DATA EXPLORATION
[DATA PREPARATION:
CLEANING, TRANSFORMATION E REDUCTION]

COMPANY
NAME
2. DATA EXPLORATION
alla ricerca di dati sporchi o ridondanti che determinano poca
afﬁdabilità del modello.

COMPANY
NAME
2. DATA EXPLORATION

Come gestire i dati mancanti e incompleti?
2. DATA EXPLORATION

2. DATA EXPLORATION
COMPANY
NAME

Come trattare i dati categorici?

3. DEFINIZIONE MODELLI
• LR – LOGISTIC REGRESSION  
• DT – DECISION TREE  
• RF – RANDOM FOREST  
• SVM – SUPPORT VECTOR MACHINE  
• GNB – GAUSSIAN NAIVE BAYES

“Suppongo che sia
allettante, quando
l’unico strumento che
hai a disposizione è
un martello, trattare
tutto come se fosse un
chiodo”
A. MASLOW, 1966

RANDOM FOREST
L’algoritmo a foresta casuale può essere riepilogato in 4 semplici passi:
1. Scegliere casualmente n campioni dal training set con ottenendo un campione
casuale detto bootstrap.
2. Far crescere un albero decisionale dal campione di bootstrap. Per
ogni nodo:
1. selezionare casualmente d caratteristiche;
2. suddividere il nodo utilizzando la caratteristica che fornisce la migliore
suddivisione sulla base della funzione obiettivo, per
esempio massimizzando il guadagno informativo.
3. Ripetere per k volte i passi 1 e 2.
4. Aggregare le previsioni di ciascun albero per assegnare l’etichetta
della classe sulla base di un voto a maggioranza.
Il Random Forest è un classiﬁcatore d’insieme composto da molteplici alberi.

Obiettivo: massimizzare il margine.
SUPPORT VECTOR MACHINE (SVM)

GAUSSIAN NAIVE BAYES
Rappresentano un approccio probabilistico per risolvere problemi di
classificazione.
L’idea di base è quella di definire una funzione associata alla probabilità che un
dato elemento estratto dal dataset di training sia classificato in una delle due
classi {0,1} di Y. Ciò è dato dal teorema di Bayes:

Training: insieme sul quale vengono
calcolati i parametri migliori del modello.
70%
DIVISIONE DATASET
Test: stima l’errore del modello
30%

“""
Il seguente metodo prende in input le matrici X, Y del Train e del Test set e applica ad essi tutti i classificatori  
specificati nel dictionary dict_classifier.
I modelli applicati e l’accuratezza relativa sono salvati in un dictionary. Il motivo di usare un dizionario
risiede nel fatto che è molto facile gestirlo.
Generalmente i modelli SVM e Random Forest ci impiegano un po’ di tempo.
"""

Ottimizzazione iperparametri
• Gli iperparametri sono parametri 
che non vengono appresi  
direttamente dagli stimatori.
• Iperparametri come “manopole”

COMPARAZIONE BEST  
2 MODELS

Confusion Matrix: Logistic Regression
Precision, Recall, F1-Score
TN
FN
FP
TP

Curva di ROC: Logistic Regression

Confusion Matrix: Random Forest
Precision, Recall, F1-Score
TN
FN
FP
TP

Precision Recall F1-Score
Logistic
Regression
Dataset 1 82% 82% 82%
Dataset 2 66% 66% 66%
Random Forest
Dataset 1 75% 77% 75%
Dataset 2 58% 56% 56%
Metriche di comparazione

Curva di ROC
1 dataset 2 dataset

Definizione e comparazione dei modelli di classificazione con Scikit-Learn

Recommended

Recommended

More Related Content

Similar to Definizione e comparazione dei modelli di classificazione con Scikit-Learn

Similar to Definizione e comparazione dei modelli di classificazione con Scikit-Learn (20)

Definizione e comparazione dei modelli di classificazione con Scikit-Learn