Definizione e comparazione dei modelli di classificazione con Scikit-Learn
1. PROJECT WORK
DEFINIZIONE DI UN MODELLO DI
CLASSIFICAZIONE PER IL CALCOLO DEL RISCHIO
INTRINSECO DI UN NUOVO PROGETTO
INDUSTRIALE
2. Dataset
Dati in input:
• Ambito proge-uale e area di
riferimento
• Tecnologie coinvolte
• Cara-eris9che quan9ta9ve e
qualita9ve delle risorse impiegate nel
proge-o
• Modalità di svolgimento
• Esito proge-o
6. Fasi del processo di Advanced Analytics
si del processo di Advanced Analytics
• Analisi esplorativa:
• Univariata
• bivariata
• Pre elaborazione
dati:
• Presenta
risultati
• Impleme
del mod
in produ
• Definizione del
problema di
business
• Traduzione in un
problema di
machine learning
Exploration Phase
Target definition
Data
Preparation
Model
Selection
Solu
implem
io
• Feature Selection
• Separazione
Dataset in
training,cross-
validation e test
set
7. Definizione Obiettivo Analisi: Individuare il grado
di rischio (probabilità che il progetto abbia esito
negativo) associato allo svolgimento di un progetto
in termini di tempo previsto e/o costi associati al
progetto stesso, attraverso l’analisi del modello di
machine learning che meglio si adatta a risolvere tale
problema.
Problema:
problema di classificazione (apprendimento
supervisionato).
Individuazione variabile target: “Project Failure”
1. TARGET DEFINITION
COMPANY
NAME
19. 3. DEFINIZIONE MODELLI
• LR – LOGISTIC REGRESSION
• DT – DECISION TREE
• RF – RANDOM FOREST
• SVM – SUPPORT VECTOR MACHINE
• GNB – GAUSSIAN NAIVE BAYES
20. “Suppongo che sia
allettante, quando
l’unico strumento che
hai a disposizione è
un martello, trattare
tutto come se fosse un
chiodo”
A. MASLOW, 1966
23. RANDOM FOREST
L’algoritmo a foresta casuale può essere riepilogato in 4 semplici passi:
1. Scegliere casualmente n campioni dal training set con ottenendo un campione
casuale detto bootstrap.
2. Far crescere un albero decisionale dal campione di bootstrap. Per
ogni nodo:
1. selezionare casualmente d caratteristiche;
2. suddividere il nodo utilizzando la caratteristica che fornisce la migliore
suddivisione sulla base della funzione obiettivo, per
esempio massimizzando il guadagno informativo.
3. Ripetere per k volte i passi 1 e 2.
4. Aggregare le previsioni di ciascun albero per assegnare l’etichetta
della classe sulla base di un voto a maggioranza.
Il Random Forest è un classificatore d’insieme composto da molteplici alberi.
25. GAUSSIAN NAIVE BAYES
Rappresentano un approccio probabilistico per risolvere problemi di
classificazione.
L’idea di base è quella di definire una funzione associata alla probabilità che un
dato elemento estratto dal dataset di training sia classificato in una delle due
classi {0,1} di Y. Ciò è dato dal teorema di Bayes:
26. Training: insieme sul quale vengono
calcolati i parametri migliori del modello.
70%
DIVISIONE DATASET
Test: stima l’errore del modello
30%
28. “""
Il seguente metodo prende in input le matrici X, Y del Train e del Test set e applica ad essi tutti i classificatori
specificati nel dictionary dict_classifier.
I modelli applicati e l’accuratezza relativa sono salvati in un dictionary. Il motivo di usare un dizionario
risiede nel fatto che è molto facile gestirlo.
Generalmente i modelli SVM e Random Forest ci impiegano un po’ di tempo.
"""
29.
30. Ottimizzazione iperparametri
• Gli iperparametri sono parametri
che non vengono appresi
direttamente dagli stimatori.
• Iperparametri come “manopole”