Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning

Sviluppo di un sistema per la classiﬁcazione di
URL di phishing mediante tecniche di
Machine Learning
Candidato: Federico Cergol
Relatore: Prof. Alberto Bartoli
Correlatore: Ing. Marco D’Orlando
30 novembre 2017
Universit`a degli Studi di Trieste

Phishing
Phishing
Il phishing è un tipo di truffa effettuata su Internet attraverso la
quale un attaccante utilizza prevalentemente un canale di
comunicazione non adeguatamente autenticato per illudere
l’utente della propria identità.
1/23

PhishSense
PhishSense
PhishSense vuole essere la risposta europea al problema del
phishing. Questo `e un software anti-phishing as a Service che
combina numerosi componenti, tra cui un Web Application
Firewall, un plugin per email client e browser, vari servizi di
classiﬁcazione, e un orchestratore per l’integrazione.
2/23

PhishSense II
Attacker Web Server Mail Server PhishSense Server Victim
1: setup
2: send email
3: get email
4: follow link
5a: inspect
5b: analyze
score
6a: Visit
page content
if safe:if safe:
6b: warning
warning page
else:else:
3/23

Perimetro
Il lavoro svolto consiste in un servizio che ricevendo in input un
URL fornisce un punteggio corrispondente alla conﬁdenza legata
all’aﬀermazione “questo URL punta verso un sito di phishing”.
4/23

Perimetro
Il lavoro svolto consiste in un servizio che ricevendo in input un
URL fornisce un punteggio corrispondente alla confidenza legata
all’affermazione “questo URL punta verso un sito di phishing”.
Il servizio deve esporre un’interfaccia HTTP protetta da
autenticazione basic e utilizzare lo standard json per codificare i
dati.
4/23

Dataset ideale
Il dataset ideale `e costituito da URL estratti direttamente da
comunicazioni tra utenti classiﬁcate correttamente.
5/23

Dataset ideale
Il dataset ideale `e costituito da URL estratti direttamente da
comunicazioni tra utenti classiﬁcate correttamente.
Purtroppo questi dati non sono disponibili.
5/23

URL di phishing
PhishTank
PhishTank è un sito gestito da volontari a cui vengono sottoposte
mail sospette. I volontari classificano manualmente i link presenti
in queste mail e rendono disponibili i risultati della classificazione.
6/23

URL di phishing
PhishTank
PhishTank è un sito gestito da volontari a cui vengono sottoposte
mail sospette. I volontari classificano manualmente i link presenti
in queste mail e rendono disponibili i risultati della classificazione.
Attraverso le API esposte da questo servizio si è potuto ottenere
un dataset consistente e certificato di URL di phishing come
vengono presentati alle vittime.
6/23

URL legittimi
Si sono estratti domini legittimi da:
• Google
• AlexaRanking
7/23

URL legittimi
Si sono estratti domini legittimi da:
• Google
• AlexaRanking
Si è effettuato il crawling delle sitemap di questi domini per
ottenere URL specifici.
7/23

Macroaree
Si sono raccolte caratteristiche aﬀerenti alle seguenti macroaree:
• Lessicograﬁa URL
8/23

Macroaree
• Analisi attiva della pagina
8/23

Macroaree
• Record DNS
8/23

Macroaree
• Record DNS
• Informazioni WHOIS
8/23

Macroaree
• Record DNS
• Informazioni WHOIS
• Analisi certiﬁcato
8/23

Considerazioni
In totale si sono considerate 47 caratteristiche.
9/23

Considerazioni
In totale si sono considerate 47 caratteristiche.
Si sono testati vari algoritmi di selezione delle caratteristiche per
ridurne il numero ma questo inﬁcia l’algoritmo di adattamento
descritto in seguito.
9/23

Machine Learning
Una prima analisi del dataset ha mostrato come non fosse possibile
sviluppare un algoritmo euristico che potesse classiﬁcare con
suﬃciente accuratezza gli URL.
Per questo motivo si sono studiati vari algoritmi che utilizzano il
Machine Learning applicabili a questo problema.
10/23

Multilayer Perceptron
Input #1
Input #2
Input #3
Input #4
Output
Hidden
layer
Input
layer
Output
layer
11/23

Multilayer Perceptron - Risultati
Prestazioni MLP in funzione del numero di hidden layers.
(a) Accuratezza
1 2 3 4
0.942
0.944
0.946
accuracy
(b) Tassi d’errore
1 2 3 4
4 · 10−2
6 · 10−2
8 · 10−2
FPR
FNR
12/23

Decision Tree
isRaining
mum
STUDY TV
wind
CINEMA TENNIS
true
home out
false
strong calm
13/23

Decision Tree - Risultati
Prestazioni J48 in funzione del conﬁdence factor.
(a) Accuratezza
0.2 0.4
0.96
0.97
accuracy
0.2 0.4
3.2 · 10−2
3.4 · 10−2
3.6 · 10−2
3.8 · 10−2
4 · 10−2
FPR
FNR
14/23

Random Forest
T1
P L L P
T2
L P
L P
P
T3
L P
L
15/23

Random Forest - Risultati
Prestazioni Random Forest in funzione del numero di alberi.
(a) Accuratezza
0 100 200
0.97
0.98
accuracy
0 100 200
1.5 · 10−2
2 · 10−2
2.5 · 10−2
FPR
FNR
16/23

Modello
Mano a mano che nuovi dati sono disponibili si ricostruisce il
dataset campionando i dati con probabilità proporzionale alla loro
data.
Si costruisce un nuovo classificatore e lo si valuta con il dataset
cos`ı costruito.
Se, reiterando questo procedimento, si ottiene un classificatore
migliore di quello corrente, questo viene sostituito.
17/23

Risultati
Tasso d’errore in funzione della data di esecuzione.
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
18/23

Risultati
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
Modello dinamico
18/23

Risultati
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
Modello dinamico
Diﬀerenza
18/23

Applicazione esterna
Symantec RuleSpace
Symantec RuleSpace `e un prodotto commerciale che incorpora
database di classiﬁcazione degli URL Web consolidati e
riconosciuti a livello globale con analisi in tempo reale1.
1
https://www.symantec.com/it/it/products/rulespace
19/23

Applicazione esterna
Symantec RuleSpace
Symantec RuleSpace è un prodotto commerciale che incorpora
database di classificazione degli URL Web consolidati e
riconosciuti a livello globale con analisi in tempo reale1.
Questa applicazione è stata utilizzata come confronto per stimare
la bontà del lavoro effettuato.
1
https://www.symantec.com/it/it/products/rulespace
19/23

Risultati
Algoritmo corretto URL legittimi URL di phishing
Entrambi
Solo Random Forest
Solo Symantec RuleSpace
Nessuno
20/23

Risultati
Algoritmo corretto URL legittimi URL di phishing
Entrambi 21725 19028
Solo Random Forest 0 2893
Solo Symantec RuleSpace 594 372
Nessuno 0 18
20/23

Integrazione
Utilizzando la classiﬁcazione fornita da Symantec RuleSpace come
ulteriore caratteristica si sono ottenuti i seguenti risultati:
21/23

Integrazione
Utilizzando la classiﬁcazione fornita da Symantec RuleSpace come
ulteriore caratteristica si sono ottenuti i seguenti risultati:
Phishing Legit
as Phishing 24735 21
as Legit 265 24979
che corrispondono ad una accuratezza del 99.5%.
21/23

Risultati
• Si `e sviluppato un servizio capace di classiﬁcare URL come
phishing o legittimi con una accuratezza di 98.4%.
22/23

Risultati
• Si `e sviluppata una metodologia per adattare il classiﬁcatore
nel tempo e mantenere alta la accuratezza.
22/23

Risultati
• Si è sviluppata una metodologia per adattare il classificatore
nel tempo e mantenere alta la accuratezza.
• Si è esposto il servizio su internet per poterlo integrare
nell’architettura di PhishSense2.
2
Per ottenere l’URL, le specifiche, e le credenziali occorre farne richiesta a
precog-dev@emaze.net
22/23

Sviluppi futuri
Possibili sviluppi futuri includono:
• Estendere il classificatore per riconoscere più classi di URL
(malware, pubblicità...)
23/23

Sviluppi futuri
Possibili sviluppi futuri includono:
• Estendere il classificatore per riconoscere più classi di URL
(malware, pubblicità...)
• Approfondire l’analisi e perfezionare l’estrazione delle
caratteristiche
23/23

Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning

Recommended

Recommended

More Related Content

Similar to Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning

Similar to Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning (20)

Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning