SlideShare a Scribd company logo
1 of 50
Download to read offline
Sviluppo di un sistema per la classificazione di
URL di phishing mediante tecniche di
Machine Learning
Candidato: Federico Cergol
Relatore: Prof. Alberto Bartoli
Correlatore: Ing. Marco D’Orlando
30 novembre 2017
Universit`a degli Studi di Trieste
Introduzione
Phishing
Phishing
Il phishing `e un tipo di truffa effettuata su Internet attraverso la
quale un attaccante utilizza prevalentemente un canale di
comunicazione non adeguatamente autenticato per illudere
l’utente della propria identit`a.
1/23
PhishSense
PhishSense
PhishSense vuole essere la risposta europea al problema del
phishing. Questo `e un software anti-phishing as a Service che
combina numerosi componenti, tra cui un Web Application
Firewall, un plugin per email client e browser, vari servizi di
classificazione, e un orchestratore per l’integrazione.
2/23
PhishSense II
Attacker Web Server Mail Server PhishSense Server Victim
1: setup
2: send email
3: get email
4: follow link
5a: inspect
5b: analyze
score
6a: Visit
page content
if safe:if safe:
6b: warning
warning page
else:else:
3/23
PhishSense II
Attacker Web Server Mail Server PhishSense Server Victim
1: setup
2: send email
3: get email
4: follow link
5a: inspect
5b: analyze
score
6a: Visit
page content
if safe:if safe:
6b: warning
warning page
else:else:
3/23
Perimetro
Il lavoro svolto consiste in un servizio che ricevendo in input un
URL fornisce un punteggio corrispondente alla confidenza legata
all’affermazione “questo URL punta verso un sito di phishing”.
4/23
Perimetro
Il lavoro svolto consiste in un servizio che ricevendo in input un
URL fornisce un punteggio corrispondente alla confidenza legata
all’affermazione “questo URL punta verso un sito di phishing”.
Il servizio deve esporre un’interfaccia HTTP protetta da
autenticazione basic e utilizzare lo standard json per codificare i
dati.
4/23
Dataset
Dataset ideale
Il dataset ideale `e costituito da URL estratti direttamente da
comunicazioni tra utenti classificate correttamente.
5/23
Dataset ideale
Il dataset ideale `e costituito da URL estratti direttamente da
comunicazioni tra utenti classificate correttamente.
Purtroppo questi dati non sono disponibili.
5/23
URL di phishing
PhishTank
PhishTank `e un sito gestito da volontari a cui vengono sottoposte
mail sospette. I volontari classificano manualmente i link presenti
in queste mail e rendono disponibili i risultati della classificazione.
6/23
URL di phishing
PhishTank
PhishTank `e un sito gestito da volontari a cui vengono sottoposte
mail sospette. I volontari classificano manualmente i link presenti
in queste mail e rendono disponibili i risultati della classificazione.
Attraverso le API esposte da questo servizio si `e potuto ottenere
un dataset consistente e certificato di URL di phishing come
vengono presentati alle vittime.
6/23
URL legittimi
Si sono estratti domini legittimi da:
• Google
• AlexaRanking
7/23
URL legittimi
Si sono estratti domini legittimi da:
• Google
• AlexaRanking
Si `e effettuato il crawling delle sitemap di questi domini per
ottenere URL specifici.
7/23
Caratteristiche
Macroaree
Si sono raccolte caratteristiche afferenti alle seguenti macroaree:
• Lessicografia URL
8/23
Macroaree
Si sono raccolte caratteristiche afferenti alle seguenti macroaree:
• Lessicografia URL
• Analisi attiva della pagina
8/23
Macroaree
Si sono raccolte caratteristiche afferenti alle seguenti macroaree:
• Lessicografia URL
• Analisi attiva della pagina
• Record DNS
8/23
Macroaree
Si sono raccolte caratteristiche afferenti alle seguenti macroaree:
• Lessicografia URL
• Analisi attiva della pagina
• Record DNS
• Informazioni WHOIS
8/23
Macroaree
Si sono raccolte caratteristiche afferenti alle seguenti macroaree:
• Lessicografia URL
• Analisi attiva della pagina
• Record DNS
• Informazioni WHOIS
• Analisi certificato
8/23
Considerazioni
In totale si sono considerate 47 caratteristiche.
9/23
Considerazioni
In totale si sono considerate 47 caratteristiche.
Si sono testati vari algoritmi di selezione delle caratteristiche per
ridurne il numero ma questo inficia l’algoritmo di adattamento
descritto in seguito.
9/23
Classificatori
Machine Learning
Una prima analisi del dataset ha mostrato come non fosse possibile
sviluppare un algoritmo euristico che potesse classificare con
sufficiente accuratezza gli URL.
Per questo motivo si sono studiati vari algoritmi che utilizzano il
Machine Learning applicabili a questo problema.
10/23
Multilayer Perceptron
Input #1
Input #2
Input #3
Input #4
Output
Hidden
layer
Input
layer
Output
layer
11/23
Multilayer Perceptron - Risultati
Prestazioni MLP in funzione del numero di hidden layers.
(a) Accuratezza
1 2 3 4
0.942
0.944
0.946
accuracy
(b) Tassi d’errore
1 2 3 4
4 · 10−2
6 · 10−2
8 · 10−2
FPR
FNR
12/23
Decision Tree
isRaining
mum
STUDY TV
wind
CINEMA TENNIS
true
home out
false
strong calm
13/23
Decision Tree - Risultati
Prestazioni J48 in funzione del confidence factor.
(a) Accuratezza
0.2 0.4
0.96
0.97
accuracy
(b) Tassi d’errore
0.2 0.4
3.2 · 10−2
3.4 · 10−2
3.6 · 10−2
3.8 · 10−2
4 · 10−2
FPR
FNR
14/23
Random Forest
T1
P L L P
T2
L P
L P
P
T3
L P
L
15/23
Random Forest - Risultati
Prestazioni Random Forest in funzione del numero di alberi.
(a) Accuratezza
0 100 200
0.97
0.98
accuracy
(b) Tassi d’errore
0 100 200
1.5 · 10−2
2 · 10−2
2.5 · 10−2
FPR
FNR
16/23
Adattamento
Modello
Mano a mano che nuovi dati sono disponibili si ricostruisce il
dataset campionando i dati con probabilit`a proporzionale alla loro
data.
Si costruisce un nuovo classificatore e lo si valuta con il dataset
cos`ı costruito.
Se, reiterando questo procedimento, si ottiene un classificatore
migliore di quello corrente, questo viene sostituito.
17/23
Risultati
Tasso d’errore in funzione della data di esecuzione.
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
18/23
Risultati
Tasso d’errore in funzione della data di esecuzione.
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
Modello dinamico
18/23
Risultati
Tasso d’errore in funzione della data di esecuzione.
09/09 14/09 19/09 24/09 29/09 04/10 09/10
0
0.5
1
1.5
2
2.5
·10−2
Modello statico
Modello dinamico
Differenza
18/23
Validazione
Applicazione esterna
Symantec RuleSpace
Symantec RuleSpace `e un prodotto commerciale che incorpora
database di classificazione degli URL Web consolidati e
riconosciuti a livello globale con analisi in tempo reale1.
1
https://www.symantec.com/it/it/products/rulespace
19/23
Applicazione esterna
Symantec RuleSpace
Symantec RuleSpace `e un prodotto commerciale che incorpora
database di classificazione degli URL Web consolidati e
riconosciuti a livello globale con analisi in tempo reale1.
Questa applicazione `e stata utilizzata come confronto per stimare
la bont`a del lavoro effettuato.
1
https://www.symantec.com/it/it/products/rulespace
19/23
Risultati
Algoritmo corretto URL legittimi URL di phishing
Entrambi
Solo Random Forest
Solo Symantec RuleSpace
Nessuno
20/23
Risultati
Algoritmo corretto URL legittimi URL di phishing
Entrambi 21725 19028
Solo Random Forest 0 2893
Solo Symantec RuleSpace 594 372
Nessuno 0 18
20/23
Integrazione
Utilizzando la classificazione fornita da Symantec RuleSpace come
ulteriore caratteristica si sono ottenuti i seguenti risultati:
21/23
Integrazione
Utilizzando la classificazione fornita da Symantec RuleSpace come
ulteriore caratteristica si sono ottenuti i seguenti risultati:
Phishing Legit
as Phishing 24735 21
as Legit 265 24979
che corrispondono ad una accuratezza del 99.5%.
21/23
Conclusioni
Risultati
• Si `e sviluppato un servizio capace di classificare URL come
phishing o legittimi con una accuratezza di 98.4%.
22/23
Risultati
• Si `e sviluppato un servizio capace di classificare URL come
phishing o legittimi con una accuratezza di 98.4%.
• Si `e sviluppata una metodologia per adattare il classificatore
nel tempo e mantenere alta la accuratezza.
22/23
Risultati
• Si `e sviluppato un servizio capace di classificare URL come
phishing o legittimi con una accuratezza di 98.4%.
• Si `e sviluppata una metodologia per adattare il classificatore
nel tempo e mantenere alta la accuratezza.
• Si `e esposto il servizio su internet per poterlo integrare
nell’architettura di PhishSense2.
2
Per ottenere l’URL, le specifiche, e le credenziali occorre farne richiesta a
precog-dev@emaze.net
22/23
Sviluppi futuri
Possibili sviluppi futuri includono:
• Estendere il classificatore per riconoscere pi`u classi di URL
(malware, pubblicit`a...)
23/23
Sviluppi futuri
Possibili sviluppi futuri includono:
• Estendere il classificatore per riconoscere pi`u classi di URL
(malware, pubblicit`a...)
• Approfondire l’analisi e perfezionare l’estrazione delle
caratteristiche
23/23
Domande?
23/23

More Related Content

Similar to Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning

Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
danieledegan
 
Malware Analysis. A Case Study
Malware Analysis. A Case StudyMalware Analysis. A Case Study
Malware Analysis. A Case Study
Gianni Amato
 

Similar to Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning (20)

Progetto e realizzazione di un sistema per la generazione automatica di recen...
Progetto e realizzazione di un sistema per la generazione automatica di recen...Progetto e realizzazione di un sistema per la generazione automatica di recen...
Progetto e realizzazione di un sistema per la generazione automatica di recen...
 
Extended Summary of "What You See is NOT What You Get: Discovering and Tracki...
Extended Summary of "What You See is NOT What You Get: Discovering and Tracki...Extended Summary of "What You See is NOT What You Get: Discovering and Tracki...
Extended Summary of "What You See is NOT What You Get: Discovering and Tracki...
 
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
 
Darknet e CyberIntelligence - Progettazione e realizzazione di un ambiente di...
Darknet e CyberIntelligence - Progettazione e realizzazione di un ambiente di...Darknet e CyberIntelligence - Progettazione e realizzazione di un ambiente di...
Darknet e CyberIntelligence - Progettazione e realizzazione di un ambiente di...
 
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPIDAnalisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
 
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
 
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
 
Ai & Ethereum the world computer
Ai & Ethereum the world computerAi & Ethereum the world computer
Ai & Ethereum the world computer
 
Cribis Cyber Risk
Cribis Cyber RiskCribis Cyber Risk
Cribis Cyber Risk
 
Malvertising: una minaccia in espansione
Malvertising: una minaccia in espansioneMalvertising: una minaccia in espansione
Malvertising: una minaccia in espansione
 
Malvertising: una minaccia in espansione
Malvertising: una minaccia in espansioneMalvertising: una minaccia in espansione
Malvertising: una minaccia in espansione
 
HealthCare CyberSecurity Swascan
HealthCare CyberSecurity SwascanHealthCare CyberSecurity Swascan
HealthCare CyberSecurity Swascan
 
Sicurezza in Rete
Sicurezza in ReteSicurezza in Rete
Sicurezza in Rete
 
Publisher day viewability - Fabrizio Angelini
Publisher day viewability - Fabrizio AngeliniPublisher day viewability - Fabrizio Angelini
Publisher day viewability - Fabrizio Angelini
 
Malware Analysis. A Case Study
Malware Analysis. A Case StudyMalware Analysis. A Case Study
Malware Analysis. A Case Study
 
TrustMe - Concorso Telecom-Sinfonia
TrustMe - Concorso Telecom-SinfoniaTrustMe - Concorso Telecom-Sinfonia
TrustMe - Concorso Telecom-Sinfonia
 
Porte aperte nelle app android scoperta diagnosi e valutazione di sicurezza ...
Porte aperte nelle app android scoperta diagnosi e valutazione di sicurezza  ...Porte aperte nelle app android scoperta diagnosi e valutazione di sicurezza  ...
Porte aperte nelle app android scoperta diagnosi e valutazione di sicurezza ...
 
CrowdMine
CrowdMineCrowdMine
CrowdMine
 
Extended summary of “Understanding the Performance Costs and Benefits of Pri...
Extended summary of “Understanding the Performance Costs  and Benefits of Pri...Extended summary of “Understanding the Performance Costs  and Benefits of Pri...
Extended summary of “Understanding the Performance Costs and Benefits of Pri...
 
ASP.NET MVC3 - Tutti i compiti del Controller
ASP.NET MVC3 - Tutti i compiti del ControllerASP.NET MVC3 - Tutti i compiti del Controller
ASP.NET MVC3 - Tutti i compiti del Controller
 

Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning

  • 1. Sviluppo di un sistema per la classificazione di URL di phishing mediante tecniche di Machine Learning Candidato: Federico Cergol Relatore: Prof. Alberto Bartoli Correlatore: Ing. Marco D’Orlando 30 novembre 2017 Universit`a degli Studi di Trieste
  • 3. Phishing Phishing Il phishing `e un tipo di truffa effettuata su Internet attraverso la quale un attaccante utilizza prevalentemente un canale di comunicazione non adeguatamente autenticato per illudere l’utente della propria identit`a. 1/23
  • 4. PhishSense PhishSense PhishSense vuole essere la risposta europea al problema del phishing. Questo `e un software anti-phishing as a Service che combina numerosi componenti, tra cui un Web Application Firewall, un plugin per email client e browser, vari servizi di classificazione, e un orchestratore per l’integrazione. 2/23
  • 5. PhishSense II Attacker Web Server Mail Server PhishSense Server Victim 1: setup 2: send email 3: get email 4: follow link 5a: inspect 5b: analyze score 6a: Visit page content if safe:if safe: 6b: warning warning page else:else: 3/23
  • 6. PhishSense II Attacker Web Server Mail Server PhishSense Server Victim 1: setup 2: send email 3: get email 4: follow link 5a: inspect 5b: analyze score 6a: Visit page content if safe:if safe: 6b: warning warning page else:else: 3/23
  • 7. Perimetro Il lavoro svolto consiste in un servizio che ricevendo in input un URL fornisce un punteggio corrispondente alla confidenza legata all’affermazione “questo URL punta verso un sito di phishing”. 4/23
  • 8. Perimetro Il lavoro svolto consiste in un servizio che ricevendo in input un URL fornisce un punteggio corrispondente alla confidenza legata all’affermazione “questo URL punta verso un sito di phishing”. Il servizio deve esporre un’interfaccia HTTP protetta da autenticazione basic e utilizzare lo standard json per codificare i dati. 4/23
  • 10. Dataset ideale Il dataset ideale `e costituito da URL estratti direttamente da comunicazioni tra utenti classificate correttamente. 5/23
  • 11. Dataset ideale Il dataset ideale `e costituito da URL estratti direttamente da comunicazioni tra utenti classificate correttamente. Purtroppo questi dati non sono disponibili. 5/23
  • 12. URL di phishing PhishTank PhishTank `e un sito gestito da volontari a cui vengono sottoposte mail sospette. I volontari classificano manualmente i link presenti in queste mail e rendono disponibili i risultati della classificazione. 6/23
  • 13. URL di phishing PhishTank PhishTank `e un sito gestito da volontari a cui vengono sottoposte mail sospette. I volontari classificano manualmente i link presenti in queste mail e rendono disponibili i risultati della classificazione. Attraverso le API esposte da questo servizio si `e potuto ottenere un dataset consistente e certificato di URL di phishing come vengono presentati alle vittime. 6/23
  • 14. URL legittimi Si sono estratti domini legittimi da: • Google • AlexaRanking 7/23
  • 15. URL legittimi Si sono estratti domini legittimi da: • Google • AlexaRanking Si `e effettuato il crawling delle sitemap di questi domini per ottenere URL specifici. 7/23
  • 17. Macroaree Si sono raccolte caratteristiche afferenti alle seguenti macroaree: • Lessicografia URL 8/23
  • 18. Macroaree Si sono raccolte caratteristiche afferenti alle seguenti macroaree: • Lessicografia URL • Analisi attiva della pagina 8/23
  • 19. Macroaree Si sono raccolte caratteristiche afferenti alle seguenti macroaree: • Lessicografia URL • Analisi attiva della pagina • Record DNS 8/23
  • 20. Macroaree Si sono raccolte caratteristiche afferenti alle seguenti macroaree: • Lessicografia URL • Analisi attiva della pagina • Record DNS • Informazioni WHOIS 8/23
  • 21. Macroaree Si sono raccolte caratteristiche afferenti alle seguenti macroaree: • Lessicografia URL • Analisi attiva della pagina • Record DNS • Informazioni WHOIS • Analisi certificato 8/23
  • 22. Considerazioni In totale si sono considerate 47 caratteristiche. 9/23
  • 23. Considerazioni In totale si sono considerate 47 caratteristiche. Si sono testati vari algoritmi di selezione delle caratteristiche per ridurne il numero ma questo inficia l’algoritmo di adattamento descritto in seguito. 9/23
  • 25. Machine Learning Una prima analisi del dataset ha mostrato come non fosse possibile sviluppare un algoritmo euristico che potesse classificare con sufficiente accuratezza gli URL. Per questo motivo si sono studiati vari algoritmi che utilizzano il Machine Learning applicabili a questo problema. 10/23
  • 26. Multilayer Perceptron Input #1 Input #2 Input #3 Input #4 Output Hidden layer Input layer Output layer 11/23
  • 27. Multilayer Perceptron - Risultati Prestazioni MLP in funzione del numero di hidden layers. (a) Accuratezza 1 2 3 4 0.942 0.944 0.946 accuracy (b) Tassi d’errore 1 2 3 4 4 · 10−2 6 · 10−2 8 · 10−2 FPR FNR 12/23
  • 28. Decision Tree isRaining mum STUDY TV wind CINEMA TENNIS true home out false strong calm 13/23
  • 29. Decision Tree - Risultati Prestazioni J48 in funzione del confidence factor. (a) Accuratezza 0.2 0.4 0.96 0.97 accuracy (b) Tassi d’errore 0.2 0.4 3.2 · 10−2 3.4 · 10−2 3.6 · 10−2 3.8 · 10−2 4 · 10−2 FPR FNR 14/23
  • 30. Random Forest T1 P L L P T2 L P L P P T3 L P L 15/23
  • 31. Random Forest - Risultati Prestazioni Random Forest in funzione del numero di alberi. (a) Accuratezza 0 100 200 0.97 0.98 accuracy (b) Tassi d’errore 0 100 200 1.5 · 10−2 2 · 10−2 2.5 · 10−2 FPR FNR 16/23
  • 33. Modello Mano a mano che nuovi dati sono disponibili si ricostruisce il dataset campionando i dati con probabilit`a proporzionale alla loro data. Si costruisce un nuovo classificatore e lo si valuta con il dataset cos`ı costruito. Se, reiterando questo procedimento, si ottiene un classificatore migliore di quello corrente, questo viene sostituito. 17/23
  • 34. Risultati Tasso d’errore in funzione della data di esecuzione. 09/09 14/09 19/09 24/09 29/09 04/10 09/10 0 0.5 1 1.5 2 2.5 ·10−2 Modello statico 18/23
  • 35. Risultati Tasso d’errore in funzione della data di esecuzione. 09/09 14/09 19/09 24/09 29/09 04/10 09/10 0 0.5 1 1.5 2 2.5 ·10−2 Modello statico Modello dinamico 18/23
  • 36. Risultati Tasso d’errore in funzione della data di esecuzione. 09/09 14/09 19/09 24/09 29/09 04/10 09/10 0 0.5 1 1.5 2 2.5 ·10−2 Modello statico Modello dinamico Differenza 18/23
  • 38. Applicazione esterna Symantec RuleSpace Symantec RuleSpace `e un prodotto commerciale che incorpora database di classificazione degli URL Web consolidati e riconosciuti a livello globale con analisi in tempo reale1. 1 https://www.symantec.com/it/it/products/rulespace 19/23
  • 39. Applicazione esterna Symantec RuleSpace Symantec RuleSpace `e un prodotto commerciale che incorpora database di classificazione degli URL Web consolidati e riconosciuti a livello globale con analisi in tempo reale1. Questa applicazione `e stata utilizzata come confronto per stimare la bont`a del lavoro effettuato. 1 https://www.symantec.com/it/it/products/rulespace 19/23
  • 40. Risultati Algoritmo corretto URL legittimi URL di phishing Entrambi Solo Random Forest Solo Symantec RuleSpace Nessuno 20/23
  • 41. Risultati Algoritmo corretto URL legittimi URL di phishing Entrambi 21725 19028 Solo Random Forest 0 2893 Solo Symantec RuleSpace 594 372 Nessuno 0 18 20/23
  • 42. Integrazione Utilizzando la classificazione fornita da Symantec RuleSpace come ulteriore caratteristica si sono ottenuti i seguenti risultati: 21/23
  • 43. Integrazione Utilizzando la classificazione fornita da Symantec RuleSpace come ulteriore caratteristica si sono ottenuti i seguenti risultati: Phishing Legit as Phishing 24735 21 as Legit 265 24979 che corrispondono ad una accuratezza del 99.5%. 21/23
  • 45. Risultati • Si `e sviluppato un servizio capace di classificare URL come phishing o legittimi con una accuratezza di 98.4%. 22/23
  • 46. Risultati • Si `e sviluppato un servizio capace di classificare URL come phishing o legittimi con una accuratezza di 98.4%. • Si `e sviluppata una metodologia per adattare il classificatore nel tempo e mantenere alta la accuratezza. 22/23
  • 47. Risultati • Si `e sviluppato un servizio capace di classificare URL come phishing o legittimi con una accuratezza di 98.4%. • Si `e sviluppata una metodologia per adattare il classificatore nel tempo e mantenere alta la accuratezza. • Si `e esposto il servizio su internet per poterlo integrare nell’architettura di PhishSense2. 2 Per ottenere l’URL, le specifiche, e le credenziali occorre farne richiesta a precog-dev@emaze.net 22/23
  • 48. Sviluppi futuri Possibili sviluppi futuri includono: • Estendere il classificatore per riconoscere pi`u classi di URL (malware, pubblicit`a...) 23/23
  • 49. Sviluppi futuri Possibili sviluppi futuri includono: • Estendere il classificatore per riconoscere pi`u classi di URL (malware, pubblicit`a...) • Approfondire l’analisi e perfezionare l’estrazione delle caratteristiche 23/23