SlideShare a Scribd company logo
1 of 9
Download to read offline
UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
SUMMARY OF “Tales from the Porn: A
Comprehensive Privacy Analysis of the Web
Porn Ecosystem”
Tesi di Laurea Triennale
Laureando:
Federico RAIMONDI
Relatore:
Prof. Alberto BARTOLI
_____________________________________
Anno Accademico 2019 – 2020
1
Sommario
1 Introduzione ......................................................................................................................................2
2 Metodi...............................................................................................................................................2
2.1 Servizi di terze parti nei siti web pornografici ...........................................................................3
2.2 Comportamento dei siti web pornografici e dei servizi di terze parti in essi .............................4
2.3 Misurazione delle differenze geografiche ..................................................................................4
2.4 Conformità normativa ................................................................................................................4
3 Risultati.............................................................................................................................................5
3.1.....................................................................................................................................................5
3.2.....................................................................................................................................................5
3.3.....................................................................................................................................................6
3.4.....................................................................................................................................................6
4 Conclusioni .......................................................................................................................................7
5 Bibliografia .......................................................................................................................................7
2
1 Introduzione
Le attività di tracciamento dell’utente nei siti web sono sempre più utilizzate, monitorando il visitatore
anche attraverso i servizi di terze parti incorporati in essi.
Le moderne normative sulla privacy come la General Data Protection Regulation (GDPR) e la
California Consumer Privacy Act (CCPA) regolamentano il trattamento dei dati personali e la privacy
dell’utente, applicando disposizioni più specifiche per i siti web che potrebbero venire a conoscenza
di informazioni personali altamente sensibili come quelle sessuali.
Le reti pubblicitarie più famose impostano rigorose limitazioni sull’uso dei loro servizi ai siti web
pornografici come misura di protezione del loro marchio, favorendo servizi di pubblicità e
localizzazione meno conosciuti che sono sfuggiti alla ricerca e al controllo normativo.
Numerosi sforzi di ricerca in passato hanno cercato di identificare e quantificare la presenza e l’uso
di tecnologie di tracciamento nel web, ma fino ad oggi l’ecosistema dei siti sensibili è rimasto
alquanto inesplorato.
In questo articolo gli autori forniscono una prima analisi su larga scala di 6.843 siti web pornografici
da una prospettiva di privacy, trasparenza e conformità normativa al fine di capire se possano
rappresentare rischi per l’utente.
2 Metodi
Per compilare un esempio rappresentativo di siti web pornografici gli autori hanno progettato un
metodo semi-supervisionato che utilizza tre passaggi differenti, attraverso i quali vengono estratti:
1. 342 siti dall’indicizzazione di servizi web specializzati nella loro aggregazione;
2. 22 siti dal servizio di categorizzazione dei siti web Alexa classificati come siti per adulti;
3. 7.735 siti cercando per parole chiave correlate al porno nei siti web indicizzati da Alexa
(nel 2018).
Si acquisiscono 8.099 siti pornografici, la cui ispezione manuale del DOM identifica 1.256 falsi
positivi, che vengono eliminati. Il corpus così ottenuto viene confrontato con un set di dati di
riferimento contenente 9.688 siti web non pornografici popolari per studiarne differenze e
similitudini.
Successivamente vengono utilizzati due web crawler complementari per studiare il comportamento
dei siti, limitandosi all’analisi della loro landing page (Figura 1).
OpenWPM: analizza il comportamento, le tecnologie di tracciamento, i servizi di terze parti e i
moduli di consenso della privacy.
Selenium: interagisce automaticamente con ogni sito per raccogliere informative sulla privacy e
appurare la presenza e la validità dei meccanismi di verifica dell’età.
3
Figura 1: Processo di raccolta dei dati.
In particolare, dei siti web pornografici:
1. Viene cercata la presenza di servizi di terze parti, confrontandoli con quelli dei siti non
pornografici più popolari;
2. Si studia il loro comportamento e quello dei servizi di terze parti incorporati in essi;
3. Si ricercano differenze comportamentali a seconda della posizione dell’utente;
4. Viene sviluppato e validato un metodo per analizzarne automaticamente la trasparenza e la
conformità normativa.
2.1 Servizi di terze parti nei siti web pornografici
Durante la scansione dei siti con il crawler OpenWPM si trovano 6.017 domini diversi che vengono
approfonditi al fine di:
1. Etichettare i domini come di first party o di third party. Per ogni URL raccolto dalle richieste
HTTP(S) generate dal crawler, si confrontano l’FQDN (Fully Qualified Domain Name) e il
suo certificato X.509 con gli stessi del sito web host. Nei casi in cui non vi sia corrispondenza
viene calcolata la distanza di Levenshtein, che misura la differenza fra le due stringhe,
considerando come unica entità i nomi di dominio completi che hanno una somiglianza
superiore a 0.7;
2. Identificare i domini di third party di pubblicità e tracciamento (ATS). Tramite le blacklist
EasyList ed Easy Privacy, che contengono i nomi di ben noti ATS, e un allentamento sul
metodo di corrispondenza si cercano corrispondenze di FQDN;
3. Trovare le società madre dei domini di third party, integrando l’elenco di tracker Disconnect
con le informazioni presenti nel certificato X.509.
I risultati sono stati confrontati con i medesimi ottenuti dal corpus dei siti web non pornografici
analizzabili.
4
2.2 Comportamento dei siti web pornografici e dei servizi di terze parti in essi
I rischi per la privacy degli utenti vengono valutati esaminando tecniche di tracciamento quali HTTP
cookie, cookie syncing e tecniche di fingerprinting avanzato.
Per valutare gli standard di sicurezza utilizzati si scansionano i siti con l’impiego di HTTPS,
eseguendo il downgrade ad HTTP quando il precedente non è supportato dal server.
Vengono scartati dall’analisi i cookie HTTP che non si ritiene contengano identificativi utente (Es.
cookie di sessione), concentrandosi poi su 30.247 installati da domini di third party, decodificando il
loro valore.
Il processo di cookie syncing, che permette di condividere i dati sui cookie tra servizi di terze parti
incorporando il cookie nell’URL, viene studiato osservando se uno di essi è incorporato nelle
successive richieste HTTP.
L’attenzione viene posta poi sullo studio di tecniche di fingerprinting. Esse mirano a identificare
completamente o parzialmente i singoli utenti o dispositivi anche quando i cookie sono disattivati. In
particolare, HTML Canvas Fingerprinting sfrutta le differenze di renderizzazione di un’immagine tra
i dispositivi mentre Font Fingerprinting sfrutta i caratteri che ciascun browser ha installato per
generare un ID univoco del browser.
2.3 Misurazione delle differenze geografiche
La misurazione delle differenze comportamentali tra i siti pornografici a seconda della posizione del
collegamento avviene da un punto fisico in Spagna con l’utilizzo di VPN commerciali per ottenere
l’accesso da altri Stati dell’UE, Singapore, India, Russia, USA e UK.
2.4 Conformità normativa
Nella valutazione della conformità normativa si valutano l’informativa sul consenso ai cookie, i
meccanismi di verifica dell’età e le politiche sulla privacy.
Viene validato un metodo per trovare l’informativa sul consenso ai cookie che cerca elementi HTML
della pagina simili ad un banner, estraendone il testo e facendone uno screenshot che viene poi
analizzato manualmente.
Per determinare le misure adottate per la verifica dell’età viene analizzata la pagina di destinazione
con il crawler Selenium, cercando corrispondenze di parole chiave in 8 lingue nel testo e negli
elementi HTML riferite ad un possibile meccanismo di verifica dell’età ed eliminando manualmente
i falsi positivi. Se viene trovato, il crawler clicca sull’elemento per accedere alla pagina di
destinazione. Questa analisi viene effettuata in 4 paesi (USA, UK, Spagna e Russia.)
Le politiche sulla privacy vengono recuperate effettuando una ricerca dei collegamenti URL
contenenti parole chiavi come “Privacy” in 8 lingue ed eliminando manualmente 44 falsi positivi
causati da errori HTTP. Viene inoltre analizzata la somiglianza tra le varie politiche per scoprire siti
appartenenti alla stessa società e l’utilizzo di modelli popolari.
5
3 Risultati
3.1 Si scopre la società madre per il 74% dei 6.017 domini incorporati nei siti web pornografici. Ben
il 91% di questi sono domini di third party.
Comparandoli poi con quelli presenti nel set di riferimento dei siti web non pornografici, si rilevano
considerevoli discrepanze tra i due gruppi (Figura 2).
Figura 2: Numero di domini di first party e di third party trovati nel dataset dei siti web pornografici e non pornografici.
Un dato molto significativo è la grande differenza di percentuale nei servizi di terze parti ATS: nei
siti pornografici essi sono il 12% del totale, contro solo l’1% dei siti web non pornografici e solo 86
servizi di questo tipo sono presenti in entrambi.
È importante anche evidenziare come solo il 3% dei domini di third party siano presenti nei 4 livelli
di popolarità dei siti web pornografici considerati, potendo facilmente concludere che più è
impopolare il sito web, più sono offuscati e poco trasparenti i domini di third party che esso incorpora
(Figura 3).
Figura 3: Presenza di servizi di terze parti nei siti web pornografici secondo la loro popolarità.
3.2 Nei siti web pornografici analizzati, la tecnica di tracciamento più utilizzata è l’HTTP cookie
(72%), seguita dal cookie syncing presente nel 58% dei migliori 100 siti web pornografici secondo
Alexa. Solo il 5% usa tecniche di fingerprinting e il 91% di essi non sono indicizzati nelle blacklist
EasyList e EasyPrivacy.
Alcuni servizi di tracciamento sono presenti in entrambe le tipologie di siti web trattati, consentendo
loro di tracciare gli utenti in tutto il web.
Nello studio si evidenzia anche la stretta correlazione tra la popolarità di un sito web pornografico e
l’utilizzo del protocollo HTTPS, tendenza seguita anche dai servizi di terze parti incorporati in essi
(Figura 4). Tuttavia, il 68% del totale dei siti web pornografici non sono completamente HTTPS: il
sito web o una delle terze parti incorporate in esso non supporta questo protocollo.
Ispezionando il contenuto di questi flussi, si evince che l’8% di questi siti web carica i cookie
contenenti dati sensibili in chiaro.
6
Figura 4: Uso di HTTPS nei siti web pornografici.
3.3 Analizzando le differenze tra siti web pornografici in base alla posizione geografica dell’utente,
si trova che il numero di servizi di terzi parti è abbastanza stabile attraverso i paesi, tranne in Russia,
dove sono circa 700 in meno. Inoltre, ci sono servizi regionali di terze parti che operano solo in regioni
specifiche (Figura 5).
Figura 5: Comparazione dei domini trovati nell'ecosistema dei siti web pornografici da diversi punti geografici.
3.4 Lo studio della conformità normativa dei siti web pornografici rivela dati negativi:
• Solo il 16 % dei siti presenta politiche sulla privacy;
• Solo il 4% implementa moduli di consenso dei cookie, 1/3 dei quali ne informa solamente
della presenza.
• Del 96% di essi non si sono trovate informazioni affidabili sull’azienda proprietaria.
Per quanto concerne i meccanismi di verifica dell’età nei 4 paesi presi in considerazione, si nota che
essi sono coerenti nel Regno Unito, negli USA e in Spagna, tant’è che lo stesso insieme del 20% dei
siti web pornografici utilizza lo stesso meccanismo facile da bypassare. Solo in Russia si trovano
risultati differenti nell’accesso agli stessi siti: alcuni di questi che verificano l’età in Russia non lo
fanno negli altri paesi e viceversa.
Solo pornhub.com, se si accede dalla Russia, mette in atto una complessa verifica dell'età tramite
l’utilizzo di un account social collegato al numero del passaporto.
7
4 Conclusioni
Lo studio dimostra che nonostante esistano regolamenti precisi sulla protezione dei dati degli utenti
nei siti web pornografici, in essi vi è una mancanza di conformità normativa, eccezion fatta per quelli
più popolari. Molti di questi siti infatti, non supportano HTTPS e non presentano alcun requisito di
trasparenza sulla privacy, moduli di consenso per i cookie o meccanismi di verifica sull’età.
Nei siti web pornografici è anche contenuta una grandissima quantità di servizi di terze parti e ATS
non indicizzati sulle blacklist più famose, rendendo molte tecnologie anti-tracking fondate su di esse
insufficienti.
Basandosi su questi dati, gli autori concludono che i rischi per la privacy dell’utente che visita i siti
web pornografici sono notevoli e che il lavoro da fare per la tutela dello stesso è ancora considerevole.
5 Bibliografia
Pelayo Vallina, Álvaro Feal, Julien Gamba, Narseo Vallina-Rodriguez, and Antonio Fernández Anta.
2019. Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem. In
Proceedings of the Internet Measurement Conference (IMC ’19).
8
RINGRAZIAMENTI
Dedico infine questo ultime parole a coloro che mi hanno sostenuto nel raggiungimento di questo
importante traguardo.
In primis, un sentito grazie al mio relatore Prof. Alberto Bartoli per la Sua disponibilità e
tempestività di risposta alle mie domande. La Sua schiettezza mi ha fatto capire tante cose e mi
ha fatto crescere, riuscendo a impostare in modo deciso il mio pensiero e la mia determinazione.
Ringrazio i miei genitori, che mi hanno permesso, non con pochi sacrifici, di arrivare a questo
primo obiettivo. Mi hanno sostenuto in ogni cosa, dal cambio di facoltà agli esami più difficili
trasmettendomi sempre positività. Grazie.
Un ringraziamento speciale alla mia ragazza Giulia, che mi ha insegnato molto e che, grazie anche
alla sua grande maturità, mi ha cambiato come persona. La sua forza mi ha fatto coraggio e i suoi
consigli e aiuti sono stati indispensabili. Non so se sarei qui in questo momento senza di lei.
A proposito “ringrazio” anche il Coronavirus che ci ha chiusi in casa insieme e ci ha permesso di
studiare come non mai.
Un grazie anche alla famiglia di Giulia, che nonostante sia arrivata dopo l’inizio del mio percorso
di studi è stata di un supporto e di una motivazione senza pari.
Ringrazio anche mio fratello, che senza dire niente so che mi ha sempre sostenuto nelle mie scelte
e sempre lo farà.
Ringrazio parenti e amici che hanno contribuito a rendere tale questo risultato e che, per motivi
di spazio, non posso citare personalmente.
Infine, dedico questa tesi a me stesso, ai miei sacrifici e alla mia determinazione che mi hanno reso
la persona che sono oggi e che mi accompagneranno alla realizzazione dei miei tanti progetti
futuri.

More Related Content

Similar to SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem”

Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
EfremCherin
 
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
guestfe85ba
 
Anonimato nell'era digitale (rfree)
Anonimato nell'era digitale (rfree)Anonimato nell'era digitale (rfree)
Anonimato nell'era digitale (rfree)
Elisa Brivio
 
DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
Andrea Casagrande
 

Similar to SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem” (20)

Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
 
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPIDAnalisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
 
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
 
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
 
Measuring third party dynamics in the field
Measuring third party dynamics in the fieldMeasuring third party dynamics in the field
Measuring third party dynamics in the field
 
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
 
Scoperta di siti web maligni e malware mediante web anlytics
Scoperta di siti web maligni e malware mediante web anlyticsScoperta di siti web maligni e malware mediante web anlytics
Scoperta di siti web maligni e malware mediante web anlytics
 
Anonimato nell'era digitale
Anonimato nell'era digitaleAnonimato nell'era digitale
Anonimato nell'era digitale
 
Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
Summary of “Dirty Clicks: A Study of the Usability and Security Implications ...
 
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
 
Extended Summary Of "MadDroid: Characterizing and Detecting Devious Ad Conten...
Extended Summary Of "MadDroid: Characterizing and Detecting Devious Ad Conten...Extended Summary Of "MadDroid: Characterizing and Detecting Devious Ad Conten...
Extended Summary Of "MadDroid: Characterizing and Detecting Devious Ad Conten...
 
Policy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google playPolicy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google play
 
Sviluppo di un sistema per la classificazione di URL di phishing mediante tec...
Sviluppo di un sistema per la classificazione di URL di phishing mediante tec...Sviluppo di un sistema per la classificazione di URL di phishing mediante tec...
Sviluppo di un sistema per la classificazione di URL di phishing mediante tec...
 
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
 
Anonimato nell'era digitale (rfree)
Anonimato nell'era digitale (rfree)Anonimato nell'era digitale (rfree)
Anonimato nell'era digitale (rfree)
 
Extended summary of "Cached and Confused: Web Cache Deception in the Wild"
Extended summary of "Cached and Confused: Web Cache Deception in the Wild"Extended summary of "Cached and Confused: Web Cache Deception in the Wild"
Extended summary of "Cached and Confused: Web Cache Deception in the Wild"
 
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
 
Smau Bologna | R2B 2019 Luca Bonadimani (AIPSI)
Smau Bologna | R2B 2019 Luca Bonadimani (AIPSI)Smau Bologna | R2B 2019 Luca Bonadimani (AIPSI)
Smau Bologna | R2B 2019 Luca Bonadimani (AIPSI)
 
DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
 

SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem”

  • 1. UNIVERSITÀ DEGLI STUDI DI TRIESTE Dipartimento di Ingegneria e Architettura Corso di Studi in Ingegneria Elettronica e Informatica SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem” Tesi di Laurea Triennale Laureando: Federico RAIMONDI Relatore: Prof. Alberto BARTOLI _____________________________________ Anno Accademico 2019 – 2020
  • 2. 1 Sommario 1 Introduzione ......................................................................................................................................2 2 Metodi...............................................................................................................................................2 2.1 Servizi di terze parti nei siti web pornografici ...........................................................................3 2.2 Comportamento dei siti web pornografici e dei servizi di terze parti in essi .............................4 2.3 Misurazione delle differenze geografiche ..................................................................................4 2.4 Conformità normativa ................................................................................................................4 3 Risultati.............................................................................................................................................5 3.1.....................................................................................................................................................5 3.2.....................................................................................................................................................5 3.3.....................................................................................................................................................6 3.4.....................................................................................................................................................6 4 Conclusioni .......................................................................................................................................7 5 Bibliografia .......................................................................................................................................7
  • 3. 2 1 Introduzione Le attività di tracciamento dell’utente nei siti web sono sempre più utilizzate, monitorando il visitatore anche attraverso i servizi di terze parti incorporati in essi. Le moderne normative sulla privacy come la General Data Protection Regulation (GDPR) e la California Consumer Privacy Act (CCPA) regolamentano il trattamento dei dati personali e la privacy dell’utente, applicando disposizioni più specifiche per i siti web che potrebbero venire a conoscenza di informazioni personali altamente sensibili come quelle sessuali. Le reti pubblicitarie più famose impostano rigorose limitazioni sull’uso dei loro servizi ai siti web pornografici come misura di protezione del loro marchio, favorendo servizi di pubblicità e localizzazione meno conosciuti che sono sfuggiti alla ricerca e al controllo normativo. Numerosi sforzi di ricerca in passato hanno cercato di identificare e quantificare la presenza e l’uso di tecnologie di tracciamento nel web, ma fino ad oggi l’ecosistema dei siti sensibili è rimasto alquanto inesplorato. In questo articolo gli autori forniscono una prima analisi su larga scala di 6.843 siti web pornografici da una prospettiva di privacy, trasparenza e conformità normativa al fine di capire se possano rappresentare rischi per l’utente. 2 Metodi Per compilare un esempio rappresentativo di siti web pornografici gli autori hanno progettato un metodo semi-supervisionato che utilizza tre passaggi differenti, attraverso i quali vengono estratti: 1. 342 siti dall’indicizzazione di servizi web specializzati nella loro aggregazione; 2. 22 siti dal servizio di categorizzazione dei siti web Alexa classificati come siti per adulti; 3. 7.735 siti cercando per parole chiave correlate al porno nei siti web indicizzati da Alexa (nel 2018). Si acquisiscono 8.099 siti pornografici, la cui ispezione manuale del DOM identifica 1.256 falsi positivi, che vengono eliminati. Il corpus così ottenuto viene confrontato con un set di dati di riferimento contenente 9.688 siti web non pornografici popolari per studiarne differenze e similitudini. Successivamente vengono utilizzati due web crawler complementari per studiare il comportamento dei siti, limitandosi all’analisi della loro landing page (Figura 1). OpenWPM: analizza il comportamento, le tecnologie di tracciamento, i servizi di terze parti e i moduli di consenso della privacy. Selenium: interagisce automaticamente con ogni sito per raccogliere informative sulla privacy e appurare la presenza e la validità dei meccanismi di verifica dell’età.
  • 4. 3 Figura 1: Processo di raccolta dei dati. In particolare, dei siti web pornografici: 1. Viene cercata la presenza di servizi di terze parti, confrontandoli con quelli dei siti non pornografici più popolari; 2. Si studia il loro comportamento e quello dei servizi di terze parti incorporati in essi; 3. Si ricercano differenze comportamentali a seconda della posizione dell’utente; 4. Viene sviluppato e validato un metodo per analizzarne automaticamente la trasparenza e la conformità normativa. 2.1 Servizi di terze parti nei siti web pornografici Durante la scansione dei siti con il crawler OpenWPM si trovano 6.017 domini diversi che vengono approfonditi al fine di: 1. Etichettare i domini come di first party o di third party. Per ogni URL raccolto dalle richieste HTTP(S) generate dal crawler, si confrontano l’FQDN (Fully Qualified Domain Name) e il suo certificato X.509 con gli stessi del sito web host. Nei casi in cui non vi sia corrispondenza viene calcolata la distanza di Levenshtein, che misura la differenza fra le due stringhe, considerando come unica entità i nomi di dominio completi che hanno una somiglianza superiore a 0.7; 2. Identificare i domini di third party di pubblicità e tracciamento (ATS). Tramite le blacklist EasyList ed Easy Privacy, che contengono i nomi di ben noti ATS, e un allentamento sul metodo di corrispondenza si cercano corrispondenze di FQDN; 3. Trovare le società madre dei domini di third party, integrando l’elenco di tracker Disconnect con le informazioni presenti nel certificato X.509. I risultati sono stati confrontati con i medesimi ottenuti dal corpus dei siti web non pornografici analizzabili.
  • 5. 4 2.2 Comportamento dei siti web pornografici e dei servizi di terze parti in essi I rischi per la privacy degli utenti vengono valutati esaminando tecniche di tracciamento quali HTTP cookie, cookie syncing e tecniche di fingerprinting avanzato. Per valutare gli standard di sicurezza utilizzati si scansionano i siti con l’impiego di HTTPS, eseguendo il downgrade ad HTTP quando il precedente non è supportato dal server. Vengono scartati dall’analisi i cookie HTTP che non si ritiene contengano identificativi utente (Es. cookie di sessione), concentrandosi poi su 30.247 installati da domini di third party, decodificando il loro valore. Il processo di cookie syncing, che permette di condividere i dati sui cookie tra servizi di terze parti incorporando il cookie nell’URL, viene studiato osservando se uno di essi è incorporato nelle successive richieste HTTP. L’attenzione viene posta poi sullo studio di tecniche di fingerprinting. Esse mirano a identificare completamente o parzialmente i singoli utenti o dispositivi anche quando i cookie sono disattivati. In particolare, HTML Canvas Fingerprinting sfrutta le differenze di renderizzazione di un’immagine tra i dispositivi mentre Font Fingerprinting sfrutta i caratteri che ciascun browser ha installato per generare un ID univoco del browser. 2.3 Misurazione delle differenze geografiche La misurazione delle differenze comportamentali tra i siti pornografici a seconda della posizione del collegamento avviene da un punto fisico in Spagna con l’utilizzo di VPN commerciali per ottenere l’accesso da altri Stati dell’UE, Singapore, India, Russia, USA e UK. 2.4 Conformità normativa Nella valutazione della conformità normativa si valutano l’informativa sul consenso ai cookie, i meccanismi di verifica dell’età e le politiche sulla privacy. Viene validato un metodo per trovare l’informativa sul consenso ai cookie che cerca elementi HTML della pagina simili ad un banner, estraendone il testo e facendone uno screenshot che viene poi analizzato manualmente. Per determinare le misure adottate per la verifica dell’età viene analizzata la pagina di destinazione con il crawler Selenium, cercando corrispondenze di parole chiave in 8 lingue nel testo e negli elementi HTML riferite ad un possibile meccanismo di verifica dell’età ed eliminando manualmente i falsi positivi. Se viene trovato, il crawler clicca sull’elemento per accedere alla pagina di destinazione. Questa analisi viene effettuata in 4 paesi (USA, UK, Spagna e Russia.) Le politiche sulla privacy vengono recuperate effettuando una ricerca dei collegamenti URL contenenti parole chiavi come “Privacy” in 8 lingue ed eliminando manualmente 44 falsi positivi causati da errori HTTP. Viene inoltre analizzata la somiglianza tra le varie politiche per scoprire siti appartenenti alla stessa società e l’utilizzo di modelli popolari.
  • 6. 5 3 Risultati 3.1 Si scopre la società madre per il 74% dei 6.017 domini incorporati nei siti web pornografici. Ben il 91% di questi sono domini di third party. Comparandoli poi con quelli presenti nel set di riferimento dei siti web non pornografici, si rilevano considerevoli discrepanze tra i due gruppi (Figura 2). Figura 2: Numero di domini di first party e di third party trovati nel dataset dei siti web pornografici e non pornografici. Un dato molto significativo è la grande differenza di percentuale nei servizi di terze parti ATS: nei siti pornografici essi sono il 12% del totale, contro solo l’1% dei siti web non pornografici e solo 86 servizi di questo tipo sono presenti in entrambi. È importante anche evidenziare come solo il 3% dei domini di third party siano presenti nei 4 livelli di popolarità dei siti web pornografici considerati, potendo facilmente concludere che più è impopolare il sito web, più sono offuscati e poco trasparenti i domini di third party che esso incorpora (Figura 3). Figura 3: Presenza di servizi di terze parti nei siti web pornografici secondo la loro popolarità. 3.2 Nei siti web pornografici analizzati, la tecnica di tracciamento più utilizzata è l’HTTP cookie (72%), seguita dal cookie syncing presente nel 58% dei migliori 100 siti web pornografici secondo Alexa. Solo il 5% usa tecniche di fingerprinting e il 91% di essi non sono indicizzati nelle blacklist EasyList e EasyPrivacy. Alcuni servizi di tracciamento sono presenti in entrambe le tipologie di siti web trattati, consentendo loro di tracciare gli utenti in tutto il web. Nello studio si evidenzia anche la stretta correlazione tra la popolarità di un sito web pornografico e l’utilizzo del protocollo HTTPS, tendenza seguita anche dai servizi di terze parti incorporati in essi (Figura 4). Tuttavia, il 68% del totale dei siti web pornografici non sono completamente HTTPS: il sito web o una delle terze parti incorporate in esso non supporta questo protocollo. Ispezionando il contenuto di questi flussi, si evince che l’8% di questi siti web carica i cookie contenenti dati sensibili in chiaro.
  • 7. 6 Figura 4: Uso di HTTPS nei siti web pornografici. 3.3 Analizzando le differenze tra siti web pornografici in base alla posizione geografica dell’utente, si trova che il numero di servizi di terzi parti è abbastanza stabile attraverso i paesi, tranne in Russia, dove sono circa 700 in meno. Inoltre, ci sono servizi regionali di terze parti che operano solo in regioni specifiche (Figura 5). Figura 5: Comparazione dei domini trovati nell'ecosistema dei siti web pornografici da diversi punti geografici. 3.4 Lo studio della conformità normativa dei siti web pornografici rivela dati negativi: • Solo il 16 % dei siti presenta politiche sulla privacy; • Solo il 4% implementa moduli di consenso dei cookie, 1/3 dei quali ne informa solamente della presenza. • Del 96% di essi non si sono trovate informazioni affidabili sull’azienda proprietaria. Per quanto concerne i meccanismi di verifica dell’età nei 4 paesi presi in considerazione, si nota che essi sono coerenti nel Regno Unito, negli USA e in Spagna, tant’è che lo stesso insieme del 20% dei siti web pornografici utilizza lo stesso meccanismo facile da bypassare. Solo in Russia si trovano risultati differenti nell’accesso agli stessi siti: alcuni di questi che verificano l’età in Russia non lo fanno negli altri paesi e viceversa. Solo pornhub.com, se si accede dalla Russia, mette in atto una complessa verifica dell'età tramite l’utilizzo di un account social collegato al numero del passaporto.
  • 8. 7 4 Conclusioni Lo studio dimostra che nonostante esistano regolamenti precisi sulla protezione dei dati degli utenti nei siti web pornografici, in essi vi è una mancanza di conformità normativa, eccezion fatta per quelli più popolari. Molti di questi siti infatti, non supportano HTTPS e non presentano alcun requisito di trasparenza sulla privacy, moduli di consenso per i cookie o meccanismi di verifica sull’età. Nei siti web pornografici è anche contenuta una grandissima quantità di servizi di terze parti e ATS non indicizzati sulle blacklist più famose, rendendo molte tecnologie anti-tracking fondate su di esse insufficienti. Basandosi su questi dati, gli autori concludono che i rischi per la privacy dell’utente che visita i siti web pornografici sono notevoli e che il lavoro da fare per la tutela dello stesso è ancora considerevole. 5 Bibliografia Pelayo Vallina, Álvaro Feal, Julien Gamba, Narseo Vallina-Rodriguez, and Antonio Fernández Anta. 2019. Tales from the Porn: A Comprehensive Privacy Analysis of the Web Porn Ecosystem. In Proceedings of the Internet Measurement Conference (IMC ’19).
  • 9. 8 RINGRAZIAMENTI Dedico infine questo ultime parole a coloro che mi hanno sostenuto nel raggiungimento di questo importante traguardo. In primis, un sentito grazie al mio relatore Prof. Alberto Bartoli per la Sua disponibilità e tempestività di risposta alle mie domande. La Sua schiettezza mi ha fatto capire tante cose e mi ha fatto crescere, riuscendo a impostare in modo deciso il mio pensiero e la mia determinazione. Ringrazio i miei genitori, che mi hanno permesso, non con pochi sacrifici, di arrivare a questo primo obiettivo. Mi hanno sostenuto in ogni cosa, dal cambio di facoltà agli esami più difficili trasmettendomi sempre positività. Grazie. Un ringraziamento speciale alla mia ragazza Giulia, che mi ha insegnato molto e che, grazie anche alla sua grande maturità, mi ha cambiato come persona. La sua forza mi ha fatto coraggio e i suoi consigli e aiuti sono stati indispensabili. Non so se sarei qui in questo momento senza di lei. A proposito “ringrazio” anche il Coronavirus che ci ha chiusi in casa insieme e ci ha permesso di studiare come non mai. Un grazie anche alla famiglia di Giulia, che nonostante sia arrivata dopo l’inizio del mio percorso di studi è stata di un supporto e di una motivazione senza pari. Ringrazio anche mio fratello, che senza dire niente so che mi ha sempre sostenuto nelle mie scelte e sempre lo farà. Ringrazio parenti e amici che hanno contribuito a rendere tale questo risultato e che, per motivi di spazio, non posso citare personalmente. Infine, dedico questa tesi a me stesso, ai miei sacrifici e alla mia determinazione che mi hanno reso la persona che sono oggi e che mi accompagneranno alla realizzazione dei miei tanti progetti futuri.