SlideShare a Scribd company logo
1 of 7
Download to read offline
UNIVERSITÀ DEGLI STUDI DI TRIESTE
DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA
Corso di Laurea in Ingegneria Elettronica e Informatica
Summary of “An Automated Approach to Auditing
Disclosure of Third-Party Data Collection in Website
Privacy Policies”
Studente:
Fabio DAL COL
Relatore:
Prof. Alberto BARTOLI
ANNO ACCADEMICO 2018/2019
Indice
Introduzione...............................................................................................................2
Metodologia...............................................................................................................3
Risultati......................................................................................................................4
Conclusione ...............................................................................................................5
Bibliografia................................................................................................................6
2
Introduzione
Aprendo una pagina web vengono scaricati una serie di elementi che possono provenire direttamente
dal sito web o da terze parti. Tramite l’header “referer” l’url della pagina che si sta visitando viene
trasmesso al sito di terze parti, determinando dunque una possibilità di tracciamento dei siti visitati
dall’utente da parte di altri soggetti. È quindi di fondamentale importanza che l’utente, tramite le
privacy policies, venga a conoscenza di chi siano questi soggetti e che abbia la possibilità di esprimere
la propria volontà riguardo il proprio tracciamento.
Lo studio di Timothy Libert costituisce il primo tentativo di verifica della divulgazione1
dei flussi di
dati verso terze parti nelle privacy policies. Tale studio introduce anche un nuovo software,
policyxray, allo scopo di semplificare l’analisi su larga scala delle privacy policies e di verificare una
serie di requisiti su di esse, ovvero: la facilità di comprensione del testo, il tempo medio impiegato
per leggere interamente tale testo e il rispetto della scelta attuata dagli utenti tramite l’header “Do
Not Track” (DNT).
Attualmente la raccolta di dati da terze parti viene controllata tramite un meccanismo chiamato
“Notice and Choice” (notifica e scelta) secondo cui gli utenti vengono avvisati, almeno teoricamente,
che sta avvenendo la raccolta di dati e viene fornita loro la possibilità di impedirlo. Lo studio di Libert
si occupa dunque di valutare l’efficacia di tale principio. Il lavoro di ricerca si è svolto ponendosi
delle domande su tre principi fondamentali: la notifica, la scelta e la sicurezza.
• Riguardo la notifica è stato verificato quali fossero i soggetti terze parti che raccolgono i dati
degli utenti nei siti web e se tali soggetti fossero presenti nelle privacy policies. Si è
determinato inoltre quanto ci si impiega a leggere e quanto è difficile comprendere una privacy
policy.
• Riguardo la scelta è stato verificato se le privacy policies proprietarie e di terze parti
nominassero e rispettassero il segnale “Do Not Track”.
• Riguardo la sicurezza è stata verificata quale percentuale di siti web imponesse una
connessione crittata e quale percentuale di richieste verso soggetti di terze parti fosse crittata.
Quindi, nel porsi queste domande, il semplice cenno alla condivisione di dati con terze parti generiche
in una privacy policy non è stato considerato come un mezzo di notifica sufficiente. Sono state prese
in esame soltanto policies “umanamente leggibili” e si è scelto di considerare come unico veicolo di
scelta il rispetto del segnale “Do Not Track”. Infine, per determinare la sicurezza della trasmissione
dei dati è stato verificato l’utilizzo del protocollo SSL.
1
D’ora in avanti il termine “divulgazione” verrà inteso nel senso del termine inglese “disclosure”
3
Metodologia
Per monitorare il traffico di terze parti che viene generato caricando una pagina web è stato utilizzato
il software webxray, mentre per identificare, estrarre e analizzare le privacy policies è stata sviluppata
una nuova estensione per webxray, chiamata policyxray.
Webxray è in grado di identificare le richieste verso terze parti eseguite quando viene caricato un sito
web. Una componente fondamentale di questo software è costituita dal database a cui è collegato, il
quale, fornito un dominio permette di associarlo alla rispettiva azienda che lo controlla.
Policyxray permette di individuare il link alla privacy policy di un sito web ed estrarne il testo. Per
facilitare la procedura di individuazione del contenuto di una policy esso fa uso della libreria
Javascript “Readibility.js” che permette di automatizzare la procedura di estrazione del contenuto di
una pagina.
Lo studio è stato condotto a ottobre 2017 e sono stati scansionati, tramite un calcolatore situato in un
istituto accademico negli Stati Uniti, un milione dei siti web più popolari secondo la classifica Alexa.
Il lavoro svolto si può suddividere nelle seguenti fasi:
1. È stata inserita la lista di siti web in webxray ed è stato quindi avviato, scegliendo come
browser PhantomJs. In una versione modificata del database sono stati ricercati i domini di
terze parti individuati da webxray ed è stata quindi stilata una lista delle aziende a essi
associate, per ogni sito web.
2. Tramite policyxray, per ogni sito web analizzato è stata individuata la relativa privacy policy
e ne è stato estratto il contenuto. Per verificare che i soggetti che raccolgono i dati fossero
inclusi nella privacy policy è stato ricercato nel testo il nome di ciascuno dei proprietari di
dominio (individuati precedentemente) e nel caso di risultati positivi, essi sono stati
considerati come divulgati.
3. Dall’elenco dei soggetti di terze parti più presenti nei siti web sono stati rimossi quelli relativi
a Content Delivery Network e a servizi di mitigazione DDoS. Per quelli rimanenti è stata scelta
manualmente la privacy policy principale, considerando quella più pertinente alla raccolta di
dati da terze parti, scritta in inglese.
4. Per verificare che lo standard DNT venisse rispettato si è ricercata all’interno del testo della
policy la stringa “do not track”. Ma la semplice presenza di tale citazione non implica che lo
standard venga rispettato, si è proceduto quindi a una successiva verifica manuale su un
campione casuale di privacy policies contenenti la stringa.
5. Infine, le policies sono state valutate per stabilirne la difficoltà di lettura e il tempo necessario
per leggerle interamente. Per la difficoltà di lettura è stata utilizzata la formula di Flesch
mentre per il tempo di lettura è stato assunto un tasso di lettura medio di 250 parole al minuto.
4
Risultati
I risultati di questo studio permettono di avere una panoramica sul tracciamento nei siti web popolari,
sul tasso di divulgazione dei flussi di dati verso terze parti, sulla complessità e lunghezza delle privacy
policies, sul rispetto per lo standard “Do Not Track” e sulle pratiche di sicurezza adottate dai siti web
e dai soggetti di terze parti. Fra tutti i soggetti di terze parti individuati, sono stati scelti i 25 più attivi
nella raccolta e lavorazione dei dati.
Webxray ha caricato correttamente 938.093 siti e policyxray è stato in grado di estrarre 184.897
policies diverse, corrispondenti a 207.000 siti. Il numero delle policies è inferiore rispetto al numero
dei siti, poiché spesso quelli appartenenti agli stessi soggetti utilizzano le stesse policies.
Di tutte le trasmissioni dati verso terze parti
analizzate, soltanto il 14,80% veniva divulgato.
Inoltre, fra le 25 aziende di terze parti
considerate, il tasso medio di divulgazione fra
quelle che non offrono alcun servizio per i
consumatori era inferiore all’1%. In generale,
risulta quindi improbabile che gli utenti che
leggono le privacy policies dei siti web vengano
informati sui soggetti che raccolgono i loro dati.
L’analisi della leggibilità delle privacy policies
ha rivelato che esse hanno un punteggio medio
di Flesch di 39,83, corrispondente alla difficoltà
di un testo universitario. Inoltre, è stato
calcolato il tempo medio necessario a leggere
sia la privacy policy proprietaria che le policies
di terze parti relative a un sito web ed esso è
risultato pari a 84,7 minuti.
Fra tutti i siti analizzati, solo il 7% conteneva la
stringa “do not track” e un’analisi manuale su
un campione di policies ha evidenziato che nel
15,73% dei casi la presenza di quella stringa non
era relativa allo standard (per esempio a causa
dell’uso della frase “we do not track users”).
Nel 64,80% dei casi veniva invece specificato
che lo standard DNT non era rispettato. Infine,
nel 19,46% dei casi era contenuto un chiaro
riferimento al totale rispetto della scelta
effettuata tramite il meccanismo DNT.
Tabella 1: Incidenza di terze parti, uso di SSL, divulgazione nelle
policies.
Il simbolo † Indica che l’azienda offre servizi per i consumatori.
5
Dei 25 data collectors più importanti solo 9
includevano lo standard DNT nelle loro policies e la
maggior parte di essi lo faceva soltanto per
comunicare che la scelta veniva ignorata.
Il 35,14% delle pagine esaminate forzavano l’uso del
protocollo SSL, con un’incidenza maggiore nei siti
con ranking più elevato (Figura 1). Infine, le
richieste di terze parti sono risultate crittate nel
66,82% dei casi mentre quelle proprietarie lo erano
soltanto nel 35,52% dei casi.
Conclusione
Lo studio di Libert dimostra che il principio “Notice and Choice” fallisce nel suo intento, infatti:
• La notifica viene meno per la divulgazione soltanto parziale dei soggetti di terze parti nelle
privacy policies e per l'eccessivo tempo necessario agli utenti per leggerle.
• La scelta viene meno per l’irrisorio rispetto dell’header “Do Not Track” e l’impossibilità
quindi per un utente di poter decidere se, e da parte di chi, essere tracciato.
Evidenzia inoltre che in ambito della sicurezza delle trasmissioni di dati i soggetti di terze parti
attuano delle pratiche migliori rispetto ai siti proprietari, ma con un importante inconsistenza fra di
essi, rendendo quindi lampante la necessità di imporre degli standard a riguardo.
Secondo Libert, lo studio presenta alcuni limiti che potrebbero aver alterato i risultati infatti:
• PhantomJs in certi casi può non riuscire a caricare correttamente alcune pagine.
• L’estrazione del testo delle policy non è perfetta e può portare a falsi positivi o falsi negativi.
• Caricare la pagina una sola volta può portare alla mancata individuazione di alcuni soggetti
di terze parti a causa della natura variabile degli annunci pubblicitari.
• È possibile che alcuni soggetti non siano ancora presenti nel database di webxray.
Ciò nonostante, questi risultati costituiscono il primo lavoro di ricerca in grado di fornire un quadro
generale sullo stato attuale della divulgazione, nelle privacy policies, dei soggetti coinvolti nel
flusso di dati verso terze parti.
Figura 1: Siti con un ranking più alto impongono l’uso di SSL più
spesso (blu), ma contengono più richieste di terze parti (rosso).
6
Bibliografia
Libert Timothy, “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in
Website Privacy Policies”, in Proceedings of the 2018 World Wide Web Conference (WWW '18),
Lyon, France, 2018, pp. 207-216

More Related Content

What's hot

Public Key Cryptography
Public Key CryptographyPublic Key Cryptography
Public Key Cryptography
anusachu .
 
Dampak negatif media sosial
Dampak negatif media sosialDampak negatif media sosial
Dampak negatif media sosial
pha_phin
 
Методи за криптиране и декриптиране на данни
Методи за криптиране и декриптиране на данниМетоди за криптиране и декриптиране на данни
Методи за криптиране и декриптиране на данни
pinf_117075
 
Nota de aula seguranca da informacao - criptografia
Nota de aula   seguranca da informacao - criptografiaNota de aula   seguranca da informacao - criptografia
Nota de aula seguranca da informacao - criptografia
felipetsi
 
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
Deny Sundari Syahrir
 

What's hot (20)

Public Key Cryptography
Public Key CryptographyPublic Key Cryptography
Public Key Cryptography
 
Cryptography
CryptographyCryptography
Cryptography
 
Health care: blockchain for provider data management
Health care: blockchain for provider data   managementHealth care: blockchain for provider data   management
Health care: blockchain for provider data management
 
Cryptography
CryptographyCryptography
Cryptography
 
Materi literasi digital.pptx
Materi literasi digital.pptxMateri literasi digital.pptx
Materi literasi digital.pptx
 
Pertemuan 6
Pertemuan 6Pertemuan 6
Pertemuan 6
 
Dampak negatif media sosial
Dampak negatif media sosialDampak negatif media sosial
Dampak negatif media sosial
 
Digital Signature.pptx
Digital Signature.pptxDigital Signature.pptx
Digital Signature.pptx
 
Seri buku literasi digital kebijakan cybersecurity dalam perspektif multistak...
Seri buku literasi digital kebijakan cybersecurity dalam perspektif multistak...Seri buku literasi digital kebijakan cybersecurity dalam perspektif multistak...
Seri buku literasi digital kebijakan cybersecurity dalam perspektif multistak...
 
Методи за криптиране и декриптиране на данни
Методи за криптиране и декриптиране на данниМетоди за криптиране и декриптиране на данни
Методи за криптиране и декриптиране на данни
 
What is Asymmetric Encryption? Understand with Simple Examples
What is Asymmetric Encryption? Understand with Simple ExamplesWhat is Asymmetric Encryption? Understand with Simple Examples
What is Asymmetric Encryption? Understand with Simple Examples
 
Nota de aula seguranca da informacao - criptografia
Nota de aula   seguranca da informacao - criptografiaNota de aula   seguranca da informacao - criptografia
Nota de aula seguranca da informacao - criptografia
 
Cryptography
CryptographyCryptography
Cryptography
 
Social Engineering | #ARMSec2015
Social Engineering | #ARMSec2015Social Engineering | #ARMSec2015
Social Engineering | #ARMSec2015
 
CSIRT_16_Jun
CSIRT_16_JunCSIRT_16_Jun
CSIRT_16_Jun
 
Graph protocol for accessing information about blockchains and d apps
Graph protocol for accessing information about blockchains and d appsGraph protocol for accessing information about blockchains and d apps
Graph protocol for accessing information about blockchains and d apps
 
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
Makalah keamanan jaringan internet (internet, permasalahan dan penanggulangan...
 
Asymmetric Cryptography
Asymmetric CryptographyAsymmetric Cryptography
Asymmetric Cryptography
 
01-Pengantar Keamanan Komputer.ppt
01-Pengantar Keamanan Komputer.ppt01-Pengantar Keamanan Komputer.ppt
01-Pengantar Keamanan Komputer.ppt
 
Digital Safety - Mengenal Fitur Proteksi Perangkat Digital
Digital Safety - Mengenal Fitur Proteksi Perangkat DigitalDigital Safety - Mengenal Fitur Proteksi Perangkat Digital
Digital Safety - Mengenal Fitur Proteksi Perangkat Digital
 

Similar to Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies”

Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
MatteoMagris
 
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
Istituto nazionale di statistica
 

Similar to Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies” (20)

Measuring third party dynamics in the field
Measuring third party dynamics in the fieldMeasuring third party dynamics in the field
Measuring third party dynamics in the field
 
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
 
Marketing, CRM e Social Media dopo le decisioni del Garante privacy e dell'EDPB
Marketing, CRM e Social Media dopo le decisioni del Garante privacy e dell'EDPBMarketing, CRM e Social Media dopo le decisioni del Garante privacy e dell'EDPB
Marketing, CRM e Social Media dopo le decisioni del Garante privacy e dell'EDPB
 
Summary of “Measuring Security Practices and How They Impact Security”
Summary of “Measuring Security Practices and How They Impact Security”Summary of “Measuring Security Practices and How They Impact Security”
Summary of “Measuring Security Practices and How They Impact Security”
 
Measuring third party dynamics in the field
Measuring third party dynamics in the fieldMeasuring third party dynamics in the field
Measuring third party dynamics in the field
 
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
 
GDPR & GDPR - Confindustria Ravenna - Avv. Alessandro Cecchetti
GDPR & GDPR - Confindustria Ravenna - Avv. Alessandro CecchettiGDPR & GDPR - Confindustria Ravenna - Avv. Alessandro Cecchetti
GDPR & GDPR - Confindustria Ravenna - Avv. Alessandro Cecchetti
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
 
Lezione2 Tucci diritti in rete gdpr
Lezione2 Tucci diritti in rete gdprLezione2 Tucci diritti in rete gdpr
Lezione2 Tucci diritti in rete gdpr
 
Analisi delle aree aziendali sensibili al rischio privacy
Analisi delle aree aziendali sensibili al rischio privacyAnalisi delle aree aziendali sensibili al rischio privacy
Analisi delle aree aziendali sensibili al rischio privacy
 
Sulle Linee Guida per gli Open Data nei Comuni
Sulle Linee Guida per gli Open Data nei ComuniSulle Linee Guida per gli Open Data nei Comuni
Sulle Linee Guida per gli Open Data nei Comuni
 
Freelance Day 2019 - GDPR: come uscirne quasi illesi - Luisa Di Giacomo
Freelance Day 2019 - GDPR: come uscirne quasi illesi - Luisa Di GiacomoFreelance Day 2019 - GDPR: come uscirne quasi illesi - Luisa Di Giacomo
Freelance Day 2019 - GDPR: come uscirne quasi illesi - Luisa Di Giacomo
 
Il paradigma dei Big Data e Predictive Analysis, un valido supporto al contra...
Il paradigma dei Big Data e Predictive Analysis, un valido supporto al contra...Il paradigma dei Big Data e Predictive Analysis, un valido supporto al contra...
Il paradigma dei Big Data e Predictive Analysis, un valido supporto al contra...
 
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - AI dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
I dati aperti delle regioni. Od2016 cagliari-22-09-16 - A
 
BCI Italy Forum Meeting 25 gennaio: presentazioni disponibili 04 butti gdpr...
BCI Italy Forum Meeting 25 gennaio: presentazioni disponibili 04 butti   gdpr...BCI Italy Forum Meeting 25 gennaio: presentazioni disponibili 04 butti   gdpr...
BCI Italy Forum Meeting 25 gennaio: presentazioni disponibili 04 butti gdpr...
 
News SSL 43 2017
News SSL 43 2017News SSL 43 2017
News SSL 43 2017
 
La sicurezza delle reti aziendali ai tempi di Facebook
La sicurezza delle reti aziendali ai tempi di FacebookLa sicurezza delle reti aziendali ai tempi di Facebook
La sicurezza delle reti aziendali ai tempi di Facebook
 
Smau Roma 2013 Morena Ragone
Smau Roma 2013 Morena RagoneSmau Roma 2013 Morena Ragone
Smau Roma 2013 Morena Ragone
 
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
T. Vassalli di Dachenhausen - Il programma della trasparenza 2012 in Istat: r...
 
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPIDAnalisi delle dipendenze architetturali dei servizi di autenticazione SPID
Analisi delle dipendenze architetturali dei servizi di autenticazione SPID
 

Recently uploaded

Recently uploaded (9)

GIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA SimoneGIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
GIORNATA TECNICA DA AQP 18/04 | MOTTA Simone
 
GIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO RaffaeleGIORNATA TECNICA 18/04 | LITTERIO Raffaele
GIORNATA TECNICA 18/04 | LITTERIO Raffaele
 
Descrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptxDescrizione della struttura architettonica Eretteo.pptx
Descrizione della struttura architettonica Eretteo.pptx
 
GIORNATA TECNICA 18/04 | DE LEO Antonio
GIORNATA TECNICA 18/04  | DE LEO AntonioGIORNATA TECNICA 18/04  | DE LEO Antonio
GIORNATA TECNICA 18/04 | DE LEO Antonio
 
GIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI AlessandroGIORNATA TECNICA 18/04 | BENANTI Alessandro
GIORNATA TECNICA 18/04 | BENANTI Alessandro
 
GIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO SerenaGIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
GIORNATA TECNICA DA AQP 18/04 | ZONNO Serena
 
GIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA RobertoGIORNATA TECNICA 18/04 | DE ROSA Roberto
GIORNATA TECNICA 18/04 | DE ROSA Roberto
 
GIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI MassimoGIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
GIORNATA TECNICA 18/04 | SPIZZIRRI Massimo
 
Presentzione Matematica similitudini circonferenze e omotetie.pptx
Presentzione  Matematica similitudini circonferenze e omotetie.pptxPresentzione  Matematica similitudini circonferenze e omotetie.pptx
Presentzione Matematica similitudini circonferenze e omotetie.pptx
 

Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies”

  • 1. UNIVERSITÀ DEGLI STUDI DI TRIESTE DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA Corso di Laurea in Ingegneria Elettronica e Informatica Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies” Studente: Fabio DAL COL Relatore: Prof. Alberto BARTOLI ANNO ACCADEMICO 2018/2019
  • 3. 2 Introduzione Aprendo una pagina web vengono scaricati una serie di elementi che possono provenire direttamente dal sito web o da terze parti. Tramite l’header “referer” l’url della pagina che si sta visitando viene trasmesso al sito di terze parti, determinando dunque una possibilità di tracciamento dei siti visitati dall’utente da parte di altri soggetti. È quindi di fondamentale importanza che l’utente, tramite le privacy policies, venga a conoscenza di chi siano questi soggetti e che abbia la possibilità di esprimere la propria volontà riguardo il proprio tracciamento. Lo studio di Timothy Libert costituisce il primo tentativo di verifica della divulgazione1 dei flussi di dati verso terze parti nelle privacy policies. Tale studio introduce anche un nuovo software, policyxray, allo scopo di semplificare l’analisi su larga scala delle privacy policies e di verificare una serie di requisiti su di esse, ovvero: la facilità di comprensione del testo, il tempo medio impiegato per leggere interamente tale testo e il rispetto della scelta attuata dagli utenti tramite l’header “Do Not Track” (DNT). Attualmente la raccolta di dati da terze parti viene controllata tramite un meccanismo chiamato “Notice and Choice” (notifica e scelta) secondo cui gli utenti vengono avvisati, almeno teoricamente, che sta avvenendo la raccolta di dati e viene fornita loro la possibilità di impedirlo. Lo studio di Libert si occupa dunque di valutare l’efficacia di tale principio. Il lavoro di ricerca si è svolto ponendosi delle domande su tre principi fondamentali: la notifica, la scelta e la sicurezza. • Riguardo la notifica è stato verificato quali fossero i soggetti terze parti che raccolgono i dati degli utenti nei siti web e se tali soggetti fossero presenti nelle privacy policies. Si è determinato inoltre quanto ci si impiega a leggere e quanto è difficile comprendere una privacy policy. • Riguardo la scelta è stato verificato se le privacy policies proprietarie e di terze parti nominassero e rispettassero il segnale “Do Not Track”. • Riguardo la sicurezza è stata verificata quale percentuale di siti web imponesse una connessione crittata e quale percentuale di richieste verso soggetti di terze parti fosse crittata. Quindi, nel porsi queste domande, il semplice cenno alla condivisione di dati con terze parti generiche in una privacy policy non è stato considerato come un mezzo di notifica sufficiente. Sono state prese in esame soltanto policies “umanamente leggibili” e si è scelto di considerare come unico veicolo di scelta il rispetto del segnale “Do Not Track”. Infine, per determinare la sicurezza della trasmissione dei dati è stato verificato l’utilizzo del protocollo SSL. 1 D’ora in avanti il termine “divulgazione” verrà inteso nel senso del termine inglese “disclosure”
  • 4. 3 Metodologia Per monitorare il traffico di terze parti che viene generato caricando una pagina web è stato utilizzato il software webxray, mentre per identificare, estrarre e analizzare le privacy policies è stata sviluppata una nuova estensione per webxray, chiamata policyxray. Webxray è in grado di identificare le richieste verso terze parti eseguite quando viene caricato un sito web. Una componente fondamentale di questo software è costituita dal database a cui è collegato, il quale, fornito un dominio permette di associarlo alla rispettiva azienda che lo controlla. Policyxray permette di individuare il link alla privacy policy di un sito web ed estrarne il testo. Per facilitare la procedura di individuazione del contenuto di una policy esso fa uso della libreria Javascript “Readibility.js” che permette di automatizzare la procedura di estrazione del contenuto di una pagina. Lo studio è stato condotto a ottobre 2017 e sono stati scansionati, tramite un calcolatore situato in un istituto accademico negli Stati Uniti, un milione dei siti web più popolari secondo la classifica Alexa. Il lavoro svolto si può suddividere nelle seguenti fasi: 1. È stata inserita la lista di siti web in webxray ed è stato quindi avviato, scegliendo come browser PhantomJs. In una versione modificata del database sono stati ricercati i domini di terze parti individuati da webxray ed è stata quindi stilata una lista delle aziende a essi associate, per ogni sito web. 2. Tramite policyxray, per ogni sito web analizzato è stata individuata la relativa privacy policy e ne è stato estratto il contenuto. Per verificare che i soggetti che raccolgono i dati fossero inclusi nella privacy policy è stato ricercato nel testo il nome di ciascuno dei proprietari di dominio (individuati precedentemente) e nel caso di risultati positivi, essi sono stati considerati come divulgati. 3. Dall’elenco dei soggetti di terze parti più presenti nei siti web sono stati rimossi quelli relativi a Content Delivery Network e a servizi di mitigazione DDoS. Per quelli rimanenti è stata scelta manualmente la privacy policy principale, considerando quella più pertinente alla raccolta di dati da terze parti, scritta in inglese. 4. Per verificare che lo standard DNT venisse rispettato si è ricercata all’interno del testo della policy la stringa “do not track”. Ma la semplice presenza di tale citazione non implica che lo standard venga rispettato, si è proceduto quindi a una successiva verifica manuale su un campione casuale di privacy policies contenenti la stringa. 5. Infine, le policies sono state valutate per stabilirne la difficoltà di lettura e il tempo necessario per leggerle interamente. Per la difficoltà di lettura è stata utilizzata la formula di Flesch mentre per il tempo di lettura è stato assunto un tasso di lettura medio di 250 parole al minuto.
  • 5. 4 Risultati I risultati di questo studio permettono di avere una panoramica sul tracciamento nei siti web popolari, sul tasso di divulgazione dei flussi di dati verso terze parti, sulla complessità e lunghezza delle privacy policies, sul rispetto per lo standard “Do Not Track” e sulle pratiche di sicurezza adottate dai siti web e dai soggetti di terze parti. Fra tutti i soggetti di terze parti individuati, sono stati scelti i 25 più attivi nella raccolta e lavorazione dei dati. Webxray ha caricato correttamente 938.093 siti e policyxray è stato in grado di estrarre 184.897 policies diverse, corrispondenti a 207.000 siti. Il numero delle policies è inferiore rispetto al numero dei siti, poiché spesso quelli appartenenti agli stessi soggetti utilizzano le stesse policies. Di tutte le trasmissioni dati verso terze parti analizzate, soltanto il 14,80% veniva divulgato. Inoltre, fra le 25 aziende di terze parti considerate, il tasso medio di divulgazione fra quelle che non offrono alcun servizio per i consumatori era inferiore all’1%. In generale, risulta quindi improbabile che gli utenti che leggono le privacy policies dei siti web vengano informati sui soggetti che raccolgono i loro dati. L’analisi della leggibilità delle privacy policies ha rivelato che esse hanno un punteggio medio di Flesch di 39,83, corrispondente alla difficoltà di un testo universitario. Inoltre, è stato calcolato il tempo medio necessario a leggere sia la privacy policy proprietaria che le policies di terze parti relative a un sito web ed esso è risultato pari a 84,7 minuti. Fra tutti i siti analizzati, solo il 7% conteneva la stringa “do not track” e un’analisi manuale su un campione di policies ha evidenziato che nel 15,73% dei casi la presenza di quella stringa non era relativa allo standard (per esempio a causa dell’uso della frase “we do not track users”). Nel 64,80% dei casi veniva invece specificato che lo standard DNT non era rispettato. Infine, nel 19,46% dei casi era contenuto un chiaro riferimento al totale rispetto della scelta effettuata tramite il meccanismo DNT. Tabella 1: Incidenza di terze parti, uso di SSL, divulgazione nelle policies. Il simbolo † Indica che l’azienda offre servizi per i consumatori.
  • 6. 5 Dei 25 data collectors più importanti solo 9 includevano lo standard DNT nelle loro policies e la maggior parte di essi lo faceva soltanto per comunicare che la scelta veniva ignorata. Il 35,14% delle pagine esaminate forzavano l’uso del protocollo SSL, con un’incidenza maggiore nei siti con ranking più elevato (Figura 1). Infine, le richieste di terze parti sono risultate crittate nel 66,82% dei casi mentre quelle proprietarie lo erano soltanto nel 35,52% dei casi. Conclusione Lo studio di Libert dimostra che il principio “Notice and Choice” fallisce nel suo intento, infatti: • La notifica viene meno per la divulgazione soltanto parziale dei soggetti di terze parti nelle privacy policies e per l'eccessivo tempo necessario agli utenti per leggerle. • La scelta viene meno per l’irrisorio rispetto dell’header “Do Not Track” e l’impossibilità quindi per un utente di poter decidere se, e da parte di chi, essere tracciato. Evidenzia inoltre che in ambito della sicurezza delle trasmissioni di dati i soggetti di terze parti attuano delle pratiche migliori rispetto ai siti proprietari, ma con un importante inconsistenza fra di essi, rendendo quindi lampante la necessità di imporre degli standard a riguardo. Secondo Libert, lo studio presenta alcuni limiti che potrebbero aver alterato i risultati infatti: • PhantomJs in certi casi può non riuscire a caricare correttamente alcune pagine. • L’estrazione del testo delle policy non è perfetta e può portare a falsi positivi o falsi negativi. • Caricare la pagina una sola volta può portare alla mancata individuazione di alcuni soggetti di terze parti a causa della natura variabile degli annunci pubblicitari. • È possibile che alcuni soggetti non siano ancora presenti nel database di webxray. Ciò nonostante, questi risultati costituiscono il primo lavoro di ricerca in grado di fornire un quadro generale sullo stato attuale della divulgazione, nelle privacy policies, dei soggetti coinvolti nel flusso di dati verso terze parti. Figura 1: Siti con un ranking più alto impongono l’uso di SSL più spesso (blu), ma contengono più richieste di terze parti (rosso).
  • 7. 6 Bibliografia Libert Timothy, “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies”, in Proceedings of the 2018 World Wide Web Conference (WWW '18), Lyon, France, 2018, pp. 207-216