Presentzione Matematica similitudini circonferenze e omotetie.pptx
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in Website Privacy Policies”
1. UNIVERSITÀ DEGLI STUDI DI TRIESTE
DIPARTIMENTO DI INGEGNERIA E ARCHITETTURA
Corso di Laurea in Ingegneria Elettronica e Informatica
Summary of “An Automated Approach to Auditing
Disclosure of Third-Party Data Collection in Website
Privacy Policies”
Studente:
Fabio DAL COL
Relatore:
Prof. Alberto BARTOLI
ANNO ACCADEMICO 2018/2019
3. 2
Introduzione
Aprendo una pagina web vengono scaricati una serie di elementi che possono provenire direttamente
dal sito web o da terze parti. Tramite l’header “referer” l’url della pagina che si sta visitando viene
trasmesso al sito di terze parti, determinando dunque una possibilità di tracciamento dei siti visitati
dall’utente da parte di altri soggetti. È quindi di fondamentale importanza che l’utente, tramite le
privacy policies, venga a conoscenza di chi siano questi soggetti e che abbia la possibilità di esprimere
la propria volontà riguardo il proprio tracciamento.
Lo studio di Timothy Libert costituisce il primo tentativo di verifica della divulgazione1
dei flussi di
dati verso terze parti nelle privacy policies. Tale studio introduce anche un nuovo software,
policyxray, allo scopo di semplificare l’analisi su larga scala delle privacy policies e di verificare una
serie di requisiti su di esse, ovvero: la facilità di comprensione del testo, il tempo medio impiegato
per leggere interamente tale testo e il rispetto della scelta attuata dagli utenti tramite l’header “Do
Not Track” (DNT).
Attualmente la raccolta di dati da terze parti viene controllata tramite un meccanismo chiamato
“Notice and Choice” (notifica e scelta) secondo cui gli utenti vengono avvisati, almeno teoricamente,
che sta avvenendo la raccolta di dati e viene fornita loro la possibilità di impedirlo. Lo studio di Libert
si occupa dunque di valutare l’efficacia di tale principio. Il lavoro di ricerca si è svolto ponendosi
delle domande su tre principi fondamentali: la notifica, la scelta e la sicurezza.
• Riguardo la notifica è stato verificato quali fossero i soggetti terze parti che raccolgono i dati
degli utenti nei siti web e se tali soggetti fossero presenti nelle privacy policies. Si è
determinato inoltre quanto ci si impiega a leggere e quanto è difficile comprendere una privacy
policy.
• Riguardo la scelta è stato verificato se le privacy policies proprietarie e di terze parti
nominassero e rispettassero il segnale “Do Not Track”.
• Riguardo la sicurezza è stata verificata quale percentuale di siti web imponesse una
connessione crittata e quale percentuale di richieste verso soggetti di terze parti fosse crittata.
Quindi, nel porsi queste domande, il semplice cenno alla condivisione di dati con terze parti generiche
in una privacy policy non è stato considerato come un mezzo di notifica sufficiente. Sono state prese
in esame soltanto policies “umanamente leggibili” e si è scelto di considerare come unico veicolo di
scelta il rispetto del segnale “Do Not Track”. Infine, per determinare la sicurezza della trasmissione
dei dati è stato verificato l’utilizzo del protocollo SSL.
1
D’ora in avanti il termine “divulgazione” verrà inteso nel senso del termine inglese “disclosure”
4. 3
Metodologia
Per monitorare il traffico di terze parti che viene generato caricando una pagina web è stato utilizzato
il software webxray, mentre per identificare, estrarre e analizzare le privacy policies è stata sviluppata
una nuova estensione per webxray, chiamata policyxray.
Webxray è in grado di identificare le richieste verso terze parti eseguite quando viene caricato un sito
web. Una componente fondamentale di questo software è costituita dal database a cui è collegato, il
quale, fornito un dominio permette di associarlo alla rispettiva azienda che lo controlla.
Policyxray permette di individuare il link alla privacy policy di un sito web ed estrarne il testo. Per
facilitare la procedura di individuazione del contenuto di una policy esso fa uso della libreria
Javascript “Readibility.js” che permette di automatizzare la procedura di estrazione del contenuto di
una pagina.
Lo studio è stato condotto a ottobre 2017 e sono stati scansionati, tramite un calcolatore situato in un
istituto accademico negli Stati Uniti, un milione dei siti web più popolari secondo la classifica Alexa.
Il lavoro svolto si può suddividere nelle seguenti fasi:
1. È stata inserita la lista di siti web in webxray ed è stato quindi avviato, scegliendo come
browser PhantomJs. In una versione modificata del database sono stati ricercati i domini di
terze parti individuati da webxray ed è stata quindi stilata una lista delle aziende a essi
associate, per ogni sito web.
2. Tramite policyxray, per ogni sito web analizzato è stata individuata la relativa privacy policy
e ne è stato estratto il contenuto. Per verificare che i soggetti che raccolgono i dati fossero
inclusi nella privacy policy è stato ricercato nel testo il nome di ciascuno dei proprietari di
dominio (individuati precedentemente) e nel caso di risultati positivi, essi sono stati
considerati come divulgati.
3. Dall’elenco dei soggetti di terze parti più presenti nei siti web sono stati rimossi quelli relativi
a Content Delivery Network e a servizi di mitigazione DDoS. Per quelli rimanenti è stata scelta
manualmente la privacy policy principale, considerando quella più pertinente alla raccolta di
dati da terze parti, scritta in inglese.
4. Per verificare che lo standard DNT venisse rispettato si è ricercata all’interno del testo della
policy la stringa “do not track”. Ma la semplice presenza di tale citazione non implica che lo
standard venga rispettato, si è proceduto quindi a una successiva verifica manuale su un
campione casuale di privacy policies contenenti la stringa.
5. Infine, le policies sono state valutate per stabilirne la difficoltà di lettura e il tempo necessario
per leggerle interamente. Per la difficoltà di lettura è stata utilizzata la formula di Flesch
mentre per il tempo di lettura è stato assunto un tasso di lettura medio di 250 parole al minuto.
5. 4
Risultati
I risultati di questo studio permettono di avere una panoramica sul tracciamento nei siti web popolari,
sul tasso di divulgazione dei flussi di dati verso terze parti, sulla complessità e lunghezza delle privacy
policies, sul rispetto per lo standard “Do Not Track” e sulle pratiche di sicurezza adottate dai siti web
e dai soggetti di terze parti. Fra tutti i soggetti di terze parti individuati, sono stati scelti i 25 più attivi
nella raccolta e lavorazione dei dati.
Webxray ha caricato correttamente 938.093 siti e policyxray è stato in grado di estrarre 184.897
policies diverse, corrispondenti a 207.000 siti. Il numero delle policies è inferiore rispetto al numero
dei siti, poiché spesso quelli appartenenti agli stessi soggetti utilizzano le stesse policies.
Di tutte le trasmissioni dati verso terze parti
analizzate, soltanto il 14,80% veniva divulgato.
Inoltre, fra le 25 aziende di terze parti
considerate, il tasso medio di divulgazione fra
quelle che non offrono alcun servizio per i
consumatori era inferiore all’1%. In generale,
risulta quindi improbabile che gli utenti che
leggono le privacy policies dei siti web vengano
informati sui soggetti che raccolgono i loro dati.
L’analisi della leggibilità delle privacy policies
ha rivelato che esse hanno un punteggio medio
di Flesch di 39,83, corrispondente alla difficoltà
di un testo universitario. Inoltre, è stato
calcolato il tempo medio necessario a leggere
sia la privacy policy proprietaria che le policies
di terze parti relative a un sito web ed esso è
risultato pari a 84,7 minuti.
Fra tutti i siti analizzati, solo il 7% conteneva la
stringa “do not track” e un’analisi manuale su
un campione di policies ha evidenziato che nel
15,73% dei casi la presenza di quella stringa non
era relativa allo standard (per esempio a causa
dell’uso della frase “we do not track users”).
Nel 64,80% dei casi veniva invece specificato
che lo standard DNT non era rispettato. Infine,
nel 19,46% dei casi era contenuto un chiaro
riferimento al totale rispetto della scelta
effettuata tramite il meccanismo DNT.
Tabella 1: Incidenza di terze parti, uso di SSL, divulgazione nelle
policies.
Il simbolo † Indica che l’azienda offre servizi per i consumatori.
6. 5
Dei 25 data collectors più importanti solo 9
includevano lo standard DNT nelle loro policies e la
maggior parte di essi lo faceva soltanto per
comunicare che la scelta veniva ignorata.
Il 35,14% delle pagine esaminate forzavano l’uso del
protocollo SSL, con un’incidenza maggiore nei siti
con ranking più elevato (Figura 1). Infine, le
richieste di terze parti sono risultate crittate nel
66,82% dei casi mentre quelle proprietarie lo erano
soltanto nel 35,52% dei casi.
Conclusione
Lo studio di Libert dimostra che il principio “Notice and Choice” fallisce nel suo intento, infatti:
• La notifica viene meno per la divulgazione soltanto parziale dei soggetti di terze parti nelle
privacy policies e per l'eccessivo tempo necessario agli utenti per leggerle.
• La scelta viene meno per l’irrisorio rispetto dell’header “Do Not Track” e l’impossibilità
quindi per un utente di poter decidere se, e da parte di chi, essere tracciato.
Evidenzia inoltre che in ambito della sicurezza delle trasmissioni di dati i soggetti di terze parti
attuano delle pratiche migliori rispetto ai siti proprietari, ma con un importante inconsistenza fra di
essi, rendendo quindi lampante la necessità di imporre degli standard a riguardo.
Secondo Libert, lo studio presenta alcuni limiti che potrebbero aver alterato i risultati infatti:
• PhantomJs in certi casi può non riuscire a caricare correttamente alcune pagine.
• L’estrazione del testo delle policy non è perfetta e può portare a falsi positivi o falsi negativi.
• Caricare la pagina una sola volta può portare alla mancata individuazione di alcuni soggetti
di terze parti a causa della natura variabile degli annunci pubblicitari.
• È possibile che alcuni soggetti non siano ancora presenti nel database di webxray.
Ciò nonostante, questi risultati costituiscono il primo lavoro di ricerca in grado di fornire un quadro
generale sullo stato attuale della divulgazione, nelle privacy policies, dei soggetti coinvolti nel
flusso di dati verso terze parti.
Figura 1: Siti con un ranking più alto impongono l’uso di SSL più
spesso (blu), ma contengono più richieste di terze parti (rosso).
7. 6
Bibliografia
Libert Timothy, “An Automated Approach to Auditing Disclosure of Third-Party Data Collection in
Website Privacy Policies”, in Proceedings of the 2018 World Wide Web Conference (WWW '18),
Lyon, France, 2018, pp. 207-216