Elaborazione e rappresentazione grafica e interattiva dell'informazione
Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories
1. Università degli Studi di Trieste
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
Tesi di Laurea Triennale
Extended Summary of:
“Why We Still Can’t Browse in Peace:
On the Uniqueness and Reidentifiability of
Web Browsing Histories”
Laureando:
Diego Bartoli Geijo
Relatore:
prof. Andrea De Lorenzo
ANNO ACCADEMICO 2020–2021
2. 1 Introduzione
La crescente diffusione di poche aziende dominanti che forniscono servizi di
tracking su larga scala, permette a queste di avere accesso ad una quantità
sempre maggiore di informazioni sulla navigazione web. I dati raccolti sono
organizzati prevalentemente tramite l’utilizzo dei cookie, associati alle sessioni
di ogni singolo browser. Tuttavia i cookie hanno durata limitata e possono
essere cancellati periodicamente dagli utenti. Poter associare tra loro dati di uno
stesso browser, identificati da cookie diversi, permetterebbe a queste aziende di
ottenere dei profili dei browser più completi. La possibilità di implementare
una profilazione che permetta di reidentificare un browser in sessioni diverse è
quindi un’importante minaccia per la privacy degli utenti del web.
Nell’articolo analizzato [1] viene studiata la possibilità, per siti web e terze
parti, di utilizzare la browsing history di un browser come identificatore univoco
e reidentificatore del browser.
2 Metodo
I dati utilizzati per questa ricerca sono stati ottenuti da circa 52 000 utenti
Firefox, che hanno scelto di condividere le rispettive browsing history tramite
un’estensione del browser resa disponibile dal framework OpenWPM [2].
I dati sono stati raccolti per 7 giorni, non raccolti per i successivi 7 giorni, e
poi raccolti nuovamente per altri 7 giorni.
Sono state analizzate 3 rappresentazioni diverse per ogni browsing history.
Ogni rappresentazione consiste di un vettore booleano. Nei primi due vettori
ogni elemento indica la presenza o meno di un certo dominio nella browsing hi-
story considerata, nel terzo ogni elemento indica la presenza o meno di una certa
categoria (insieme di domini). Il primo vettore comprende tutti i circa 660 000
domini diversi osservati, ordinati in ordine decrescente per numero di visite. Il
secondo vettore comprende 10 000 domini, risultanti dall’unione senza duplicati
delle classifiche dei 10 000 domini più visitati delle aziende Alexa e Trenco. Que-
sta lista di domini è stata denominata Trexa [4]. La lista Trexa è stata utilizzata
per costruire il terzo vettore, comprendente 281 categorie diverse di domini. La
categorizzazione dei domini è stata svolta utilizzando la WebShrinker API [5].
Le categorie sono state poi ordinate in ordine decrescente per numero di visite
ai domini appartenenti alla categoria, come per il primo vettore.
3 Terminologia
Viene usato il termine utente per riferirsi a un certo browser, caratterizzato
da una determinata browsing history. Il termine profilo identifica l’insieme di
1
3. domini distinti, o categorie, visitati da un certo utente in un dato intervallo di
tempo. La dimensione di un profilo è il numero di domini, o categorie, presenti
nel profilo. Il termine vettore profilo identifica la rappresentazione vettoriale
di un profilo, realizzata con una delle 3 modalità descritte nella sezione 2. Un
sottovettore di dimensione k di un vettore profilo è un vettore comprendente i
primi k elementi del vettore profilo. È dunque la rappresentazione vettoriale del
profilo quando vengono considerati soltanto i primi k domini, o categorie.
4 Risultati
Unicità Un profilo è detto unico se è associato a un singolo utente. Nella
tabella sottostante sono riportati il numero di profili diversi ottenuti con ogni
rappresentazione e la rispettiva percentuale di unicità.
Rappresentazione Num.profili % Unicità
All domains 51 035 99.65%
Trexa 48 919 99.14%
Category 43 348 97.24%
Il grafico in figura 1 rappresenta la percentuale di sottovettori unici di dimen-
sione k al crescere del valore di k (in questo grafico gli autori usano il termine
profili per riferirsi ai sottovettori). Si osserva che per la rappresentazione con
Figura 1: Unicità al variare di k
tutti i domini e per quella con le categorie la percentuale di unicità è molto
elevata già per k = 50. La crescita è più lenta per la rappresentazione con la
lista Trexa, poichè questa ha un ordinamento indipendente dal comportamento
degli utenti.
Reidentificabilità Per studiare la reidentificabilità degli utenti vengono se-
parati i dati della prima settimana di osservazione da quelli della seconda. Non
viene utilizzata la rappresentazione con le categorie, tale scelta non è motivata
dagli autori. Per ogni utente viene calcolata la distanza di Jaccard tra il vettore
2
4. profilo dell’utente costruito con i dati della prima settimana e tutti i vettori
profilo costruiti con i dati della seconda settimana. Si associa ad ogni vettore
profilo della prima settimana il vettore profilo della seconda settimana con cui
ha la distanza di Jaccard minore. Se tale vettore profilo non è unico verrà scelto
un vettore profilo a caso tra quelli con distanza minima. Un utente è considerato
reidentificato se l’associazione tra i vettori profilo delle due settimane è corretta.
Viene studiata la percentuale di reidentificabilità al variare della dimensione k
dei sottovettori considerati. Vengono inclusi solo gli utenti con un profilo di
dimensione minima 50, il 37% degli utenti totali. Per ridurre la dipendenza del
risultato dal campione di utenti a disposizione e ottenere un opportuno inter-
vallo di confidenza, viene eseguito un campionamento con la tecnica bootstrap
10 000 volte. I risultati sono illustrati nel grafico in figura 2. Si può osservare
Figura 2: Reidentificabilità al variare di k
che la percentuale di reidentificabilità cresce al crescere del valore di k.
Viene poi studiata la scalabilità del metodo rispetto al numero di utenti conside-
rati. Per effettuare tale analisi servirebbero i dati di un numero di utenti molto
maggiore, non disponibili per questa ricerca. Per ovviare a questo problema
gli autori procedono come segue. Sono considerati i soli utenti con dimensione
del profilo maggiore di 50. Sia l’insieme dei vettori profilo di tutti i domini
osservati l’insieme di partenza. Vengono generati automaticamente dei vettori
profilo aggiuntivi, con distribuzione di probabilità uguale a quella dell’insieme
di partenza (metodo Monte Carlo). Viene quindi svolto il calcolo della rei-
dentificabilità, utilizzando i sottovettori di dimensione 10 000 dei vettori profilo
considerati. Dall’analisi dei risultati si osserva che la percentuale di reidentifica-
bilità diminuisce all’aumentare del numero di utenti considerati ma non scende
mai sotto al 50% circa. Una riduzione di un ordine di grandezza del numero
di utenti porta ad un aumento del 10% della percentuale di reidentificabilità.
3
5. Figura 3: Reidentificabilità per diverse dimensioni dei profili al variare di k
Gli autori evidenziano, tuttavia, che non si può affermare con certezza che si
otterrebbero le stesse conclusioni considerando milioni di utenti.
Viene infine studiato l’impatto della dimensione dei profili sulla percentuale di
reidentificabilità. Gli utenti vengono divisi in 7 gruppi in base alla dimensione
del loro profilo. Il gruppo i ∈ [1, 6] comprende gli utenti con dimensione del
profilo d ∈ [(i − 1) × 25 + 1, i × 25]. Il settimo gruppo comprende gli utenti con
dimensione del profilo d >= 151. Il gruppo col minor numero di utenti conta
1766 utenti. Per tutti gli altri gruppi sono scelti a caso 1766 utenti diversi, per
evitare che il numero di utenti influisca sulla percentuale di reidentificabilità.
Per ogni gruppo viene studiata la percentuale di reidentificabilità al variare del-
la dimensione k dei sottovettori considerati. Viene eseguito un campionamento
con la tecnica bootstrap, come nella prima analisi sulla reidentificabilità, per
ogni gruppo e k considerati. I risultati sono esposti nel grafico in figura 3. La
percentuale di reidentificabilità aumenta al crescere della dimensione dei profili
per ogni k considerato, tuttavia l’aumento non è lineare.
4
6. Terze parti Viene stimata la percentuale di reidentificabilità che può essere
raggiunta dalle terze parti più frequenti. La definizione di terza parte è comples-
Figura 4: Reidentificabilità teorica raggiunta da terze parti
sa poichè sempre più aziende offrono servizi su più domini, quindi domini diversi
possono corrispondere alla stessa azienda. Per ovviare a questo problema viene
utilizzata la webXray domain list [3] che collega domini diversi appartenenti alla
stessa azienda. Tutti i domini osservati sono associati alla parent entity corri-
spondente del webXray dataset. Se il traffico per la visualizzazione dei contenuti
di un sito comprende traffico verso domini con parent entity diversa da quella
del dominio del sito, la parent entity di quei domini viene classificata come terza
parte. Per determinare le terze parti più frequenti vengono usate due metriche:
il numero di entità diverse in cui un’entità è stata osservata come terza parte e
il numero di utenti diversi che hanno visitato una certa entità come terza parte.
Viene considerata l’unione delle prime 50 entità secondo ogni metrica e vengono
scartate le entità visitate da meno di 5000 utenti. La lista risultante comprende
60 entità diverse. Vengono considerati i soli domini visibili ad almeno una terza
parte, tra i primi 10 000 osservati. I risultati sono esposti nel grafico in figura 4,
5
7. il calcolo viene eseguito per 3 gruppi diversi. Si osserva che grandi compagnie
come Alphabet o Facebook hanno un tasso di reidentificabilità teorico quasi
uguale a quello raggiunto con i dati completi sulla navigazione a disposizione.
5 Conclusione
I risultati dello studio dimostrano che è effettivamente possibile, per le aziende
del settore del tracking online, reidentificare i browser tramite le loro browsing
history. Il rischio per la privacy degli utenti è quindi concreto. Gli autori
ritengono inoltre che molte aziende possano raggiungere una percentuale di rei-
dentificabilità più alta di quella stimata in questo studio, per vari motivi: (1) il
campione di utenti studiato potrebbe essere più omogeneo dell’intera popola-
zione di utenti; (2) esistono metriche potenzialmente più adatte al calcolo della
reidentificabilità della distanza di Jaccard; (3) le aziende possiedono molti altri
dati utili sugli utenti oltre alle browsing history, quali indirizzi IP, device fin-
gerprinting, attività sui social media o indirizzi email usati per login; (4) gli
utenti possono essere suddivisi in vari sottoinsiemi per il calcolo della reidenti-
ficabiltà, in base ai device fingerprint dei loro dispositivi. Quest’ultimo punto
è particolarmente importante perchè, come visto nella sezione 4, il tasso di rei-
dentificabilità aumenta al diminuire del numero di utenti considerati.
Riferimenti bibliografici
[1] Sarah Bird, Ilana Segall e Martin Lopatka. Replication: Why We Still Can’t
Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing
Histories. Sixteenth Symposium on Usable Privacy and Security(SOUPS
2020). USENIX Association, 2020.
[2] Steven Englehardt e Arvind Narayanan. OpenWPM. https://github.
com/mozilla/OpenWPM.
[3] Tim Libert. webXray Domain Owner List. https://github.com/timlib/
webXray_Domain_Owner_List.
[4] Firefox Machine Learning Team. Trexa. https://github.com/mozilla/
trexa.
[5] Webshrinker. Webshrinker apis. https://www.webshrinker.com/apis.
6