SlideShare a Scribd company logo
1 of 7
Download to read offline
Università degli Studi di Trieste
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
Tesi di Laurea Triennale
Extended Summary of:
“Why We Still Can’t Browse in Peace:
On the Uniqueness and Reidentifiability of
Web Browsing Histories”
Laureando:
Diego Bartoli Geijo
Relatore:
prof. Andrea De Lorenzo
ANNO ACCADEMICO 2020–2021
1 Introduzione
La crescente diffusione di poche aziende dominanti che forniscono servizi di
tracking su larga scala, permette a queste di avere accesso ad una quantità
sempre maggiore di informazioni sulla navigazione web. I dati raccolti sono
organizzati prevalentemente tramite l’utilizzo dei cookie, associati alle sessioni
di ogni singolo browser. Tuttavia i cookie hanno durata limitata e possono
essere cancellati periodicamente dagli utenti. Poter associare tra loro dati di uno
stesso browser, identificati da cookie diversi, permetterebbe a queste aziende di
ottenere dei profili dei browser più completi. La possibilità di implementare
una profilazione che permetta di reidentificare un browser in sessioni diverse è
quindi un’importante minaccia per la privacy degli utenti del web.
Nell’articolo analizzato [1] viene studiata la possibilità, per siti web e terze
parti, di utilizzare la browsing history di un browser come identificatore univoco
e reidentificatore del browser.
2 Metodo
I dati utilizzati per questa ricerca sono stati ottenuti da circa 52 000 utenti
Firefox, che hanno scelto di condividere le rispettive browsing history tramite
un’estensione del browser resa disponibile dal framework OpenWPM [2].
I dati sono stati raccolti per 7 giorni, non raccolti per i successivi 7 giorni, e
poi raccolti nuovamente per altri 7 giorni.
Sono state analizzate 3 rappresentazioni diverse per ogni browsing history.
Ogni rappresentazione consiste di un vettore booleano. Nei primi due vettori
ogni elemento indica la presenza o meno di un certo dominio nella browsing hi-
story considerata, nel terzo ogni elemento indica la presenza o meno di una certa
categoria (insieme di domini). Il primo vettore comprende tutti i circa 660 000
domini diversi osservati, ordinati in ordine decrescente per numero di visite. Il
secondo vettore comprende 10 000 domini, risultanti dall’unione senza duplicati
delle classifiche dei 10 000 domini più visitati delle aziende Alexa e Trenco. Que-
sta lista di domini è stata denominata Trexa [4]. La lista Trexa è stata utilizzata
per costruire il terzo vettore, comprendente 281 categorie diverse di domini. La
categorizzazione dei domini è stata svolta utilizzando la WebShrinker API [5].
Le categorie sono state poi ordinate in ordine decrescente per numero di visite
ai domini appartenenti alla categoria, come per il primo vettore.
3 Terminologia
Viene usato il termine utente per riferirsi a un certo browser, caratterizzato
da una determinata browsing history. Il termine profilo identifica l’insieme di
1
domini distinti, o categorie, visitati da un certo utente in un dato intervallo di
tempo. La dimensione di un profilo è il numero di domini, o categorie, presenti
nel profilo. Il termine vettore profilo identifica la rappresentazione vettoriale
di un profilo, realizzata con una delle 3 modalità descritte nella sezione 2. Un
sottovettore di dimensione k di un vettore profilo è un vettore comprendente i
primi k elementi del vettore profilo. È dunque la rappresentazione vettoriale del
profilo quando vengono considerati soltanto i primi k domini, o categorie.
4 Risultati
Unicità Un profilo è detto unico se è associato a un singolo utente. Nella
tabella sottostante sono riportati il numero di profili diversi ottenuti con ogni
rappresentazione e la rispettiva percentuale di unicità.
Rappresentazione Num.profili % Unicità
All domains 51 035 99.65%
Trexa 48 919 99.14%
Category 43 348 97.24%
Il grafico in figura 1 rappresenta la percentuale di sottovettori unici di dimen-
sione k al crescere del valore di k (in questo grafico gli autori usano il termine
profili per riferirsi ai sottovettori). Si osserva che per la rappresentazione con
Figura 1: Unicità al variare di k
tutti i domini e per quella con le categorie la percentuale di unicità è molto
elevata già per k = 50. La crescita è più lenta per la rappresentazione con la
lista Trexa, poichè questa ha un ordinamento indipendente dal comportamento
degli utenti.
Reidentificabilità Per studiare la reidentificabilità degli utenti vengono se-
parati i dati della prima settimana di osservazione da quelli della seconda. Non
viene utilizzata la rappresentazione con le categorie, tale scelta non è motivata
dagli autori. Per ogni utente viene calcolata la distanza di Jaccard tra il vettore
2
profilo dell’utente costruito con i dati della prima settimana e tutti i vettori
profilo costruiti con i dati della seconda settimana. Si associa ad ogni vettore
profilo della prima settimana il vettore profilo della seconda settimana con cui
ha la distanza di Jaccard minore. Se tale vettore profilo non è unico verrà scelto
un vettore profilo a caso tra quelli con distanza minima. Un utente è considerato
reidentificato se l’associazione tra i vettori profilo delle due settimane è corretta.
Viene studiata la percentuale di reidentificabilità al variare della dimensione k
dei sottovettori considerati. Vengono inclusi solo gli utenti con un profilo di
dimensione minima 50, il 37% degli utenti totali. Per ridurre la dipendenza del
risultato dal campione di utenti a disposizione e ottenere un opportuno inter-
vallo di confidenza, viene eseguito un campionamento con la tecnica bootstrap
10 000 volte. I risultati sono illustrati nel grafico in figura 2. Si può osservare
Figura 2: Reidentificabilità al variare di k
che la percentuale di reidentificabilità cresce al crescere del valore di k.
Viene poi studiata la scalabilità del metodo rispetto al numero di utenti conside-
rati. Per effettuare tale analisi servirebbero i dati di un numero di utenti molto
maggiore, non disponibili per questa ricerca. Per ovviare a questo problema
gli autori procedono come segue. Sono considerati i soli utenti con dimensione
del profilo maggiore di 50. Sia l’insieme dei vettori profilo di tutti i domini
osservati l’insieme di partenza. Vengono generati automaticamente dei vettori
profilo aggiuntivi, con distribuzione di probabilità uguale a quella dell’insieme
di partenza (metodo Monte Carlo). Viene quindi svolto il calcolo della rei-
dentificabilità, utilizzando i sottovettori di dimensione 10 000 dei vettori profilo
considerati. Dall’analisi dei risultati si osserva che la percentuale di reidentifica-
bilità diminuisce all’aumentare del numero di utenti considerati ma non scende
mai sotto al 50% circa. Una riduzione di un ordine di grandezza del numero
di utenti porta ad un aumento del 10% della percentuale di reidentificabilità.
3
Figura 3: Reidentificabilità per diverse dimensioni dei profili al variare di k
Gli autori evidenziano, tuttavia, che non si può affermare con certezza che si
otterrebbero le stesse conclusioni considerando milioni di utenti.
Viene infine studiato l’impatto della dimensione dei profili sulla percentuale di
reidentificabilità. Gli utenti vengono divisi in 7 gruppi in base alla dimensione
del loro profilo. Il gruppo i ∈ [1, 6] comprende gli utenti con dimensione del
profilo d ∈ [(i − 1) × 25 + 1, i × 25]. Il settimo gruppo comprende gli utenti con
dimensione del profilo d >= 151. Il gruppo col minor numero di utenti conta
1766 utenti. Per tutti gli altri gruppi sono scelti a caso 1766 utenti diversi, per
evitare che il numero di utenti influisca sulla percentuale di reidentificabilità.
Per ogni gruppo viene studiata la percentuale di reidentificabilità al variare del-
la dimensione k dei sottovettori considerati. Viene eseguito un campionamento
con la tecnica bootstrap, come nella prima analisi sulla reidentificabilità, per
ogni gruppo e k considerati. I risultati sono esposti nel grafico in figura 3. La
percentuale di reidentificabilità aumenta al crescere della dimensione dei profili
per ogni k considerato, tuttavia l’aumento non è lineare.
4
Terze parti Viene stimata la percentuale di reidentificabilità che può essere
raggiunta dalle terze parti più frequenti. La definizione di terza parte è comples-
Figura 4: Reidentificabilità teorica raggiunta da terze parti
sa poichè sempre più aziende offrono servizi su più domini, quindi domini diversi
possono corrispondere alla stessa azienda. Per ovviare a questo problema viene
utilizzata la webXray domain list [3] che collega domini diversi appartenenti alla
stessa azienda. Tutti i domini osservati sono associati alla parent entity corri-
spondente del webXray dataset. Se il traffico per la visualizzazione dei contenuti
di un sito comprende traffico verso domini con parent entity diversa da quella
del dominio del sito, la parent entity di quei domini viene classificata come terza
parte. Per determinare le terze parti più frequenti vengono usate due metriche:
il numero di entità diverse in cui un’entità è stata osservata come terza parte e
il numero di utenti diversi che hanno visitato una certa entità come terza parte.
Viene considerata l’unione delle prime 50 entità secondo ogni metrica e vengono
scartate le entità visitate da meno di 5000 utenti. La lista risultante comprende
60 entità diverse. Vengono considerati i soli domini visibili ad almeno una terza
parte, tra i primi 10 000 osservati. I risultati sono esposti nel grafico in figura 4,
5
il calcolo viene eseguito per 3 gruppi diversi. Si osserva che grandi compagnie
come Alphabet o Facebook hanno un tasso di reidentificabilità teorico quasi
uguale a quello raggiunto con i dati completi sulla navigazione a disposizione.
5 Conclusione
I risultati dello studio dimostrano che è effettivamente possibile, per le aziende
del settore del tracking online, reidentificare i browser tramite le loro browsing
history. Il rischio per la privacy degli utenti è quindi concreto. Gli autori
ritengono inoltre che molte aziende possano raggiungere una percentuale di rei-
dentificabilità più alta di quella stimata in questo studio, per vari motivi: (1) il
campione di utenti studiato potrebbe essere più omogeneo dell’intera popola-
zione di utenti; (2) esistono metriche potenzialmente più adatte al calcolo della
reidentificabilità della distanza di Jaccard; (3) le aziende possiedono molti altri
dati utili sugli utenti oltre alle browsing history, quali indirizzi IP, device fin-
gerprinting, attività sui social media o indirizzi email usati per login; (4) gli
utenti possono essere suddivisi in vari sottoinsiemi per il calcolo della reidenti-
ficabiltà, in base ai device fingerprint dei loro dispositivi. Quest’ultimo punto
è particolarmente importante perchè, come visto nella sezione 4, il tasso di rei-
dentificabilità aumenta al diminuire del numero di utenti considerati.
Riferimenti bibliografici
[1] Sarah Bird, Ilana Segall e Martin Lopatka. Replication: Why We Still Can’t
Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing
Histories. Sixteenth Symposium on Usable Privacy and Security(SOUPS
2020). USENIX Association, 2020.
[2] Steven Englehardt e Arvind Narayanan. OpenWPM. https://github.
com/mozilla/OpenWPM.
[3] Tim Libert. webXray Domain Owner List. https://github.com/timlib/
webXray_Domain_Owner_List.
[4] Firefox Machine Learning Team. Trexa. https://github.com/mozilla/
trexa.
[5] Webshrinker. Webshrinker apis. https://www.webshrinker.com/apis.
6

More Related Content

Similar to Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories

Measuring third party dynamics in the field
Measuring third party dynamics in the fieldMeasuring third party dynamics in the field
Measuring third party dynamics in the fieldPierfrancescoBin
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesDavidePanarella
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017Studiabo
 
Differenziazione Sociale Mark Noah
Differenziazione Sociale Mark NoahDifferenziazione Sociale Mark Noah
Differenziazione Sociale Mark NoahMatteo Senardi
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei networkmttdlllbr
 
Policy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google playPolicy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google playMicheleSimeoni
 
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Matteo Makovec
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...EnricoDavanzo1
 
Social Network Analysis
Social Network Analysis Social Network Analysis
Social Network Analysis Claudia Licari
 
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...FedericoRaimondi4
 
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Dario Crosera
 
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...GiacomoBonora3
 
DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataAndrea Casagrande
 
Tweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsTweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsAndrea Capozio
 
Elaborazione e rappresentazione grafica e interattiva dell'informazione
Elaborazione e rappresentazione grafica e interattiva dell'informazioneElaborazione e rappresentazione grafica e interattiva dell'informazione
Elaborazione e rappresentazione grafica e interattiva dell'informazioneAlket Cecaj
 

Similar to Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories (20)

Measuring third party dynamics in the field
Measuring third party dynamics in the fieldMeasuring third party dynamics in the field
Measuring third party dynamics in the field
 
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm RoutinesCOUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
COUGAR: Clustering Of Unknown malware using Genetic Algorithm Routines
 
Data mining 00-corso2017
Data mining 00-corso2017Data mining 00-corso2017
Data mining 00-corso2017
 
Differenziazione Sociale Mark Noah
Differenziazione Sociale Mark NoahDifferenziazione Sociale Mark Noah
Differenziazione Sociale Mark Noah
 
Visualizzazione dei network
Visualizzazione dei networkVisualizzazione dei network
Visualizzazione dei network
 
Policy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google playPolicy lint investigating internal privacy policy contradictions on google play
Policy lint investigating internal privacy policy contradictions on google play
 
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
 
La tesi in slide
La tesi in slideLa tesi in slide
La tesi in slide
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
 
Social Network Analysis
Social Network Analysis Social Network Analysis
Social Network Analysis
 
Tesi garasi
Tesi garasiTesi garasi
Tesi garasi
 
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
 
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
Classificazione delle segnalazioni cliente in base alla rilevanza secondo tec...
 
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
 
DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
 
Elaborato Tesi
Elaborato TesiElaborato Tesi
Elaborato Tesi
 
Enel Opencompany
Enel OpencompanyEnel Opencompany
Enel Opencompany
 
Tweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining AlgorithmsTweet Analysis with Text Mining Algorithms
Tweet Analysis with Text Mining Algorithms
 
Smart City Analysis
Smart City AnalysisSmart City Analysis
Smart City Analysis
 
Elaborazione e rappresentazione grafica e interattiva dell'informazione
Elaborazione e rappresentazione grafica e interattiva dell'informazioneElaborazione e rappresentazione grafica e interattiva dell'informazione
Elaborazione e rappresentazione grafica e interattiva dell'informazione
 

Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories

  • 1. Università degli Studi di Trieste Dipartimento di Ingegneria e Architettura Corso di Studi in Ingegneria Elettronica e Informatica Tesi di Laurea Triennale Extended Summary of: “Why We Still Can’t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories” Laureando: Diego Bartoli Geijo Relatore: prof. Andrea De Lorenzo ANNO ACCADEMICO 2020–2021
  • 2. 1 Introduzione La crescente diffusione di poche aziende dominanti che forniscono servizi di tracking su larga scala, permette a queste di avere accesso ad una quantità sempre maggiore di informazioni sulla navigazione web. I dati raccolti sono organizzati prevalentemente tramite l’utilizzo dei cookie, associati alle sessioni di ogni singolo browser. Tuttavia i cookie hanno durata limitata e possono essere cancellati periodicamente dagli utenti. Poter associare tra loro dati di uno stesso browser, identificati da cookie diversi, permetterebbe a queste aziende di ottenere dei profili dei browser più completi. La possibilità di implementare una profilazione che permetta di reidentificare un browser in sessioni diverse è quindi un’importante minaccia per la privacy degli utenti del web. Nell’articolo analizzato [1] viene studiata la possibilità, per siti web e terze parti, di utilizzare la browsing history di un browser come identificatore univoco e reidentificatore del browser. 2 Metodo I dati utilizzati per questa ricerca sono stati ottenuti da circa 52 000 utenti Firefox, che hanno scelto di condividere le rispettive browsing history tramite un’estensione del browser resa disponibile dal framework OpenWPM [2]. I dati sono stati raccolti per 7 giorni, non raccolti per i successivi 7 giorni, e poi raccolti nuovamente per altri 7 giorni. Sono state analizzate 3 rappresentazioni diverse per ogni browsing history. Ogni rappresentazione consiste di un vettore booleano. Nei primi due vettori ogni elemento indica la presenza o meno di un certo dominio nella browsing hi- story considerata, nel terzo ogni elemento indica la presenza o meno di una certa categoria (insieme di domini). Il primo vettore comprende tutti i circa 660 000 domini diversi osservati, ordinati in ordine decrescente per numero di visite. Il secondo vettore comprende 10 000 domini, risultanti dall’unione senza duplicati delle classifiche dei 10 000 domini più visitati delle aziende Alexa e Trenco. Que- sta lista di domini è stata denominata Trexa [4]. La lista Trexa è stata utilizzata per costruire il terzo vettore, comprendente 281 categorie diverse di domini. La categorizzazione dei domini è stata svolta utilizzando la WebShrinker API [5]. Le categorie sono state poi ordinate in ordine decrescente per numero di visite ai domini appartenenti alla categoria, come per il primo vettore. 3 Terminologia Viene usato il termine utente per riferirsi a un certo browser, caratterizzato da una determinata browsing history. Il termine profilo identifica l’insieme di 1
  • 3. domini distinti, o categorie, visitati da un certo utente in un dato intervallo di tempo. La dimensione di un profilo è il numero di domini, o categorie, presenti nel profilo. Il termine vettore profilo identifica la rappresentazione vettoriale di un profilo, realizzata con una delle 3 modalità descritte nella sezione 2. Un sottovettore di dimensione k di un vettore profilo è un vettore comprendente i primi k elementi del vettore profilo. È dunque la rappresentazione vettoriale del profilo quando vengono considerati soltanto i primi k domini, o categorie. 4 Risultati Unicità Un profilo è detto unico se è associato a un singolo utente. Nella tabella sottostante sono riportati il numero di profili diversi ottenuti con ogni rappresentazione e la rispettiva percentuale di unicità. Rappresentazione Num.profili % Unicità All domains 51 035 99.65% Trexa 48 919 99.14% Category 43 348 97.24% Il grafico in figura 1 rappresenta la percentuale di sottovettori unici di dimen- sione k al crescere del valore di k (in questo grafico gli autori usano il termine profili per riferirsi ai sottovettori). Si osserva che per la rappresentazione con Figura 1: Unicità al variare di k tutti i domini e per quella con le categorie la percentuale di unicità è molto elevata già per k = 50. La crescita è più lenta per la rappresentazione con la lista Trexa, poichè questa ha un ordinamento indipendente dal comportamento degli utenti. Reidentificabilità Per studiare la reidentificabilità degli utenti vengono se- parati i dati della prima settimana di osservazione da quelli della seconda. Non viene utilizzata la rappresentazione con le categorie, tale scelta non è motivata dagli autori. Per ogni utente viene calcolata la distanza di Jaccard tra il vettore 2
  • 4. profilo dell’utente costruito con i dati della prima settimana e tutti i vettori profilo costruiti con i dati della seconda settimana. Si associa ad ogni vettore profilo della prima settimana il vettore profilo della seconda settimana con cui ha la distanza di Jaccard minore. Se tale vettore profilo non è unico verrà scelto un vettore profilo a caso tra quelli con distanza minima. Un utente è considerato reidentificato se l’associazione tra i vettori profilo delle due settimane è corretta. Viene studiata la percentuale di reidentificabilità al variare della dimensione k dei sottovettori considerati. Vengono inclusi solo gli utenti con un profilo di dimensione minima 50, il 37% degli utenti totali. Per ridurre la dipendenza del risultato dal campione di utenti a disposizione e ottenere un opportuno inter- vallo di confidenza, viene eseguito un campionamento con la tecnica bootstrap 10 000 volte. I risultati sono illustrati nel grafico in figura 2. Si può osservare Figura 2: Reidentificabilità al variare di k che la percentuale di reidentificabilità cresce al crescere del valore di k. Viene poi studiata la scalabilità del metodo rispetto al numero di utenti conside- rati. Per effettuare tale analisi servirebbero i dati di un numero di utenti molto maggiore, non disponibili per questa ricerca. Per ovviare a questo problema gli autori procedono come segue. Sono considerati i soli utenti con dimensione del profilo maggiore di 50. Sia l’insieme dei vettori profilo di tutti i domini osservati l’insieme di partenza. Vengono generati automaticamente dei vettori profilo aggiuntivi, con distribuzione di probabilità uguale a quella dell’insieme di partenza (metodo Monte Carlo). Viene quindi svolto il calcolo della rei- dentificabilità, utilizzando i sottovettori di dimensione 10 000 dei vettori profilo considerati. Dall’analisi dei risultati si osserva che la percentuale di reidentifica- bilità diminuisce all’aumentare del numero di utenti considerati ma non scende mai sotto al 50% circa. Una riduzione di un ordine di grandezza del numero di utenti porta ad un aumento del 10% della percentuale di reidentificabilità. 3
  • 5. Figura 3: Reidentificabilità per diverse dimensioni dei profili al variare di k Gli autori evidenziano, tuttavia, che non si può affermare con certezza che si otterrebbero le stesse conclusioni considerando milioni di utenti. Viene infine studiato l’impatto della dimensione dei profili sulla percentuale di reidentificabilità. Gli utenti vengono divisi in 7 gruppi in base alla dimensione del loro profilo. Il gruppo i ∈ [1, 6] comprende gli utenti con dimensione del profilo d ∈ [(i − 1) × 25 + 1, i × 25]. Il settimo gruppo comprende gli utenti con dimensione del profilo d >= 151. Il gruppo col minor numero di utenti conta 1766 utenti. Per tutti gli altri gruppi sono scelti a caso 1766 utenti diversi, per evitare che il numero di utenti influisca sulla percentuale di reidentificabilità. Per ogni gruppo viene studiata la percentuale di reidentificabilità al variare del- la dimensione k dei sottovettori considerati. Viene eseguito un campionamento con la tecnica bootstrap, come nella prima analisi sulla reidentificabilità, per ogni gruppo e k considerati. I risultati sono esposti nel grafico in figura 3. La percentuale di reidentificabilità aumenta al crescere della dimensione dei profili per ogni k considerato, tuttavia l’aumento non è lineare. 4
  • 6. Terze parti Viene stimata la percentuale di reidentificabilità che può essere raggiunta dalle terze parti più frequenti. La definizione di terza parte è comples- Figura 4: Reidentificabilità teorica raggiunta da terze parti sa poichè sempre più aziende offrono servizi su più domini, quindi domini diversi possono corrispondere alla stessa azienda. Per ovviare a questo problema viene utilizzata la webXray domain list [3] che collega domini diversi appartenenti alla stessa azienda. Tutti i domini osservati sono associati alla parent entity corri- spondente del webXray dataset. Se il traffico per la visualizzazione dei contenuti di un sito comprende traffico verso domini con parent entity diversa da quella del dominio del sito, la parent entity di quei domini viene classificata come terza parte. Per determinare le terze parti più frequenti vengono usate due metriche: il numero di entità diverse in cui un’entità è stata osservata come terza parte e il numero di utenti diversi che hanno visitato una certa entità come terza parte. Viene considerata l’unione delle prime 50 entità secondo ogni metrica e vengono scartate le entità visitate da meno di 5000 utenti. La lista risultante comprende 60 entità diverse. Vengono considerati i soli domini visibili ad almeno una terza parte, tra i primi 10 000 osservati. I risultati sono esposti nel grafico in figura 4, 5
  • 7. il calcolo viene eseguito per 3 gruppi diversi. Si osserva che grandi compagnie come Alphabet o Facebook hanno un tasso di reidentificabilità teorico quasi uguale a quello raggiunto con i dati completi sulla navigazione a disposizione. 5 Conclusione I risultati dello studio dimostrano che è effettivamente possibile, per le aziende del settore del tracking online, reidentificare i browser tramite le loro browsing history. Il rischio per la privacy degli utenti è quindi concreto. Gli autori ritengono inoltre che molte aziende possano raggiungere una percentuale di rei- dentificabilità più alta di quella stimata in questo studio, per vari motivi: (1) il campione di utenti studiato potrebbe essere più omogeneo dell’intera popola- zione di utenti; (2) esistono metriche potenzialmente più adatte al calcolo della reidentificabilità della distanza di Jaccard; (3) le aziende possiedono molti altri dati utili sugli utenti oltre alle browsing history, quali indirizzi IP, device fin- gerprinting, attività sui social media o indirizzi email usati per login; (4) gli utenti possono essere suddivisi in vari sottoinsiemi per il calcolo della reidenti- ficabiltà, in base ai device fingerprint dei loro dispositivi. Quest’ultimo punto è particolarmente importante perchè, come visto nella sezione 4, il tasso di rei- dentificabilità aumenta al diminuire del numero di utenti considerati. Riferimenti bibliografici [1] Sarah Bird, Ilana Segall e Martin Lopatka. Replication: Why We Still Can’t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories. Sixteenth Symposium on Usable Privacy and Security(SOUPS 2020). USENIX Association, 2020. [2] Steven Englehardt e Arvind Narayanan. OpenWPM. https://github. com/mozilla/OpenWPM. [3] Tim Libert. webXray Domain Owner List. https://github.com/timlib/ webXray_Domain_Owner_List. [4] Firefox Machine Learning Team. Trexa. https://github.com/mozilla/ trexa. [5] Webshrinker. Webshrinker apis. https://www.webshrinker.com/apis. 6