SlideShare a Scribd company logo
Extended Summary of "Why We Still Can’t Browse in
Peace: On the Uniqueness and Reidentifiability of Web
Browsing Histories”.
Sarah Bird, Ilana Segall, and Martin Lopatka, Mozilla. USENIX, SOUPS 2020.
Tesi di Laurea Triennale
Laureando: Diego Bartoli Geijo
Relatore: prof. De Lorenzo
Università degli studi di Trieste
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
Introduzione
Le tracking organization hanno interesse a costruire dei profili dei browser
sempre più accurati.
La profilazione dei browser avviene soprattutto tramite i cookie (sessioni).
I cookie hanno durata limitata e possono essere cancellati dall’utente.
Se fosse possibile associare cookie diversi riferiti ad uno stesso browser
allora il profilo del browser sarebbe molto più accurato.
Questa è un’importante minaccia per la privacy degli utenti del web.
Problema
È possibile riconoscere un browser in sessioni diverse?
È possibile farlo usando le browsing history?
1. Scenario ideale: browsing history completa.
2. Scenario reale: browsing history parziale.
○ Tracking organizations.
Metodo
52’000 utenti Firefox.
2 periodi diversi di raccolta delle browsing history.
3 rappresentazioni per ogni browsing history (vettori booleani):
A. Un elemento per ogni dominio osservato.
Ordinamento frequenza osservata.
B. Un elemento per ogni dominio in lista Trexa.
Ordinamento predefinito (frequenza Trexa).
C. Un elemento per ogni categoria osservata.
Terminologia
Utente: sinonimo di browser.
Profilo: insieme non ordinato di domini diversi visitati da un utente.
Dimensione di un profilo: numero di domini del profilo.
Vettore profilo: rappresentazione vettoriale di un profilo.
Sottovettore di dimensione k: costituito dai primi k elementi.
Reidentificare un browser: riconoscere un browser in periodi di
osservazione del traffico diversi.
Reidentificabilità: Calcolo
Vengono separati i dati della settimana 1 da quelli della settimana 2.
Per ogni vettore profilo della settimana 1:
1. Viene calcolata la distanza di Jaccard da ogni vettore profilo della
settimana 2.
2. Viene associato il vettore profilo della settimana 2 con cui ha
distanza di Jaccard minore.
3. Se l’associazione è corretta è considerato reidentificato.
Calcolo effettuato con:
● Sottovettori di dimensione k dei vettori profilo.
● Vari valori di k.
Scenario ideale(I, II)
I) Reidentificabilità al variare della dimensione k dei sottovettori
considerati.
Reidentificabilità aumenta all’aumentare di k. Per k=10’000 vale circa 50%.
II) Scalabilità del metodo rispetto al numero di utenti considerati.
Reidentificabilità diminuisce all’aumentare del numero di utenti
ma non scende mai sotto al 50%.
Una riduzione di un ordine di grandezza del numero di utenti
porta ad un aumento del 10% della reidentificabilità.
Scenario ideale (III)
Impatto della dimensione dei profili sulla reidentificabilità.
utenti divisi in 7 gruppi in base a dim. profili
>80% per dimensione>=151
Scenario reale
...
Domini associati alle rispettive compagnie (database predefinito).
⩰ scenario ideale
Conclusioni
Riflessioni finali:
1. Minaccia reale.
2. Reidentificabilità potenzialmente più alta.
○ Omogeneità campione studiato.
○ Altre metriche.
○ Altre informazioni su utenti.
○ Partizionamento con device fingerprinting.
3. Responsabilità degli utenti.
Grazie per l’attenzione.

More Related Content

Similar to Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories

Extended summary of “Understanding the Performance Costs and Benefits of Pri...
Extended summary of “Understanding the Performance Costs  and Benefits of Pri...Extended summary of “Understanding the Performance Costs  and Benefits of Pri...
Extended summary of “Understanding the Performance Costs and Benefits of Pri...
RiccardoDeMonte
 
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...danieledegan
 
Smart Networks for Smart Services
Smart Networks for Smart ServicesSmart Networks for Smart Services
Smart Networks for Smart ServicesAngelo Cenedese
 
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Sardegna Ricerche
 
La mia tesi di laurea triennale - Beato Gianmarco
La mia tesi di laurea triennale  - Beato GianmarcoLa mia tesi di laurea triennale  - Beato Gianmarco
La mia tesi di laurea triennale - Beato Gianmarco
Gianmarco Beato
 
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - TesiRilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
temp temp
 
Realizzazione di un workflow integrato per la rilevazione di domini phishing
Realizzazione di un workflow integrato per la rilevazione di domini phishingRealizzazione di un workflow integrato per la rilevazione di domini phishing
Realizzazione di un workflow integrato per la rilevazione di domini phishing
GiuliaMilan4
 
Bachelor thesis Calmanovici
Bachelor thesis CalmanoviciBachelor thesis Calmanovici
Bachelor thesis Calmanovici
Alessandro Calmanovici
 
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...guestfe85ba
 
(LINKED) OPEN DATA A FIRENZE
(LINKED) OPEN DATA A FIRENZE(LINKED) OPEN DATA A FIRENZE
(LINKED) OPEN DATA A FIRENZE
DatiGovIT
 
Internet delle cose
Internet delle coseInternet delle cose
Internet delle cose
KEA s.r.l.
 
Sistemi domotici integrati per la gestione intelligente d’ambiente
Sistemi domotici integrati per la gestione intelligente d’ambienteSistemi domotici integrati per la gestione intelligente d’ambiente
Sistemi domotici integrati per la gestione intelligente d’ambiente
freedomotic
 
Web Application Security Testing
Web Application Security TestingWeb Application Security Testing
Web Application Security Testing
Filippo Maria Raeli
 
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Davide Ciambelli
 
Informatica Presente e Futuro
Informatica Presente e FuturoInformatica Presente e Futuro
Informatica Presente e Futuro
Francesco De Angelis
 
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
Matteo Bayre
 
Smart News
Smart NewsSmart News
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
DanieleMaijnelli
 
Documento IdroGEO Premio PA sostenibile e resiliente 2021
Documento IdroGEO Premio PA sostenibile e resiliente 2021Documento IdroGEO Premio PA sostenibile e resiliente 2021
Documento IdroGEO Premio PA sostenibile e resiliente 2021
Alessandro Trigila
 

Similar to Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories (20)

Extended summary of “Understanding the Performance Costs and Benefits of Pri...
Extended summary of “Understanding the Performance Costs  and Benefits of Pri...Extended summary of “Understanding the Performance Costs  and Benefits of Pri...
Extended summary of “Understanding the Performance Costs and Benefits of Pri...
 
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
Autenticazione Continua Durante la Navigazione Web Basata sulla Dinamica del ...
 
Smart Networks for Smart Services
Smart Networks for Smart ServicesSmart Networks for Smart Services
Smart Networks for Smart Services
 
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
 
La mia tesi di laurea triennale - Beato Gianmarco
La mia tesi di laurea triennale  - Beato GianmarcoLa mia tesi di laurea triennale  - Beato Gianmarco
La mia tesi di laurea triennale - Beato Gianmarco
 
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - TesiRilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
Rilevamento di facce in flussi video per l'ausilio ai non vedenti - Tesi
 
Realizzazione di un workflow integrato per la rilevazione di domini phishing
Realizzazione di un workflow integrato per la rilevazione di domini phishingRealizzazione di un workflow integrato per la rilevazione di domini phishing
Realizzazione di un workflow integrato per la rilevazione di domini phishing
 
Bachelor thesis Calmanovici
Bachelor thesis CalmanoviciBachelor thesis Calmanovici
Bachelor thesis Calmanovici
 
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
PROGETTO E REALIZZAZIONE DI UN SISTEMA PER L’ANNOTAZIONE AUTOMATICA DI IMMAGI...
 
(LINKED) OPEN DATA A FIRENZE
(LINKED) OPEN DATA A FIRENZE(LINKED) OPEN DATA A FIRENZE
(LINKED) OPEN DATA A FIRENZE
 
Internet delle cose
Internet delle coseInternet delle cose
Internet delle cose
 
Puglia tremor forum
Puglia tremor forumPuglia tremor forum
Puglia tremor forum
 
Sistemi domotici integrati per la gestione intelligente d’ambiente
Sistemi domotici integrati per la gestione intelligente d’ambienteSistemi domotici integrati per la gestione intelligente d’ambiente
Sistemi domotici integrati per la gestione intelligente d’ambiente
 
Web Application Security Testing
Web Application Security TestingWeb Application Security Testing
Web Application Security Testing
 
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
Tesi Specialistica - L'ottimizzazione delle risorse della Grid di EGEE median...
 
Informatica Presente e Futuro
Informatica Presente e FuturoInformatica Presente e Futuro
Informatica Presente e Futuro
 
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
La Sorveglianza E Il Controllo Sociale Della Rete Nellera Del Web 2.0
 
Smart News
Smart NewsSmart News
Smart News
 
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
Summary of "MalNet: A binary-centric network-level profiling of IoT Malware"
 
Documento IdroGEO Premio PA sostenibile e resiliente 2021
Documento IdroGEO Premio PA sostenibile e resiliente 2021Documento IdroGEO Premio PA sostenibile e resiliente 2021
Documento IdroGEO Premio PA sostenibile e resiliente 2021
 

Extended summary of why we still can’t browse in peace on the uniqueness and reidentifiability of web browsing histories

  • 1. Extended Summary of "Why We Still Can’t Browse in Peace: On the Uniqueness and Reidentifiability of Web Browsing Histories”. Sarah Bird, Ilana Segall, and Martin Lopatka, Mozilla. USENIX, SOUPS 2020. Tesi di Laurea Triennale Laureando: Diego Bartoli Geijo Relatore: prof. De Lorenzo Università degli studi di Trieste Dipartimento di Ingegneria e Architettura Corso di Studi in Ingegneria Elettronica e Informatica
  • 2. Introduzione Le tracking organization hanno interesse a costruire dei profili dei browser sempre più accurati. La profilazione dei browser avviene soprattutto tramite i cookie (sessioni). I cookie hanno durata limitata e possono essere cancellati dall’utente. Se fosse possibile associare cookie diversi riferiti ad uno stesso browser allora il profilo del browser sarebbe molto più accurato. Questa è un’importante minaccia per la privacy degli utenti del web.
  • 3. Problema È possibile riconoscere un browser in sessioni diverse? È possibile farlo usando le browsing history? 1. Scenario ideale: browsing history completa. 2. Scenario reale: browsing history parziale. ○ Tracking organizations.
  • 4. Metodo 52’000 utenti Firefox. 2 periodi diversi di raccolta delle browsing history. 3 rappresentazioni per ogni browsing history (vettori booleani): A. Un elemento per ogni dominio osservato. Ordinamento frequenza osservata. B. Un elemento per ogni dominio in lista Trexa. Ordinamento predefinito (frequenza Trexa). C. Un elemento per ogni categoria osservata.
  • 5. Terminologia Utente: sinonimo di browser. Profilo: insieme non ordinato di domini diversi visitati da un utente. Dimensione di un profilo: numero di domini del profilo. Vettore profilo: rappresentazione vettoriale di un profilo. Sottovettore di dimensione k: costituito dai primi k elementi. Reidentificare un browser: riconoscere un browser in periodi di osservazione del traffico diversi.
  • 6. Reidentificabilità: Calcolo Vengono separati i dati della settimana 1 da quelli della settimana 2. Per ogni vettore profilo della settimana 1: 1. Viene calcolata la distanza di Jaccard da ogni vettore profilo della settimana 2. 2. Viene associato il vettore profilo della settimana 2 con cui ha distanza di Jaccard minore. 3. Se l’associazione è corretta è considerato reidentificato. Calcolo effettuato con: ● Sottovettori di dimensione k dei vettori profilo. ● Vari valori di k.
  • 7. Scenario ideale(I, II) I) Reidentificabilità al variare della dimensione k dei sottovettori considerati. Reidentificabilità aumenta all’aumentare di k. Per k=10’000 vale circa 50%. II) Scalabilità del metodo rispetto al numero di utenti considerati. Reidentificabilità diminuisce all’aumentare del numero di utenti ma non scende mai sotto al 50%. Una riduzione di un ordine di grandezza del numero di utenti porta ad un aumento del 10% della reidentificabilità.
  • 8. Scenario ideale (III) Impatto della dimensione dei profili sulla reidentificabilità. utenti divisi in 7 gruppi in base a dim. profili >80% per dimensione>=151
  • 9. Scenario reale ... Domini associati alle rispettive compagnie (database predefinito). ⩰ scenario ideale
  • 10. Conclusioni Riflessioni finali: 1. Minaccia reale. 2. Reidentificabilità potenzialmente più alta. ○ Omogeneità campione studiato. ○ Altre metriche. ○ Altre informazioni su utenti. ○ Partizionamento con device fingerprinting. 3. Responsabilità degli utenti. Grazie per l’attenzione.