SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"
1. Extended summary of
“The Representativeness of
Automated Web Crawls as a
Surrogate for Human Browsing”
Riferimento bibliografico dell’articolo: «David Zeber, Sarah Bird, Camila Oliveira, Walter Rudametkin, Ilana Segall, Fredrik Wollsén, and Martin
Lopatka. 2020. The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing. In Proceedings of The Web Conference
2020 (WWW ’20), April 20–24, 2020, Taipei, Taiwan. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3366423.3380104»
Laureando
Davide Zanutto
Relatore
Prof. Alberto Bartoli
Laurea triennale in
Ingegneria Elettronica
ed Informatica
Anno accademico 2021 - 2022
2. Il Web è in continua e rapida evoluzione…
Utilizzo dei crawlers: strumenti che navigano sul Web
ed estraggono dati attraverso i crawls
Rappresentatività e ripetibilità dei crawls non sono
ancora state ben studiate
Scopo dell’articolo: valutare efficacia, affidabilità e
generalizzabilità dei crawler come surrogato della
navigazione Web umana
3. Molti modi per raccogliere dati utili allo studio del Web:
• Intercettazioni tramite Proxy
• Raccolta dataset da campioni di utenti
• Raccolta tramite siti Web o app
• Web crawler
Tutti questi processi hanno i propri bias e possono
portare ad una scarsa rappresentatività.
Questo studio esplora le possibili fonti di variabilità
dei crawlers (IP, Sistema Operativo, Tempo)
4. Misurazioni raccolte con ‘OpenWPM’
• Integrato in un’estensione Web Firefox
• Perfezionamenti per ridurre possibili bias
Parametri per l’analisi:
• Risorse di terze parti (domini e URL)
• Risorse di tracking
• Browser fingerprinting (domini e URL)
Due tipologie di comparazione:
• Crawl – Crawl
• Crawl – Umano
5. Comparazione crawl – crawl
Esecuzione di più crawls con tutte variabili coincidenti
eccetto una, a rotazione, tra:
• IP
• Sistema Operativo
• Tempo
Comparazione umano – crawl
Raccolta dataset crawls e traffico utente (OpenWPM)
Lista ibrida come seed list crawls (Trexa10KU)
6. Calcolo della base
Calcolo similarità media di crawls
per ogni variabile d’interesse
Comparazione tra gli esiti
Risultati:
Variabilità URL > variabilità domini
IP: variabilità introdotta bassa
S.O.: variabilità simile per ogni
comparazione tra coppie di S.O.
Tempo: grande variabilità
introdotta negli URL
7. Figura mostra distribuzioni
dell’indice di Jaccard nel
tempo per coppie di crawls
Ogni linea è colorata in base
al tempo trascorso tra i due
crawls
Chiara tendenza: maggiore il
tempo tra i crawls, maggiore
è la distanza dalla base
Variabilità degli URL molto
maggiore
8. 3 comparazioni dei dataset:
• Numero dei domini di
terze parti a cui si accede
• Numero dei domini di
tracking a cui si accede
• Presenza di fingerprinting
Risultati
Crawlers accedono a più
domini di terze parti e di
tracking
Fingerprinting più presente
nei domini Trexa, con poca
differenza tra crawlers e utenti
Fingerprinting nei domini visitati
Distribuzioni del numero medio di domini di
terze parti a cui si è fatto accesso
9. Diversi motivi per cui può essere che
Esperienza offerta a crawler ≠ Esperienza di un utente
Tuttavia, crawlers rimangono strumenti essenziali
Visione innovativa su fonti di variabilità che li interessano
Informazione estratta è più significativa se contestualizzata