Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"

Extended summary of
“The Representativeness of
Automated Web Crawls as a
Surrogate for Human Browsing”
Riferimento bibliografico dell’articolo: «David Zeber, Sarah Bird, Camila Oliveira, Walter Rudametkin, Ilana Segall, Fredrik Wollsén, and Martin
Lopatka. 2020. The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing. In Proceedings of The Web Conference
2020 (WWW ’20), April 20–24, 2020, Taipei, Taiwan. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3366423.3380104»
Laureando
Davide Zanutto
Relatore
Prof. Alberto Bartoli
Laurea triennale in
Ingegneria Elettronica
ed Informatica
Anno accademico 2021 - 2022

 Il Web è in continua e rapida evoluzione…
 Utilizzo dei crawlers: strumenti che navigano sul Web
ed estraggono dati attraverso i crawls
 Rappresentatività e ripetibilità dei crawls non sono
ancora state ben studiate
 Scopo dell’articolo: valutare efficacia, affidabilità e
generalizzabilità dei crawler come surrogato della
navigazione Web umana

 Molti modi per raccogliere dati utili allo studio del Web:
• Intercettazioni tramite Proxy
• Raccolta dataset da campioni di utenti
• Raccolta tramite siti Web o app
• Web crawler
 Tutti questi processi hanno i propri bias e possono
portare ad una scarsa rappresentatività.
 Questo studio esplora le possibili fonti di variabilità
dei crawlers (IP, Sistema Operativo, Tempo)

 Misurazioni raccolte con ‘OpenWPM’
• Integrato in un’estensione Web Firefox
• Perfezionamenti per ridurre possibili bias
 Parametri per l’analisi:
• Risorse di terze parti (domini e URL)
• Risorse di tracking
• Browser fingerprinting (domini e URL)
 Due tipologie di comparazione:
• Crawl – Crawl
• Crawl – Umano

Comparazione crawl – crawl
 Esecuzione di più crawls con tutte variabili coincidenti
eccetto una, a rotazione, tra:
• IP
• Sistema Operativo
• Tempo
Comparazione umano – crawl
 Raccolta dataset crawls e traffico utente (OpenWPM)
 Lista ibrida come seed list crawls (Trexa10KU)

 Calcolo della base
 Calcolo similarità media di crawls
per ogni variabile d’interesse
 Comparazione tra gli esiti
Risultati:
 Variabilità URL > variabilità domini
 IP: variabilità introdotta bassa
 S.O.: variabilità simile per ogni
comparazione tra coppie di S.O.
 Tempo: grande variabilità
introdotta negli URL

 Figura mostra distribuzioni
dell’indice di Jaccard nel
tempo per coppie di crawls
 Ogni linea è colorata in base
al tempo trascorso tra i due
crawls
 Chiara tendenza: maggiore il
tempo tra i crawls, maggiore
è la distanza dalla base
 Variabilità degli URL molto
maggiore

 3 comparazioni dei dataset:
• Numero dei domini di
terze parti a cui si accede
• Numero dei domini di
tracking a cui si accede
• Presenza di fingerprinting
Risultati
 Crawlers accedono a più
domini di terze parti e di
tracking
 Fingerprinting più presente
nei domini Trexa, con poca
differenza tra crawlers e utenti
Fingerprinting nei domini visitati
Distribuzioni del numero medio di domini di
terze parti a cui si è fatto accesso

 Diversi motivi per cui può essere che
Esperienza offerta a crawler ≠ Esperienza di un utente
 Tuttavia, crawlers rimangono strumenti essenziali
 Visione innovativa su fonti di variabilità che li interessano
Informazione estratta è più significativa se contestualizzata

Grazie per l’attenzione
Davide Zanutto

Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"

Recommended

Recommended

More Related Content

Similar to Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"

Similar to Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing" (20)

Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"