SlideShare a Scribd company logo
Extended summary of
“The Representativeness of
Automated Web Crawls as a
Surrogate for Human Browsing”
Riferimento bibliografico dell’articolo: «David Zeber, Sarah Bird, Camila Oliveira, Walter Rudametkin, Ilana Segall, Fredrik Wollsén, and Martin
Lopatka. 2020. The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing. In Proceedings of The Web Conference
2020 (WWW ’20), April 20–24, 2020, Taipei, Taiwan. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3366423.3380104»
Laureando
Davide Zanutto
Relatore
Prof. Alberto Bartoli
Laurea triennale in
Ingegneria Elettronica
ed Informatica
Anno accademico 2021 - 2022
 Il Web è in continua e rapida evoluzione…
 Utilizzo dei crawlers: strumenti che navigano sul Web
ed estraggono dati attraverso i crawls
 Rappresentatività e ripetibilità dei crawls non sono
ancora state ben studiate
 Scopo dell’articolo: valutare efficacia, affidabilità e
generalizzabilità dei crawler come surrogato della
navigazione Web umana
 Molti modi per raccogliere dati utili allo studio del Web:
• Intercettazioni tramite Proxy
• Raccolta dataset da campioni di utenti
• Raccolta tramite siti Web o app
• Web crawler
 Tutti questi processi hanno i propri bias e possono
portare ad una scarsa rappresentatività.
 Questo studio esplora le possibili fonti di variabilità
dei crawlers (IP, Sistema Operativo, Tempo)
 Misurazioni raccolte con ‘OpenWPM’
• Integrato in un’estensione Web Firefox
• Perfezionamenti per ridurre possibili bias
 Parametri per l’analisi:
• Risorse di terze parti (domini e URL)
• Risorse di tracking
• Browser fingerprinting (domini e URL)
 Due tipologie di comparazione:
• Crawl – Crawl
• Crawl – Umano
Comparazione crawl – crawl
 Esecuzione di più crawls con tutte variabili coincidenti
eccetto una, a rotazione, tra:
• IP
• Sistema Operativo
• Tempo
Comparazione umano – crawl
 Raccolta dataset crawls e traffico utente (OpenWPM)
 Lista ibrida come seed list crawls (Trexa10KU)
 Calcolo della base
 Calcolo similarità media di crawls
per ogni variabile d’interesse
 Comparazione tra gli esiti
Risultati:
 Variabilità URL > variabilità domini
 IP: variabilità introdotta bassa
 S.O.: variabilità simile per ogni
comparazione tra coppie di S.O.
 Tempo: grande variabilità
introdotta negli URL
 Figura mostra distribuzioni
dell’indice di Jaccard nel
tempo per coppie di crawls
 Ogni linea è colorata in base
al tempo trascorso tra i due
crawls
 Chiara tendenza: maggiore il
tempo tra i crawls, maggiore
è la distanza dalla base
 Variabilità degli URL molto
maggiore
 3 comparazioni dei dataset:
• Numero dei domini di
terze parti a cui si accede
• Numero dei domini di
tracking a cui si accede
• Presenza di fingerprinting
Risultati
 Crawlers accedono a più
domini di terze parti e di
tracking
 Fingerprinting più presente
nei domini Trexa, con poca
differenza tra crawlers e utenti
Fingerprinting nei domini visitati
Distribuzioni del numero medio di domini di
terze parti a cui si è fatto accesso
 Diversi motivi per cui può essere che
Esperienza offerta a crawler ≠ Esperienza di un utente
 Tuttavia, crawlers rimangono strumenti essenziali
 Visione innovativa su fonti di variabilità che li interessano
Informazione estratta è più significativa se contestualizzata
Grazie per l’attenzione
Davide Zanutto

More Related Content

Similar to Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"

DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
Andrea Casagrande
 

Similar to Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing" (20)

Un tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e socialiUn tool per la visualizzazione e l'analisi di reti biologiche e sociali
Un tool per la visualizzazione e l'analisi di reti biologiche e sociali
 
Rodolfo Baggio - BTO delle Isole
Rodolfo Baggio - BTO delle IsoleRodolfo Baggio - BTO delle Isole
Rodolfo Baggio - BTO delle Isole
 
09 - Ricercare nel Web I
09 - Ricercare nel Web I09 - Ricercare nel Web I
09 - Ricercare nel Web I
 
Ricercare nel web
Ricercare nel webRicercare nel web
Ricercare nel web
 
Slides Tesi di Laurea Paolo Selce
Slides Tesi di Laurea Paolo SelceSlides Tesi di Laurea Paolo Selce
Slides Tesi di Laurea Paolo Selce
 
Azure Day Rome Reloaded 2019 - Azure Application Insights Overview
Azure Day Rome Reloaded 2019 - Azure Application Insights OverviewAzure Day Rome Reloaded 2019 - Azure Application Insights Overview
Azure Day Rome Reloaded 2019 - Azure Application Insights Overview
 
7 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/187 - Ricercare nel web - 17/18
7 - Ricercare nel web - 17/18
 
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
Presentazione Extended summary of "Accept the Risk and Continue: Measuring th...
 
9. Come trovare l'informazione (I)
9. Come trovare l'informazione (I)9. Come trovare l'informazione (I)
9. Come trovare l'informazione (I)
 
4 - Introduzione al Web (1/2) - 16/17
4 - Introduzione al Web (1/2) - 16/174 - Introduzione al Web (1/2) - 16/17
4 - Introduzione al Web (1/2) - 16/17
 
Linked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di TomasoLinked Open Data di Vittorio Di Tomaso
Linked Open Data di Vittorio Di Tomaso
 
DBpedia nel contesto Linked Data
DBpedia nel contesto Linked DataDBpedia nel contesto Linked Data
DBpedia nel contesto Linked Data
 
Summary of "DDoS Hide & Seek: On the Effectivness of a Booter Services Takedown"
Summary of "DDoS Hide & Seek: On the Effectivness of a Booter Services Takedown"Summary of "DDoS Hide & Seek: On the Effectivness of a Booter Services Takedown"
Summary of "DDoS Hide & Seek: On the Effectivness of a Booter Services Takedown"
 
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
Extended summary of "Accept the Risk and Continue: Measuring the Long Tail of...
 
DevOps@Work 2017 - Application insights more control, more power
DevOps@Work 2017 - Application insights more control, more powerDevOps@Work 2017 - Application insights more control, more power
DevOps@Work 2017 - Application insights more control, more power
 
Extended Summary of “Open for hire: attack trends and misconfiguration pitfal...
Extended Summary of “Open for hire: attack trends and misconfiguration pitfal...Extended Summary of “Open for hire: attack trends and misconfiguration pitfal...
Extended Summary of “Open for hire: attack trends and misconfiguration pitfal...
 
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
Extended Summary of 'An Empirical Study of the Use of Integrity Verification ...
 
Summary of “Measuring Security Practices and How They Impact Security”
Summary of “Measuring Security Practices and How They Impact Security”Summary of “Measuring Security Practices and How They Impact Security”
Summary of “Measuring Security Practices and How They Impact Security”
 
8 - Il browser
8 - Il browser8 - Il browser
8 - Il browser
 
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
SUMMARY OF “Tales from the Porn: A Comprehensive Privacy Analysis of the Web ...
 

Presentation - Extended summary of "The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing"

  • 1. Extended summary of “The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing” Riferimento bibliografico dell’articolo: «David Zeber, Sarah Bird, Camila Oliveira, Walter Rudametkin, Ilana Segall, Fredrik Wollsén, and Martin Lopatka. 2020. The Representativeness of Automated Web Crawls as a Surrogate for Human Browsing. In Proceedings of The Web Conference 2020 (WWW ’20), April 20–24, 2020, Taipei, Taiwan. ACM, New York, NY, USA, 12 pages. https://doi.org/10.1145/3366423.3380104» Laureando Davide Zanutto Relatore Prof. Alberto Bartoli Laurea triennale in Ingegneria Elettronica ed Informatica Anno accademico 2021 - 2022
  • 2.  Il Web è in continua e rapida evoluzione…  Utilizzo dei crawlers: strumenti che navigano sul Web ed estraggono dati attraverso i crawls  Rappresentatività e ripetibilità dei crawls non sono ancora state ben studiate  Scopo dell’articolo: valutare efficacia, affidabilità e generalizzabilità dei crawler come surrogato della navigazione Web umana
  • 3.  Molti modi per raccogliere dati utili allo studio del Web: • Intercettazioni tramite Proxy • Raccolta dataset da campioni di utenti • Raccolta tramite siti Web o app • Web crawler  Tutti questi processi hanno i propri bias e possono portare ad una scarsa rappresentatività.  Questo studio esplora le possibili fonti di variabilità dei crawlers (IP, Sistema Operativo, Tempo)
  • 4.  Misurazioni raccolte con ‘OpenWPM’ • Integrato in un’estensione Web Firefox • Perfezionamenti per ridurre possibili bias  Parametri per l’analisi: • Risorse di terze parti (domini e URL) • Risorse di tracking • Browser fingerprinting (domini e URL)  Due tipologie di comparazione: • Crawl – Crawl • Crawl – Umano
  • 5. Comparazione crawl – crawl  Esecuzione di più crawls con tutte variabili coincidenti eccetto una, a rotazione, tra: • IP • Sistema Operativo • Tempo Comparazione umano – crawl  Raccolta dataset crawls e traffico utente (OpenWPM)  Lista ibrida come seed list crawls (Trexa10KU)
  • 6.  Calcolo della base  Calcolo similarità media di crawls per ogni variabile d’interesse  Comparazione tra gli esiti Risultati:  Variabilità URL > variabilità domini  IP: variabilità introdotta bassa  S.O.: variabilità simile per ogni comparazione tra coppie di S.O.  Tempo: grande variabilità introdotta negli URL
  • 7.  Figura mostra distribuzioni dell’indice di Jaccard nel tempo per coppie di crawls  Ogni linea è colorata in base al tempo trascorso tra i due crawls  Chiara tendenza: maggiore il tempo tra i crawls, maggiore è la distanza dalla base  Variabilità degli URL molto maggiore
  • 8.  3 comparazioni dei dataset: • Numero dei domini di terze parti a cui si accede • Numero dei domini di tracking a cui si accede • Presenza di fingerprinting Risultati  Crawlers accedono a più domini di terze parti e di tracking  Fingerprinting più presente nei domini Trexa, con poca differenza tra crawlers e utenti Fingerprinting nei domini visitati Distribuzioni del numero medio di domini di terze parti a cui si è fatto accesso
  • 9.  Diversi motivi per cui può essere che Esperienza offerta a crawler ≠ Esperienza di un utente  Tuttavia, crawlers rimangono strumenti essenziali  Visione innovativa su fonti di variabilità che li interessano Informazione estratta è più significativa se contestualizzata