SlideShare a Scribd company logo
1 of 9
Download to read offline
UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Tesi di laurea triennale in Ingegneria Elettronica ed Informatica
Summary of "Annoyed Users: Ads and
Ad-Block Usage in the Wild"
Candidato:
Matteo MAGRIS
Relatore:
Prof. Alberto BARTOLI
Anno Accademico 2018 - 2019
Indice
1 Introduzione 2
2 AdBlock Plus 2
3 Metodologia 3
4 Fase 1: Realizzazione 3
5 Fase 2: Applicazioni 5
6 Conclusioni 6
1 Introduzione
L’advertising online è una delle principali fonti di guadagno di molte aziende
che operano nell’ecosistema pubblicitario. Il modello di business si basa sull’ac-
cordo implicito tra i fornitori di contenuti e l’utente finale: la visione di annunci
pubblicitari e la condivisione delle proprie informazioni sono il prezzo da pagare
per poter usufruire di un servizio. Una buona parte di utenti non accetta questo
modello perché ritiene la pubblicità online uno strumento invasivo dal punto di
vista della privacy o semplicemente fastidioso perché distrae dal contenuto prima-
rio del servizio. Questa situazione ha portato alla diffusione di estensioni browser
per bloccare o nascondere gli annunci pubblicitari, chiamate ad-blocker. Il loro
crescente utilizzo rappresenta una minaccia per gli attori di questo business, quali
publisher e advertiser, perchè può compromettere l’intero modello commerciale su
cui il Web è costruito. In questo articolo viene studiato un metodo per individuare
coloro che ne fanno uso ed è stato fatto un primo passo verso la comprensione di
come gli utilizzano e in che modo influenzano il traffico pubblicitario.
2 AdBlock Plus
Dalle statistiche riportate dai browser più popolari risulta che, tra coloro
che utilizzano gli ad-blocker, Adblock Plus è il più diffuso e per questo gli autori
basano i loro studi sul suo funzionamento. Il meccanismo con il quale Adblock Plus
classifica gli elementi in pubblicitari e non, per decidere se bloccarli, è fondato su
regole stabilite da liste di filtraggio. Al momento dell’installazione l’utente scarica
automaticamente 2 liste:
1. EasyList che contiene un elenco di URL. Se un browser effettua una richiesta
per uno di questi URL Adblock Plus si occupa di bloccarla. In realtà per la
classificazione oltre all’URL Adblock Plus utilizza informazioni sulla strut-
tura della pagina web (DOM tree). Questo perché molto spesso gli elementi
pubblicitari come le immagini sono inseriti in tag iframe.
2. Una whitelist, “lista di pubblicità accettabili”, nella quale è inserito un elen-
co di eccezioni, ovvero URL la cui richiesta non viene bloccata nonostante
rappresentino oggetti pubblicitari. Proprio perché questa lista è scaricata di
default la maggior parte degli utenti ne ignora l’esistenza o sceglie di non
rimuoverla. In questo modo, nonostante l’uso di Adblock plus, gli utenti
generano comunque una percentuale di traffico pubblicitario significativa.
Molte compagnie tra le quali Google, Amazon e Microsoft, pagano Adblock
Plus per permettere ai propri domini di entrare a far parte di questa whitelist.
1
Gli utenti inoltre hanno la facoltà di modificare le liste alle quali sono iscritti e
aggiungerne delle nuove come ad esempio EasyPrivacy che permette loro di evitare
il tracciamento da parte dei siti web.
3 Metodologia
Uno degli obiettivi dell’articolo è quello di quantificare il numero di utenti che
fa uso di Adblock Plus e, nel farlo, conviene suddividere il processo in 2 fasi. Nella
prima fase è necessario escogitare un metodo che dia dei risultati di classificazione
il più vicino possibile a quelli di Adblock Plus ma con una limitazione: ottenere
le informazioni sulla struttura della pagina web senza aver accesso al payload dei
pacchetti. In questo modo, nella seconda fase, è possibile applicare questo metodo
al traffico di pacchetti di una rete pubblica di cui non è possibile, per motivi di
privacy, analizzarne il payload.
4 Fase 1: Realizzazione
Per poter classificare un elemento di una pagina web viene utilizzata la stessa
libreria su cui è basato il funzionamento di Adblock plus chiamata libadblockplus.
L’idea degli autori è quindi quella di ricavare le informazioni strutturali del sito
Web dalle intestazioni dei pacchetti. In particolare, i parametri forniti alla libreria
sono:
1. l’URL della richiesta per l’elemento da classificare.
2. la sequenza di URL che ha portato alla generazione della richiesta.
3. il tipo di contenuto della richiesta.
La prima informazione è recuperata dal campo Host. La seconda invece ana-
lizzando a ritroso il contenuto dei campi referer delle varie richieste, permettendo
così di individuare anche la pagina da cui tale richiesta è partita. Infine la terza
si ottiene considerando sia il campo Content-type che l’estensione del file indicata
nell’URL.
Il metodo appena descritto (figura 1) viene poi valutato e confrontato con i
risultati che fornirebbe Adblock Plus attraverso una misurazione attiva. Questa
consiste nell’istruire un browser dotato di Adblock Plus a contattare varie volte i
primi mille siti di Alexa, analizzando di volta in volta il traffico e applicando in
parallelo la metodologia vista sopra.
2
Figura 1: Classificazione richieste pubblicitarie
Dai risultati si osserva che il metodo realizzato risulta molto efficace con po-
chissimi errori di classificazione ma solo per quanto riguarda il traffico http. Il
metodo infatti presenta diverse limitazioni: la principale è che non è in grado di
studiare il traffico HTTPS perché gli URL sono crittati quindi non analizzabili.
Da questo fatto si deduce inoltre che non è sempre possibile effettuare il processo
di ricostruzione della catena di URL citato precedentemente. Le altre limitazioni
sono: l’incapacità di rivelare la presenza di pubblicità nascoste all’interno nel do-
cumento HTML di una pagina Web (textual advertisement) e la scarsa accuratezza
nella ricostruzione della struttura.
Un browser che usa Adblock Plus genera meno richieste di uno che non lo
usa. Sulla base di questa osservazione è stato calcolato il rapporto tra richieste
di annunci pubblicitari e richieste totali, ricavando una soglia che permette di
distinguere coloro che fanno uso di Adblock Plus da coloro che non ne fanno uso.
Si è verificato che una soglia del 5% è rappresentativa di un utente iscritto alle
sole liste di default.
3
5 Fase 2: Applicazioni
A questo punto il metodo visto sopra viene applicato a due tracce di una rete
a banda larga di uno dei maggiori Internet Service Provider d’Europa. La prima,
che ha una durata di 4 giorni e che contiene traffico HTTP associato a 7,5k utenti,
viene utilizzata per caratterizzare il traffico. La seconda, che ha una durata di
circa 16 ore e che contiene traffico HTTP associato a circa 20k utenti, viene invece
utilizzata per quantificare il numero di utenti che utilizza Adblock Plus.
La tecnica che è stata utilizzata per monitorare il traffico di entrambe le tracce
permette di associare al traffico HTTP il traffico TCP dalla (o alla) porta 80 e
al traffico HTTPS il traffico TCP dalla (o alla) porta 443. Così facendo è anche
possibile sapere se un connessione è avvenuta o meno senza aver la necessità di
analizzare le richieste e risposte HTTP/HTTPS.
Prima Traccia
Dall’analisi della prima traccia si è osservato che il traffico pubblicitario, rispet-
to a quello non pubblicitario, ha un andamento nel corso della giornata leggermente
diverso. I motivi sono principalmente due:
1. A seconda del contenuto le pagine Web presentano una densità di pubblicità
variabile. Siti che offrono servizi di streaming ad esempio contengono una
quantità minore di annunci rispetto a quelli che appartengono alla categoria
news.
2. La presenza di utenti che fa uso di ad-blocker varia di molto nel corso della
giornata. In particolare, si è osservato che nelle ore di picco il numero di
utenti non ad-blocker è perfino il doppio di quelli ad-blocker.
Viene inoltre approfondito il contenuto e le rispettive dimensioni in Bytes degli
elementi pubblicitari (figura 2).
Seconda Traccia
Per stabilire se un utente fa uso di Adblock Plus si sfruttano due indicatori:
1. Il mancato superamento della soglia del 5% ricavata precedentemente.
2. Se avviene la connessione HTTPS con un server di Adblock Plus per con-
trollare la presenza di aggiornamenti dei filtri (Easylist Downloads).
4
Figura 2: Contenuto e dimensioni in Bytes degli elementi pubblicitari
I risultati dovuti alla combinazione di questi 2 indicatori sono riportati nella
tabella di figura 3. Va tenuto presente che lo studio è stato effettuato considerando
solo gli utenti più attivi (circa 9,6k).
Figura 3: Percentuale di utenti per ogni combinazione di indicatori
Si conclude che coloro che soddisfanno entrambi gli indicatori (tipologia C)
fanno sicuramente uso di Adblock Plus. I casi in cui invece solo uno degli indicatori
è valido, vengono considerati come rappresentativi di utenti che non ne fanno
uso. La tipologia B, non soddisfacendo l’indicatore di soglia, verosimilmente non
lo utilizza. Gli utenti D potrebbero utilizzare altri plugin o più probabilmente
effettuano richieste a pagine web con un basso tasso di pubblicità.
6 Conclusioni
Il metodo discusso, nonostante presenti diverse limitazioni e consideri solamen-
te Adblock plus, ha permesso di concludere che il 22% degli utenti utilizza questa
estensione quando naviga sul Web. Solo una piccola parte di questi installa il filtro
5
EasyPrivacy indice del fatto che la maggior parte degli utenti o è semplicemente
interessata a bloccare le fastidiose pubblicità o non è consapevole della possibilità
di proteggere la propria privacy. Si è osservato inoltre che il 18% delle richieste
totali in una rete a banda larga è legata agli annunci pubblicitari e corrisponde in
bytes a poco più dell’ 1% del traffico totale. Gli elementi del traffico pubblicitario
sono prevalentemente immagini gif e testo HTML con una prevalenza di quest’ul-
timo sulle dimensioni in bytes. Infine si è verificato che il 9% di tutte le richieste
pubblicitarie sono effettuate a URL presenti nella whitelist.
6
Riferimenti bibliografici
[1] Enric Pujol, Oliver Hohlfeld, Anja Feldmann. Annoyed Users: Ads and Ad-
Block Usage in the Wild. In: Internet Measurement Conference 2015. pp. 93-
106.
7

More Related Content

Similar to Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"

Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...FabioDalCol
 
Convergenze tra accessibilità e motori di ricerca
Convergenze tra accessibilità e motori di ricercaConvergenze tra accessibilità e motori di ricerca
Convergenze tra accessibilità e motori di ricercaMassimiliano Navacchia
 
Hosting: 3 errori da non commettere #TipOfTheDay
Hosting: 3 errori da non commettere #TipOfTheDayHosting: 3 errori da non commettere #TipOfTheDay
Hosting: 3 errori da non commettere #TipOfTheDayAruba S.p.A.
 
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...AndreaGnesda
 
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...AndreaGnesda
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...EnricoDavanzo1
 
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Matteo Makovec
 
Le Penalizzazioni Di Google
Le Penalizzazioni Di GoogleLe Penalizzazioni Di Google
Le Penalizzazioni Di GoogleFrancesco Tinti
 
Semplicità: accessibilità business oriented
Semplicità: accessibilità business orientedSemplicità: accessibilità business oriented
Semplicità: accessibilità business orientedFabrizio Caccavello
 
Presentazione 2 anno
Presentazione 2 annoPresentazione 2 anno
Presentazione 2 anno37413600
 
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...Gabriele Formisano
 
Presentazione29maggio2014
Presentazione29maggio2014Presentazione29maggio2014
Presentazione29maggio2014Lorella Medori
 
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...AndreaPausig
 
Aziende Fornitori Web2.0
Aziende Fornitori Web2.0Aziende Fornitori Web2.0
Aziende Fornitori Web2.0Gabriella
 
Ideare un app e farla fruttare: quanti modi? Quale scegliere?
Ideare un app e farla fruttare: quanti modi? Quale scegliere?Ideare un app e farla fruttare: quanti modi? Quale scegliere?
Ideare un app e farla fruttare: quanti modi? Quale scegliere?Diego La Monica
 
Black Hat Seo: il Lato Oscuro della SEO
Black Hat Seo: il Lato Oscuro della SEOBlack Hat Seo: il Lato Oscuro della SEO
Black Hat Seo: il Lato Oscuro della SEOPaolo Dello Vicario
 

Similar to Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild" (20)

File sharing & file hosting in web 2.0
File sharing & file hosting in web 2.0File sharing & file hosting in web 2.0
File sharing & file hosting in web 2.0
 
Presentazione adblock
Presentazione adblockPresentazione adblock
Presentazione adblock
 
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...
Summary of “An Automated Approach to Auditing Disclosure of Third-Party Data ...
 
Convergenze tra accessibilità e motori di ricerca
Convergenze tra accessibilità e motori di ricercaConvergenze tra accessibilità e motori di ricerca
Convergenze tra accessibilità e motori di ricerca
 
Hosting: 3 errori da non commettere #TipOfTheDay
Hosting: 3 errori da non commettere #TipOfTheDayHosting: 3 errori da non commettere #TipOfTheDay
Hosting: 3 errori da non commettere #TipOfTheDay
 
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
Summary of "Deceptive Previews : A Study of the Link Preview Trustworthiness ...
 
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
Summary of ''Deceptive Previews : A Study of the Link Preview Trustworthiness...
 
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
Extendedsummaryof phish timecontinuouslongitudinalmeasurementoftheeffectivene...
 
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
Extended summary of "Opening the Blackbox of VirusTotal: Analyzing Online Phi...
 
Le Penalizzazioni Di Google
Le Penalizzazioni Di GoogleLe Penalizzazioni Di Google
Le Penalizzazioni Di Google
 
Semplicità: accessibilità business oriented
Semplicità: accessibilità business orientedSemplicità: accessibilità business oriented
Semplicità: accessibilità business oriented
 
Presentazione 2 anno
Presentazione 2 annoPresentazione 2 anno
Presentazione 2 anno
 
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
Progetto e realizzazione di uno strumento per l'acquisizione e trasmissione d...
 
Presentazione29maggio2014
Presentazione29maggio2014Presentazione29maggio2014
Presentazione29maggio2014
 
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...
Slides - Extended Summary Of "MadDroid: Characterizing and Detecting Devious ...
 
Corso seo 3
Corso seo 3Corso seo 3
Corso seo 3
 
Aziende Fornitori Web2.0
Aziende Fornitori Web2.0Aziende Fornitori Web2.0
Aziende Fornitori Web2.0
 
Ideare un app e farla fruttare: quanti modi? Quale scegliere?
Ideare un app e farla fruttare: quanti modi? Quale scegliere?Ideare un app e farla fruttare: quanti modi? Quale scegliere?
Ideare un app e farla fruttare: quanti modi? Quale scegliere?
 
motori di ricerca-20141202
motori di ricerca-20141202motori di ricerca-20141202
motori di ricerca-20141202
 
Black Hat Seo: il Lato Oscuro della SEO
Black Hat Seo: il Lato Oscuro della SEOBlack Hat Seo: il Lato Oscuro della SEO
Black Hat Seo: il Lato Oscuro della SEO
 

Recently uploaded

Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleGiornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniGiornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniServizi a rete
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideServizi a rete
 

Recently uploaded (7)

Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA GiorgioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | SERRA Giorgio
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO SimoneGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DI DOMENICO Simone
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO AntonioGiornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | DISCIPIO Antonio
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI DanieleGiornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | RENZI Daniele
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO AndreaGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ALBIERO Andrea
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI GiovanniGiornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | CADEI Giovanni
 
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' DavideGiornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
 

Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"

  • 1. UNIVERSITÀ DEGLI STUDI DI TRIESTE Dipartimento di Ingegneria e Architettura Tesi di laurea triennale in Ingegneria Elettronica ed Informatica Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild" Candidato: Matteo MAGRIS Relatore: Prof. Alberto BARTOLI Anno Accademico 2018 - 2019
  • 2. Indice 1 Introduzione 2 2 AdBlock Plus 2 3 Metodologia 3 4 Fase 1: Realizzazione 3 5 Fase 2: Applicazioni 5 6 Conclusioni 6
  • 3. 1 Introduzione L’advertising online è una delle principali fonti di guadagno di molte aziende che operano nell’ecosistema pubblicitario. Il modello di business si basa sull’ac- cordo implicito tra i fornitori di contenuti e l’utente finale: la visione di annunci pubblicitari e la condivisione delle proprie informazioni sono il prezzo da pagare per poter usufruire di un servizio. Una buona parte di utenti non accetta questo modello perché ritiene la pubblicità online uno strumento invasivo dal punto di vista della privacy o semplicemente fastidioso perché distrae dal contenuto prima- rio del servizio. Questa situazione ha portato alla diffusione di estensioni browser per bloccare o nascondere gli annunci pubblicitari, chiamate ad-blocker. Il loro crescente utilizzo rappresenta una minaccia per gli attori di questo business, quali publisher e advertiser, perchè può compromettere l’intero modello commerciale su cui il Web è costruito. In questo articolo viene studiato un metodo per individuare coloro che ne fanno uso ed è stato fatto un primo passo verso la comprensione di come gli utilizzano e in che modo influenzano il traffico pubblicitario. 2 AdBlock Plus Dalle statistiche riportate dai browser più popolari risulta che, tra coloro che utilizzano gli ad-blocker, Adblock Plus è il più diffuso e per questo gli autori basano i loro studi sul suo funzionamento. Il meccanismo con il quale Adblock Plus classifica gli elementi in pubblicitari e non, per decidere se bloccarli, è fondato su regole stabilite da liste di filtraggio. Al momento dell’installazione l’utente scarica automaticamente 2 liste: 1. EasyList che contiene un elenco di URL. Se un browser effettua una richiesta per uno di questi URL Adblock Plus si occupa di bloccarla. In realtà per la classificazione oltre all’URL Adblock Plus utilizza informazioni sulla strut- tura della pagina web (DOM tree). Questo perché molto spesso gli elementi pubblicitari come le immagini sono inseriti in tag iframe. 2. Una whitelist, “lista di pubblicità accettabili”, nella quale è inserito un elen- co di eccezioni, ovvero URL la cui richiesta non viene bloccata nonostante rappresentino oggetti pubblicitari. Proprio perché questa lista è scaricata di default la maggior parte degli utenti ne ignora l’esistenza o sceglie di non rimuoverla. In questo modo, nonostante l’uso di Adblock plus, gli utenti generano comunque una percentuale di traffico pubblicitario significativa. Molte compagnie tra le quali Google, Amazon e Microsoft, pagano Adblock Plus per permettere ai propri domini di entrare a far parte di questa whitelist. 1
  • 4. Gli utenti inoltre hanno la facoltà di modificare le liste alle quali sono iscritti e aggiungerne delle nuove come ad esempio EasyPrivacy che permette loro di evitare il tracciamento da parte dei siti web. 3 Metodologia Uno degli obiettivi dell’articolo è quello di quantificare il numero di utenti che fa uso di Adblock Plus e, nel farlo, conviene suddividere il processo in 2 fasi. Nella prima fase è necessario escogitare un metodo che dia dei risultati di classificazione il più vicino possibile a quelli di Adblock Plus ma con una limitazione: ottenere le informazioni sulla struttura della pagina web senza aver accesso al payload dei pacchetti. In questo modo, nella seconda fase, è possibile applicare questo metodo al traffico di pacchetti di una rete pubblica di cui non è possibile, per motivi di privacy, analizzarne il payload. 4 Fase 1: Realizzazione Per poter classificare un elemento di una pagina web viene utilizzata la stessa libreria su cui è basato il funzionamento di Adblock plus chiamata libadblockplus. L’idea degli autori è quindi quella di ricavare le informazioni strutturali del sito Web dalle intestazioni dei pacchetti. In particolare, i parametri forniti alla libreria sono: 1. l’URL della richiesta per l’elemento da classificare. 2. la sequenza di URL che ha portato alla generazione della richiesta. 3. il tipo di contenuto della richiesta. La prima informazione è recuperata dal campo Host. La seconda invece ana- lizzando a ritroso il contenuto dei campi referer delle varie richieste, permettendo così di individuare anche la pagina da cui tale richiesta è partita. Infine la terza si ottiene considerando sia il campo Content-type che l’estensione del file indicata nell’URL. Il metodo appena descritto (figura 1) viene poi valutato e confrontato con i risultati che fornirebbe Adblock Plus attraverso una misurazione attiva. Questa consiste nell’istruire un browser dotato di Adblock Plus a contattare varie volte i primi mille siti di Alexa, analizzando di volta in volta il traffico e applicando in parallelo la metodologia vista sopra. 2
  • 5. Figura 1: Classificazione richieste pubblicitarie Dai risultati si osserva che il metodo realizzato risulta molto efficace con po- chissimi errori di classificazione ma solo per quanto riguarda il traffico http. Il metodo infatti presenta diverse limitazioni: la principale è che non è in grado di studiare il traffico HTTPS perché gli URL sono crittati quindi non analizzabili. Da questo fatto si deduce inoltre che non è sempre possibile effettuare il processo di ricostruzione della catena di URL citato precedentemente. Le altre limitazioni sono: l’incapacità di rivelare la presenza di pubblicità nascoste all’interno nel do- cumento HTML di una pagina Web (textual advertisement) e la scarsa accuratezza nella ricostruzione della struttura. Un browser che usa Adblock Plus genera meno richieste di uno che non lo usa. Sulla base di questa osservazione è stato calcolato il rapporto tra richieste di annunci pubblicitari e richieste totali, ricavando una soglia che permette di distinguere coloro che fanno uso di Adblock Plus da coloro che non ne fanno uso. Si è verificato che una soglia del 5% è rappresentativa di un utente iscritto alle sole liste di default. 3
  • 6. 5 Fase 2: Applicazioni A questo punto il metodo visto sopra viene applicato a due tracce di una rete a banda larga di uno dei maggiori Internet Service Provider d’Europa. La prima, che ha una durata di 4 giorni e che contiene traffico HTTP associato a 7,5k utenti, viene utilizzata per caratterizzare il traffico. La seconda, che ha una durata di circa 16 ore e che contiene traffico HTTP associato a circa 20k utenti, viene invece utilizzata per quantificare il numero di utenti che utilizza Adblock Plus. La tecnica che è stata utilizzata per monitorare il traffico di entrambe le tracce permette di associare al traffico HTTP il traffico TCP dalla (o alla) porta 80 e al traffico HTTPS il traffico TCP dalla (o alla) porta 443. Così facendo è anche possibile sapere se un connessione è avvenuta o meno senza aver la necessità di analizzare le richieste e risposte HTTP/HTTPS. Prima Traccia Dall’analisi della prima traccia si è osservato che il traffico pubblicitario, rispet- to a quello non pubblicitario, ha un andamento nel corso della giornata leggermente diverso. I motivi sono principalmente due: 1. A seconda del contenuto le pagine Web presentano una densità di pubblicità variabile. Siti che offrono servizi di streaming ad esempio contengono una quantità minore di annunci rispetto a quelli che appartengono alla categoria news. 2. La presenza di utenti che fa uso di ad-blocker varia di molto nel corso della giornata. In particolare, si è osservato che nelle ore di picco il numero di utenti non ad-blocker è perfino il doppio di quelli ad-blocker. Viene inoltre approfondito il contenuto e le rispettive dimensioni in Bytes degli elementi pubblicitari (figura 2). Seconda Traccia Per stabilire se un utente fa uso di Adblock Plus si sfruttano due indicatori: 1. Il mancato superamento della soglia del 5% ricavata precedentemente. 2. Se avviene la connessione HTTPS con un server di Adblock Plus per con- trollare la presenza di aggiornamenti dei filtri (Easylist Downloads). 4
  • 7. Figura 2: Contenuto e dimensioni in Bytes degli elementi pubblicitari I risultati dovuti alla combinazione di questi 2 indicatori sono riportati nella tabella di figura 3. Va tenuto presente che lo studio è stato effettuato considerando solo gli utenti più attivi (circa 9,6k). Figura 3: Percentuale di utenti per ogni combinazione di indicatori Si conclude che coloro che soddisfanno entrambi gli indicatori (tipologia C) fanno sicuramente uso di Adblock Plus. I casi in cui invece solo uno degli indicatori è valido, vengono considerati come rappresentativi di utenti che non ne fanno uso. La tipologia B, non soddisfacendo l’indicatore di soglia, verosimilmente non lo utilizza. Gli utenti D potrebbero utilizzare altri plugin o più probabilmente effettuano richieste a pagine web con un basso tasso di pubblicità. 6 Conclusioni Il metodo discusso, nonostante presenti diverse limitazioni e consideri solamen- te Adblock plus, ha permesso di concludere che il 22% degli utenti utilizza questa estensione quando naviga sul Web. Solo una piccola parte di questi installa il filtro 5
  • 8. EasyPrivacy indice del fatto che la maggior parte degli utenti o è semplicemente interessata a bloccare le fastidiose pubblicità o non è consapevole della possibilità di proteggere la propria privacy. Si è osservato inoltre che il 18% delle richieste totali in una rete a banda larga è legata agli annunci pubblicitari e corrisponde in bytes a poco più dell’ 1% del traffico totale. Gli elementi del traffico pubblicitario sono prevalentemente immagini gif e testo HTML con una prevalenza di quest’ul- timo sulle dimensioni in bytes. Infine si è verificato che il 9% di tutte le richieste pubblicitarie sono effettuate a URL presenti nella whitelist. 6
  • 9. Riferimenti bibliografici [1] Enric Pujol, Oliver Hohlfeld, Anja Feldmann. Annoyed Users: Ads and Ad- Block Usage in the Wild. In: Internet Measurement Conference 2015. pp. 93- 106. 7