Giornata Tecnica da Piave Servizi, 11 aprile 2024 | ROMANO' Davide
Summary of "Annoyed Users: Ads and Ad-Block Usage in the Wild"
1. UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Tesi di laurea triennale in Ingegneria Elettronica ed Informatica
Summary of "Annoyed Users: Ads and
Ad-Block Usage in the Wild"
Candidato:
Matteo MAGRIS
Relatore:
Prof. Alberto BARTOLI
Anno Accademico 2018 - 2019
2. Indice
1 Introduzione 2
2 AdBlock Plus 2
3 Metodologia 3
4 Fase 1: Realizzazione 3
5 Fase 2: Applicazioni 5
6 Conclusioni 6
3. 1 Introduzione
L’advertising online è una delle principali fonti di guadagno di molte aziende
che operano nell’ecosistema pubblicitario. Il modello di business si basa sull’ac-
cordo implicito tra i fornitori di contenuti e l’utente finale: la visione di annunci
pubblicitari e la condivisione delle proprie informazioni sono il prezzo da pagare
per poter usufruire di un servizio. Una buona parte di utenti non accetta questo
modello perché ritiene la pubblicità online uno strumento invasivo dal punto di
vista della privacy o semplicemente fastidioso perché distrae dal contenuto prima-
rio del servizio. Questa situazione ha portato alla diffusione di estensioni browser
per bloccare o nascondere gli annunci pubblicitari, chiamate ad-blocker. Il loro
crescente utilizzo rappresenta una minaccia per gli attori di questo business, quali
publisher e advertiser, perchè può compromettere l’intero modello commerciale su
cui il Web è costruito. In questo articolo viene studiato un metodo per individuare
coloro che ne fanno uso ed è stato fatto un primo passo verso la comprensione di
come gli utilizzano e in che modo influenzano il traffico pubblicitario.
2 AdBlock Plus
Dalle statistiche riportate dai browser più popolari risulta che, tra coloro
che utilizzano gli ad-blocker, Adblock Plus è il più diffuso e per questo gli autori
basano i loro studi sul suo funzionamento. Il meccanismo con il quale Adblock Plus
classifica gli elementi in pubblicitari e non, per decidere se bloccarli, è fondato su
regole stabilite da liste di filtraggio. Al momento dell’installazione l’utente scarica
automaticamente 2 liste:
1. EasyList che contiene un elenco di URL. Se un browser effettua una richiesta
per uno di questi URL Adblock Plus si occupa di bloccarla. In realtà per la
classificazione oltre all’URL Adblock Plus utilizza informazioni sulla strut-
tura della pagina web (DOM tree). Questo perché molto spesso gli elementi
pubblicitari come le immagini sono inseriti in tag iframe.
2. Una whitelist, “lista di pubblicità accettabili”, nella quale è inserito un elen-
co di eccezioni, ovvero URL la cui richiesta non viene bloccata nonostante
rappresentino oggetti pubblicitari. Proprio perché questa lista è scaricata di
default la maggior parte degli utenti ne ignora l’esistenza o sceglie di non
rimuoverla. In questo modo, nonostante l’uso di Adblock plus, gli utenti
generano comunque una percentuale di traffico pubblicitario significativa.
Molte compagnie tra le quali Google, Amazon e Microsoft, pagano Adblock
Plus per permettere ai propri domini di entrare a far parte di questa whitelist.
1
4. Gli utenti inoltre hanno la facoltà di modificare le liste alle quali sono iscritti e
aggiungerne delle nuove come ad esempio EasyPrivacy che permette loro di evitare
il tracciamento da parte dei siti web.
3 Metodologia
Uno degli obiettivi dell’articolo è quello di quantificare il numero di utenti che
fa uso di Adblock Plus e, nel farlo, conviene suddividere il processo in 2 fasi. Nella
prima fase è necessario escogitare un metodo che dia dei risultati di classificazione
il più vicino possibile a quelli di Adblock Plus ma con una limitazione: ottenere
le informazioni sulla struttura della pagina web senza aver accesso al payload dei
pacchetti. In questo modo, nella seconda fase, è possibile applicare questo metodo
al traffico di pacchetti di una rete pubblica di cui non è possibile, per motivi di
privacy, analizzarne il payload.
4 Fase 1: Realizzazione
Per poter classificare un elemento di una pagina web viene utilizzata la stessa
libreria su cui è basato il funzionamento di Adblock plus chiamata libadblockplus.
L’idea degli autori è quindi quella di ricavare le informazioni strutturali del sito
Web dalle intestazioni dei pacchetti. In particolare, i parametri forniti alla libreria
sono:
1. l’URL della richiesta per l’elemento da classificare.
2. la sequenza di URL che ha portato alla generazione della richiesta.
3. il tipo di contenuto della richiesta.
La prima informazione è recuperata dal campo Host. La seconda invece ana-
lizzando a ritroso il contenuto dei campi referer delle varie richieste, permettendo
così di individuare anche la pagina da cui tale richiesta è partita. Infine la terza
si ottiene considerando sia il campo Content-type che l’estensione del file indicata
nell’URL.
Il metodo appena descritto (figura 1) viene poi valutato e confrontato con i
risultati che fornirebbe Adblock Plus attraverso una misurazione attiva. Questa
consiste nell’istruire un browser dotato di Adblock Plus a contattare varie volte i
primi mille siti di Alexa, analizzando di volta in volta il traffico e applicando in
parallelo la metodologia vista sopra.
2
5. Figura 1: Classificazione richieste pubblicitarie
Dai risultati si osserva che il metodo realizzato risulta molto efficace con po-
chissimi errori di classificazione ma solo per quanto riguarda il traffico http. Il
metodo infatti presenta diverse limitazioni: la principale è che non è in grado di
studiare il traffico HTTPS perché gli URL sono crittati quindi non analizzabili.
Da questo fatto si deduce inoltre che non è sempre possibile effettuare il processo
di ricostruzione della catena di URL citato precedentemente. Le altre limitazioni
sono: l’incapacità di rivelare la presenza di pubblicità nascoste all’interno nel do-
cumento HTML di una pagina Web (textual advertisement) e la scarsa accuratezza
nella ricostruzione della struttura.
Un browser che usa Adblock Plus genera meno richieste di uno che non lo
usa. Sulla base di questa osservazione è stato calcolato il rapporto tra richieste
di annunci pubblicitari e richieste totali, ricavando una soglia che permette di
distinguere coloro che fanno uso di Adblock Plus da coloro che non ne fanno uso.
Si è verificato che una soglia del 5% è rappresentativa di un utente iscritto alle
sole liste di default.
3
6. 5 Fase 2: Applicazioni
A questo punto il metodo visto sopra viene applicato a due tracce di una rete
a banda larga di uno dei maggiori Internet Service Provider d’Europa. La prima,
che ha una durata di 4 giorni e che contiene traffico HTTP associato a 7,5k utenti,
viene utilizzata per caratterizzare il traffico. La seconda, che ha una durata di
circa 16 ore e che contiene traffico HTTP associato a circa 20k utenti, viene invece
utilizzata per quantificare il numero di utenti che utilizza Adblock Plus.
La tecnica che è stata utilizzata per monitorare il traffico di entrambe le tracce
permette di associare al traffico HTTP il traffico TCP dalla (o alla) porta 80 e
al traffico HTTPS il traffico TCP dalla (o alla) porta 443. Così facendo è anche
possibile sapere se un connessione è avvenuta o meno senza aver la necessità di
analizzare le richieste e risposte HTTP/HTTPS.
Prima Traccia
Dall’analisi della prima traccia si è osservato che il traffico pubblicitario, rispet-
to a quello non pubblicitario, ha un andamento nel corso della giornata leggermente
diverso. I motivi sono principalmente due:
1. A seconda del contenuto le pagine Web presentano una densità di pubblicità
variabile. Siti che offrono servizi di streaming ad esempio contengono una
quantità minore di annunci rispetto a quelli che appartengono alla categoria
news.
2. La presenza di utenti che fa uso di ad-blocker varia di molto nel corso della
giornata. In particolare, si è osservato che nelle ore di picco il numero di
utenti non ad-blocker è perfino il doppio di quelli ad-blocker.
Viene inoltre approfondito il contenuto e le rispettive dimensioni in Bytes degli
elementi pubblicitari (figura 2).
Seconda Traccia
Per stabilire se un utente fa uso di Adblock Plus si sfruttano due indicatori:
1. Il mancato superamento della soglia del 5% ricavata precedentemente.
2. Se avviene la connessione HTTPS con un server di Adblock Plus per con-
trollare la presenza di aggiornamenti dei filtri (Easylist Downloads).
4
7. Figura 2: Contenuto e dimensioni in Bytes degli elementi pubblicitari
I risultati dovuti alla combinazione di questi 2 indicatori sono riportati nella
tabella di figura 3. Va tenuto presente che lo studio è stato effettuato considerando
solo gli utenti più attivi (circa 9,6k).
Figura 3: Percentuale di utenti per ogni combinazione di indicatori
Si conclude che coloro che soddisfanno entrambi gli indicatori (tipologia C)
fanno sicuramente uso di Adblock Plus. I casi in cui invece solo uno degli indicatori
è valido, vengono considerati come rappresentativi di utenti che non ne fanno
uso. La tipologia B, non soddisfacendo l’indicatore di soglia, verosimilmente non
lo utilizza. Gli utenti D potrebbero utilizzare altri plugin o più probabilmente
effettuano richieste a pagine web con un basso tasso di pubblicità.
6 Conclusioni
Il metodo discusso, nonostante presenti diverse limitazioni e consideri solamen-
te Adblock plus, ha permesso di concludere che il 22% degli utenti utilizza questa
estensione quando naviga sul Web. Solo una piccola parte di questi installa il filtro
5
8. EasyPrivacy indice del fatto che la maggior parte degli utenti o è semplicemente
interessata a bloccare le fastidiose pubblicità o non è consapevole della possibilità
di proteggere la propria privacy. Si è osservato inoltre che il 18% delle richieste
totali in una rete a banda larga è legata agli annunci pubblicitari e corrisponde in
bytes a poco più dell’ 1% del traffico totale. Gli elementi del traffico pubblicitario
sono prevalentemente immagini gif e testo HTML con una prevalenza di quest’ul-
timo sulle dimensioni in bytes. Infine si è verificato che il 9% di tutte le richieste
pubblicitarie sono effettuate a URL presenti nella whitelist.
6
9. Riferimenti bibliografici
[1] Enric Pujol, Oliver Hohlfeld, Anja Feldmann. Annoyed Users: Ads and Ad-
Block Usage in the Wild. In: Internet Measurement Conference 2015. pp. 93-
106.
7