Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"

UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
EXTENDED SUMMARY OF “Polls,
Clickbait, and Commemorative $2 Bills:
Problematic Political Advertising on News
and Media Websites Around the 2020 U.S.
Elections”
Eric Zeng, Miranda Wei, Theo Gregersen, Tadayoshi Kohno, Franziska Roesner
Paul G. Allen School of Computer Science & Engineering
University of Washington
Seattle, WA, USA
Tesi di Laurea Triennale
Laureanda:
Ludovica CAIOLA
Relatore:
prof. Alberto BARTOLI
Anno Accademico 2021 – 2022

Sommario
1. INTRODUZIONE 3
2. METODOLOGIA 3
2.1 Strumenti 3
2.2 Preprocessing dei dati 4
2.3 Analisi del contenuto 4
3. RISULTATI 4
3.1 Origine delle inserzioni 5
3.2 Sondaggi e petizioni 5
3.3 Prodotti 5
3.4 News e media 6
4. PROBLEMATICHE E CONCLUSIONI 6
5. LIMITI 6
6. RICERCHE FUTURE 6

1. INTRODUZIONE
Il 3 novembre 2020 ha svolto un ruolo determinante nella storia degli Stati Uniti d’America. L’ex
presidente in carica Donald Trump ha sfidato l’attuale presidente Joe Biden. La campagna elettorale
ha registrato importanti cambiamenti, dovuti alla situazione pandemica. Ciò ha portato alla
diminuzione di eventi e congressi dal vivo causando un’intensificazione di mezzi e risorse online
per la propaganda politica.
Un gruppo di ricercatori dell’Università di Washington ha analizzato le inserzioni pubblicitarie
online presenti in siti d’informazione dall’ampia risonanza mediatica, prima e dopo le elezioni
presidenziali americane.
Tale ricerca è stata svolta da settembre 2020 a gennaio 2021, usando le VPN in sei città americane,
scelte in ragione degli orientamenti politici notoriamente contrastanti: Atlanta (GA), Miami (FL),
Raleigh (NC), Phoenix (AZ), Salt Lake City (UT), Seattle (WA).
Studiare la natura delle inserzioni e il loro contenuto è fondamentale per avere maggiore
consapevolezza sul tipo di informazioni a cui la gente va incontro quotidianamente. Talvolta si tratta
di news, petizioni, sondaggi falsi, creati a scopo lucroso e altamente devianti per chi legge.
Sin dall’inizio della campagna elettorale diverse aziende tecnologiche hanno registrato un alto tasso
di disinformazione negli annunci politici online: di conseguenza alcune di queste hanno vietato la
presenza di tali annunci nelle loro piattaforme, altre vi hanno posto forti restrizioni, altre ancora ne
hanno garantito la presenza a patto che rispettassero le policies stabilite. Entrambi i candidati hanno
investito miliardi di dollari nella campagna inserzionistica online: solo su Facebook e Google si
stima abbiano speso singolarmente oltre 200 milioni di dollari.
Nello specifico, le ricerche hanno rilevato problemi di disinformazione nei contenuti delle
inserzioni online, nella natura delle inserzioni stesse (spesso contenenti malware) nonché nella
diffusione di fake news e, talvolta, nell’uso di tematiche discriminatorie e provocatorie.
La costruzione del dataset è avvenuta grazie ad operazioni svolte quotidianamente in maniera
metodica, dalle quali è stato possibile ricavare il contenuto delle inserzioni e le problematiche
presenti al loro interno, la provenienza e l’affiliazione politica degli inserzionisti, le differenze tra i
siti analizzati e gli annunci presenti.
2. METODOLOGIA
2.1 Strumenti
La ricerca è stata realizzata facendo uso di strumenti quali i web crawlers, che hanno reso possibile
la selezione degli annunci pubblicitari dalle pagine web, utilizzando altresì tecniche di analisi
qualitativa dei dati combinata al NLP (Natural Processing Language), per analizzare il contenuto
delle inserzioni, e sfruttando un servizio di VPN per effettuare le ricerche in ogni località scelta.
Il lavoro di ricerca è iniziato con la scelta dei siti web in cui analizzare le pubblicità: dopo una
prima selezione approssimativa è stata effettuata una scrematura di 754 siti per permettere ai
crawlers di analizzare tutti i siti una volta al giorno ogni giorno.
Il web crawler visita tutti i siti scelti e fa uno screenshot di ogni annuncio presente nella pagina,
clicca poi sull’inserzione e memorizza l’URL e il contenuto della pagina in cui si trova.

2.2 Preprocessing dei dati
È così che inizia l’operazione di Preprocessing dei dati, durante la quale questi vengono manipolati
al fine di garantire una maggiore chiarezza prima dell’analisi del loro contenuto.
Dapprima si estrae il testo dall’annuncio, tale operazione può avvenire in due modi diversi a
seconda della natura delle inserzioni: se l’annuncio consiste in un’immagine il testo viene estratto
con tecniche di OCR (Optical Character Recognition), se si tratta invece di un native ad, annuncio
che assume l’aspetto dei contenuti del sito in cui si trova, il testo risiede nel codice HTML quindi lo
si estrae usando Javascript.
Si passa poi alla fase di deduplicazione che permette di stimare le somiglianze tra due insiemi
eliminando le inserzioni uguali: grazie ad essa i ricercatori hanno ricavato 169,751 inserzioni
uniche.
2.3 Analisi del contenuto
In seguito i ricercatori hanno analizzato il contenuto degli annunci attraverso il topic modeling, una
tecnica che ha consentito di raggruppare le pubblicità sulla base delle similitudini semantiche
trovate. Tra i modelli testati quello che ha garantito le performance migliori è stato il Gibbs-
Sampling Dirichlet Mixture Model (GSDMM), al cui uso è seguito quello del c-TF-IDF che ha
permesso di selezionare le parole più significative dai vari documenti.
Solo 5,2% delle inserzioni uniche sono state classificate come politiche. Sulla base del loro
contenuto sono state suddivise in tre macrogruppi principali riguardanti rispettivamente: (1)
campagna elettorale e candidati; (2) news e media atti a promuovere articoli e video politici; (3)
prodotti e servizi da vendere con contenuti politici. Gli annunci inizialmente classificati come
“politici” ma il cui contenuto risultava non leggibile oppure era oscurato sono stati infine etichettati
come non-politici o non validi.
3. RISULTATI
Gli strumenti utilizzati e le operazioni eseguite hanno svolto un ruolo ben preciso per la raccolta dei
risultati. Si stima che fossero presenti circa 250 pubblicità politiche al giorno, con un picco
massimo registrato il 3 novembre 2020, giorno in cui si arrivò a 450 inserzioni. Dopo le elezioni c’è
stato un netto decremento: ogni giorno le inserzioni di tipo politico erano circa 200.
A partire dal contenuto delle inserzioni si è generata una
lista di argomenti dal più al meno frequente: primo fra tutti
“enterprise”, al secondo posto “tabloid” e infine “health”.
È stata inoltre rilevata una forte associazione tra alcuni siti
web dal preciso orientamento politico e le pubblicità in essi
contenute: la presenza di inserzioni provenienti da gruppi
liberali è stata maggiore su siti di centro-sinistra, al contrario
inserzionisti conservatori hanno operato per lo più su siti di
centro-destra.
Al contrario non è stata rilevata nessuna associazione tra la
popolarità di alcuni siti e la quantità di pubblicità politiche
presenti, forse per rimanere più imparziali.

3.1 Origine delle inserzioni
Ma quali organizzazioni creano queste inserzioni e qual è la loro affiliazione politica? La maggior
parte delle pubblicità sono create da commissioni registrate: entrambi i candidati hanno fatto uso di
queste commissioni in ugual modo.
Altre organizzazioni maggiormente in voga tra i repubblicani sono state le agenzie di stampa e in
seguito le organizzazioni non profit.
3.2 Sondaggi e petizioni
L’uso di sondaggi e petizioni è spiccato maggiormente in annunci risultati politicamente di destra
e/o conservatori. Alcuni di questi usavano un linguaggio neutrale, altri invece erano provocatori nei
confronti di tematiche tanto universali quanto controverse. Tali sono risultati anche gli annunci
repubblicani che miravano ad attaccare il candidato schierato dai democratici. Al contrario, i
democratici proponevano perlopiù temi riguardanti punti e approfondimenti in linea con il loro
orientamento politico.
3.3 Prodotti
Alcuni inserzionisti hanno approfittato del periodo di campagna elettorale per mostrare annunci atti
a vendere prodotti di vario tipo: la maggior parte di questi conteneva le parole “Donald” o “Trump”,
altri invece mostravano annunci con temi riguardanti la campagna elettorale, ma poi vendevano
tutt’altro. Il modello GSDMM ha trovato 45 categorie di prodotti politici e 29 di annunci che
vendevano prodotti non politici, ma la cui pagina iniziale faceva credere che fossero tali.
3.4 News e media
Un ulteriore tipo di annuncio pubblicitario è collegato alle news e ai contenuti mediatici. Questo

macrogruppo è stato diviso in due parti: quelli che sponsorizzavano articoli di news politiche e altri
che promuovevano eventi e stand. Molti di questi annunci contenevano titoli clickbait, mostravano
informazioni personali (talvolta false) riguardanti le famiglie dei candidati o dei vice presidenti
candidati nelle rispettive liste. Anche questo tipo di annunci è apparso maggiormente in siti di
centro-destra.
4. PROBLEMATICHE E CONCLUSIONI
Quest’analisi ha portato alla luce profonde problematiche nei contenuti delle inserzioni online. I
sondaggi e le petizioni sono stati lo strumento, a dire dei ricercatori, più dannoso sul web. Questi
strumenti raccolgono spesso informazioni personali degli utenti, come ad esempio indirizzi email a
cui successivamente vengono recapitate pubblicità, informazioni politicizzanti, richieste di
donazioni. Inoltre è facilmente comprensibile la partecipazione a sondaggi con titoli strettamente di
parte da cui chiunque potrebbe essere attratto per esprimere il proprio assenso o dissenso.
Il problema dell’enorme varietà di annunci pubblicitari è la diffusione di un modo errato di creare
dibattito politico, privo di confronto e ricco di tematiche offensive e provocatorie. È innegabile che
circolino annunci pubblicitari contenenti informazioni false o titoli clickbait: durante la campagna
elettorale molti inserzionisti hanno fatto leva sul periodo che gli americani stavano affrontando,
pensando a tecniche e strategie per attirare potenziali acquirenti. Il rischio è proprio quello di
influenzare negativamente persone considerate vulnerabili, attraverso la diffusione di fake news,
titoli e sondaggi clickbait.
I ricercatori si sono interrogati anche sul danno che tali annunci sono in grado di provocare
nonostante questi rispettino le policies già esistenti nelle varie piattaforme.
5. LIMITI
Hanno dichiarato anche i limiti delle loro ricerche, come il fatto che i loro studi siano stati effettuati
in un numero limitato di siti web e che il crawler li analizzasse solo una volta al giorno. I ricercatori
hanno inoltre evidenziato che le interruzioni del servizio della VPN e i bugs del crawler potrebbero
aver causato una raccolta dati non del tutto ottimale. Per concludere, si stima che circa il 18% degli
annunci raccolti nel dataset presentasse dei problemi.
6. RICERCHE FUTURE
La presenza dei limiti sopra esposti non esclude la possibilità che la ricerca informatica possa
continuare ad indagare il campo delle inserzioni pubblicitarie non solo nei siti web, ma anche nei
social media o in notiziari e applicazioni mobili, magari concentrandosi sugli effetti che gli annunci
pubblicitari possono avere sulle diverse generazioni di utenti.

Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"

Recommended

Recommended

More Related Content

Similar to Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"

Similar to Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections" (20)

Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"