SlideShare a Scribd company logo
1 of 6
Download to read offline
UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Corso di Studi in Ingegneria Elettronica e Informatica
EXTENDED SUMMARY OF “Polls,
Clickbait, and Commemorative $2 Bills:
Problematic Political Advertising on News
and Media Websites Around the 2020 U.S.
Elections”
Eric Zeng, Miranda Wei, Theo Gregersen, Tadayoshi Kohno, Franziska Roesner
Paul G. Allen School of Computer Science & Engineering
University of Washington
Seattle, WA, USA
Tesi di Laurea Triennale
Laureanda:
Ludovica CAIOLA
Relatore:
prof. Alberto BARTOLI
Anno Accademico 2021 – 2022
Sommario
1. INTRODUZIONE 3
2. METODOLOGIA 3
2.1 Strumenti 3
2.2 Preprocessing dei dati 4
2.3 Analisi del contenuto 4
3. RISULTATI 4
3.1 Origine delle inserzioni 5
3.2 Sondaggi e petizioni 5
3.3 Prodotti 5
3.4 News e media 6
4. PROBLEMATICHE E CONCLUSIONI 6
5. LIMITI 6
6. RICERCHE FUTURE 6
1. INTRODUZIONE
Il 3 novembre 2020 ha svolto un ruolo determinante nella storia degli Stati Uniti d’America. L’ex
presidente in carica Donald Trump ha sfidato l’attuale presidente Joe Biden. La campagna elettorale
ha registrato importanti cambiamenti, dovuti alla situazione pandemica. Ciò ha portato alla
diminuzione di eventi e congressi dal vivo causando un’intensificazione di mezzi e risorse online
per la propaganda politica.
Un gruppo di ricercatori dell’Università di Washington ha analizzato le inserzioni pubblicitarie
online presenti in siti d’informazione dall’ampia risonanza mediatica, prima e dopo le elezioni
presidenziali americane.
Tale ricerca è stata svolta da settembre 2020 a gennaio 2021, usando le VPN in sei città americane,
scelte in ragione degli orientamenti politici notoriamente contrastanti: Atlanta (GA), Miami (FL),
Raleigh (NC), Phoenix (AZ), Salt Lake City (UT), Seattle (WA).
Studiare la natura delle inserzioni e il loro contenuto è fondamentale per avere maggiore
consapevolezza sul tipo di informazioni a cui la gente va incontro quotidianamente. Talvolta si tratta
di news, petizioni, sondaggi falsi, creati a scopo lucroso e altamente devianti per chi legge.
Sin dall’inizio della campagna elettorale diverse aziende tecnologiche hanno registrato un alto tasso
di disinformazione negli annunci politici online: di conseguenza alcune di queste hanno vietato la
presenza di tali annunci nelle loro piattaforme, altre vi hanno posto forti restrizioni, altre ancora ne
hanno garantito la presenza a patto che rispettassero le policies stabilite. Entrambi i candidati hanno
investito miliardi di dollari nella campagna inserzionistica online: solo su Facebook e Google si
stima abbiano speso singolarmente oltre 200 milioni di dollari.
Nello specifico, le ricerche hanno rilevato problemi di disinformazione nei contenuti delle
inserzioni online, nella natura delle inserzioni stesse (spesso contenenti malware) nonché nella
diffusione di fake news e, talvolta, nell’uso di tematiche discriminatorie e provocatorie.
La costruzione del dataset è avvenuta grazie ad operazioni svolte quotidianamente in maniera
metodica, dalle quali è stato possibile ricavare il contenuto delle inserzioni e le problematiche
presenti al loro interno, la provenienza e l’affiliazione politica degli inserzionisti, le differenze tra i
siti analizzati e gli annunci presenti.
2. METODOLOGIA
2.1 Strumenti
La ricerca è stata realizzata facendo uso di strumenti quali i web crawlers, che hanno reso possibile
la selezione degli annunci pubblicitari dalle pagine web, utilizzando altresì tecniche di analisi
qualitativa dei dati combinata al NLP (Natural Processing Language), per analizzare il contenuto
delle inserzioni, e sfruttando un servizio di VPN per effettuare le ricerche in ogni località scelta.
Il lavoro di ricerca è iniziato con la scelta dei siti web in cui analizzare le pubblicità: dopo una
prima selezione approssimativa è stata effettuata una scrematura di 754 siti per permettere ai
crawlers di analizzare tutti i siti una volta al giorno ogni giorno.
Il web crawler visita tutti i siti scelti e fa uno screenshot di ogni annuncio presente nella pagina,
clicca poi sull’inserzione e memorizza l’URL e il contenuto della pagina in cui si trova.
2.2 Preprocessing dei dati
È così che inizia l’operazione di Preprocessing dei dati, durante la quale questi vengono manipolati
al fine di garantire una maggiore chiarezza prima dell’analisi del loro contenuto.
Dapprima si estrae il testo dall’annuncio, tale operazione può avvenire in due modi diversi a
seconda della natura delle inserzioni: se l’annuncio consiste in un’immagine il testo viene estratto
con tecniche di OCR (Optical Character Recognition), se si tratta invece di un native ad, annuncio
che assume l’aspetto dei contenuti del sito in cui si trova, il testo risiede nel codice HTML quindi lo
si estrae usando Javascript.
Si passa poi alla fase di deduplicazione che permette di stimare le somiglianze tra due insiemi
eliminando le inserzioni uguali: grazie ad essa i ricercatori hanno ricavato 169,751 inserzioni
uniche.
2.3 Analisi del contenuto
In seguito i ricercatori hanno analizzato il contenuto degli annunci attraverso il topic modeling, una
tecnica che ha consentito di raggruppare le pubblicità sulla base delle similitudini semantiche
trovate. Tra i modelli testati quello che ha garantito le performance migliori è stato il Gibbs-
Sampling Dirichlet Mixture Model (GSDMM), al cui uso è seguito quello del c-TF-IDF che ha
permesso di selezionare le parole più significative dai vari documenti.
Solo 5,2% delle inserzioni uniche sono state classificate come politiche. Sulla base del loro
contenuto sono state suddivise in tre macrogruppi principali riguardanti rispettivamente: (1)
campagna elettorale e candidati; (2) news e media atti a promuovere articoli e video politici; (3)
prodotti e servizi da vendere con contenuti politici. Gli annunci inizialmente classificati come
“politici” ma il cui contenuto risultava non leggibile oppure era oscurato sono stati infine etichettati
come non-politici o non validi.
3. RISULTATI
Gli strumenti utilizzati e le operazioni eseguite hanno svolto un ruolo ben preciso per la raccolta dei
risultati. Si stima che fossero presenti circa 250 pubblicità politiche al giorno, con un picco
massimo registrato il 3 novembre 2020, giorno in cui si arrivò a 450 inserzioni. Dopo le elezioni c’è
stato un netto decremento: ogni giorno le inserzioni di tipo politico erano circa 200.
A partire dal contenuto delle inserzioni si è generata una
lista di argomenti dal più al meno frequente: primo fra tutti
“enterprise”, al secondo posto “tabloid” e infine “health”.
È stata inoltre rilevata una forte associazione tra alcuni siti
web dal preciso orientamento politico e le pubblicità in essi
contenute: la presenza di inserzioni provenienti da gruppi
liberali è stata maggiore su siti di centro-sinistra, al contrario
inserzionisti conservatori hanno operato per lo più su siti di
centro-destra.
Al contrario non è stata rilevata nessuna associazione tra la
popolarità di alcuni siti e la quantità di pubblicità politiche
presenti, forse per rimanere più imparziali.
3.1 Origine delle inserzioni
Ma quali organizzazioni creano queste inserzioni e qual è la loro affiliazione politica? La maggior
parte delle pubblicità sono create da commissioni registrate: entrambi i candidati hanno fatto uso di
queste commissioni in ugual modo.
Altre organizzazioni maggiormente in voga tra i repubblicani sono state le agenzie di stampa e in
seguito le organizzazioni non profit.
3.2 Sondaggi e petizioni
L’uso di sondaggi e petizioni è spiccato maggiormente in annunci risultati politicamente di destra
e/o conservatori. Alcuni di questi usavano un linguaggio neutrale, altri invece erano provocatori nei
confronti di tematiche tanto universali quanto controverse. Tali sono risultati anche gli annunci
repubblicani che miravano ad attaccare il candidato schierato dai democratici. Al contrario, i
democratici proponevano perlopiù temi riguardanti punti e approfondimenti in linea con il loro
orientamento politico.
3.3 Prodotti
Alcuni inserzionisti hanno approfittato del periodo di campagna elettorale per mostrare annunci atti
a vendere prodotti di vario tipo: la maggior parte di questi conteneva le parole “Donald” o “Trump”,
altri invece mostravano annunci con temi riguardanti la campagna elettorale, ma poi vendevano
tutt’altro. Il modello GSDMM ha trovato 45 categorie di prodotti politici e 29 di annunci che
vendevano prodotti non politici, ma la cui pagina iniziale faceva credere che fossero tali.
3.4 News e media
Un ulteriore tipo di annuncio pubblicitario è collegato alle news e ai contenuti mediatici. Questo
macrogruppo è stato diviso in due parti: quelli che sponsorizzavano articoli di news politiche e altri
che promuovevano eventi e stand. Molti di questi annunci contenevano titoli clickbait, mostravano
informazioni personali (talvolta false) riguardanti le famiglie dei candidati o dei vice presidenti
candidati nelle rispettive liste. Anche questo tipo di annunci è apparso maggiormente in siti di
centro-destra.
4. PROBLEMATICHE E CONCLUSIONI
Quest’analisi ha portato alla luce profonde problematiche nei contenuti delle inserzioni online. I
sondaggi e le petizioni sono stati lo strumento, a dire dei ricercatori, più dannoso sul web. Questi
strumenti raccolgono spesso informazioni personali degli utenti, come ad esempio indirizzi email a
cui successivamente vengono recapitate pubblicità, informazioni politicizzanti, richieste di
donazioni. Inoltre è facilmente comprensibile la partecipazione a sondaggi con titoli strettamente di
parte da cui chiunque potrebbe essere attratto per esprimere il proprio assenso o dissenso.
Il problema dell’enorme varietà di annunci pubblicitari è la diffusione di un modo errato di creare
dibattito politico, privo di confronto e ricco di tematiche offensive e provocatorie. È innegabile che
circolino annunci pubblicitari contenenti informazioni false o titoli clickbait: durante la campagna
elettorale molti inserzionisti hanno fatto leva sul periodo che gli americani stavano affrontando,
pensando a tecniche e strategie per attirare potenziali acquirenti. Il rischio è proprio quello di
influenzare negativamente persone considerate vulnerabili, attraverso la diffusione di fake news,
titoli e sondaggi clickbait.
I ricercatori si sono interrogati anche sul danno che tali annunci sono in grado di provocare
nonostante questi rispettino le policies già esistenti nelle varie piattaforme.
5. LIMITI
Hanno dichiarato anche i limiti delle loro ricerche, come il fatto che i loro studi siano stati effettuati
in un numero limitato di siti web e che il crawler li analizzasse solo una volta al giorno. I ricercatori
hanno inoltre evidenziato che le interruzioni del servizio della VPN e i bugs del crawler potrebbero
aver causato una raccolta dati non del tutto ottimale. Per concludere, si stima che circa il 18% degli
annunci raccolti nel dataset presentasse dei problemi.
6. RICERCHE FUTURE
La presenza dei limiti sopra esposti non esclude la possibilità che la ricerca informatica possa
continuare ad indagare il campo delle inserzioni pubblicitarie non solo nei siti web, ma anche nei
social media o in notiziari e applicazioni mobili, magari concentrandosi sugli effetti che gli annunci
pubblicitari possono avere sulle diverse generazioni di utenti.

More Related Content

Similar to Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"

Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_it
Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_itBiz miz o1 m5_u5.2_r6_k (ppt-f2f)_it
Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_itEmanuelePristera
 
Social media, stili di vita digitali e reputation- Gerenzani IAB Forum
Social media, stili di vita digitali e reputation- Gerenzani IAB ForumSocial media, stili di vita digitali e reputation- Gerenzani IAB Forum
Social media, stili di vita digitali e reputation- Gerenzani IAB Forumcarla campana
 
Piano web marketing per esame
Piano web marketing per esame Piano web marketing per esame
Piano web marketing per esame Gabriele Pfrimmer
 
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...Daniele Montemale
 
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_it
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_itBiz miz o1 m5_u5.2_r7_k (ppt-sdl)_it
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_itEmanuelePristera
 
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...GabrieleMorelli4
 
Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital Age Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital Age LUZ
 
Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital AgeContent Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital AgeLUZ
 
Koobi booking engine rosso sicaniasc - bologna 10.07.2014
Koobi booking engine    rosso sicaniasc - bologna 10.07.2014Koobi booking engine    rosso sicaniasc - bologna 10.07.2014
Koobi booking engine rosso sicaniasc - bologna 10.07.2014SICANIASC hospitality
 
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...Silvio De Rossi
 
I social media come strumenti di comunicazione ed interazione fra utenti
I social media come strumenti di comunicazione ed interazione fra utentiI social media come strumenti di comunicazione ed interazione fra utenti
I social media come strumenti di comunicazione ed interazione fra utentiGiuliano Prati
 
Architettura delle campagne elettorali - otto idee per non impazzire
Architettura delle campagne elettorali - otto idee per non impazzireArchitettura delle campagne elettorali - otto idee per non impazzire
Architettura delle campagne elettorali - otto idee per non impazzireDino Amenduni
 
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PR
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PRDigital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PR
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PRSEMBOX
 
Presentazione Nordest Creativo
Presentazione Nordest Creativo Presentazione Nordest Creativo
Presentazione Nordest Creativo Noiza
 
Il ruolo dei social media nella comunicazione e nel no-profit
Il ruolo dei social media nella comunicazione e nel no-profitIl ruolo dei social media nella comunicazione e nel no-profit
Il ruolo dei social media nella comunicazione e nel no-profitLaboratorio delle Idee
 
La ricerca sociale per la comunicazione (politica) online.
La ricerca sociale per la comunicazione (politica) online.La ricerca sociale per la comunicazione (politica) online.
La ricerca sociale per la comunicazione (politica) online.Marco Cerrone
 
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...Dino Amenduni
 
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...monithon
 
Freedatalabs.Com Social Media Marketing Made Real Gen 2010 Ita Con Casi
Freedatalabs.Com   Social Media Marketing Made Real   Gen 2010   Ita   Con CasiFreedatalabs.Com   Social Media Marketing Made Real   Gen 2010   Ita   Con Casi
Freedatalabs.Com Social Media Marketing Made Real Gen 2010 Ita Con CasiFreedata Labs
 

Similar to Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections" (20)

Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_it
Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_itBiz miz o1 m5_u5.2_r6_k (ppt-f2f)_it
Biz miz o1 m5_u5.2_r6_k (ppt-f2f)_it
 
Social media, stili di vita digitali e reputation- Gerenzani IAB Forum
Social media, stili di vita digitali e reputation- Gerenzani IAB ForumSocial media, stili di vita digitali e reputation- Gerenzani IAB Forum
Social media, stili di vita digitali e reputation- Gerenzani IAB Forum
 
Piano web marketing per esame
Piano web marketing per esame Piano web marketing per esame
Piano web marketing per esame
 
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...
La rete virale - Viral Marketing, Buzz e Word of mouth. Prospettive del socia...
 
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_it
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_itBiz miz o1 m5_u5.2_r7_k (ppt-sdl)_it
Biz miz o1 m5_u5.2_r7_k (ppt-sdl)_it
 
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...
Extended Summary of “What Twitter Knows: Characterizing Ad Targeting Practice...
 
Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital Age Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital Age
 
Content Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital AgeContent Marketing - alla conquista dei pubblici della Digital Age
Content Marketing - alla conquista dei pubblici della Digital Age
 
Koobi booking engine rosso sicaniasc - bologna 10.07.2014
Koobi booking engine    rosso sicaniasc - bologna 10.07.2014Koobi booking engine    rosso sicaniasc - bologna 10.07.2014
Koobi booking engine rosso sicaniasc - bologna 10.07.2014
 
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...
3.a Edizione dell'Osservatorio Internet sul fenomeno dell'IM in Italia: polit...
 
Angela Creta. La comunicazione istituzionale 2.0: la PA e i Social Media
Angela Creta. La comunicazione istituzionale 2.0: la PA e i Social MediaAngela Creta. La comunicazione istituzionale 2.0: la PA e i Social Media
Angela Creta. La comunicazione istituzionale 2.0: la PA e i Social Media
 
I social media come strumenti di comunicazione ed interazione fra utenti
I social media come strumenti di comunicazione ed interazione fra utentiI social media come strumenti di comunicazione ed interazione fra utenti
I social media come strumenti di comunicazione ed interazione fra utenti
 
Architettura delle campagne elettorali - otto idee per non impazzire
Architettura delle campagne elettorali - otto idee per non impazzireArchitettura delle campagne elettorali - otto idee per non impazzire
Architettura delle campagne elettorali - otto idee per non impazzire
 
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PR
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PRDigital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PR
Digital PR & Reputation Management. Sinergia tra SEO, Content Marketing & PR
 
Presentazione Nordest Creativo
Presentazione Nordest Creativo Presentazione Nordest Creativo
Presentazione Nordest Creativo
 
Il ruolo dei social media nella comunicazione e nel no-profit
Il ruolo dei social media nella comunicazione e nel no-profitIl ruolo dei social media nella comunicazione e nel no-profit
Il ruolo dei social media nella comunicazione e nel no-profit
 
La ricerca sociale per la comunicazione (politica) online.
La ricerca sociale per la comunicazione (politica) online.La ricerca sociale per la comunicazione (politica) online.
La ricerca sociale per la comunicazione (politica) online.
 
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...
Da spin doctor a ricercatori - Come cambia il ruolo del consulente politico a...
 
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...
E-democracy e e-participation - Prof. Alessandra Valastro, Università di Peru...
 
Freedatalabs.Com Social Media Marketing Made Real Gen 2010 Ita Con Casi
Freedatalabs.Com   Social Media Marketing Made Real   Gen 2010   Ita   Con CasiFreedatalabs.Com   Social Media Marketing Made Real   Gen 2010   Ita   Con Casi
Freedatalabs.Com Social Media Marketing Made Real Gen 2010 Ita Con Casi
 

Extended summary of "Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections"

  • 1. UNIVERSITÀ DEGLI STUDI DI TRIESTE Dipartimento di Ingegneria e Architettura Corso di Studi in Ingegneria Elettronica e Informatica EXTENDED SUMMARY OF “Polls, Clickbait, and Commemorative $2 Bills: Problematic Political Advertising on News and Media Websites Around the 2020 U.S. Elections” Eric Zeng, Miranda Wei, Theo Gregersen, Tadayoshi Kohno, Franziska Roesner Paul G. Allen School of Computer Science & Engineering University of Washington Seattle, WA, USA Tesi di Laurea Triennale Laureanda: Ludovica CAIOLA Relatore: prof. Alberto BARTOLI Anno Accademico 2021 – 2022
  • 2. Sommario 1. INTRODUZIONE 3 2. METODOLOGIA 3 2.1 Strumenti 3 2.2 Preprocessing dei dati 4 2.3 Analisi del contenuto 4 3. RISULTATI 4 3.1 Origine delle inserzioni 5 3.2 Sondaggi e petizioni 5 3.3 Prodotti 5 3.4 News e media 6 4. PROBLEMATICHE E CONCLUSIONI 6 5. LIMITI 6 6. RICERCHE FUTURE 6
  • 3. 1. INTRODUZIONE Il 3 novembre 2020 ha svolto un ruolo determinante nella storia degli Stati Uniti d’America. L’ex presidente in carica Donald Trump ha sfidato l’attuale presidente Joe Biden. La campagna elettorale ha registrato importanti cambiamenti, dovuti alla situazione pandemica. Ciò ha portato alla diminuzione di eventi e congressi dal vivo causando un’intensificazione di mezzi e risorse online per la propaganda politica. Un gruppo di ricercatori dell’Università di Washington ha analizzato le inserzioni pubblicitarie online presenti in siti d’informazione dall’ampia risonanza mediatica, prima e dopo le elezioni presidenziali americane. Tale ricerca è stata svolta da settembre 2020 a gennaio 2021, usando le VPN in sei città americane, scelte in ragione degli orientamenti politici notoriamente contrastanti: Atlanta (GA), Miami (FL), Raleigh (NC), Phoenix (AZ), Salt Lake City (UT), Seattle (WA). Studiare la natura delle inserzioni e il loro contenuto è fondamentale per avere maggiore consapevolezza sul tipo di informazioni a cui la gente va incontro quotidianamente. Talvolta si tratta di news, petizioni, sondaggi falsi, creati a scopo lucroso e altamente devianti per chi legge. Sin dall’inizio della campagna elettorale diverse aziende tecnologiche hanno registrato un alto tasso di disinformazione negli annunci politici online: di conseguenza alcune di queste hanno vietato la presenza di tali annunci nelle loro piattaforme, altre vi hanno posto forti restrizioni, altre ancora ne hanno garantito la presenza a patto che rispettassero le policies stabilite. Entrambi i candidati hanno investito miliardi di dollari nella campagna inserzionistica online: solo su Facebook e Google si stima abbiano speso singolarmente oltre 200 milioni di dollari. Nello specifico, le ricerche hanno rilevato problemi di disinformazione nei contenuti delle inserzioni online, nella natura delle inserzioni stesse (spesso contenenti malware) nonché nella diffusione di fake news e, talvolta, nell’uso di tematiche discriminatorie e provocatorie. La costruzione del dataset è avvenuta grazie ad operazioni svolte quotidianamente in maniera metodica, dalle quali è stato possibile ricavare il contenuto delle inserzioni e le problematiche presenti al loro interno, la provenienza e l’affiliazione politica degli inserzionisti, le differenze tra i siti analizzati e gli annunci presenti. 2. METODOLOGIA 2.1 Strumenti La ricerca è stata realizzata facendo uso di strumenti quali i web crawlers, che hanno reso possibile la selezione degli annunci pubblicitari dalle pagine web, utilizzando altresì tecniche di analisi qualitativa dei dati combinata al NLP (Natural Processing Language), per analizzare il contenuto delle inserzioni, e sfruttando un servizio di VPN per effettuare le ricerche in ogni località scelta. Il lavoro di ricerca è iniziato con la scelta dei siti web in cui analizzare le pubblicità: dopo una prima selezione approssimativa è stata effettuata una scrematura di 754 siti per permettere ai crawlers di analizzare tutti i siti una volta al giorno ogni giorno. Il web crawler visita tutti i siti scelti e fa uno screenshot di ogni annuncio presente nella pagina, clicca poi sull’inserzione e memorizza l’URL e il contenuto della pagina in cui si trova.
  • 4. 2.2 Preprocessing dei dati È così che inizia l’operazione di Preprocessing dei dati, durante la quale questi vengono manipolati al fine di garantire una maggiore chiarezza prima dell’analisi del loro contenuto. Dapprima si estrae il testo dall’annuncio, tale operazione può avvenire in due modi diversi a seconda della natura delle inserzioni: se l’annuncio consiste in un’immagine il testo viene estratto con tecniche di OCR (Optical Character Recognition), se si tratta invece di un native ad, annuncio che assume l’aspetto dei contenuti del sito in cui si trova, il testo risiede nel codice HTML quindi lo si estrae usando Javascript. Si passa poi alla fase di deduplicazione che permette di stimare le somiglianze tra due insiemi eliminando le inserzioni uguali: grazie ad essa i ricercatori hanno ricavato 169,751 inserzioni uniche. 2.3 Analisi del contenuto In seguito i ricercatori hanno analizzato il contenuto degli annunci attraverso il topic modeling, una tecnica che ha consentito di raggruppare le pubblicità sulla base delle similitudini semantiche trovate. Tra i modelli testati quello che ha garantito le performance migliori è stato il Gibbs- Sampling Dirichlet Mixture Model (GSDMM), al cui uso è seguito quello del c-TF-IDF che ha permesso di selezionare le parole più significative dai vari documenti. Solo 5,2% delle inserzioni uniche sono state classificate come politiche. Sulla base del loro contenuto sono state suddivise in tre macrogruppi principali riguardanti rispettivamente: (1) campagna elettorale e candidati; (2) news e media atti a promuovere articoli e video politici; (3) prodotti e servizi da vendere con contenuti politici. Gli annunci inizialmente classificati come “politici” ma il cui contenuto risultava non leggibile oppure era oscurato sono stati infine etichettati come non-politici o non validi. 3. RISULTATI Gli strumenti utilizzati e le operazioni eseguite hanno svolto un ruolo ben preciso per la raccolta dei risultati. Si stima che fossero presenti circa 250 pubblicità politiche al giorno, con un picco massimo registrato il 3 novembre 2020, giorno in cui si arrivò a 450 inserzioni. Dopo le elezioni c’è stato un netto decremento: ogni giorno le inserzioni di tipo politico erano circa 200. A partire dal contenuto delle inserzioni si è generata una lista di argomenti dal più al meno frequente: primo fra tutti “enterprise”, al secondo posto “tabloid” e infine “health”. È stata inoltre rilevata una forte associazione tra alcuni siti web dal preciso orientamento politico e le pubblicità in essi contenute: la presenza di inserzioni provenienti da gruppi liberali è stata maggiore su siti di centro-sinistra, al contrario inserzionisti conservatori hanno operato per lo più su siti di centro-destra. Al contrario non è stata rilevata nessuna associazione tra la popolarità di alcuni siti e la quantità di pubblicità politiche presenti, forse per rimanere più imparziali.
  • 5. 3.1 Origine delle inserzioni Ma quali organizzazioni creano queste inserzioni e qual è la loro affiliazione politica? La maggior parte delle pubblicità sono create da commissioni registrate: entrambi i candidati hanno fatto uso di queste commissioni in ugual modo. Altre organizzazioni maggiormente in voga tra i repubblicani sono state le agenzie di stampa e in seguito le organizzazioni non profit. 3.2 Sondaggi e petizioni L’uso di sondaggi e petizioni è spiccato maggiormente in annunci risultati politicamente di destra e/o conservatori. Alcuni di questi usavano un linguaggio neutrale, altri invece erano provocatori nei confronti di tematiche tanto universali quanto controverse. Tali sono risultati anche gli annunci repubblicani che miravano ad attaccare il candidato schierato dai democratici. Al contrario, i democratici proponevano perlopiù temi riguardanti punti e approfondimenti in linea con il loro orientamento politico. 3.3 Prodotti Alcuni inserzionisti hanno approfittato del periodo di campagna elettorale per mostrare annunci atti a vendere prodotti di vario tipo: la maggior parte di questi conteneva le parole “Donald” o “Trump”, altri invece mostravano annunci con temi riguardanti la campagna elettorale, ma poi vendevano tutt’altro. Il modello GSDMM ha trovato 45 categorie di prodotti politici e 29 di annunci che vendevano prodotti non politici, ma la cui pagina iniziale faceva credere che fossero tali. 3.4 News e media Un ulteriore tipo di annuncio pubblicitario è collegato alle news e ai contenuti mediatici. Questo
  • 6. macrogruppo è stato diviso in due parti: quelli che sponsorizzavano articoli di news politiche e altri che promuovevano eventi e stand. Molti di questi annunci contenevano titoli clickbait, mostravano informazioni personali (talvolta false) riguardanti le famiglie dei candidati o dei vice presidenti candidati nelle rispettive liste. Anche questo tipo di annunci è apparso maggiormente in siti di centro-destra. 4. PROBLEMATICHE E CONCLUSIONI Quest’analisi ha portato alla luce profonde problematiche nei contenuti delle inserzioni online. I sondaggi e le petizioni sono stati lo strumento, a dire dei ricercatori, più dannoso sul web. Questi strumenti raccolgono spesso informazioni personali degli utenti, come ad esempio indirizzi email a cui successivamente vengono recapitate pubblicità, informazioni politicizzanti, richieste di donazioni. Inoltre è facilmente comprensibile la partecipazione a sondaggi con titoli strettamente di parte da cui chiunque potrebbe essere attratto per esprimere il proprio assenso o dissenso. Il problema dell’enorme varietà di annunci pubblicitari è la diffusione di un modo errato di creare dibattito politico, privo di confronto e ricco di tematiche offensive e provocatorie. È innegabile che circolino annunci pubblicitari contenenti informazioni false o titoli clickbait: durante la campagna elettorale molti inserzionisti hanno fatto leva sul periodo che gli americani stavano affrontando, pensando a tecniche e strategie per attirare potenziali acquirenti. Il rischio è proprio quello di influenzare negativamente persone considerate vulnerabili, attraverso la diffusione di fake news, titoli e sondaggi clickbait. I ricercatori si sono interrogati anche sul danno che tali annunci sono in grado di provocare nonostante questi rispettino le policies già esistenti nelle varie piattaforme. 5. LIMITI Hanno dichiarato anche i limiti delle loro ricerche, come il fatto che i loro studi siano stati effettuati in un numero limitato di siti web e che il crawler li analizzasse solo una volta al giorno. I ricercatori hanno inoltre evidenziato che le interruzioni del servizio della VPN e i bugs del crawler potrebbero aver causato una raccolta dati non del tutto ottimale. Per concludere, si stima che circa il 18% degli annunci raccolti nel dataset presentasse dei problemi. 6. RICERCHE FUTURE La presenza dei limiti sopra esposti non esclude la possibilità che la ricerca informatica possa continuare ad indagare il campo delle inserzioni pubblicitarie non solo nei siti web, ma anche nei social media o in notiziari e applicazioni mobili, magari concentrandosi sugli effetti che gli annunci pubblicitari possono avere sulle diverse generazioni di utenti.