SlideShare a Scribd company logo
UNIVERSITÀ DEGLI STUDI DI TRIESTE
Dipartimento di Ingegneria e Architettura
Tesi di Laurea Triennale in Ingegneria Elettronica ed Informatica
Extended Summary of “A Long way to the Top :
Significance, Structure and Stability of Internet Top
Lists
Candidato : Relatore:
Xhacu BEJAJ Prof. Alberto BARTOLI
Anno Accademico 2019-2020
Indice
1. Introduzione 3
2. Diffusione e utilizzo delle Top List 3
3. Proprietà delle Top List : Struttura e Stabilità 4
4. Manipolare il ranking di una Top List 6
5. Impatto sulla ricerca 7
6. Conclusioni 7
7. Bibliografia 8
Introduzione
Le Top Lists sono uno strumento frequentemente utilizzato dalla ricerca scientifica in svariati
ambiti delle Reti, il cui scopo è fornire un campione dei domini più popolari di Internet.
Le liste però, si differenziano per le modalità con cui raccolgono i domini che le costituiscono,
Cisco Umbrella ad esempio è basata sui domini risolti dal servizio OpenDns.
Così facendo, nella lista saranno presenti i domini più frequentemente risolti, non necessariamente
quelli più cercati dagli utenti.
Alexa Global e Majestic Million, invece, si basano sulle ricerche degli utenti. Alexa ad esempio,
costruisce la propria lista mediante le informazioni raccolte dai plug-in installati nei browser degli
utenti. Majestic invece, attraverso il suo web crawler, conta il numero di collegamenti ipertestuali
riferiti ad un dominio.
Essendo le liste prodotte da aziende private, la comunità scientifica le utilizza senza conoscerne il
funzionamento, dato che i meccanismi di creazione e ranking non sono di dominio pubblico.
Questo articolo si propone di studiare :
• Quanto sono prevalenti le Top List come strumento per la ricerca
• Struttura e stabilità nel tempo delle Top List più utilizzate dalla comunità scientifica.
per stabilire poi, se l’impiego di una determinata lista può influenzare i risultati delle ricerche.
Diffusione e utilizzo delle Top List :
Sono stati analizzati un totale di 687 articoli, presentati in 10 conferenze durante il 2017, per
stabilire la prevalenza delle Top List come strumento per la ricerca.
Circa il 10% delle ricerche considerate utilizza almeno una Top List, principalmente per misurare e
studiare le caratteristiche di DNS, IP, e TLS/HTTPS.
È stato possibile scaricare le liste solo per i periodi indicati in tabella, sono state create quindi, delle
strutture dati contenenti le istantanee giornaliere di ogni lista, essendo le liste aggiornate con
cadenza giornaliera.
Top List Periodo Disponibile
Alexa Global 01/09-03/12
04/13-04/18
01/18-04/18
Cisco Umbrella 2016-2018
Majestic Million 06/17-04/18
Per poter svolgere analisi comparative tra le liste è stata creata un ulteriore struttura dati contenente
le istantanee giornaliere delle 3 liste considerate, per il periodo comune tra il 6 giugno 2017 e il 30
aprile 2018.
Proprietà delle Top List : Struttura e Stabilità
Le analisi illustrate in questo paragrafo fanno riferimento al periodo comune.
Struttura
È emerso che le Top 1M coprono in media meno del 50% dei Top Level Domain [TLD] validi per
lo IANA.
Umbrella inoltre, risulta la lista con la copertura inferiore.
Questo risultato concorda con una successiva analisi della struttura dei sottodomini delle Top List,
dove emergono profonde differenze tra Umbrella e le altre due liste.
Alexa e Majestic infatti, sono formate quasi esclusivamente da domini di secondo livello, i quali
compongono solo il 28% di Umbrella, il resto consiste di domini di livello più alto.
Nonostante le Top List promettano di fornire un campione dei domini più popolari, è
sorprendentemente bassa l’intersezione riscontrata, le liste concordano su non più di 100k domini.
Nell’articolo si ipotizza che questo fenomeno sia dovuto ai diversi metodi di creazione.
Per dimostrarlo si considerano le Top 1k, si aggrega un totale di 3005 domini disgiunti, ovvero
contenuti in una sola lista, accumulati nell’ultima settimana dell’aprile 2018, e si stabilisce se questi
domini siano associati a traffico di terze parti per mezzo della lista anti-tracking fornita da
Malwarebytes, e dei dati raccolti dal Lumen Privacy Monitor, per identificare il traffico dovuto alle
applicazioni mobile.
Come ipotizzato Umbrella è in grado di recuperare anche domini non direttamente cercati dagli
utenti, ma derivanti da traffico di terze parti, a differenza delle altre due liste.
I risultati sono riassunti in tabella.
Tabella 1: Per ogni lista sono indicati il numero di domini disgiunti, e quanti in percentuale sono presenti in hpHosts
(blacklist fornita da Malwarebytes),e in Lumen , nell’ultima colonna è indicata la percentuale di domini disgiunti di una
lista, presenti nelle altre liste Top 1M.
Stabilità nel tempo
È noto che il traffico gestito dagli ISP è influenzato dalle abitudini degli utenti.
Nell’articolo si indaga quindi, se questo fenomeno si riscontri nelle Top List.
Dallo studio emerge un’alta instabilità per Alexa Top 1M, dove circa il 50% dei domini presenti in
un determinato giorno, non sono presenti in quello successivo. Osservando il grafico in figura 1, in
accordo col fatto che gli accessi ai domini sono governati da una legge di potenza, si nota che
l’instabilità delle liste è dovuta principalmente ai domini presenti nella “coda lunga”.
Essendo scarsamente acceduti infatti, basta un numero esiguo di accessi per modificare la posizione
nel ranking di un dominio della coda.
Figura 1: Si nota come all’aumentare delle dimensioni delle liste, cresce la percentuale di domini eliminati ogni giorno,
e come il cambiamento strutturale di Alexa del 01/18 l’ha resa instabile.
Il grafico sottostante mostra per ogni lista quanti domini vengono eliminati ogni giorno. Si notano
delle fluttuazioni per Umbrella e Alexa.
Nel dettaglio si osservano per ogni mese 4 picchi, dove si ha un maggior numero di domini
eliminati.
Questo fenomeno è dovuto al fatto che durante il fine settimana, sono acceduti più frequentemente
domini legati allo svago e attività affini, domini che durante la settimana non sono presenti in lista.
Un altro risultato evidenziato dal grafico è che nel gennaio 2018, Alexa ha subito una modifica
strutturale, che l’ha resa la lista più instabile e provocato le fluttuazioni osservate.
È importante notare che la comunità scientifica non ha avuto alcun ruolo e non è stata informata di
tale drastica modifica.
Manipolare il ranking una Top List
I ricercatori mediante sonde RIPE Atlas hanno dimostrato che manipolare il ranking di un dominio
di Umbrella è possibile con sforzi ragionevoli.
Le sonde, sono state utilizzate per richiedere al servizio OpenDNS di risolvere nomi DNS
controllati dai ricercatori, con frequenze differenti come evidenziato in figura.
Si osserva che con 10k sonde il ranking è scarsamente influenzato dalla frequenza delle query che
lo richiedono, in questo modo si mitigano i possibili effetti distorsivi del Time To Live [TTL] che
potrebbero facilitare manipolazioni nel ranking di un dominio.
Figura 2: Viene indicata la posizione nel ranking del dominio, in base al numero di sonde( ascisse)e alla frequenza delle
query(ordinate). Gli spazi vuoti indicano che le sonde e la frequenza delle query non sono state sufficienti a far entrare
il dominio in lista.
Domini con un valore di Time To Live [TTL] più alto infatti, rimarrebbero in cache più a lungo, e
sarebbero causa di un numero inferiore di query.
È sensato quindi basare l’algoritmo della popolarità, sul numero di client univoci, piuttosto che sul
numero di query per client.
Impatto sulla ricerca
Attraverso la riproduzione dei risultati di alcune delle ricerche considerate, facenti uso delle Top
List, è stato possibile valutarne l’impatto.
Sono stati considerati oltre alle liste, l’insieme dei domini con Top Level Domain [TLD] “com”,
“net” e “org”, e sono state svolte varie misurazioni per stabilire la prevalenza di una determinata
tecnologia come ad esempio IPv6 e TLS,
Figura 3: Per ogni studio sono indicate la percentuale o il numero di domini di una lista, che adotta una determinata
tecnologia. Dove e indicano se la lista distorce (±50%) o meno ( ) il risultato della popolazione generale di
domini con TLD /com/net/org.
che come indicato in figura hanno dato luogo a risultati differenti, sia tra le liste, che tra
quest’ultime e i circa 157 milioni di domini con i TLD sopraindicati.
Conclusioni
In conclusione, è stato dimostrato che l’impiego di una determinata Top List può influenzare i
risultati delle ricerche, è quindi necessario comprendere cosa quella lista rappresenta, prima di
poterla impiegare.
Ad esempio Cisco Umbrella potrebbe essere utilizzata per studiare le caratteristiche di DNS, anche
se risultati di carattere quantitativo non possono essere generalizzati a tutti i domini che
compongono Internet come dimostrato nel paragrafo precedente.
È inoltre necessario condurre misurazioni ripetute in un intervallo di tempo, per gestire gli effetti
dovuti all’instabilità giornaliera delle Top List.
Bibliografia
Quirin Scheitle, Oliver Hohfeld, Julien Gamba, Jonas Jelten, Torsten Zimmerman, Stephen
D.Strowes, Narseo Vallina-Rodriguez, A Long way to the Top : Significance, Structure and Stability
of Internet Top Lists, in AMC IMC 2/11/2018.

More Related Content

Recently uploaded

onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simoneonvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI AndreaConvegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO LuigiaConvegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO TizianoConvegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI AlfredoConvegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA BiancaConvegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA AlessioConvegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA FrancescoConvegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO YuriConvegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Servizi a rete
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI MarcoConvegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Servizi a rete
 

Recently uploaded (10)

onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simoneonvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
onvegno SPEKTRA da A2A - 28 maggio 2024 | COLLA Simone
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI AndreaConvegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
Convegno SPEKTRA da A2A - 28 maggio 2024 | NERELLI Andrea
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO LuigiaConvegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
Convegno SPEKTRA da A2A - 28 maggio 2024 | TROIANO Luigia
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO TizianoConvegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
Convegno SPEKTRA da A2A - 28 maggio 2024 | ORSENIGO Tiziano
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI AlfredoConvegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
Convegno SPEKTRA da A2A - 28 maggio 2024 | RUGGIERI Alfredo
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA BiancaConvegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
Convegno SPEKTRA da A2A - 28 maggio 2024 | UBERTI FOPPA Bianca
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA AlessioConvegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
Convegno SPEKTRA da A2A - 28 maggio 2024 | BERTELLA Alessio
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA FrancescoConvegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
Convegno SPEKTRA da A2A - 28 maggio 2024 | VEIRANA Francesco
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO YuriConvegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
Convegno SPEKTRA da A2A - 28 maggio 2024 | ALESIANO Yuri
 
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI MarcoConvegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
Convegno SPEKTRA da A2A - 28 maggio 2024 | CARNI Marco
 

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
Vit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
MindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Extended summary of "A Long way to the Top: Significance, Structure and Stability of Internet Top Lists

  • 1. UNIVERSITÀ DEGLI STUDI DI TRIESTE Dipartimento di Ingegneria e Architettura Tesi di Laurea Triennale in Ingegneria Elettronica ed Informatica Extended Summary of “A Long way to the Top : Significance, Structure and Stability of Internet Top Lists Candidato : Relatore: Xhacu BEJAJ Prof. Alberto BARTOLI Anno Accademico 2019-2020
  • 2. Indice 1. Introduzione 3 2. Diffusione e utilizzo delle Top List 3 3. Proprietà delle Top List : Struttura e Stabilità 4 4. Manipolare il ranking di una Top List 6 5. Impatto sulla ricerca 7 6. Conclusioni 7 7. Bibliografia 8
  • 3. Introduzione Le Top Lists sono uno strumento frequentemente utilizzato dalla ricerca scientifica in svariati ambiti delle Reti, il cui scopo è fornire un campione dei domini più popolari di Internet. Le liste però, si differenziano per le modalità con cui raccolgono i domini che le costituiscono, Cisco Umbrella ad esempio è basata sui domini risolti dal servizio OpenDns. Così facendo, nella lista saranno presenti i domini più frequentemente risolti, non necessariamente quelli più cercati dagli utenti. Alexa Global e Majestic Million, invece, si basano sulle ricerche degli utenti. Alexa ad esempio, costruisce la propria lista mediante le informazioni raccolte dai plug-in installati nei browser degli utenti. Majestic invece, attraverso il suo web crawler, conta il numero di collegamenti ipertestuali riferiti ad un dominio. Essendo le liste prodotte da aziende private, la comunità scientifica le utilizza senza conoscerne il funzionamento, dato che i meccanismi di creazione e ranking non sono di dominio pubblico. Questo articolo si propone di studiare : • Quanto sono prevalenti le Top List come strumento per la ricerca • Struttura e stabilità nel tempo delle Top List più utilizzate dalla comunità scientifica. per stabilire poi, se l’impiego di una determinata lista può influenzare i risultati delle ricerche. Diffusione e utilizzo delle Top List : Sono stati analizzati un totale di 687 articoli, presentati in 10 conferenze durante il 2017, per stabilire la prevalenza delle Top List come strumento per la ricerca. Circa il 10% delle ricerche considerate utilizza almeno una Top List, principalmente per misurare e studiare le caratteristiche di DNS, IP, e TLS/HTTPS. È stato possibile scaricare le liste solo per i periodi indicati in tabella, sono state create quindi, delle strutture dati contenenti le istantanee giornaliere di ogni lista, essendo le liste aggiornate con cadenza giornaliera. Top List Periodo Disponibile Alexa Global 01/09-03/12 04/13-04/18 01/18-04/18 Cisco Umbrella 2016-2018 Majestic Million 06/17-04/18 Per poter svolgere analisi comparative tra le liste è stata creata un ulteriore struttura dati contenente le istantanee giornaliere delle 3 liste considerate, per il periodo comune tra il 6 giugno 2017 e il 30 aprile 2018.
  • 4. Proprietà delle Top List : Struttura e Stabilità Le analisi illustrate in questo paragrafo fanno riferimento al periodo comune. Struttura È emerso che le Top 1M coprono in media meno del 50% dei Top Level Domain [TLD] validi per lo IANA. Umbrella inoltre, risulta la lista con la copertura inferiore. Questo risultato concorda con una successiva analisi della struttura dei sottodomini delle Top List, dove emergono profonde differenze tra Umbrella e le altre due liste. Alexa e Majestic infatti, sono formate quasi esclusivamente da domini di secondo livello, i quali compongono solo il 28% di Umbrella, il resto consiste di domini di livello più alto. Nonostante le Top List promettano di fornire un campione dei domini più popolari, è sorprendentemente bassa l’intersezione riscontrata, le liste concordano su non più di 100k domini. Nell’articolo si ipotizza che questo fenomeno sia dovuto ai diversi metodi di creazione. Per dimostrarlo si considerano le Top 1k, si aggrega un totale di 3005 domini disgiunti, ovvero contenuti in una sola lista, accumulati nell’ultima settimana dell’aprile 2018, e si stabilisce se questi domini siano associati a traffico di terze parti per mezzo della lista anti-tracking fornita da Malwarebytes, e dei dati raccolti dal Lumen Privacy Monitor, per identificare il traffico dovuto alle applicazioni mobile. Come ipotizzato Umbrella è in grado di recuperare anche domini non direttamente cercati dagli utenti, ma derivanti da traffico di terze parti, a differenza delle altre due liste. I risultati sono riassunti in tabella. Tabella 1: Per ogni lista sono indicati il numero di domini disgiunti, e quanti in percentuale sono presenti in hpHosts (blacklist fornita da Malwarebytes),e in Lumen , nell’ultima colonna è indicata la percentuale di domini disgiunti di una lista, presenti nelle altre liste Top 1M. Stabilità nel tempo È noto che il traffico gestito dagli ISP è influenzato dalle abitudini degli utenti. Nell’articolo si indaga quindi, se questo fenomeno si riscontri nelle Top List.
  • 5. Dallo studio emerge un’alta instabilità per Alexa Top 1M, dove circa il 50% dei domini presenti in un determinato giorno, non sono presenti in quello successivo. Osservando il grafico in figura 1, in accordo col fatto che gli accessi ai domini sono governati da una legge di potenza, si nota che l’instabilità delle liste è dovuta principalmente ai domini presenti nella “coda lunga”. Essendo scarsamente acceduti infatti, basta un numero esiguo di accessi per modificare la posizione nel ranking di un dominio della coda. Figura 1: Si nota come all’aumentare delle dimensioni delle liste, cresce la percentuale di domini eliminati ogni giorno, e come il cambiamento strutturale di Alexa del 01/18 l’ha resa instabile. Il grafico sottostante mostra per ogni lista quanti domini vengono eliminati ogni giorno. Si notano delle fluttuazioni per Umbrella e Alexa. Nel dettaglio si osservano per ogni mese 4 picchi, dove si ha un maggior numero di domini eliminati. Questo fenomeno è dovuto al fatto che durante il fine settimana, sono acceduti più frequentemente domini legati allo svago e attività affini, domini che durante la settimana non sono presenti in lista.
  • 6. Un altro risultato evidenziato dal grafico è che nel gennaio 2018, Alexa ha subito una modifica strutturale, che l’ha resa la lista più instabile e provocato le fluttuazioni osservate. È importante notare che la comunità scientifica non ha avuto alcun ruolo e non è stata informata di tale drastica modifica. Manipolare il ranking una Top List I ricercatori mediante sonde RIPE Atlas hanno dimostrato che manipolare il ranking di un dominio di Umbrella è possibile con sforzi ragionevoli. Le sonde, sono state utilizzate per richiedere al servizio OpenDNS di risolvere nomi DNS controllati dai ricercatori, con frequenze differenti come evidenziato in figura. Si osserva che con 10k sonde il ranking è scarsamente influenzato dalla frequenza delle query che lo richiedono, in questo modo si mitigano i possibili effetti distorsivi del Time To Live [TTL] che potrebbero facilitare manipolazioni nel ranking di un dominio. Figura 2: Viene indicata la posizione nel ranking del dominio, in base al numero di sonde( ascisse)e alla frequenza delle query(ordinate). Gli spazi vuoti indicano che le sonde e la frequenza delle query non sono state sufficienti a far entrare il dominio in lista. Domini con un valore di Time To Live [TTL] più alto infatti, rimarrebbero in cache più a lungo, e sarebbero causa di un numero inferiore di query. È sensato quindi basare l’algoritmo della popolarità, sul numero di client univoci, piuttosto che sul numero di query per client.
  • 7. Impatto sulla ricerca Attraverso la riproduzione dei risultati di alcune delle ricerche considerate, facenti uso delle Top List, è stato possibile valutarne l’impatto. Sono stati considerati oltre alle liste, l’insieme dei domini con Top Level Domain [TLD] “com”, “net” e “org”, e sono state svolte varie misurazioni per stabilire la prevalenza di una determinata tecnologia come ad esempio IPv6 e TLS, Figura 3: Per ogni studio sono indicate la percentuale o il numero di domini di una lista, che adotta una determinata tecnologia. Dove e indicano se la lista distorce (±50%) o meno ( ) il risultato della popolazione generale di domini con TLD /com/net/org. che come indicato in figura hanno dato luogo a risultati differenti, sia tra le liste, che tra quest’ultime e i circa 157 milioni di domini con i TLD sopraindicati. Conclusioni In conclusione, è stato dimostrato che l’impiego di una determinata Top List può influenzare i risultati delle ricerche, è quindi necessario comprendere cosa quella lista rappresenta, prima di poterla impiegare. Ad esempio Cisco Umbrella potrebbe essere utilizzata per studiare le caratteristiche di DNS, anche se risultati di carattere quantitativo non possono essere generalizzati a tutti i domini che compongono Internet come dimostrato nel paragrafo precedente. È inoltre necessario condurre misurazioni ripetute in un intervallo di tempo, per gestire gli effetti dovuti all’instabilità giornaliera delle Top List.
  • 8. Bibliografia Quirin Scheitle, Oliver Hohfeld, Julien Gamba, Jonas Jelten, Torsten Zimmerman, Stephen D.Strowes, Narseo Vallina-Rodriguez, A Long way to the Top : Significance, Structure and Stability of Internet Top Lists, in AMC IMC 2/11/2018.