SlideShare a Scribd company logo
HOW TuBe
POPULAR
Lucia Ravazzi
Davide Badalotti
Leonardo Alchieri
Pietro Bonardi
Università degli Studi
Milano Bicocca
A.A 2019-2020
Gennaio 2020
Data Management and Visualization
YOUTUBE
• Nato per condividere le
proprie esperienze
• Enorme diffusione nel corso
degli anni
• Ora fonte di profitto per
individui e organizzazioni
Maggiori sforzi nella realizzazione
dei contenuti
• Aumento della qualità
• Uso di tecniche per «invogliare» al click
2
3
Quali sono le tecniche utilizzate
per rendere attraenti le
anteprime dei video?
4
“
1. Fonti di dati
5
Dataset Kaggle
◈ Informazioni sui video in tendenza nelle varie
nazioni ogni giorno
◈ Video famosi maggiore utilizzo di tali tecniche
◈ Trattati come dati esterni da un database
relazionale
7
Youtube API
◈ Permette di ricercare video secondo diversi
criteri
◈ Fonte ufficiale di dati, elevata affidabilità
◈ Quota giornaliera limitata, insufficiente
8
Youtube Scraper
◈ Da noi implementato
◈ A partire da un videoId ottiene varie informazioni
◈ Ottiene anche i commenti ai video
9
“
2. Architettura di
storage
10
MongoDB
◈ Schema free,
document based
◈ Scalabilità orizzontale
◈ Bulk operations
11
MongoDB
◈ Schema free,
document based
◈ Scalabilità orizzontale
◈ Bulk operations
12
“
3. Data Loading
13
Obiettivi
◈ Distribuzione di grandi volumi
◈ Elaborazione gestita in parallelo
◈ Minimizzare il numero di richieste al server
14
Loading Kaggle
◈ Schema transformation: da SQL a
documento
◈ Indicizzata per {video_id,
ref_date}
◈ Risoluzione casi di sinonimia
{
Id : <str>,
Ref_date : <str>,
Region : <list>,
…
}
15
16
Loading API
◈ Piccola quantità di dati
◈ Contenenti solo degli Id
◈ Divisi per categoria
◈ Aggiunti al database
singolarmente
{
Id : <str>,
}
17
Loading Scraper
◈ Occupa molto tempo (rendering)
◈ Più istanze parallele
◈ Documenti caricati in liste
◈ Indicizzato per {id, ref_date}
{
Id : <str>,
Ref_date : <str>,
Region : <list>,
…
Comments : <doc>
}
18
19
“
4. Data Quality
20
Completezza
Kaggle dataset Scraper dataset
21
Le caratteristiche dei video cambiano nel tempo
◈ Come misurare
l’accuratezza dei dati?
◈ Si fa riferimento alla fonte
più affidabile (Kaggle)
22
“
4. Data Integration
and Enrichment
20
Primo enrichment:
3 steps
Obiettivi:
◈ Aggiungere campi non
presenti fra tutti i dataset
◈ Aumentare la completezza
del dataset di scraping
24
Operazioni:
◈ Aggiunta del campo region
code: da API a scraper
◈ Aggiunta del campo
category: da scraper a
Kaggle
◈ Aggiunta data: da Kaggle
a scraper
25
Integrazione
Obiettivi:
◈ Ottenere unica collezione
indicizzata per {id,
ref_date}
◈ Preservare la consistenza
interna dei documenti, a
scapito della completezza
◈ Mantenere info storicizzate
26
Ricerca tramite
chiave
Non match
Aggiunta del
documento alla
collezione
Match dei
documenti
Campo varia
nel tempo
Si mantengono
i valori da
scraper
Campo non
varia nel tempo
Si mantengono
i valori da
Kaggle
27
Arricchimento finale
◈ Update di ogni documento
◈ Aggiunge campi utili all’analisi
⬥ Numero di wildcards o lettere maiuscole nel titolo
⬥ Lunghezza titolo o descrizione
⬥ Sentiment analysis dei commenti
⬥ Binario dell’anteprima, con colore dominante
⬥ Frazione dislikes e likes sulle views
⬥ …
28
“
5. Data
Exploration and
visualization
29
Dove concentrare le nostre analisi?
Selezione di 4 categorie
diffuse:
◈ Musica
◈ Gaming
◈ News
◈ Persone e Blogs
Definizione di video popolare
e non popolare.
In base alle visualizzazioni
Popolare: 95° percentile in su
Non popolare: dal 25° al 50°
percentile
31
Conclusioni
◈ Architettura riutilizzabile
◈ Scalabile ulteriormente
◈ Soluzioni potrebbero adattare strumenti più
sofisticati di analisi
33
Grazie per
l’attenzione
34

More Related Content

Similar to Data management and visualization project

Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big Data
SolidQIT
 
Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)
Neo4j
 
Benchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQLBenchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQL
EDB
 
Smau Milano 2016 - bcloud
Smau Milano 2016 - bcloudSmau Milano 2016 - bcloud
Smau Milano 2016 - bcloud
SMAU
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
Denodo
 
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
Sergio Patano
 
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
Stefano Dindo
 
OpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto RossiOpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto Rossi
Codemotion
 
La didattica nel cloud - 1
La didattica nel cloud - 1La didattica nel cloud - 1
La didattica nel cloud - 1
Monica Terenghi
 
Tesi8
Tesi8Tesi8
Tesi8
tryyrt
 
3. QGIS versione 2.14 - Corso GIS ed.2013
3. QGIS versione 2.14 - Corso GIS ed.20133. QGIS versione 2.14 - Corso GIS ed.2013
3. QGIS versione 2.14 - Corso GIS ed.2013
Gianfranco Di Pietro
 
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Sardegna Ricerche
 
Il Cloud a Km.0
Il Cloud a Km.0Il Cloud a Km.0
Il Cloud a KM 0
Il Cloud a KM 0Il Cloud a KM 0
Il Cloud a KM 0
festival ICT 2016
 
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
Ecommerce HUB
 
Data flow
Data flowData flow
Data flow
Marco Pozzan
 
Migrazione di un sito web mediante tecnica di estrazione dati automatizzata
Migrazione di un sito web mediante tecnica di estrazione dati automatizzataMigrazione di un sito web mediante tecnica di estrazione dati automatizzata
Migrazione di un sito web mediante tecnica di estrazione dati automatizzata
GiulioZorzoli
 
Certificazioni in ambiente OpenSource: da ECDL a GIS
Certificazioni in ambiente OpenSource: da ECDL a GISCertificazioni in ambiente OpenSource: da ECDL a GIS
Certificazioni in ambiente OpenSource: da ECDL a GIS
Piazza Telematica Schio
 
Power bi
Power biPower bi
Power bi
Marco Pozzan
 

Similar to Data management and visualization project (20)

Cloud, IoT and Big Data
Cloud, IoT and Big DataCloud, IoT and Big Data
Cloud, IoT and Big Data
 
Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)Zurich Italia - IT Knowledge Base (Italian)
Zurich Italia - IT Knowledge Base (Italian)
 
Benchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQLBenchmarking Cloud Native PostgreSQL
Benchmarking Cloud Native PostgreSQL
 
Smau Milano 2016 - bcloud
Smau Milano 2016 - bcloudSmau Milano 2016 - bcloud
Smau Milano 2016 - bcloud
 
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...
 
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...
 
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...
 
OpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto RossiOpenData with Android Google Services by Pietro Alberto Rossi
OpenData with Android Google Services by Pietro Alberto Rossi
 
La didattica nel cloud - 1
La didattica nel cloud - 1La didattica nel cloud - 1
La didattica nel cloud - 1
 
Tesi8
Tesi8Tesi8
Tesi8
 
3. QGIS versione 2.14 - Corso GIS ed.2013
3. QGIS versione 2.14 - Corso GIS ed.20133. QGIS versione 2.14 - Corso GIS ed.2013
3. QGIS versione 2.14 - Corso GIS ed.2013
 
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)
 
Cloud a Km. 0
Cloud a Km. 0Cloud a Km. 0
Cloud a Km. 0
 
Il Cloud a Km.0
Il Cloud a Km.0Il Cloud a Km.0
Il Cloud a Km.0
 
Il Cloud a KM 0
Il Cloud a KM 0Il Cloud a KM 0
Il Cloud a KM 0
 
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
Marco Salvatore - Novità tecniche di PrestaShop 1.7.6 (and what’s next)
 
Data flow
Data flowData flow
Data flow
 
Migrazione di un sito web mediante tecnica di estrazione dati automatizzata
Migrazione di un sito web mediante tecnica di estrazione dati automatizzataMigrazione di un sito web mediante tecnica di estrazione dati automatizzata
Migrazione di un sito web mediante tecnica di estrazione dati automatizzata
 
Certificazioni in ambiente OpenSource: da ECDL a GIS
Certificazioni in ambiente OpenSource: da ECDL a GISCertificazioni in ambiente OpenSource: da ECDL a GIS
Certificazioni in ambiente OpenSource: da ECDL a GIS
 
Power bi
Power biPower bi
Power bi
 

Data management and visualization project