Data management and visualization are two essential parts of each data science project. In this specific case, MongoDB and Tableau are used to analyse some characteristics of youtube videos, e.g, comments, thumbnails, likes etc.
SMAU Milano 2014 GAE 24/10/2014 - IWA ItalyPaolo Dadda
Spesso si tende a considerare il lavoro di piccoli team e sviluppatori individuali di minor qualità per questioni di competenze.
Un cloud, infatti, necessita spesso di VPS da configurare, far funzionare e mantenere, che seppur virtuali e dedicate, richiedono un minimo di competenza.
Come mantenere alta la qualità per piccoli team e singoli developer?
Come ridurre l’esigenza di “dover” saper far tutto?
Utilizzare servizi che eliminano, lato sviluppatore, gestione e sicurezza del server, può essere determinante, permettendo di specializzarsi di più sui propri “skill” senza trovarsi obbligati a coinvolgere terze figure o diventare factotum del web.
Target:
WSP-G3-002 - Web Project Manager,
WSP-G3-005 - Business Analyst,
WSP-G3-009 - Frontend Web developer,
WSP-G3-010 - Server Side Web Developer,
WSP-G3-014 - Digital Strategic Planner.
Da microservizi a processi agili, da indicazioni sul governo della spesa a piattaforme verticali ed API. Alcune delle novità introdotte dal Piano Triennale per i fornitori di tecnologia della Pubblica Amministrazione.
Architettura, Know-How e considerazioni nati dall'esperienza di Datarace (www.datarace.eu) in cui IoT e Big Data vengono messi al servizio dello sport per creare una "reference architecture" alla quale le aziende possono far riferimento per costruire la propria soluzione Big Data ed Analytics
[drupalday2017] - Open Data con Drupal nella PA: considerazioni su licensing ...DrupalDay
Gli Open Data rappresentano il motore per l’innovazione, la crescita e la governance. Recentemente la Commissione Europea, nell’ambito delle azioni dell’Agenda Digitale, ha presentato un programma di azioni per il riutilizzo delle informazioni del settore pubblico che dovrebbe dare un contributo consistente all’economia. Sulla base di queste importanti indicazioni Sapienza ha sviluppato dei modelli web realizzati con Drupal per valorizzare il patrimonio dei dati di Ateneo mediante l'esposizione e il riutilizzo. Il licensing e la tutela dei dati personali sono gli strumenti necessari per gli sviluppatori interessati alla costruzione di servizi innovativi per le PA.
di Andrea Dori
SMAU Milano 2014 GAE 24/10/2014 - IWA ItalyPaolo Dadda
Spesso si tende a considerare il lavoro di piccoli team e sviluppatori individuali di minor qualità per questioni di competenze.
Un cloud, infatti, necessita spesso di VPS da configurare, far funzionare e mantenere, che seppur virtuali e dedicate, richiedono un minimo di competenza.
Come mantenere alta la qualità per piccoli team e singoli developer?
Come ridurre l’esigenza di “dover” saper far tutto?
Utilizzare servizi che eliminano, lato sviluppatore, gestione e sicurezza del server, può essere determinante, permettendo di specializzarsi di più sui propri “skill” senza trovarsi obbligati a coinvolgere terze figure o diventare factotum del web.
Target:
WSP-G3-002 - Web Project Manager,
WSP-G3-005 - Business Analyst,
WSP-G3-009 - Frontend Web developer,
WSP-G3-010 - Server Side Web Developer,
WSP-G3-014 - Digital Strategic Planner.
Da microservizi a processi agili, da indicazioni sul governo della spesa a piattaforme verticali ed API. Alcune delle novità introdotte dal Piano Triennale per i fornitori di tecnologia della Pubblica Amministrazione.
Architettura, Know-How e considerazioni nati dall'esperienza di Datarace (www.datarace.eu) in cui IoT e Big Data vengono messi al servizio dello sport per creare una "reference architecture" alla quale le aziende possono far riferimento per costruire la propria soluzione Big Data ed Analytics
[drupalday2017] - Open Data con Drupal nella PA: considerazioni su licensing ...DrupalDay
Gli Open Data rappresentano il motore per l’innovazione, la crescita e la governance. Recentemente la Commissione Europea, nell’ambito delle azioni dell’Agenda Digitale, ha presentato un programma di azioni per il riutilizzo delle informazioni del settore pubblico che dovrebbe dare un contributo consistente all’economia. Sulla base di queste importanti indicazioni Sapienza ha sviluppato dei modelli web realizzati con Drupal per valorizzare il patrimonio dei dati di Ateneo mediante l'esposizione e il riutilizzo. Il licensing e la tutela dei dati personali sono gli strumenti necessari per gli sviluppatori interessati alla costruzione di servizi innovativi per le PA.
di Andrea Dori
Database come PostgreSQL non possono girare su Kubernetes. Questo è il ritornello che sentiamo continuamente, ma al tempo stesso la motivazione per noi di EDB di abbattere questo muro, una volta per tutte.
In questo webinar parleremo della nostra avventura finora per portare PostgreSQL su Kubernetes. Scopri perché crediamo che fare benchmark di storage e del database prima di andare in produzione porti a una più sana e longeva vita di un DBMS, anche su Kubernetes.
Condivideremo il nostro processo, i risultati fin qui ottenuti e sveleremo i nostri piani per il futuro con Cloud Native PostgreSQL.
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...Denodo
Watch full webinar here: https://buff.ly/3Fmc74I
Affinché i progetti di data science abbiano successo, i Data Scientist e i Business Analysts hanno bisogno di accedere a una molteplicità di dati. Tuttavia, consentire l'accesso a tutti i dati tramite un repository centrale integrato è un compito spesso arduo, che può richiedere fino all'80% del tempo del progetto in attività di acquisizione, esplorazione, comprensione e preparazione dei dati.
La Gestione Logica dei dati può aiutare i Data Scientist e i Business Analyst ad accelerare alcune delle attività più tediose e onerose, consentendo loro di concentrarsi sui loro obiettivi e su come i dati consentono di raggiungerli. Poiché la piattaforma di Gestione Logica dei dati dei dati si integra agilmente nell'ecosistema aziendale, i Data scientist o i Business Analyst possono continuare a utilizzare gli strumenti che conoscono, senza dover acquisire nuove competenze per sfruttare compiutamente i dati disponibili.
In questa sessione on-demand, scopriremo insieme come la Gestione Logica dei dati permetta di:
- fornire tutti i dati aziendali, in tempo reale e senza repliche;
- creare e condividere più modelli logici con un semplici operazioni di drag and drop;
- disporre di un catalogo attraverso il quale comprendere facilmente il significato dei dati, le loro relazioni reciproche e la loro origine.
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...Sergio Patano
Abstract della presentazione tenuta nel corso del roadshow "Make Your storage clever and safe" che ha toccato Milano e Roma nel corso del mese di Ottobre 2016
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...Stefano Dindo
L’obiettivo della presentazione è quello di fornire una visione di come la tecnologia cambierà l’esperienza di acquisto degli utenti e delle attività produttive e di assistenza !
Sempre di più la tecnologia sarà il mezzo per proporre nuove esperienze di acquisto, creare canali diretti di comunicazione tra l’utente e le aziende produttrici e soprattutto la fonte di generazione dei dati da studiare per creare nuovi prodotti.
La presentazione è organizzata in quattro aree fondamentali quali:
- Visione del futuro
- Come le nuove tecnologie generano nuove opportunità di business
- L’architettura alla base dell'innovazione aziendale
- Agile Coaching una nuovissima metodologia di gestione dei gruppi di lavoro
OpenData with Android Google Services by Pietro Alberto RossiCodemotion
The purpose of this talk is to introduce the main concepts of OpenData and propose possible development solutions in Android with Google Services API.
Will be introduced regulations of OpenData and the current situation regarding the mobile environment.
Will discuss the future of OpenData in Italy and the investment opportunities.
Questo corso offre una panoramica completa dei sistemi informativi territoriali (GIS) open source, concentrandosi su QGIS. Esplora le rappresentazioni cartografiche, la teoria GIS, l'installazione del software, i servizi web, le operazioni su dati vettoriali e raster, la georeferenziazione e la pubblicazione di mappe online. Include anche informazioni su geodesia, datum, qualità dei dati e licenze.
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Sardegna Ricerche
La presentazione del progetto INNO da parte del responsabile scientifico Pierluigi Cau (CRS4). Il progetto si propone di sviluppare uno strumento altamente innovativo orientato ai servizi per la geomatica sul web e al mondo delle applicazioni mobile.
Le catena del valore dell’IT in Italia passa anche per tutte le aziende informatiche piccole, medie e grandi che oggi offrono ai propri clienti non solo prodotti e servizi ma anche supporto, competenze, assistenza e soprattutto capacità di entrare nel loro business e nelle loro dinamiche. Il cloud computing in Italia deve vedere loro come protagoniste, altrimenti il suo grado di adozione resterà limitato.
Questo panel è dedicato a tutti coloro che credono che il cloud venduto online, a distanza di 8000 km, non possa essere la soluzione ideale per le aziende italiane. La loro particolarità dimensionale, la morfologia e i distretti industriali del territorio rendono il nostro paese unico nel suo genere: le aziende hanno difficoltà ad adeguarsi a standard generali che bloccherebbero la flessibilità e la creatività che da sempre le contraddistingue. Necessitano invece di affidare le proprie tecnologie a partner capaci non solo di assisterle ma anche di guidarle e di prendersene cura, imparando con il tempo a conoscerne le specificità locali.
Il cloud computing potrebbe diventare – se gestito in questa ottica – un grande punto di forza per il nostro futuro industriale, perché permetterebbe anche alle piccole imprese di accedere a tecnologie e a servizi un tempo appannaggio soltanto dei grandi competitor internazionali.
È una sfida che si può e si deve vincere.
Le catena del valore dell’IT in Italia passa anche per tutte le aziende informatiche piccole, medie e grandi che oggi offrono ai propri clienti non solo prodotti e servizi ma anche supporto, competenze, assistenza e soprattutto capacità di entrare nel loro business e nelle loro dinamiche. Il cloud computing in Italia deve vedere loro come protagoniste, altrimenti il suo grado di adozione resterà limitato.
Questo panel è dedicato a tutti coloro che credono che il cloud venduto online, a distanza di 8000 km, non possa essere la soluzione ideale per le aziende italiane. La loro particolarità dimensionale, la morfologia e i distretti industriali del territorio rendono il nostro paese unico nel suo genere: le aziende hanno difficoltà ad adeguarsi a standard generali che bloccherebbero la flessibilità e la creatività che da sempre le contraddistingue. Necessitano invece di affidare le proprie tecnologie a partner capaci non solo di assisterle ma anche di guidarle e di prendersene cura, imparando con il tempo a conoscerne le specificità locali.
Il cloud computing potrebbe diventare – se gestito in questa ottica – un grande punto di forza per il nostro futuro industriale, perché permetterebbe anche alle piccole imprese di accedere a tecnologie e a servizi un tempo appannaggio soltanto dei grandi competitor internazionali.
È una sfida che si può e si deve vincere.
Analysts spend up to 80% of their time on data preparation delaying the time to analysis and decision making.” -Analysts spend up to 80% of their time on data preparation delaying the time to analysis and decision making.” Gartner
Database come PostgreSQL non possono girare su Kubernetes. Questo è il ritornello che sentiamo continuamente, ma al tempo stesso la motivazione per noi di EDB di abbattere questo muro, una volta per tutte.
In questo webinar parleremo della nostra avventura finora per portare PostgreSQL su Kubernetes. Scopri perché crediamo che fare benchmark di storage e del database prima di andare in produzione porti a una più sana e longeva vita di un DBMS, anche su Kubernetes.
Condivideremo il nostro processo, i risultati fin qui ottenuti e sveleremo i nostri piani per il futuro con Cloud Native PostgreSQL.
La gestione logica dei dati come chiave del successo per Data Scientist e Bus...Denodo
Watch full webinar here: https://buff.ly/3Fmc74I
Affinché i progetti di data science abbiano successo, i Data Scientist e i Business Analysts hanno bisogno di accedere a una molteplicità di dati. Tuttavia, consentire l'accesso a tutti i dati tramite un repository centrale integrato è un compito spesso arduo, che può richiedere fino all'80% del tempo del progetto in attività di acquisizione, esplorazione, comprensione e preparazione dei dati.
La Gestione Logica dei dati può aiutare i Data Scientist e i Business Analyst ad accelerare alcune delle attività più tediose e onerose, consentendo loro di concentrarsi sui loro obiettivi e su come i dati consentono di raggiungerli. Poiché la piattaforma di Gestione Logica dei dati dei dati si integra agilmente nell'ecosistema aziendale, i Data scientist o i Business Analyst possono continuare a utilizzare gli strumenti che conoscono, senza dover acquisire nuove competenze per sfruttare compiutamente i dati disponibili.
In questa sessione on-demand, scopriremo insieme come la Gestione Logica dei dati permetta di:
- fornire tutti i dati aziendali, in tempo reale e senza repliche;
- creare e condividere più modelli logici con un semplici operazioni di drag and drop;
- disporre di un catalogo attraverso il quale comprendere facilmente il significato dei dati, le loro relazioni reciproche e la loro origine.
OBS4DX - Il ruolo dell’object storage nel percorso verso la Digital Transform...Sergio Patano
Abstract della presentazione tenuta nel corso del roadshow "Make Your storage clever and safe" che ha toccato Milano e Roma nel corso del mese di Ottobre 2016
Keep Calm & dai uno sguardo al futuro con nuove strategie di relazione con gl...Stefano Dindo
L’obiettivo della presentazione è quello di fornire una visione di come la tecnologia cambierà l’esperienza di acquisto degli utenti e delle attività produttive e di assistenza !
Sempre di più la tecnologia sarà il mezzo per proporre nuove esperienze di acquisto, creare canali diretti di comunicazione tra l’utente e le aziende produttrici e soprattutto la fonte di generazione dei dati da studiare per creare nuovi prodotti.
La presentazione è organizzata in quattro aree fondamentali quali:
- Visione del futuro
- Come le nuove tecnologie generano nuove opportunità di business
- L’architettura alla base dell'innovazione aziendale
- Agile Coaching una nuovissima metodologia di gestione dei gruppi di lavoro
OpenData with Android Google Services by Pietro Alberto RossiCodemotion
The purpose of this talk is to introduce the main concepts of OpenData and propose possible development solutions in Android with Google Services API.
Will be introduced regulations of OpenData and the current situation regarding the mobile environment.
Will discuss the future of OpenData in Italy and the investment opportunities.
Questo corso offre una panoramica completa dei sistemi informativi territoriali (GIS) open source, concentrandosi su QGIS. Esplora le rappresentazioni cartografiche, la teoria GIS, l'installazione del software, i servizi web, le operazioni su dati vettoriali e raster, la georeferenziazione e la pubblicazione di mappe online. Include anche informazioni su geodesia, datum, qualità dei dati e licenze.
Il progetto INNO: dal dato alla applicazione - Pierluigi Cau (CRS4)Sardegna Ricerche
La presentazione del progetto INNO da parte del responsabile scientifico Pierluigi Cau (CRS4). Il progetto si propone di sviluppare uno strumento altamente innovativo orientato ai servizi per la geomatica sul web e al mondo delle applicazioni mobile.
Le catena del valore dell’IT in Italia passa anche per tutte le aziende informatiche piccole, medie e grandi che oggi offrono ai propri clienti non solo prodotti e servizi ma anche supporto, competenze, assistenza e soprattutto capacità di entrare nel loro business e nelle loro dinamiche. Il cloud computing in Italia deve vedere loro come protagoniste, altrimenti il suo grado di adozione resterà limitato.
Questo panel è dedicato a tutti coloro che credono che il cloud venduto online, a distanza di 8000 km, non possa essere la soluzione ideale per le aziende italiane. La loro particolarità dimensionale, la morfologia e i distretti industriali del territorio rendono il nostro paese unico nel suo genere: le aziende hanno difficoltà ad adeguarsi a standard generali che bloccherebbero la flessibilità e la creatività che da sempre le contraddistingue. Necessitano invece di affidare le proprie tecnologie a partner capaci non solo di assisterle ma anche di guidarle e di prendersene cura, imparando con il tempo a conoscerne le specificità locali.
Il cloud computing potrebbe diventare – se gestito in questa ottica – un grande punto di forza per il nostro futuro industriale, perché permetterebbe anche alle piccole imprese di accedere a tecnologie e a servizi un tempo appannaggio soltanto dei grandi competitor internazionali.
È una sfida che si può e si deve vincere.
Le catena del valore dell’IT in Italia passa anche per tutte le aziende informatiche piccole, medie e grandi che oggi offrono ai propri clienti non solo prodotti e servizi ma anche supporto, competenze, assistenza e soprattutto capacità di entrare nel loro business e nelle loro dinamiche. Il cloud computing in Italia deve vedere loro come protagoniste, altrimenti il suo grado di adozione resterà limitato.
Questo panel è dedicato a tutti coloro che credono che il cloud venduto online, a distanza di 8000 km, non possa essere la soluzione ideale per le aziende italiane. La loro particolarità dimensionale, la morfologia e i distretti industriali del territorio rendono il nostro paese unico nel suo genere: le aziende hanno difficoltà ad adeguarsi a standard generali che bloccherebbero la flessibilità e la creatività che da sempre le contraddistingue. Necessitano invece di affidare le proprie tecnologie a partner capaci non solo di assisterle ma anche di guidarle e di prendersene cura, imparando con il tempo a conoscerne le specificità locali.
Il cloud computing potrebbe diventare – se gestito in questa ottica – un grande punto di forza per il nostro futuro industriale, perché permetterebbe anche alle piccole imprese di accedere a tecnologie e a servizi un tempo appannaggio soltanto dei grandi competitor internazionali.
È una sfida che si può e si deve vincere.
Analysts spend up to 80% of their time on data preparation delaying the time to analysis and decision making.” -Analysts spend up to 80% of their time on data preparation delaying the time to analysis and decision making.” Gartner
1. HOW TuBe
POPULAR
Lucia Ravazzi
Davide Badalotti
Leonardo Alchieri
Pietro Bonardi
Università degli Studi
Milano Bicocca
A.A 2019-2020
Gennaio 2020
Data Management and Visualization
2. YOUTUBE
• Nato per condividere le
proprie esperienze
• Enorme diffusione nel corso
degli anni
• Ora fonte di profitto per
individui e organizzazioni
3. Maggiori sforzi nella realizzazione
dei contenuti
• Aumento della qualità
• Uso di tecniche per «invogliare» al click
2
7. Dataset Kaggle
◈ Informazioni sui video in tendenza nelle varie
nazioni ogni giorno
◈ Video famosi maggiore utilizzo di tali tecniche
◈ Trattati come dati esterni da un database
relazionale
7
8. Youtube API
◈ Permette di ricercare video secondo diversi
criteri
◈ Fonte ufficiale di dati, elevata affidabilità
◈ Quota giornaliera limitata, insufficiente
8
9. Youtube Scraper
◈ Da noi implementato
◈ A partire da un videoId ottiene varie informazioni
◈ Ottiene anche i commenti ai video
9
14. Obiettivi
◈ Distribuzione di grandi volumi
◈ Elaborazione gestita in parallelo
◈ Minimizzare il numero di richieste al server
14
15. Loading Kaggle
◈ Schema transformation: da SQL a
documento
◈ Indicizzata per {video_id,
ref_date}
◈ Risoluzione casi di sinonimia
{
Id : <str>,
Ref_date : <str>,
Region : <list>,
…
}
15
17. Loading API
◈ Piccola quantità di dati
◈ Contenenti solo degli Id
◈ Divisi per categoria
◈ Aggiunti al database
singolarmente
{
Id : <str>,
}
17
18. Loading Scraper
◈ Occupa molto tempo (rendering)
◈ Più istanze parallele
◈ Documenti caricati in liste
◈ Indicizzato per {id, ref_date}
{
Id : <str>,
Ref_date : <str>,
Region : <list>,
…
Comments : <doc>
}
18
24. Primo enrichment:
3 steps
Obiettivi:
◈ Aggiungere campi non
presenti fra tutti i dataset
◈ Aumentare la completezza
del dataset di scraping
24
Operazioni:
◈ Aggiunta del campo region
code: da API a scraper
◈ Aggiunta del campo
category: da scraper a
Kaggle
◈ Aggiunta data: da Kaggle
a scraper
26. Integrazione
Obiettivi:
◈ Ottenere unica collezione
indicizzata per {id,
ref_date}
◈ Preservare la consistenza
interna dei documenti, a
scapito della completezza
◈ Mantenere info storicizzate
26
Ricerca tramite
chiave
Non match
Aggiunta del
documento alla
collezione
Match dei
documenti
Campo varia
nel tempo
Si mantengono
i valori da
scraper
Campo non
varia nel tempo
Si mantengono
i valori da
Kaggle
28. Arricchimento finale
◈ Update di ogni documento
◈ Aggiunge campi utili all’analisi
⬥ Numero di wildcards o lettere maiuscole nel titolo
⬥ Lunghezza titolo o descrizione
⬥ Sentiment analysis dei commenti
⬥ Binario dell’anteprima, con colore dominante
⬥ Frazione dislikes e likes sulle views
⬥ …
28
30. Dove concentrare le nostre analisi?
Selezione di 4 categorie
diffuse:
◈ Musica
◈ Gaming
◈ News
◈ Persone e Blogs
Definizione di video popolare
e non popolare.
In base alle visualizzazioni
Popolare: 95° percentile in su
Non popolare: dal 25° al 50°
percentile