Data Analysis & Machine Learning

Data Analysis &
Machine Learning

DataAnalysis&MachineLearningDataAnalysis&MachineLearning
2
AgendaAbout
Hello,
nice to meet
you.
We are Caffeina
a Creative Digital Agency

DataAnalysis&MachineLearning
3
Who are we?
Stefano Azzolini
Chief Technology Officer
@lastguest
Valentina Ciavarella
R&I Supervisor
@valentinaciav

4
Perché
siamo qui.
Per rompere gli schermi.
Superare insieme i limiti dei dispositivi e
conoscerci. Imparare ascoltando le
esperienze, confrontarci.

5
2.5 +29%Quintillion bytes of
data/every day
90% dei dati esistenti è
stato creato solo negli
ultimi due anni.
Grow rate data
from 2012 to 2020
Nuovi dispositivi, sensori e
tecnologie accelereranno il
tasso di crescita dei dati.
Data In the World
Qual è l’attuale stato
dei dati
nel mondo?
Sistemi artificiali e Data Center
I progressi tecnologici in ambito computazionale e
della potenza di calcolo, stanno spingendo i leader
della trasformazione digitale ad investire sempre più in
infrastrutture, Storage flash e strumenti di gestione dei
dati.

6
Data are just summaries of
thousands of stories – tell a few of
those stories to help make the data
meaningful.
— Chip & Dan Heath
“
“

7
Michele Vitali
Project leader & Statistics team
leader
Luca Fontanili
Computer Engineer
Sergey Antopolskiy
Data scientist
Lasciamo la parola a…
Today’s Speaker
Alessandro Cucci
Python Expertise Manager

Agenda
8
01. Data Science and AI
02. Git for Data Science
03. Sentiment Analysis
04. Introduction to Data Visualization

Data Science and AI
Michele Vitali

La comunità di Data Science, Machine Learning e
Artificial Intelligence a Parma:
∞ Meet up
∞ Events
About us

∞ Interagire con altre comunità
∞ E tutto ciò che ci viene in mente ...
About us

Pics by Anna Marzo Photography
Evento DS&AI Parma
@FabLab. Marzo ‘18

Telegram Channel:
Data Science and Artificial
Intelligence in Parma
https://t.me/joinchat/G1YIUB
A4t85VXTZzIwqIOw
Contatti
Facebook Page:
Data Science and Artificial
Intelligence in Parma
@DSAIinParma

Unisciti a noi e aiutaci a:
∞ Organizzare eventi
∞ Gestire Social Media
∞ Essere in contatto con la community
Be part of the community

The three technical forces
DATA
COMPUTATIONAL POWER ALGORITHMS

Data science
Un campo interdisciplinare che attraverso diversi
metodi, processi e sistemi estrae conoscenze ed
informazioni dai dati.

Data science
COMPUTER
SCIENCE/ IT
MATH/
STATISTICS
DATA
SCIENCE
DOMAINS/
BUSINESS
KNOWLEDGE
Machine
Learning
Software/
Hardware
Development
Traditional
Research

Data scientist
É la figura responsabile della raccolta, analisi ed
interpretazione dei dati. Si pone tra scienza,
matematica, statistica e decodifica dei fenomeni
emergenti, reali e non, o simulati.

Alcuni esempi…
DATA VISUALIZATION
SENTIMENT ANALYSIS
FACE DETECTION
RECOMMENDER SYSTEMS

Some cases - Data Visualization
Accurat for Corriere della Sera
A series of experimental data
visualizations for the weekly
cultural supplement of the
largest Italian newspaper

Netflix- Recommender Systems
≅ 125 Million subscribers
≅ 200 countries
≅ 1 Billion hours video watch per week

IBM- Social analytics help retailers meet demand

Control your code
Luca Fontanili
Git

Un progetto in solitaria
Il flusso di sviluppo è semplice:
● Totale controllo delle modifiche apportate ai singoli file
● Nessun rischio di modifiche concorrenti
Manca comunque qualcosa:
● Nessuna traccia delle versioni precedenti (se non con la famigerata
tecnica driver_new_YYYYMMDD_v2_last.py)
● Nessuna possibilità di branch di sviluppo paralleli

Aumentiamo gli sviluppatori
Quando si è in due
● Rischio di modifiche concorrenti allo stesso file
● Numero maggiore di modifiche ai singoli file, i.e. maggior rischio di
introduzione bug
● "L'hai fatto tu o l'ho fatto io?"
Aumentiamo ancora:
● Crescita esponenziale dei problemi precedentemente descritti
● "Chi l'ha fatto?", "Chi l'ha tolto?"

1 - Singolo sviluppatore: introduzione di bug
Il contesto:
● Si vuole aggiungere una feature al nostro progetto
● Necessario modificare alcuni file/classi già funzionanti
● Mancanza di test suite porta ad introduzione bug
● Deploy della nuova versione
● Bug
Il problema:
● Come recupero le modifiche implementate?

2 - Più sviluppatori: condivisione del codice
Il contesto:
● 2 o più sviluppatori sullo stesso progetto
● Una macchina ognuno
Il problema:
● Come possono avere tutti il codice sempre aggiornato alle ultime
modifiche? (Google Drive)

3 - Più sviluppatori: sviluppo parallelo
Il contesto:
● 2 o più sviluppatori
● Ognuno vuole sviluppare la nuova feature
● Lo sviluppo non parte in concomitanza (casi reali)
Il problema:
● Che versione del codice utilizzano?
● Come si sincronizzano le modifiche?

Cosa è Git
● Versioning control system
● Permette di tracciare modifiche apportate ai file (di un progetto)
● Permette branch di sviluppo paralleli nel team
● Permette a più persone di modificare concorrentemente lo stesso file senza conflitti
Un po' di info
● Creato nel 2005 da Linus Torvalds
● Utilizzato da Google, Facebook, Microsoft, Netflix etc
● Sito ufficiale: https://git-scm.com/
● Pro Git ebook (free)

Perché Git
● Distribuito: non è necessario avere un server configurato, si può avere la
potenza del versioning in locale
● Semplice: è sufficiente conoscere un numero esiguo di comandi per
poter utilizzare appieno le potenzialità di git
● Veloce: poiché quasi tutte le operazioni sono performate localmente, si
minimizza la necessità di comunicare con il server
(https://git-scm.com/about/small-and-fast)

Soluzioni pratiche ai problemi noti
Vediamo l'utilizzo di git in pratica per risolvere i problemi fin qui descritti.
Per le dimostrazioni pratiche, scaricare il repository presente al link
https://github.com/lucafon/DS-AI-Parma
● Aprire il terminale
● Creare una cartella di destinazione
mkdir /path/to/destination/folder
● Clonare il repository
git clone https://github.com/lucafon/DS-AI-Parma.git

1 - Singolo sviluppatore: introduzione di bug
Con git, e i vari client anche embedded in alcuni IDE,
● È molto semplice recuperare lo storico delle modifiche
● È possibile eseguire multiple commit, arrivando a versioni stabili e prive di bug
● In caso di introduzione di regressioni, si può eseguire un rollback veloce alla versione
funzionante
In pratica:
● Al link https://github.com/lucafon/DS-AI-Parma/blob/master/Git/driver.py è possibile vedere le
modifiche apportate tra una commit e l'altra
● È possibile eseguire una "commit" (e "push") delle modifiche marcare l'evolversi del file
git commit -m "Descrizione modifiche apportate"

2 - Più sviluppatori: condivisione del codice
È possibile caricare su un repository remoto il codice, in questo modo:
● Tutti gli sviluppatori possono accedere alla versione più aggiornata del codice con il minimo
sforzo
● I file/le classi aggiornati sono disponibili al download immediatamente dopo il caricamento sul
repository
In pratica:
● Lo sviluppatore A esegue una modifica, tutti gli altri sviluppatori possono eseguire una "fetch"
e una "pull" per scaricare le modifiche
git pull

3 - Più sviluppatori: sviluppo parallelo
Ogni sviluppatore può "staccare un branch", ovvero un ramo di sviluppo per
implementare e testare le modifiche indipendentemente
● Non si disturba il lavoro degli altri sviluppatori
● Si possono eseguire "merge" delle modifiche applicate sul proprio branch
In pratica:
● Ogni sviluppatore apre un branch di sviluppo
git checkout -b branch_name
● Sul proprio branch si può agire indisturbatamente

Contribuire alla community
● Per contribuire ad un progetto è possibile eseguire un "fork"
● Viene creata una copia locale nel proprio namespace per operare tranquillamente
● Di solito si segue il flow
a. Fork del progetto
b. Creazione branch master
c. Applicare modifiche
d. Push delle modifiche sul proprio branch
e. Apertura Pull Request su GitHub
f. Merge della Pull Request
● https://git-scm.com/book/en/v2/GitHub-Contributing-to-a-Project

nbdime
● nbdime permette di vedere differenze e mergiare facilmente
Jupyter notebooks
● Possibilità di integrare nbdime con git in modo da gestire
meglio i Jupyter notebooks
● https://nbdime.readthedocs.io/en/stable/

Q&A
www.alessandrocucci.it/caffeina

Sergey Antopolskiy
Introduction to data
Visualization

You can follow my presentation here:
https://github.com/antopolskiy/caffeina-data-vis

Data Analysis & Machine Learning

Recommended

Recommended

More Related Content

Similar to Data Analysis & Machine Learning

Similar to Data Analysis & Machine Learning (20)

More from Caffeina

More from Caffeina (15)

Data Analysis & Machine Learning

Editor's Notes