Lezione 5 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quinta e ultima lezione si introducono le tecnologie dei Big Data.
Introduzione ai Big Data e alla scienza dei dati - Exploratory Data AnalysisVincenzo Manzoni
Lezione 2 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. Seconda lezione dedicata all'Exploratory Data Analysis.
Big Data e Business Intelligence. Intervento del Prof. Pozzan nell'ambito dell'open day organizzato dalla Fondazione ITS Kennedy di Pordenone, evento del 13 settembre 2014 in cui sono stati presentati i temi per i corsi in partenza a novembre 2014.
Introduzione ai Big Data e alla scienza dei dati - Machine LearningVincenzo Manzoni
Lezione 3 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa terza lezione si introducono alcuni algoritmi di machine learning.
Introduzione ai Big Data e alla scienza dei dati - Exploratory Data AnalysisVincenzo Manzoni
Lezione 2 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. Seconda lezione dedicata all'Exploratory Data Analysis.
Big Data e Business Intelligence. Intervento del Prof. Pozzan nell'ambito dell'open day organizzato dalla Fondazione ITS Kennedy di Pordenone, evento del 13 settembre 2014 in cui sono stati presentati i temi per i corsi in partenza a novembre 2014.
Introduzione ai Big Data e alla scienza dei dati - Machine LearningVincenzo Manzoni
Lezione 3 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa terza lezione si introducono alcuni algoritmi di machine learning.
Introduzione ai Big Data e alla scienza dei dati - I formati datiVincenzo Manzoni
Lezione 1 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. Il tema di questa prima lezione sono i formati dati.
Introduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazioneVincenzo Manzoni
Lezione 4 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quarta lezione si introducono i sistemi di raccomandazione.
Basic Sharding in MongoDB presented by Shaun VerchMongoDB
This document provides an introduction to MongoDB sharding. It discusses how sharding allows scaling of data and MongoDB's approach to sharding including architecture, configuration, and mechanics. Key points include how sharding partitions data and distributes it across multiple servers, the role of config servers, mongos routers, and shards, and considerations for choosing a shard key to effectively distribute data and queries.
This document provides an overview of big data and Hadoop. It discusses the concepts of data science, data-driven decision making, and data analytics. It then describes the types of databases and introduces Hadoop as an open source framework for distributed processing of large datasets across clusters of computers. Key aspects of Hadoop covered include the Hadoop approach using MapReduce, the HDFS architecture with NameNode and DataNodes, and how Hadoop compares to relational database management systems (RDBMS). The agenda concludes with an introduction to the trainer, Akash Pramanik.
Alberto Degradi - Big Data: grande sfida e grande opportunità - Digital for B...Cultura Digitale
L’intervento tratterà dell’aumento esponenziale della quantità di dati generata quotidianamente da dispositivi tecnologici connessi alla rete: dagli smartphone che si hanno in tasca, ai sensori, alle reti, agli oggetti. La capacità di gestire queste informazioni, in associazione a quanto già disponibile dalle fonti tradizionali, ha un valore strategico per le aziende, ma non è semplice comprendere come farlo e assicurarsi che tutto questo avvenga in modo controllato, efficiente e privo di rischi. Cisco ha realizzato molto di recente una ricerca internazionale sul tema, da cui è emerso che il grande potenziale di questo fenomeno è compreso, ma non tutti i responsabili IT (meno del 30%) dichiarano di saper generare valore strategico dai dati che hanno a disposizione. Il fenomeno peraltro non riguarda solo le grandi aziende: piccole imprese e innovatori possono trovare nelle “pieghe” del Big Data spazi per individuare nuove opportunità di business, creare nuovi servizi guidati dai dati, realizzare soluzioni.
The document discusses the Internet of Things (IoT) and how connected devices, cloud services, and mobile/web applications work together in the IoT ecosystem. It provides examples of IoT applications in various areas like smart homes, cities, manufacturing, and retail. It then discusses challenges like privacy and security. Finally, it uses the example of Apple's ecosystem involving the Apple Watch, iCloud storage, and iPhone to illustrate how these components interact to enable IoT experiences.
"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOMEConcordia Srl
L’intervento ha lo scopo di presentare le nuove tecnologie e i nuovi modelli che permettono, in tempo reale, di misurare le caratteristiche, i comportamenti di acquisto, la relazione fra prodotti e shopper nei punti vendita.
Attraverso casi e dimostrazioni pratiche (casi reali presentati in tempo reale) sarà possibile approfondire le dinamiche che fanno si che uno shopper potenziale diventi un acquirente. In particolare si analizzerà:
Il comportamento e la segmentazione degli shopper nei punti vendita
I principali KPI di efficacia in store
Le condizioni che determinano l’ottimizzazione del sell-out
L’efficacia della comunicazione (in store e nel Digital out of home)
Cosa c’entrano i Videogames, il Retail, i GPS ed i Droni con la Medicina?
Mai sentito parlare di Optogenetics, Kaggle Competitions, Lab-on-achip, M-Health, PatientsLikeMe, TeraHertz Medicine?
Conosci o vorresti saperne di più di 3D printing Revolution, Genomica, Agumented Reality, Gesture Controls, come sfruttare il potere dei Big Data con il Machine Learning, la Robotica e la Mecatronica?
Questi sono alcuni dei topics che compongono il Corso di Studi del Master “re-Design Medicine” improntato a ripensare la Medicina, il design degli ospedali del futuro ed i devices medicali.
Tecniche basate su machine learning per la determinazione del profilo di un a...kylanee
Tesi di laurea magistrale in Ingegneria Informatica.
Il presente lavoro descrive il metodo realizzato per affrontare il problema della determinazione del profilo di un autore sulla base di un insieme di suoi tweet, utilizzando tecniche di machine learning. E' stato presentato in occasione della partecipazione alla competizione internazionale denominata PAN2015.
Slide riassuntive: http://www.slideshare.net/kylanee/slide-tecniche-basate-su-machine-learning-per-la-determinazione-del-profilo-di-un-autore-su-twitter
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Vincenzo Manzoni
I social network e i canali tradizionali di acquisizione delle informazioni, costituiscono le principali fonti di accumulo dati. L’uso appropriato del dato e l’utilizzo nei processi aziendali incrementano il valore del business. Ma cosa si può realizzare con i big data concretamente? Un’esperienza sul campo.
Slide mostrate durante il Palazzolo Digital Festival 2013 (PDF13). Per maggiori informazioni sull’evento: http://www.palazzolodigitalfestival.it/
This document discusses reactive and parallel programming using Akka. It introduces Akka, an open-source toolkit for building distributed, concurrent applications on the JVM. Akka supports actors, futures, software transactional memory, and message passing to handle concurrency. Akka cluster allows building fault-tolerant distributed systems. Examples demonstrate using Akka for microservices, streaming engines, authentication platforms, and IoT applications. The document concludes with an example of how Agile Lab uses Akka in their applications.
Streaming data allows for faster reactions and more profits by enabling real-time processing compared to typical batch analysis workflows. Prediction is more valuable than rule-based categorization and clustering because it allows for pattern discovery, adaptation to changing data, and "smart thinking". Spark Streaming is presented as a tool for building streaming architectures with ingestion, processing, and serving layers. A demo of card transaction analysis with real-time classification, fraud detection, and alert generation is shown.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Un'immagine, si sa, vale più di mille parole, e a maggior ragione anche più di mille numeri: la rappresentazione visiva di una serie di cifre è la strada più rapida per identificare a colpo d'occhio le situazioni che necessitano di una più approfondita analisi di dettaglio.
Strumenti come Google Chart Tools rendono possibile l'integrazione di grafici funzionali e moderni nelle proprie applicazioni web, e quando queste ultime sono realizzate sfruttando le potenzialità di Domino e la flessibilità delle XPages si può davvero parlare di felice unione tra esperienza produttiva e dinamica per l'utente e sviluppo rapido per il programmatore.
In questa sessione analizzeremo insieme, con demo alla mano, diversi esempi pratici applicabili anche in contesto mobile, senza dimenticare l'importanza fondamentale di una selezione ragionata dei dati da elaborare.
Introduzione ai Big Data e alla scienza dei dati - I formati datiVincenzo Manzoni
Lezione 1 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. Il tema di questa prima lezione sono i formati dati.
Introduzione ai Big Data e alla scienza dei dati - Sistemi di raccomandazioneVincenzo Manzoni
Lezione 4 del corso di analisi dati tenuto al Palazzolo Digital Hub (Palazzolo sull'Oglio, Brescia) nel 2014. In questa quarta lezione si introducono i sistemi di raccomandazione.
Basic Sharding in MongoDB presented by Shaun VerchMongoDB
This document provides an introduction to MongoDB sharding. It discusses how sharding allows scaling of data and MongoDB's approach to sharding including architecture, configuration, and mechanics. Key points include how sharding partitions data and distributes it across multiple servers, the role of config servers, mongos routers, and shards, and considerations for choosing a shard key to effectively distribute data and queries.
This document provides an overview of big data and Hadoop. It discusses the concepts of data science, data-driven decision making, and data analytics. It then describes the types of databases and introduces Hadoop as an open source framework for distributed processing of large datasets across clusters of computers. Key aspects of Hadoop covered include the Hadoop approach using MapReduce, the HDFS architecture with NameNode and DataNodes, and how Hadoop compares to relational database management systems (RDBMS). The agenda concludes with an introduction to the trainer, Akash Pramanik.
Alberto Degradi - Big Data: grande sfida e grande opportunità - Digital for B...Cultura Digitale
L’intervento tratterà dell’aumento esponenziale della quantità di dati generata quotidianamente da dispositivi tecnologici connessi alla rete: dagli smartphone che si hanno in tasca, ai sensori, alle reti, agli oggetti. La capacità di gestire queste informazioni, in associazione a quanto già disponibile dalle fonti tradizionali, ha un valore strategico per le aziende, ma non è semplice comprendere come farlo e assicurarsi che tutto questo avvenga in modo controllato, efficiente e privo di rischi. Cisco ha realizzato molto di recente una ricerca internazionale sul tema, da cui è emerso che il grande potenziale di questo fenomeno è compreso, ma non tutti i responsabili IT (meno del 30%) dichiarano di saper generare valore strategico dai dati che hanno a disposizione. Il fenomeno peraltro non riguarda solo le grandi aziende: piccole imprese e innovatori possono trovare nelle “pieghe” del Big Data spazi per individuare nuove opportunità di business, creare nuovi servizi guidati dai dati, realizzare soluzioni.
The document discusses the Internet of Things (IoT) and how connected devices, cloud services, and mobile/web applications work together in the IoT ecosystem. It provides examples of IoT applications in various areas like smart homes, cities, manufacturing, and retail. It then discusses challenges like privacy and security. Finally, it uses the example of Apple's ecosystem involving the Apple Watch, iCloud storage, and iPhone to illustrate how these components interact to enable IoT experiences.
"APPLICAZIONI DI MACHINE LEARNING NEL DIGITAL OUT OF HOMEConcordia Srl
L’intervento ha lo scopo di presentare le nuove tecnologie e i nuovi modelli che permettono, in tempo reale, di misurare le caratteristiche, i comportamenti di acquisto, la relazione fra prodotti e shopper nei punti vendita.
Attraverso casi e dimostrazioni pratiche (casi reali presentati in tempo reale) sarà possibile approfondire le dinamiche che fanno si che uno shopper potenziale diventi un acquirente. In particolare si analizzerà:
Il comportamento e la segmentazione degli shopper nei punti vendita
I principali KPI di efficacia in store
Le condizioni che determinano l’ottimizzazione del sell-out
L’efficacia della comunicazione (in store e nel Digital out of home)
Cosa c’entrano i Videogames, il Retail, i GPS ed i Droni con la Medicina?
Mai sentito parlare di Optogenetics, Kaggle Competitions, Lab-on-achip, M-Health, PatientsLikeMe, TeraHertz Medicine?
Conosci o vorresti saperne di più di 3D printing Revolution, Genomica, Agumented Reality, Gesture Controls, come sfruttare il potere dei Big Data con il Machine Learning, la Robotica e la Mecatronica?
Questi sono alcuni dei topics che compongono il Corso di Studi del Master “re-Design Medicine” improntato a ripensare la Medicina, il design degli ospedali del futuro ed i devices medicali.
Tecniche basate su machine learning per la determinazione del profilo di un a...kylanee
Tesi di laurea magistrale in Ingegneria Informatica.
Il presente lavoro descrive il metodo realizzato per affrontare il problema della determinazione del profilo di un autore sulla base di un insieme di suoi tweet, utilizzando tecniche di machine learning. E' stato presentato in occasione della partecipazione alla competizione internazionale denominata PAN2015.
Slide riassuntive: http://www.slideshare.net/kylanee/slide-tecniche-basate-su-machine-learning-per-la-determinazione-del-profilo-di-un-autore-su-twitter
Le opportunita dei Big Data - Palazzolo Digital Festival 2013 (PDF13)Vincenzo Manzoni
I social network e i canali tradizionali di acquisizione delle informazioni, costituiscono le principali fonti di accumulo dati. L’uso appropriato del dato e l’utilizzo nei processi aziendali incrementano il valore del business. Ma cosa si può realizzare con i big data concretamente? Un’esperienza sul campo.
Slide mostrate durante il Palazzolo Digital Festival 2013 (PDF13). Per maggiori informazioni sull’evento: http://www.palazzolodigitalfestival.it/
This document discusses reactive and parallel programming using Akka. It introduces Akka, an open-source toolkit for building distributed, concurrent applications on the JVM. Akka supports actors, futures, software transactional memory, and message passing to handle concurrency. Akka cluster allows building fault-tolerant distributed systems. Examples demonstrate using Akka for microservices, streaming engines, authentication platforms, and IoT applications. The document concludes with an example of how Agile Lab uses Akka in their applications.
Streaming data allows for faster reactions and more profits by enabling real-time processing compared to typical batch analysis workflows. Prediction is more valuable than rule-based categorization and clustering because it allows for pattern discovery, adaptation to changing data, and "smart thinking". Spark Streaming is presented as a tool for building streaming architectures with ingestion, processing, and serving layers. A demo of card transaction analysis with real-time classification, fraud detection, and alert generation is shown.
Descrizione delle principali tecnologie abilitanti alla gestione dei Big Data, con particolare attenzione all’ecosistema che gravita intorno al framework Hadoop di Apache.
Un'immagine, si sa, vale più di mille parole, e a maggior ragione anche più di mille numeri: la rappresentazione visiva di una serie di cifre è la strada più rapida per identificare a colpo d'occhio le situazioni che necessitano di una più approfondita analisi di dettaglio.
Strumenti come Google Chart Tools rendono possibile l'integrazione di grafici funzionali e moderni nelle proprie applicazioni web, e quando queste ultime sono realizzate sfruttando le potenzialità di Domino e la flessibilità delle XPages si può davvero parlare di felice unione tra esperienza produttiva e dinamica per l'utente e sviluppo rapido per il programmatore.
In questa sessione analizzeremo insieme, con demo alla mano, diversi esempi pratici applicabili anche in contesto mobile, senza dimenticare l'importanza fondamentale di una selezione ragionata dei dati da elaborare.
Db2 11.1: l'evoluzione del Database secondo IBMJürgen Ambrosi
La gestione dei dati è indubbiamente un segmento chiave per la strategia IBM dei prossimi anni insieme con le tematiche Cognitive e Cloud. In tale ambito la gestione nelle basi dati è soggetta ad una evoluzione significativa verso la convergenza degli ambienti Analitici e Transazionali cosi da portare nei prossimi mesi ad una significativa semplificazione del disegno architetturale. A differenza dei tipici ambienti di business ove i processi transazionali ed analitici sono basati su distinte architetture, l'hybrid transactional analytical processin (HTAP) consentirà di eseguire analisi e transazioni sullo stesso Database senza impattare le prestazioni di tali ambienti. L'obiettivo di tale disegno strategico è abilitare i nostri clienti ad estrarre più valore dai propri dati, fornendo strumenti di analisi dati real-time nel punto esatto di generazione dei dati stessi.
Come funzionano i Retrieval-Augmented Generators (RAG) e quanto i database vettoriali sono fondamentali per poter memorizzare e utilizzare le sorgenti dati aziendali e personali?
La prototipazione è un’attività fondamentale per “capire facendo”. Lo scopo della prototipazione non è costruire partendo da un progetto definito ma, piuttosto, acquisire dati preziosi per essere poi più consapevoli di prendere la giusta direzione. Alla base delle attività di prototipazione ci sono spesso strumenti low code e no code. Esistono ormai da diversi anni e ultimamente stanno guadagnando sempre più attenzione nella community per la loro immediatezza e velocità. Abbiamo definito meglio le loro qualità e le opportunità che ci sono nel loro utilizzo.
Durante il talk abbiamo approfondito perché è importante prototipare e come questa attività migliora i nostri progetti. In particolare, abbiamo approfondito l’utilizzo AWS Step Functions Workflow Studio, strumento low code prodotto da AWS. Workflow Studio ci permette di imbastire una state machine basata su step functions con uno strumento visuale drag & drop che semplifica moltissimo il nostro lavoro. Abbiamo analizzato cosa lo contraddistingue da altri strumenti e quali sono i suoi punti di forza. Infine siamo passati alla pratica facendo una piccola esercitazione con AWS Step Functions.
Power BI: Introduzione ai dataflow e alla preparazione dei dati self-serviceMarco Pozzan
Power BI Dataflow è il componente di trasformazione dei dati in Power BI. È un processo di Power Query che viene eseguito nel cloud. Bene, questa potrebbe non sembrare una funzionalità molto nuova, giusto? Quindi cosa c'è di nuovo con Dataflow? Le risposte alle vostre domande saranno nella mia sessione :-)
Global Azure Bootcamp 2018 - Verona.
Scalare una applicazione con le proprie applicazioni con Azure Functions.
All'interno è presente la spiegazione di Durable Functions con qualche esempio completo
DbUp è una libreria .NET che facilita il deploy delle modifiche allo schema del database di una applicazione. Tiene traccia degli scripts SQL che sono già stati applicati ed esegue gli script di modifica, necessari ad effettuare la migrazione del database.
Introduzione ai Big Data e alla scienza dei dati - Big Data
1. INTRODUZIONE AI BIG DATA
E ALLA SCIENZA DEI DATI
Lezione 5
I Big Data; le tecnologie dei Big Data (MapReduce, Hadoop, Hive
e Pig); il cloud computing
Vincenzo Manzoni
vincenzomanzoni.com | me@vincenzomanzoni.com
3. BIG DATA
• Si veda la presentazione fatta al Palazzolo Digital Festival 2013.
4. MAP REDUCE (1/2)
• Modello di programmazione adatto a
processare grandi dataset.
• Parallelo.
• Distribuito in un cluster.
• Adatto ad essere eseguito su hardware
comune.
• Inizialmente sviluppato da Google
Insieme di computer connessi
che lavorano insieme, in
modo che possano essere
visti come un unico sistema.
5. MAP REDUCE (2/2)
• Il modello è composto da 2 procedure:
• Map: assegna un valore a una chiave.
• Reduce: riduce tutti i valori associati a una stessa chiave
secondo una funzione di aggregazione.
• Esempi
• Conteggio delle persone in un palazzo
• Conteggio delle parole in un testo
12. MAP REDUCE:VANTAGGI E
SVANTAGGI
• Vantaggi
• Scala in modo (quasi) lineare, ovvero raddoppiando la potenza di
calcolo, si dimezza il tempo di calcolo.
• È robusto.
• Svantaggi
• È complesso tradurre algoritmi tradizionali nella forma Map
Reduce.
• In particolare, le query SQL.
13. MAP REDUCE: USI
• Ricerca
• Analisi di file di log
• Costruzione di indici analitici (inverted index)
• Machine learning
14. HADOOP
• Framework che supporta applicazioni distribuite
con alto accesso ai dati.
• Sviluppato attivamente daYahoo, è stato ispirato
dalla MapReduce di Google e dal Google File
System.
• È composto da:
• HDFS: un filesystem distribuito
• Hadoop Common: un insieme di librerie
per l’accesso a HDFS.
16. HIVE
• Tecnologia per interrogare i Big Data come se
fossero tabelle SQL.
• HiveQL
• Produce in modo trasparente software Map
Reduce.
• Inizialmente sviluppato da Facebook.
17. HIVEQL
• Linguaggio dichiarativo
• Si specifica cosa si vuole, non come ottenerle (come SQL).
• Simile, ma non del tutto identico a SQL.
• Esempi:
• SELECT
COUNT(*)
FROM
nyse_stocks
• SELECT
AVG(stock_price_close)
FROM
nyse_stocks
WHERE
stock_symbols=‘IBM’
18. PIG
• Piattaforma per creare programmi Map
Reduce.
• Astrae la scrittura di programmi Map
Reduce in un linguaggio di più alto livello (Pig
Latin).
• Inizialmente sviluppato daYahoo.
19. PIG LATIN
• Linguaggio procedurale.
• Si specificano i vari passi per ottenere un risultato (come C,
Python, R, Java, …)
• Esempio:
a
=
LOAD
'nyse_stocks'
using
org.apache.hcatalog.pig.HCatLoader();
b
=
filter
a
by
stock_symbol
==
'IBM';
c
=
group
b
all;
d
=
foreach
c
generate
AVG(b.stock_price_close);
dump
d;
20. HIVEQLVS PIG LATIN
HiveQL Pig Latin
Tecnologia Hive Pig
Introdotto da Facebook Yahoo
Tipologia di linguaggio Dichiarativo Procedurale
Simile a SQL C, Java, Python, R
21. DEMO
• Esempio d’uso di Hive da pannello di controllo web
• Confronto delle prestazioni con una interrogazione MySQL
• Esempio d’uso di Hive da console
• Esempio d’uso di Pig
22. CONFRONTO PRESTAZIONI
MYSQL E HADOOP
Prestazioni(minoreèmeglio)
0
10
20
30
40
Dimensione del dataset (GB)
0 50 100 150 200
MySQL Hadoop
Hadoop inizia ad essere conveniente
per dataset > di 100-150 GB.
23. IL CLOUD COMPUTING
• Insieme di tecnologie offerta da un provider che permettono di
memorizzare e elaborare dati grazie a risorse hardware e software
distribuite e virtualizzate.
24. OFFERTE CLOUD
• Alcuni esempi
• Dropbox: storage
• AWS (Amazon Web Services)
• storage
• calcolo
• molto altro – lo vedremo in dettaglio.
• Microsoft Azure
• storage
• calcolo, compreso Hadoop
• Google Cloud
• storage
• calcolo, compreso Hadoop
• machine learning as a service con le Google Prediction API
25. AWS
• Tecnologie
• EC2: calcolo on demand
• S3: storage on demand
• Elastic MapReduce: Hadoop on demand (anche con Pig e
Hive)
• Database relazionali e NoSQL
27. MACHINE LEARNING AS A
SERVICE
• Servizio che rende trasparente all’utente il processo di scelta del miglior
algoritmo di apprendimento supervisionato
• L’utente carica nel servizio il proprio dataset di addestramento (spesso,
anche quello di test).
• Il sistema addestra un modello e notifica l’utente al termine
dell’operazione.
• A questo punto l’utente
può chiedere al modello
di classificare nuove
istanze.
28. MACHINE LEARNING AS A
SERVICE
• Provider di servizi di machine learning as a service
• Google Prediction API
• Algorithms.io (beta, su invito)
• wise.io
• BigML
30. ESERCIZIO FINALE
CONSEGNA
• Siete l’analista dati di un provider di telefonia. Il vostro obiettivo è di capire se nei
prossimi 6 mesi un cliente lascerà sulla base del suo profilo d’uso.
• Il profilo d’uso di un utente è descritto da 4 variabili:
1. Uso voce (minuti / mese)
2. Uso dati (MB / mese)
3. Chiamate al servizio clienti
4. Ritardo nei pagamenti (mesi)
Id Uso
voce Uso
da+
Chiamate
al
servizio
clien+
Ritardo
pagamen+
Lascia?
1 3.20 22.85 0 1 VERO
2 36.42 67.40 2 1 FALSO
3 5.44 148.13 1 0 FALSO
…
31. ESERCIZIO FINALE
ESPLORAZIONE E MACHINE LEARNING
1. Fare analisi esplorativa dei dati del dataset di training.Alcune domande a cui dare
risposta in modo grafico sono:
• Esiste una correlazione tra le chiamate al supporto clienti e la chiusura di un account?
• Esiste una relazione tra il ritardo di pagamento e la chiusura dell’account?
• Esiste una relazione tra l’uso voce e l’uso dati?
2. Determinare il miglior modello supervisionato che predica la chiusura di un account
dalle altre 4 variabili.Algoritmi da provare sono:
• Decision trees
• K-NN
!
3. Quale algoritmo performa meglio?