10 Passi per Set di Dati di Alta-Qualità

Pier Giuseppe De Meo
Pier Giuseppe De MeoData Warehouse and Business Intelligence Specialist

In che modo la standardizzazione può migliorare la qualità dei dati dei set per l'analisi? 10 passaggi per dataset di alta qualità: un approccio "Divide et impera" ai dati.

10 PASSI PER SET
DI DATI DI ALTA
QUALITÀ
DI PIER GIUSEPPE DE MEO
#1
Tieni separati i tuoi set di dati.
#2
Prepara una cassetta degli attrezzi con una serie di processi di trasformazione
(procedure, funzioni, script, ecc.) che possono essere riutilizzati.
#3
Raggruppa logicamente i tipi di trasformazioni, in base alle categorie (es. valori
mancanti, decodifiche, normalizzazione, ecc.).
#4
Per ogni categoria identificata, seleziona un sottoinsieme di dati in un Dataset su
cui applicare questo tipo di trasformazione: ripeti questo processo su tutti i tuoi
Dataset separatamente.
#5
Per ogni Dataset, se necessario, arricchisci i dati con altre informazioni derivate
(es. campo calcolato, estrazione di sottoinformazioni, ecc.).
#6
Definisci il livello minimo di dettagli condivisi tra tutti i set di dati (ad es. singola
transazione al giorno, gruppi di transazioni al mese, ecc.).
#7
Per ogni set di dati, raggruppa i dati allo stesso livello di granularità.
#8
Unisci tutti i set di dati formattati in un unico set di dati master, in base alla
granularità definita.
#9
Nel Master Dataset prodotto, verifica se esiste un sottoinsieme di dati su cui
riapplicare una qualsiasi delle trasformazioni nella casetta degli strumenti.
#10
Nel Master Dataset prodotto, se necessario, arricchisci i dati con alcune
informazioni extra (es. metriche di vari Dataset combinate a formare un KPI,
decrittazione basata su una combinazione di campi, ecc.).
Knowledge
Share
Serie 1
DATASETS
Un approccio "Divide et impera" nella produzione di
Dataset di alta qualità per analisti di dati.

More Related Content

Featured(20)

How to have difficult conversations How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC3.9K views
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
Christy Abraham Joy82.1K views
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani30.2K views
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
Project for Public Spaces & National Center for Biking and Walking6.9K views
Barbie - Brand Strategy PresentationBarbie - Brand Strategy Presentation
Barbie - Brand Strategy Presentation
Erica Santiago25.1K views
9 Tips for a Work-free Vacation9 Tips for a Work-free Vacation
9 Tips for a Work-free Vacation
Weekdone.com7.1K views
I Rock Therefore I Am. 20 Legendary Quotes from PrinceI Rock Therefore I Am. 20 Legendary Quotes from Prince
I Rock Therefore I Am. 20 Legendary Quotes from Prince
Empowered Presentations142.8K views
How to Map Your FutureHow to Map Your Future
How to Map Your Future
SlideShop.com275.1K views

10 Passi per Set di Dati di Alta-Qualità

  • 1. 10 PASSI PER SET DI DATI DI ALTA QUALITÀ DI PIER GIUSEPPE DE MEO #1 Tieni separati i tuoi set di dati. #2 Prepara una cassetta degli attrezzi con una serie di processi di trasformazione (procedure, funzioni, script, ecc.) che possono essere riutilizzati. #3 Raggruppa logicamente i tipi di trasformazioni, in base alle categorie (es. valori mancanti, decodifiche, normalizzazione, ecc.). #4 Per ogni categoria identificata, seleziona un sottoinsieme di dati in un Dataset su cui applicare questo tipo di trasformazione: ripeti questo processo su tutti i tuoi Dataset separatamente. #5 Per ogni Dataset, se necessario, arricchisci i dati con altre informazioni derivate (es. campo calcolato, estrazione di sottoinformazioni, ecc.). #6 Definisci il livello minimo di dettagli condivisi tra tutti i set di dati (ad es. singola transazione al giorno, gruppi di transazioni al mese, ecc.). #7 Per ogni set di dati, raggruppa i dati allo stesso livello di granularità. #8 Unisci tutti i set di dati formattati in un unico set di dati master, in base alla granularità definita. #9 Nel Master Dataset prodotto, verifica se esiste un sottoinsieme di dati su cui riapplicare una qualsiasi delle trasformazioni nella casetta degli strumenti. #10 Nel Master Dataset prodotto, se necessario, arricchisci i dati con alcune informazioni extra (es. metriche di vari Dataset combinate a formare un KPI, decrittazione basata su una combinazione di campi, ecc.). Knowledge Share Serie 1 DATASETS Un approccio "Divide et impera" nella produzione di Dataset di alta qualità per analisti di dati.