Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KEEPLER | Data Analysis Lifecycle

443 views

Published on

Title: Data Analysis Lifecycle
Author: Marcos Sobrino, Data Analyst at Keepler Data Tech

Published in: Data & Analytics
  • Be the first to comment

KEEPLER | Data Analysis Lifecycle

  1. 1. DATA ANALYSIS LIFECYCLE www.keepler.io
  2. 2. HELLO! Marcos Sobrino Data Analyst en Keepler Data Tech marcos.sobrino@keepler.io WHAT? HOW? WHERE? TRANSFORMACIÓN AGILE METODOLOGÍA / FRAMEWORK DEVOPS ENFOQUE DATA PRODUCT EXCELENCIA TÉCNICA Cloud Computing Big Data Artificial Intelligence
  3. 3. ¿CUÁLES SON LA ETAPAS REALES EN UN ANÁLISIS DE DATOS?
  4. 4. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué? Data Analysis Lifecycle ETAPAS
  5. 5. TOMA DE REQUISITOS FUENTES DE DATOS
  6. 6. REQUERIMIENTOS Y REQUISITOS Data Analysis Lifecycle Product Owner Data Analyst Data Engineer REQUISITOS ANÁLISIS FUENTES
  7. 7. DISTINTAS FUENTES DE DATOS PARA EL ANÁLISIS Data Analysis Lifecycle
  8. 8. señor/a data analyst señor/a data engineer REQUISITOS fUENTES aNÁLISIS TENEMOS REQUISITOS, FUENTES Y ANÁLISIS A REALIZAR... Data Analysis Lifecycle
  9. 9. Data Analyst Data Engineer Product Owner SER ESCÉPTICO NO IMPLICA DESCONFIANZA Data Analysis Lifecycle
  10. 10. EDA
  11. 11. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué? Data Analysis Lifecycle EDA
  12. 12. ANÁLISIS DE LAS FUENTES INCONSISTENCIAS MODELO CONFIRMAREMOS PLANTEAMIENTO NUEVOS PRISMAS ANÁLISIS MAYOR EFICIENCIA AHORRO EN DISGUSTOS Data Analysis Lifecycle ANÁLISIS EXPLORATORIO DE DATOS
  13. 13. Data Analysis Lifecycle LENGUAJES Y HERRAMIENTAS
  14. 14. Data Analysis Lifecycle LENGUAJES Y HERRAMIENTAS
  15. 15. Variables PlotsConsola Editor Data Analysis Lifecycle LENGUAJES Y HERRAMIENTAS
  16. 16. # Diverging Barcharts ggplot(mtcars, aes(x=`car name`, y=mpg_z, label=mpg_z)) + geom_bar(stat='identity', aes(fill=mpg_type), width=.5) + scale_fill_manual(name="Mileage", labels = c("Above Average", "Below Average"), values = c("above"="#00ba38", "below"="#f8766d")) + labs(subtitle="Normalised mileage from 'mtcars'", title= "Diverging Bars") + coord_flip() num_bins = 50 fig, ax = plt.subplots() n, bins, patches = ax.hist(x, num_bins, normed=1) y = mlab.normpdf(bins, mu, sigma) ax.plot(bins, y, '--') ax.set_xlabel('Smarts') ax.set_ylabel('Probability density') ax.set_title(r'Histogram of IQ: $mu=100$, $sigma=15$') # Tweak spacing to prevent clipping of ylabel fig.tight_layout() plt.show() Data Analysis Lifecycle LENGUAJES Y HERRAMIENTAS
  17. 17. Mediante EDA buscaremos inconsistencias en el modelo o errores de formato mediante técnicas de data cleaning, que puede implicar múltiples casuísiticas. Dos grupos de datos a corregir: 1. Datos con errores de formato: NA’s, datos erróneos, formatos erróneos, constantes, duplicados, categorización errónea... 2. Datos con errores de intuición: Outliers, distribuciones, segmentación errónea … datos que contradicen el planteamiento, escenario o hipótesis inicial del análisis. Source: Ander Toons Data Analysis Lifecycle INCONSISTENCIAS
  18. 18. Sencillo de detectar, pero cada lenguaje/formato lo identifica de una manera diferente: NaN, NA, “”,None, NULL…. En otras ocasiones, un valor dummy ocupa un valor sin información como 999, -999, ...9 ? Missing Values Data Analysis Lifecycle MISSING VALUES
  19. 19. A veces muy obvio como en este ejemplo, pero otras veces no lo es tanto. El contexto y definición del análisis determinarán si un valor es un outlier o no. Missing values Outliers Data Analysis Lifecycle OUTLIERS
  20. 20. Información innecesaria dentro de nuestro modelo o fuente Missing values Outliers Constants Data Analysis Lifecycle CONSTANTS
  21. 21. Quizá tengamos categorización duplicada Evitamos tener una columna doble y conclusiones erróneas a b c a b Missing values Outliers Constants Cloned features Data Analysis Lifecycle CATEGORIZACIÓN DUPLICADA
  22. 22. Errores de datos en las fuentes de origen. a b c a b Missing values Outliers Constants Cloned features Incorrect labels Data Analysis Lifecycle CATEGORIZACIÓN INCORRECTA
  23. 23. Data Analysis Lifecycle VIABILIDAD, VALIDEZ, VARIABILIDAD
  24. 24. Data Analysis Lifecycle VIABILIDAD, VALIDEZ, VARIABILIDAD
  25. 25. ANALIZADO DISTINTAS FUENTES LIMPIADO FUENTES NORMALIZADO DATOS ANÁLISIS INICIAL VIABLE ANÁLISIS 2.0 CONOCIMIENTO DATO CONOCIMIENTO CONTEXTO MODELO BONUS Data Analysis Lifecycle
  26. 26. Data Analysis Lifecycle MORALEJA
  27. 27. MODELO DE DATOS & ARQUITECTURA
  28. 28. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué? Data Analysis Lifecycle MODELO
  29. 29. Fact table Dimension table I Dimension table I Dim table III Dim table IV Dim table V Fact table Dimension table I Dimension table I Dim table III Dim table IV Dim table V Subdimension table Subdimension table Subdimension table ID # * ... n ID1 #1 *1 ... n1 ID2 #2 *2 ... n2 ID3 #3 *3 ... n3 IDn #n *n ... nn ESTRELLA COPO DE NIEVE TABLÓN OTROS MAPAS GIS---> JSON Data Analysis Lifecycle DATAMODEL
  30. 30. SQL ESTÁNDAR ANALYTICS BAJAS VOLUMETRÍAS ALTAS VOLUMETRÍAS / AGRUPA TB DATOS RELACIONAL COLUMNAR Data Analysis Lifecycle OLAP DATABASES OLTP
  31. 31. DATAMART / DATABASE DWH DATALAKE ✔ ~ TAMAÑO ESTRUCTURADO TIPO ESTRUCTURA - - ✔ CLOUD 1- Coste por uso: Control de costes 2- Seguridad y privacidad: Acceso físico, control de acceso y explotación de la información 3- Escalabilidad: Aumento y disminución rápido y automático de recursos Data Analysis Lifecycle ARQUITECTURA
  32. 32. DATAVIZ
  33. 33. Toma de requisitos EDA Modelo de datos Dataviz ¿Y ahora qué? Data Analysis Lifecycle DATAVIZ
  34. 34. MODELO AUTOGESTIONADO MODELO HÍBRIDO MODELO DIY TIPOLOGÍA DE MODELOS
  35. 35. HERRAMIENTAS COMERCIALES Microstrategy Tableau BO Power BI Spotfire Qlik Cognos TODO EN 1 ADMIN MULTIDISCIPLINAR MULTIPERFIL DISTRIBUCIÓN ANÁLISIS DASHBOARDS DOCUMENTS | REPORTS AUTOCONSUMO Data Analysis Lifecycle MODELO AUTOGESTIONADO
  36. 36. VISIÓN GLOBAL KPIS Data Analysis Lifecycle MODELO AUTOGESTIONADO - DASHBOARDS
  37. 37. VISIÓN GLOBAL ANÁLISIS EVOLUTIVO KPIS Data Analysis Lifecycle MODELO AUTOGESTIONADO - DASHBOARDS
  38. 38. VISIÓN GLOBAL MULTIDIMIENSIONALES ANÁLISIS EVOLUTIVO KPIS Data Analysis Lifecycle MODELO AUTOGESTIONADO - DASHBOARDS
  39. 39. VISIÓN GLOBAL MULTIDIMIENSIONALES ANÁLISIS EVOLUTIVO KPIS DINÁMICOS Data Analysis Lifecycle MODELO AUTOGESTIONADO - DASHBOARDS
  40. 40. DINÁMICOS ANÁLISIS ALTO NIVEL ESCALABLES DETECCIÓN PATRONES PALANCAS DE CAMBIO IMPACTOS TODOS USUARIOS VISIÓN GLOBAL MULTIDIMIENSIONALES ANÁLISIS EVOLUTIVO ✔ ✔ ✔ ✔ ✔ ✔ KPIS Data Analysis Lifecycle MODELO AUTOGESTIONADO - DASHBOARDS
  41. 41. COMPLEMENTO DASHBOARD DINÁMICOS / ESTÁTICOS EJECUTIVO (alto nivel) DETALLE (bajo nivel) DISTRIBUIBLES CUSTOMIZABLES / MODIFICABLES NIVEL INTERMEDIO ANÁLISIS USUARIOS MEDIOS ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ Data Analysis Lifecycle MODELO AUTOGESTIONADO - DOCUMENTOS/REPORTS
  42. 42. MODELADO DEL DWH MULTIDIMENSIONAL - 360º ATRIBUTOS, MÉTRICAS FILTROS RELACIONES, JERARQUÍAS ALTO CONOCIMIENTO DEL MODELO ALTO CONOCIMIENTO DE NEGOCIO ANÁLISIS AD HOC USUARIOS AVANZADOS ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ Data Analysis Lifecycle MODELO AUTOGESTIONADO - AUTOCONSUMO
  43. 43. ANÁLISIS INTERACTIVO APPS STANDALONE DOCUMENTOS DASHBOARDS Data Analysis Lifecycle MODELO HÍBRIDO - SHINY I
  44. 44. Data Analysis Lifecycle MODELO HÍBRIDO - SHINY II
  45. 45. Data Analysis Lifecycle MODELO HÍBRIDO - SHINY III
  46. 46. Data Analysis Lifecycle MODELO DIY - D3.js: VISUALIZACIONES A MEDIDA
  47. 47. MODELO AUTOGESTIONADO MODELO HÍBRIDO MODELO DIY DESARROLLO FLEXIBILIDAD COSTE Data Analysis Lifecycle COMPARATIVA DE MODELOS
  48. 48. ¿Y AHORA, QUÉ?
  49. 49. REQUISITOS EDA DATA MODEL DATAVIZ REQUISITOS EDA DATA MODELDATAVIZ Data Analysis Lifecycle ANÁLISIS
  50. 50. THANKS. www.keepler.io Marcos Sobrino Data Analyst en Keepler Data Tech marcos.sobrino@keepler.io No Pie Charts were harmed in the making of this presentation. keepler.io/#empleo people@keepler.io

×