Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Mejorando la calidad y el 
ciclo de vida de los datos 
en proyectos educativos 
SNOLA 
Alex Rayón Jerez 
@alrayon, alex.ra...
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del ...
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del ...
Introducción
Introducción (II)
Introducción (III)
Introducción (IV)
Introducción (V)
Introducción (VI) 
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-importan...
Introducción (VII) 
¿Y en educación?
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del ...
Ciclo de vida del dato 
Knowledge Discovery in Databases
Ciclo de vida del dato 
Knowledge Discovery in Databases (II) 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.a...
Ciclo de vida del dato 
Modelo integral de una solución BI 
SQL 
XML 
CSV 
... 
Data 
Management / 
Integration 
Ciclo / 
...
Ciclo de vida del dato 
Modelo integral de una solución BI (II) 
● Un motor de BI/Analytics tiene que cumplir 
siempre tre...
Ciclo de vida del dato 
Modelo integral de una solución BI (III) 
● Estas tres funciones se traducen en: 
1 2 3 
Proceso M...
Ciclo de vida del dato 
Heterogeneidad 
● Las Bases de Datos heterogéneas son un 
conjunto de BBDD administradas por 
dife...
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del ...
Importancia calidad dato 
Tipos de datos 
● El avance tecnológico ha cambiado 
sustantivamente las fuentes de datos 
○ Se ...
Importancia calidad dato 
Fuentes 
● RDBMS (SQL Server, DB2, Oracle, MySQL, 
PostgreSQL, Sybase IQ, etc.) 
● NoSQL Data: H...
Importancia calidad dato 
Fuentes (II) 
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-...
Importancia calidad dato 
Retos 
● Los datos están en todos los sitios 
○ Datos ubicuos 
● Son inconsistentes 
○ Los regis...
Importancia calidad dato 
Retos (II) 
● Los datos son incompletos [Mazza2012] 
● Algunos tipos de datos no están registrad...
Importancia calidad dato 
Agregación de datos 
● El enfoque de ETL no es suficiente para dar 
sentido y posibilidad de exp...
Importancia calidad dato 
Agregación de datos (II) 
● Además, la mala calidad de los datos genera 
costes de mantenimiento...
Importancia calidad dato 
Agregación de datos (III) 
● La agregación/integración de datos es el paso 
más complicado de un...
Importancia calidad dato 
Agregación de datos (IV) 
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transf...
Importancia calidad dato 
Gestión de la calidad de los datos
Importancia calidad dato 
Gestión de la calidad de los datos (II) 
● Criterios de medición de la calidad (en función 
de n...
Importancia calidad dato 
Criterios: 1) Completitud 
● Falta algún valor? (tabla, columna, instancia) 
○ Ejemplos 
■ Falta...
Importancia calidad dato 
Criterios: 1) Completitud (II) 
● El rendimiento del modelo (el porcentaje de 
predicciones acer...
Importancia calidad dato 
Criterios: 2) Precisión 
● Cercanía entre el valor v y un valor v’ considerando éste 
como la co...
Importancia calidad dato 
Criterios: 2) Precisión (II) 
● Es un parámetro muy relacionado con la 
precisión, la fiabilidad...
Importancia calidad dato 
Criterios: 3) Consistencia 
● Los datos son consistentes si satisfacen un 
conjunto de restricci...
Importancia calidad dato 
Criterios: 3) Consistencia (II) 
● Métricas 
○ ratio de % de conjuntos de datos que satisfacen l...
Importancia calidad dato 
Criterios: 4) Relevancia 
● ¿Son los datos relevantes para la tarea que se 
tiene entre manos? 
...
Importancia calidad dato 
Criterios: 4) Relevancia (II) 
● Éste es un problema nuclear al Big Data 
○ Con la aparición de ...
Importancia calidad dato 
Criterios: 5) Unicidad 
● Es un problema que aparece cuando una 
entidad del modelo de datos apa...
Importancia calidad dato 
Criterios: 5) Unicidad (II) 
● Métricas 
○ % de duplicados 
○ número de instancias superior a la...
Importancia calidad dato 
Etapas gestión calidad dato 
Definir Procesar Publicar
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir 
Definir 
● Dimensiones 
Reglas de negocio 
Esquema / Di...
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (II) 
Pensando en las dimensiones de calidad de datos 
a...
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (III) 
Nivel Esquema: conflictos nominales y estructura ...
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (IV) 
Nivel Instancia 
● Atributo 
○ Valores nulos, miss...
Importancia calidad dato 
Etapas gestión calidad dato: 1) Definir (V) 
Source: http://en.wikipedia.org/wiki/Data_modeling
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar 
Procesar Poner los datos a cumplir todas las 
reglas d...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (II) 
Quitar duplicados 
Fuente: http://tutorialenexcel...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (III) 
Atomización 
Fuente: http://www.educarchile.cl/e...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (IV) 
Discretización 
Fuente: http://7542.fi.uba.ar/tec...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (V) 
Normalización 
Fuente: http://www.anmopyc.es/notic...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VI) 
Integridad 
Fuente: http://diariodelapelusa.blogs...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VII) 
Quitar ruido 
Fuente: http://www.dominandocamtas...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (VIII) 
Gestión outliers 
Fuente: http://mathworld.wolf...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (IX) 
Gestión valores vacíos 
Fuente: http://www.fengfl...
Importancia calidad dato 
Etapas gestión calidad dato: 2) Procesar (X) 
Quitar tendencia lineal 
Fuente: http://www.monogr...
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (II) 
An ontology is said to be an agreement about a 
s...
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (III)
Importancia calidad dato 
Etapas gestión calidad dato: 3) Publicar (IV)
Importancia calidad dato 
Herramientas 
Interactive Data Transformation Tools (IDTs) 
1. Pentaho Data Integration: Kettle ...
Índice de contenidos 
● Introducción 
● Ciclo de vida del dato 
● La importancia de la calidad del dato 
● La calidad del ...
Enfoque ETL 
Proceso de análisis de datos
Enfoque ETL 
Proceso de análisis de datos (II) 
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar 
...
Enfoque ETL 
1) Seleccionar 
1) Seleccionar 
● Plantear las preguntas/problemas a resolver 
● Seleccionar los datos necesa...
Enfoque ETL 
1) Seleccionar (II) 
1) Seleccionar 
● Vivimos en una era en la que tener acceso a datos no es el 
problema 
...
Enfoque ETL 
1) Seleccionar (III) 
1) Seleccionar 
“The basic question is 
not what can we 
measure? The basic 
question i...
Enfoque ETL 
2) Capturar 
2) Capturar 
● Extracción de los datos 
○ Ante la Variedad de las fuentes de datos, se hace 
nec...
Enfoque ETL 
2) Capturar (II) 
2) Capturar
Enfoque ETL 
3) Agregar 
3) Agregar 
● Reto actual: Variedad 
● Necesidad de un modelo de datos normalizado para 
disponer...
Enfoque ETL 
4) Procesar 
4) Procesar 
● Analizar los datos normalizados y preparados 
● Decidir contextos de explotación ...
Enfoque ETL 
4) Procesar (II) 
4) Procesar 
Motor de 
Analytics 
Predicción 
Adaptación 
Personalización 
Intervención 
.....
Enfoque ETL 
5) Utilizar 
5) Utilizar 
● Hacer operativos los trabajos anteriores 
● Posibles escenarios de operación 
○ D...
Enfoque ETL 
5) Utilizar (II) 
5) Utilizar 
Actividad BI.01.4. Pensar en escenarios de puesta 
en valor del conocimiento d...
Enfoque ETL 
6) Refinar 
6) Refinar 
● Post-procesamiento 
○ Nuevos atributos al modelo 
○ Nuevos indicadores 
○ Nuevos ta...
Referencias 
[CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era. 
EDUCAUSE ...
Copyright (c) 2014 University of Deusto 
This work (but the quoted images, whose rights are reserved to their owners*) is ...
Mejorando la calidad y el 
ciclo de vida de los datos 
en proyectos educativos 
SNOLA 
Alex Rayón Jerez 
@alrayon, alex.ra...
Upcoming SlideShare
Loading in …5
×

Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos

508 views

Published on

Webinar SNOLA. Los datos requieren un pre-procesamiento para su posterior análisis utilizando técnicas de learning analytics. Es necesario eliminar datos inconsistentes, incompletos, imprecisos, etc. Esto redundará en una mejor calidad, rendimiento y mantenimiento.

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos

  1. 1. Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos SNOLA Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014
  2. 2. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  3. 3. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  4. 4. Introducción
  5. 5. Introducción (II)
  6. 6. Introducción (III)
  7. 7. Introducción (IV)
  8. 8. Introducción (V)
  9. 9. Introducción (VI) Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
  10. 10. Introducción (VII) ¿Y en educación?
  11. 11. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  12. 12. Ciclo de vida del dato Knowledge Discovery in Databases
  13. 13. Ciclo de vida del dato Knowledge Discovery in Databases (II) Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  14. 14. Ciclo de vida del dato Modelo integral de una solución BI SQL XML CSV ... Data Management / Integration Ciclo / Proceso datos Modelo datos Dashboard Report API
  15. 15. Ciclo de vida del dato Modelo integral de una solución BI (II) ● Un motor de BI/Analytics tiene que cumplir siempre tres funciones básicas ○ Obtener datos fuentes ○ Disponer de un almacén estructurados de datos listos para explotación ○ Ser capaz de generar reports/informes de los datos
  16. 16. Ciclo de vida del dato Modelo integral de una solución BI (III) ● Estas tres funciones se traducen en: 1 2 3 Proceso Modelo Plataforma explotación Datos Ciclo de análisis de datos Representación para explotación Información y conocimiento
  17. 17. Ciclo de vida del dato Heterogeneidad ● Las Bases de Datos heterogéneas son un conjunto de BBDD administradas por diferentes SGBD ○ La heterogeneidad de éstas se debe a que los datos son de diferentes tipos o formatos ● En el contexto de BBDD heterogéneas se distinguen tres tipos de heterogeneidad: ○ Semántica ○ Esquemática ○ Sintáctica
  18. 18. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  19. 19. Importancia calidad dato Tipos de datos ● El avance tecnológico ha cambiado sustantivamente las fuentes de datos ○ Se estima que el 80% de la información del mundo está desestructurada ○ Los datos desestructurados están creciendo a un ritmo de 15 veces superior a los estructurados ○ La capacidad de procesamiento está creciendo a un ritmo tan alto que no tenemos en ese sentido problemas ○ El acceso a la información es realmente fácil para todos [Eaton2012]
  20. 20. Importancia calidad dato Fuentes ● RDBMS (SQL Server, DB2, Oracle, MySQL, PostgreSQL, Sybase IQ, etc.) ● NoSQL Data: HBase, Cassandra, MongoDB ● OLAP (Mondrian, Palo, XML/A) ● Web (REST, SOAP, XML, JSON) ● Files (CSV, Fixed, Excel, etc.) ● ERP (SAP, Salesforce, OpenERP) ● Hadoop Data: HDFS, Hive ● Web Data: Twitter, Facebook, Log Files, Web Logs ● Others: LDAP/Active Directory, Google Analytics, etc.
  21. 21. Importancia calidad dato Fuentes (II) Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
  22. 22. Importancia calidad dato Retos ● Los datos están en todos los sitios ○ Datos ubicuos ● Son inconsistentes ○ Los registros están expresados de diferentes maneras en cada sistema ● Problemas de rendimiento ○ Hacer consultas a base de datos para resumir los datos suelen ser largos ○ Lleva al Sistema Operativo a una carga máxima ● Los datos no siempre están en Bases de Datos ○ Hojas Excel, servicios web, desestructurados, etc.
  23. 23. Importancia calidad dato Retos (II) ● Los datos son incompletos [Mazza2012] ● Algunos tipos de datos no están registrados en ningún lugar ○ Al no estar expresados, no podrán ser explotados ● La perspectiva de almacenamiento no suele coincidir con la perspectiva de explotación ● Los usuarios suelen tener recelos para extraer conclusiones de algunos datos
  24. 24. Importancia calidad dato Agregación de datos ● El enfoque de ETL no es suficiente para dar sentido y posibilidad de explotación a los datos agregados ○ Los datos, así, deben ser normalizados para poder eliminar todos los posibles problemas que pueden aparecer en un proceso de integración de datos ○ Por ello, se habla de agregación/integración de datos para la normalización de los datos
  25. 25. Importancia calidad dato Agregación de datos (II) ● Además, la mala calidad de los datos genera costes de mantenimiento y reparación ● Además de estos aspectos económicos, la mala calidad de datos también afecta a la satisfacción del usuario y a la reputación sobre la toma de decisiones estratégicas
  26. 26. Importancia calidad dato Agregación de datos (III) ● La agregación/integración de datos es el paso más complicado de un proyecto de BI ○ Datanami: puede llegar a consumir hasta el 60-70% de un proyecto ○ Según otras fuentes, entre un 70 y un 85% ● Aquí tenemos que hablar de integrar todas las fuentes de datos en un dataset con datos apropiados para el objetivo concreto que se tiene en el proyecto ● Se hace necesario, por lo tanto, un proceso para garantizar la calidad de los datos
  27. 27. Importancia calidad dato Agregación de datos (IV) Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
  28. 28. Importancia calidad dato Gestión de la calidad de los datos
  29. 29. Importancia calidad dato Gestión de la calidad de los datos (II) ● Criterios de medición de la calidad (en función de necesidades particulares) ○ Completitud ■ Valores de atributos, registros y tablas ○ Precisión ■ Fiabilidad y veracidad ○ Consistencia ■ Respetar una serie de restricciones/reglas de negocio ○ Relevancia ■ Usabilidad para los stakeholders ○ Unicidad ■ Una entidad (marca, producto, persona, servicio, etc.) es observada en contextos diferentes [Goasdoué2007]
  30. 30. Importancia calidad dato Criterios: 1) Completitud ● Falta algún valor? (tabla, columna, instancia) ○ Ejemplos ■ Falta el código postal en el 50% de los registros ● Algunas métricas ○ Ratio de valores ausentes (tabla, columna, instancia) ● Para la mejora ○ Estimación del valor por técnicas estadísticas ○ Ignorar el valor para explotaciones futuras ○ Emplearlo, a sabiendas de los problemas que puede originar
  31. 31. Importancia calidad dato Criterios: 1) Completitud (II) ● El rendimiento del modelo (el porcentaje de predicciones acertadas) dentro del intervalo de confianza establecidos, depende en mucho de esta criterio de calidad
  32. 32. Importancia calidad dato Criterios: 2) Precisión ● Cercanía entre el valor v y un valor v’ considerando éste como la correcta representación de la realidad que el valor v intenta representar ○ Ejemplos ■ Algunos proveedores que están marcados como Activos fueron a la quiebra hace meses ● Algunas métricas ○ Número de estimaciones desviadas ○ Comparaciones con valores reales Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
  33. 33. Importancia calidad dato Criterios: 2) Precisión (II) ● Es un parámetro muy relacionado con la precisión, la fiabilidad y la veracidad ● En la práctica, a pesar de la atención que ha recibido, es difícil cuantitivizar la precisión de una medición ○ Es una operación muy cara de realizar ○ Esto se debe a que para poder realizarlo hay que disponer de datos de referencia externos ○ Por ello, se hacen verificaciones menos estrictas (patrones de comienzo de códigos, ratios desproporcionados entre géneros, etc.)
  34. 34. Importancia calidad dato Criterios: 3) Consistencia ● Los datos son consistentes si satisfacen un conjunto de restricciones ● Para que sea efectivo, se deben establecer unas estrategias de control ○ Aquí es donde aparece el concepto de “Regla de negocio” ■ De este modo, la consistencia se puede ver como una subdimensión de la precisión ■ Aún así, la consistencia solo da una medida indirecta de la precisión ● Esta dimensión es esencial en la práctica
  35. 35. Importancia calidad dato Criterios: 3) Consistencia (II) ● Métricas ○ ratio de % de conjuntos de datos que satisfacen las restricciones ● En el contexto de las herramientas de calidad de datos, los flujos de transformación de datos y sus reglas de negocio se centran básicamente en controles de consistencia
  36. 36. Importancia calidad dato Criterios: 4) Relevancia ● ¿Son los datos relevantes para la tarea que se tiene entre manos? ● Métricas ○ Grado de utilidad ● Oportunidades de mejora ○ Encuestas ■ Preguntando a los stakeholders por el grado de utilidad de las respuestas dadas, ayudará a mejorar la relevancia de tareas de agregación de datos futuras (en especial, la primera tarea de selección de datos)
  37. 37. Importancia calidad dato Criterios: 4) Relevancia (II) ● Éste es un problema nuclear al Big Data ○ Con la aparición de grandes volúmenes de datos, los usuarios en ocasiones se sienten frustrados por la incapacidad para sacar algún dato útil entre toda la maraña de datos ○ Por ello, los usuarios pueden tener el prejuicio hacia la poca utilidad de los datos resultantes de un proyecto de BI ○ Sin embargo, la utilidad juega un papel central en la aceptación del proyecto ○ Por lo tanto, habrá que realmente medirlo (y mejorarlo, en su caso, si procediera)
  38. 38. Importancia calidad dato Criterios: 5) Unicidad ● Es un problema que aparece cuando una entidad del modelo de datos aparece en más de una ocasión ○ Ejemplo ■ Alexander Rayón y Alex Rayón son el mismo empleado, pero observado en dos fuentes de datos diferentes → pudieran parecer dos entidades, al no coincidir a primera vista
  39. 39. Importancia calidad dato Criterios: 5) Unicidad (II) ● Métricas ○ % de duplicados ○ número de instancias superior a las esperadas (más difícil, por no conocer a priori el número de instancias)
  40. 40. Importancia calidad dato Etapas gestión calidad dato Definir Procesar Publicar
  41. 41. Importancia calidad dato Etapas gestión calidad dato: 1) Definir Definir ● Dimensiones Reglas de negocio Esquema / Diccionario de datos Modelo de datos ○ Dominio/Contexto: unidad mínima de análisis, representación y explotación ○ Tiempo: real-time o bajo demanda ○ Frecuencia: de medición (fija o variable) ○ Extracción de atributos: ¿con qué me quedo? (símil de la extracción de keywords representativas en un texto) ○ Jerarquía: para consultas (niveles de abstracción) ○ Granularidad: representación para explotación posterior
  42. 42. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (II) Pensando en las dimensiones de calidad de datos anteriormente expuestas Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
  43. 43. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (III) Nivel Esquema: conflictos nominales y estructura ● Homónimos: mismo nombre para diferentes objetos ● Sinónimos: diferentes nombres para el mismo objeto ● Diferentes tipos de datos ● Diferentes estructura de componentes ● Diferentes restricciones de integridad
  44. 44. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (IV) Nivel Instancia ● Atributo ○ Valores nulos, misspellings, valores crípticos, abreviaciones, valores embebidos, etc. ● Registro ○ Dependencias de atributo incorrectas (zip y ciudad) ● Tipo de registro ○ Transposiciones de palabras, registros duplicados, registros contradictorios ● Fuente ○ Referencias incorrectas (nº departamento es incorrecto) ● Agregación ○ Granularidad (ventas por grupo vs. ventas por producto) o puntos de tiempo (semanal, diaria, quincenal, etc.)
  45. 45. Importancia calidad dato Etapas gestión calidad dato: 1) Definir (V) Source: http://en.wikipedia.org/wiki/Data_modeling
  46. 46. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar Procesar Poner los datos a cumplir todas las reglas de negocio 1) Análisis de datos 2) Flujo de transformación y reglas de negocio 3) Verificación 4) Transformación - Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones) - Quitar duplicados - Atomización → desdoblar en varios campos - Discretización - Normalización: modelo referencial; unión; unicidad; nulos - Integridad - Eliminar ruido (malas observaciones, shocks exógenos, etc.) - Outlier → obtención de conclusiones - Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar - Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa) - Validación → dependencias de atributos para validar y corregir - Verificar efectividad flujo de transformación y reglas de negocio - Ejecución en serie 5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
  47. 47. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (II) Quitar duplicados Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
  48. 48. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (III) Atomización Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
  49. 49. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (IV) Discretización Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
  50. 50. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (V) Normalización Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
  51. 51. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VI) Integridad Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
  52. 52. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VII) Quitar ruido Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
  53. 53. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (VIII) Gestión outliers Fuente: http://mathworld.wolfram.com/Outlier.html
  54. 54. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (IX) Gestión valores vacíos Fuente: http://www.fengfly.com/plus/view-169414-1.html
  55. 55. Importancia calidad dato Etapas gestión calidad dato: 2) Procesar (X) Quitar tendencia lineal Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
  56. 56. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar
  57. 57. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (II) An ontology is said to be an agreement about a shared, formal, explicit and partial account of a conceptualization [...] relative independence of particular applications [...] it consists of relatively generic knowledge that can be reused by different kinds of applications/tasks
  58. 58. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (III)
  59. 59. Importancia calidad dato Etapas gestión calidad dato: 3) Publicar (IV)
  60. 60. Importancia calidad dato Herramientas Interactive Data Transformation Tools (IDTs) 1. Pentaho Data Integration: Kettle PDI 2. Talend Open Studio 3. DataCleaner 4. Talend Data Quality 5. Google Refine 6. Data Wrangler 7. Potter's Wheel ABC
  61. 61. Índice de contenidos ● Introducción ● Ciclo de vida del dato ● La importancia de la calidad del dato ● La calidad del dato bajo un enfoque ETL
  62. 62. Enfoque ETL Proceso de análisis de datos
  63. 63. Enfoque ETL Proceso de análisis de datos (II) 1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar Más datos no es más conocimiento Extracción, muestreo y ética Proceso de calidad de datos Análisis + Acción Hacer operativos los trabajos anteriores Post-procesamiento
  64. 64. Enfoque ETL 1) Seleccionar 1) Seleccionar ● Plantear las preguntas/problemas a resolver ● Seleccionar los datos necesarios para responder a las preguntas formuladas ● Éste es precisamente uno de los retos actuales ○ ¿Qué datos son los críticos? ● Hay que poner sensores allí dónde estén los datos más relevantes ○ Para este paso, suele ser interesante contar con expertos del dominio
  65. 65. Enfoque ETL 1) Seleccionar (II) 1) Seleccionar ● Vivimos en una era en la que tener acceso a datos no es el problema ○ El reto está en determinar qué datos son significativos y significantes y por qué Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
  66. 66. Enfoque ETL 1) Seleccionar (III) 1) Seleccionar “The basic question is not what can we measure? The basic question is what does a good education look like? Big questions”
  67. 67. Enfoque ETL 2) Capturar 2) Capturar ● Extracción de los datos ○ Ante la Variedad de las fuentes de datos, se hace necesario disponer de un proceso ETL ● Así, se podrán transformar datos optimizados para transacciones a datos optimizados para el análisis y el reporting ● Se pueden emplear técnicas de muestreo de datos ● Respetar las leyes y la ética Leer “Aspectos legales y éticos”
  68. 68. Enfoque ETL 2) Capturar (II) 2) Capturar
  69. 69. Enfoque ETL 3) Agregar 3) Agregar ● Reto actual: Variedad ● Necesidad de un modelo de datos normalizado para disponer de procesos de datos sostenibles ● Tareas ○ Limpieza de datos, Integración, Transformación, Reducción, Modelado, Rectificación de inconsistencias y anomalías, Normalización
  70. 70. Enfoque ETL 4) Procesar 4) Procesar ● Analizar los datos normalizados y preparados ● Decidir contextos de explotación ○ Predicción ○ Intervención ○ Adaptación ○ Personalización ○ Recomendación ○ Alertas tempranas ○ Reflexión ○ ...
  71. 71. Enfoque ETL 4) Procesar (II) 4) Procesar Motor de Analytics Predicción Adaptación Personalización Intervención ... Recomendación
  72. 72. Enfoque ETL 5) Utilizar 5) Utilizar ● Hacer operativos los trabajos anteriores ● Posibles escenarios de operación ○ Dashboard de KPIs ○ Informes ○ APIs de explotación desde otros sistemas ○ ...
  73. 73. Enfoque ETL 5) Utilizar (II) 5) Utilizar Actividad BI.01.4. Pensar en escenarios de puesta en valor del conocimiento descubierto ● ¿Qué? ● ¿Cómo? ● ¿Dónde? ● ¿Cuándo? ● ¿Por qué?
  74. 74. Enfoque ETL 6) Refinar 6) Refinar ● Post-procesamiento ○ Nuevos atributos al modelo ○ Nuevos indicadores ○ Nuevos tareas de calidad de datos ○ Nuevos métodos de análisis ○ ….
  75. 75. Referencias [CdO07] JP. Campbell, PB. deBlois, and DG. Oblinger. Academic analytics: A new tool for a new era. EDUCAUSE Center for Applied Research REVIEW, 2007. [Clo12] Doug Clow. The learning analytics cycle: closing the loop effectively. 2nd International Conference on Learning Analytics and Knowledge, 2012 [DA09] J. Dron and T. Anderson. On the design of collective applications. Proceedings of the 2009 International Conference on Computational Science and Engineering, 04:368–374, 2009. [Eli11] Tanya Elias. Learning analytics: definitions, processes and potential. 2011. [Mazza2012] Riccardo Mazza, Marco Bettoni, Marco Far ́, and Luca Mazezola. Moclog–monitoring online courses with log data. 2012.
  76. 76. Copyright (c) 2014 University of Deusto This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http: //creativecommons.org/licenses/by-sa/3.0/ Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014
  77. 77. Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos SNOLA Alex Rayón Jerez @alrayon, alex.rayon@deusto.es 3 de Diciembre, 2014

×