SlideShare a Scribd company logo
1 of 16
Limpieza y Transformación de los
             Datos




                       Carlos Lobo Valerio
                Alexander Jiménez Palacios
Introducción
 Generalmente es necesario realizar alguna
  transformación a los datos para obtener materia
  prima adecuada.
 El éxito de un proceso de minería de datos depende
  de tener datos íntegros, completos y consistentes.
 Eliminar información incorrecta o inconsistente.
Integración y limpieza
 La integración generalmente se realiza durante el
  proceso de recopilación o carga de datos.
 La limpieza de datos puede detectar y solucionar
  problemas de datos no resueltos durante la
  integración.
 Evita problemas como datos faltantes, valores
  duplicados y datos incorrectos.
Integración
 Se puede dar de dos maneras:
   Unificar dos o más objetos.
   Separar un objeto en dos o más.
 Ejemplos:
   Separar personas por número de cédula nacional,
    extranjera y pasaporte.
   Unificar formatos: sexo, estado civil, fechas.
Reconocimiento
 Consiste en realizar un resumen de las
  características y observar el modelo para verificar
  errores.
 Algunos aspectos pueden salir a simple vista
   Cinco valores para el sexo.
 Otros aspectos son más difíciles de encontrar, para
 ellos se usan otras herramientas:
   Histogramas
   Gráficas de dispersión
Valores faltantes
 Causas:
  Faltan valores relevantes porque no se pudieron
   obtener.
  No existen los valores.
  Datos incompletos (varios orígenes).
 Tratamiento
  Ignorarlos.
  Eliminar toda la columna.
  Remplazar el valor.
  Segmentar
Valores erróneos
 Algunas veces no es un proceso trivial, clasificar
  y agrupar pueden ayudar.
 Tratamiento:
   Ignorar.
   Eliminar.
   Filtrar.
   Remplazar.
   Discretizar.
Transformación
 Es cualquier proceso que modifique la forma de
 los datos.
   Crear nuevos atributos derivados
   Cambiar el tipo de un atributo
   Cambiar total o parcial una tabla.
Discretización
 Conversión de un valor numérico en un valor
 nominal ordenado.
   Ejemplo: convertir un nota de 0 a 100 en aprobado
   y reprobado.
 Se realiza cuando el error en la medida puede
 ser grande o existen ciertos umbrales
 significativos.
Numerización
 Conversión de un valor nominal en un valor
 numérico.
   Ejemplo: el nivel de estudio de una persona (sin
   estudio, primaria, secundaria, universidad) se
   puede convertir en 0, 1, 2, 4.
Normalización de rango
 Transformar todos los datos respetando un
  mismo rango.
 Se define un mínimo y un máximo y todos los
  valores deben respetarlo.
 Ejemplo:
   Normalizar las distancias recorridas entre ciudades.
Sistema ETL
 Proceso de extracción, transformación y carga.
 Permiten extraer datos de algún origen,
  transformarlo si es necesario y cargarlo en un
  destino.
 Cada organización debe crear su propio sistema
  ETL.
 Existen herramientas que facilitan la creación de
  procesos ETL.
Tareas ETL
 Lectura de datos transaccionales mediante
    consultas SQL.
   Incorporación de datos externos como hojas de
    cálculo, archivos de texto y XML.
   Integración de los datos de diversas fuentes
   Limpieza y transformación de los datos.
   Crear metadatos que describan el proceso ETL
Tareas ETL
 Identificación de cambios en el origen para
  actualizar el destino.
 Planificar la carga y mantenimiento, respetar
  restricciones de integridad, no saturar las BD
 Crear índices y llaves primarias sobre datos
  relevantes o únicos.
 Realizar pruebas de calidad en los datos
  almacenados.
Diagrama ETL
Herramientas ETL
 Microsoft Integratios Services
 XMLoader
 Pentaho Data Integration
 Benetl
 MySQL Migration Toolkit
 Oracle Warehouse Builder
 Scriptella ETL

More Related Content

What's hot

Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosRoman Herrera
 
Observacion cuantitativa
Observacion cuantitativaObservacion cuantitativa
Observacion cuantitativaAnel Torres
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosMaría Inés Cahuana Lázaro
 
Data warehouse
Data warehouseData warehouse
Data warehouseMarian C.
 
Fundamentacion teorica invest
Fundamentacion teorica investFundamentacion teorica invest
Fundamentacion teorica investbellcordova299
 
sistema de información gerencial
sistema de información gerencial sistema de información gerencial
sistema de información gerencial LOSSITEMATICOS
 
Los enfoques cuantitativo y cualitativo en la investigación científica
Los enfoques cuantitativo y cualitativo en la investigación científicaLos enfoques cuantitativo y cualitativo en la investigación científica
Los enfoques cuantitativo y cualitativo en la investigación científicaLuis Fernández
 
Limpieza de datos.
Limpieza de datos.  Limpieza de datos.
Limpieza de datos. Phi Requiem
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datosSaulen Taicho
 
Investigacion cuantitativa
Investigacion cuantitativaInvestigacion cuantitativa
Investigacion cuantitativaabigail
 
Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de DatosEsteban Vallejo
 
Diseño de investigación
Diseño de investigaciónDiseño de investigación
Diseño de investigaciónMaría Carreras
 

What's hot (20)

Data mart
Data martData mart
Data mart
 
Análisis de Datos
Análisis de DatosAnálisis de Datos
Análisis de Datos
 
Calidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datosCalidad de datos. Preparación y limpieza de los datos
Calidad de datos. Preparación y limpieza de los datos
 
Validez de instrumentos y pruebas piloto
Validez de instrumentos y pruebas pilotoValidez de instrumentos y pruebas piloto
Validez de instrumentos y pruebas piloto
 
Observacion cuantitativa
Observacion cuantitativaObservacion cuantitativa
Observacion cuantitativa
 
Presentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datosPresentacion data mining (mineria de datos)- base de datos
Presentacion data mining (mineria de datos)- base de datos
 
Big data presentación
Big data presentaciónBig data presentación
Big data presentación
 
ETL
ETLETL
ETL
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
S06.02 ETL BD - Datamart.pdf
S06.02 ETL BD - Datamart.pdfS06.02 ETL BD - Datamart.pdf
S06.02 ETL BD - Datamart.pdf
 
Tipos de variables
Tipos de variablesTipos de variables
Tipos de variables
 
Fundamentacion teorica invest
Fundamentacion teorica investFundamentacion teorica invest
Fundamentacion teorica invest
 
Análisis Estadístico
Análisis EstadísticoAnálisis Estadístico
Análisis Estadístico
 
sistema de información gerencial
sistema de información gerencial sistema de información gerencial
sistema de información gerencial
 
Los enfoques cuantitativo y cualitativo en la investigación científica
Los enfoques cuantitativo y cualitativo en la investigación científicaLos enfoques cuantitativo y cualitativo en la investigación científica
Los enfoques cuantitativo y cualitativo en la investigación científica
 
Limpieza de datos.
Limpieza de datos.  Limpieza de datos.
Limpieza de datos.
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Investigacion cuantitativa
Investigacion cuantitativaInvestigacion cuantitativa
Investigacion cuantitativa
 
Introducción a la Ciencia de Datos
Introducción a la Ciencia de DatosIntroducción a la Ciencia de Datos
Introducción a la Ciencia de Datos
 
Diseño de investigación
Diseño de investigaciónDiseño de investigación
Diseño de investigación
 

Viewers also liked

Transformación de Datos en SPSS
Transformación de Datos en SPSSTransformación de Datos en SPSS
Transformación de Datos en SPSSKarina Landero
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonRoberto Espinosa
 
Limpieza y transformación de datos
Limpieza y transformación de datosLimpieza y transformación de datos
Limpieza y transformación de datosSocialTIC
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos04071977
 
Data Warehouse Offload
Data Warehouse OffloadData Warehouse Offload
Data Warehouse OffloadJohn Berns
 
Transformar en spss
Transformar en spssTransformar en spss
Transformar en spssYle Quintana
 
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator  con Oracle GoldenGate 12cIntegración de Oracle Data Integrator  con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12cEdelweiss Kammermann
 
SolidQ SSIS Framework
SolidQ SSIS FrameworkSolidQ SSIS Framework
SolidQ SSIS FrameworkSolidQ
 
ETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSISETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSISSolidQ
 
Procesamiento De Datos
Procesamiento De DatosProcesamiento De Datos
Procesamiento De DatosAna kristell
 
Management in Informatica Power Center
Management in Informatica Power CenterManagement in Informatica Power Center
Management in Informatica Power CenterEdureka!
 
Principios de diseño para procesos de ETL
Principios de diseño para procesos de ETLPrincipios de diseño para procesos de ETL
Principios de diseño para procesos de ETLSpanishPASSVC
 
Etl extracción transformación y carga de datos
Etl extracción transformación y carga de datosEtl extracción transformación y carga de datos
Etl extracción transformación y carga de datosLeonel Ibarra
 
Designing and implementing_an_etl_framework
Designing and implementing_an_etl_frameworkDesigning and implementing_an_etl_framework
Designing and implementing_an_etl_frameworkBharat Vadlamudi
 
Transformación de la información en conocimiento
Transformación de la información en conocimientoTransformación de la información en conocimiento
Transformación de la información en conocimientoMULTIVERSIDAD DIGITAL
 

Viewers also liked (20)

Transformación de Datos en SPSS
Transformación de Datos en SPSSTransformación de Datos en SPSS
Transformación de Datos en SPSS
 
Informatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools ComparisonInformatica Pentaho Etl Tools Comparison
Informatica Pentaho Etl Tools Comparison
 
Limpieza y transformación de datos
Limpieza y transformación de datosLimpieza y transformación de datos
Limpieza y transformación de datos
 
Mineria de Datos
Mineria de DatosMineria de Datos
Mineria de Datos
 
Data Warehouse Offload
Data Warehouse OffloadData Warehouse Offload
Data Warehouse Offload
 
Transformar en spss
Transformar en spssTransformar en spss
Transformar en spss
 
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
Integración de Oracle Data Integrator  con Oracle GoldenGate 12cIntegración de Oracle Data Integrator  con Oracle GoldenGate 12c
Integración de Oracle Data Integrator con Oracle GoldenGate 12c
 
SolidQ SSIS Framework
SolidQ SSIS FrameworkSolidQ SSIS Framework
SolidQ SSIS Framework
 
ETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSISETL: Logging y auditoría en SSIS
ETL: Logging y auditoría en SSIS
 
Webinar: Oracle Data Integrator 12c (25-02-2015)
Webinar: Oracle Data Integrator 12c (25-02-2015)Webinar: Oracle Data Integrator 12c (25-02-2015)
Webinar: Oracle Data Integrator 12c (25-02-2015)
 
Procesamiento De Datos
Procesamiento De DatosProcesamiento De Datos
Procesamiento De Datos
 
Management in Informatica Power Center
Management in Informatica Power CenterManagement in Informatica Power Center
Management in Informatica Power Center
 
Principios de diseño para procesos de ETL
Principios de diseño para procesos de ETLPrincipios de diseño para procesos de ETL
Principios de diseño para procesos de ETL
 
Almacen de datos
Almacen de datosAlmacen de datos
Almacen de datos
 
Competidores y productos de mercado de ETL
Competidores y productos de mercado de ETLCompetidores y productos de mercado de ETL
Competidores y productos de mercado de ETL
 
Etl extracción transformación y carga de datos
Etl extracción transformación y carga de datosEtl extracción transformación y carga de datos
Etl extracción transformación y carga de datos
 
Designing and implementing_an_etl_framework
Designing and implementing_an_etl_frameworkDesigning and implementing_an_etl_framework
Designing and implementing_an_etl_framework
 
Transformación de la información en conocimiento
Transformación de la información en conocimientoTransformación de la información en conocimiento
Transformación de la información en conocimiento
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Manual Scilab
Manual ScilabManual Scilab
Manual Scilab
 

Similar to 1. limpieza y transformación de datos

Limpieza de datos - Tech Cívica
Limpieza de datos - Tech CívicaLimpieza de datos - Tech Cívica
Limpieza de datos - Tech CívicaSocialTIC
 
Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datosedwin
 
Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)Sergio Sanchez
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Titiushko Jazz
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Fanny Pita
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics Spain
 
Modelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael OlivaresModelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael OlivaresRafaelOlivares22
 
Presentacion base de datos
Presentacion base de datosPresentacion base de datos
Presentacion base de datosverosima
 
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos RelacionalesUnidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos RelacionalesConfesorAD
 
Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datosguestcde16b
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4yuriciitha
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4yuriciitha
 

Similar to 1. limpieza y transformación de datos (20)

Limpieza de datos - Tech Cívica
Limpieza de datos - Tech CívicaLimpieza de datos - Tech Cívica
Limpieza de datos - Tech Cívica
 
ETL
ETLETL
ETL
 
Etl
EtlEtl
Etl
 
Conceptos de minería de datos
Conceptos de minería de datosConceptos de minería de datos
Conceptos de minería de datos
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Proceso ETL 1.pptx
Proceso ETL 1.pptxProceso ETL 1.pptx
Proceso ETL 1.pptx
 
Calidad de datos (data quality)
Calidad de datos (data quality)Calidad de datos (data quality)
Calidad de datos (data quality)
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL Microsoft sql server 2008 - ETL
Microsoft sql server 2008 - ETL
 
5 Db2 Etl Cubos
5 Db2 Etl Cubos5 Db2 Etl Cubos
5 Db2 Etl Cubos
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
Modelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael OlivaresModelos de bdd y modelos de datos Rafael Olivares
Modelos de bdd y modelos de datos Rafael Olivares
 
Presentacion base de datos
Presentacion base de datosPresentacion base de datos
Presentacion base de datos
 
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos RelacionalesUnidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
Unidad DidáCtica Iv DiseñO De Bases De Datos Relacionales
 
Base de datos sin601
Base de datos sin601Base de datos sin601
Base de datos sin601
 
Datos e informacion
Datos e informacionDatos e informacion
Datos e informacion
 
Proyecto Final Base De Datos
Proyecto Final Base De DatosProyecto Final Base De Datos
Proyecto Final Base De Datos
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4
 
Resumen fila 4
Resumen  fila 4Resumen  fila 4
Resumen fila 4
 

1. limpieza y transformación de datos

  • 1. Limpieza y Transformación de los Datos Carlos Lobo Valerio Alexander Jiménez Palacios
  • 2. Introducción  Generalmente es necesario realizar alguna transformación a los datos para obtener materia prima adecuada.  El éxito de un proceso de minería de datos depende de tener datos íntegros, completos y consistentes.  Eliminar información incorrecta o inconsistente.
  • 3. Integración y limpieza  La integración generalmente se realiza durante el proceso de recopilación o carga de datos.  La limpieza de datos puede detectar y solucionar problemas de datos no resueltos durante la integración.  Evita problemas como datos faltantes, valores duplicados y datos incorrectos.
  • 4. Integración  Se puede dar de dos maneras:  Unificar dos o más objetos.  Separar un objeto en dos o más.  Ejemplos:  Separar personas por número de cédula nacional, extranjera y pasaporte.  Unificar formatos: sexo, estado civil, fechas.
  • 5. Reconocimiento  Consiste en realizar un resumen de las características y observar el modelo para verificar errores.  Algunos aspectos pueden salir a simple vista  Cinco valores para el sexo.  Otros aspectos son más difíciles de encontrar, para ellos se usan otras herramientas:  Histogramas  Gráficas de dispersión
  • 6. Valores faltantes  Causas:  Faltan valores relevantes porque no se pudieron obtener.  No existen los valores.  Datos incompletos (varios orígenes).  Tratamiento  Ignorarlos.  Eliminar toda la columna.  Remplazar el valor.  Segmentar
  • 7. Valores erróneos  Algunas veces no es un proceso trivial, clasificar y agrupar pueden ayudar.  Tratamiento:  Ignorar.  Eliminar.  Filtrar.  Remplazar.  Discretizar.
  • 8. Transformación  Es cualquier proceso que modifique la forma de los datos.  Crear nuevos atributos derivados  Cambiar el tipo de un atributo  Cambiar total o parcial una tabla.
  • 9. Discretización  Conversión de un valor numérico en un valor nominal ordenado.  Ejemplo: convertir un nota de 0 a 100 en aprobado y reprobado.  Se realiza cuando el error en la medida puede ser grande o existen ciertos umbrales significativos.
  • 10. Numerización  Conversión de un valor nominal en un valor numérico.  Ejemplo: el nivel de estudio de una persona (sin estudio, primaria, secundaria, universidad) se puede convertir en 0, 1, 2, 4.
  • 11. Normalización de rango  Transformar todos los datos respetando un mismo rango.  Se define un mínimo y un máximo y todos los valores deben respetarlo.  Ejemplo:  Normalizar las distancias recorridas entre ciudades.
  • 12. Sistema ETL  Proceso de extracción, transformación y carga.  Permiten extraer datos de algún origen, transformarlo si es necesario y cargarlo en un destino.  Cada organización debe crear su propio sistema ETL.  Existen herramientas que facilitan la creación de procesos ETL.
  • 13. Tareas ETL  Lectura de datos transaccionales mediante consultas SQL.  Incorporación de datos externos como hojas de cálculo, archivos de texto y XML.  Integración de los datos de diversas fuentes  Limpieza y transformación de los datos.  Crear metadatos que describan el proceso ETL
  • 14. Tareas ETL  Identificación de cambios en el origen para actualizar el destino.  Planificar la carga y mantenimiento, respetar restricciones de integridad, no saturar las BD  Crear índices y llaves primarias sobre datos relevantes o únicos.  Realizar pruebas de calidad en los datos almacenados.
  • 16. Herramientas ETL  Microsoft Integratios Services  XMLoader  Pentaho Data Integration  Benetl  MySQL Migration Toolkit  Oracle Warehouse Builder  Scriptella ETL