0
BIN-311ETL: Nuestras experiencias con Excelen procesos ETL. SolidQ 1 – Excel 0Salvador Ramos                        Jorge ...
Arquitectura de BIETL Area
Integration ServicesData Flow
ExcelEl formato por excelencia para el usuario
Problemática habitualα Limitaciones en SSISα 32/64 bits    β    BIDS    β    Ejecuciónα       Tipos de datos y longitudesα...
Limitaciones de uso en SSISα ¿No se puede utilizar en Lookup ni en Fuzzy Lookup? β   Sólo si la columna por la que enlazo ...
Problemática 32/64 bitsEn BIDS
Problemática 32/64 bitsEjecución SSISα Ejecución en modo 32 bitsα El formato .CSV puede ser una alternativa
Tipos de datos y longitudesAsignación automáticaα Excel lee las 8 primeras filas y de ahí asigna tipos de datos     y long...
Tipos de datos y longitudesAsignación automáticaα Texto β   DT_WSTR (hasta 255 caracteres) β   DT_NTEXTα Números β   DT_R8...
Tipos de datos y longitudesCasuísticas habitualesα Cuando tenemos datos de explotación, vemos que los      datos no se aju...
Tipos de datos y longitudesCasuísticas habitualesα Separadores de miles y de decimales  β   Uso de punto o coma en función...
Tipos de datos y longitudesPersonalizandoα Crear una muestra personalizada de pocas filas que   implique la generación de ...
Tipos de datos y longitudesPersonalizandoα Entrar en propiedades avanzadas del origen Excel y definir     los tipos de dat...
Configuración orígenes Excel
InformesLo que quiere ver el usuario vs lo ideal para el ETLα Excel con diferentes formatos de líneas  β   Líneas en blanc...
Importar informe diseñado por usuario
Excel creados por el usuarioα No siempre los Excel se generan de forma automatizada β       Multitud de aplicaciones expor...
Automatizando lecturasα Podemos leer los archivos de una carpeta cuyo nombre     cumpla un patrón β    Ventas_??_*.xlsα Po...
Leyendo «todas» las hojas de «todos» los libros quecumplen el patrón Ventas_??_*.xls
Buenas prácticasα Analizar los problemas con los tipos de datos β Modificar los tipos de datos asignados por defecto  γ (S...
Buenas prácticasα Compromiso de no cambiar la estructura del ficheroα Pongamos en común la estructura a utilizar β    Que ...
 No olvideis rellenar las evaluaciones en el Portal  del Summit! Nos encontrareis en la zona de exposición en los  sigui...
Salvador Ramos                        Jorge SánchezMentor – BI                                  DPA – BISQL Server MVP, MC...
ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0
ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0
ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0
ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0
Upcoming SlideShare
Loading in...5
×

ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0

837

Published on

Excel es un formato ampliamente utilizado por los usuarios, y que nos encontramos habitualmente cuando realizamos procesos ETL. Comentaremos sus peculiaridades, así como problemas habituales con los que nos hemos encontrado al tratar con este formato y las soluciones que hemos ido aportando. ¿Has tenido problemas con los drivers?, ¿con truncamientos de cadenas?, ¿con tipos de datos?, ¿con cambios en los nombres de libros y hojas? Expondremos soluciones para estos y otros problemas.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
837
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "ETL: Nuestras experiencias con Excel en procesos ETL. SolidQ 1 – Excel 0"

  1. 1. BIN-311ETL: Nuestras experiencias con Excelen procesos ETL. SolidQ 1 – Excel 0Salvador Ramos Jorge SánchezMentor – BI DPA – BISQL Server MVP, MCTS, MCITP MCTSsramos@solidq.com jsanchezdiaz@solidq.com
  2. 2. Arquitectura de BIETL Area
  3. 3. Integration ServicesData Flow
  4. 4. ExcelEl formato por excelencia para el usuario
  5. 5. Problemática habitualα Limitaciones en SSISα 32/64 bits β BIDS β Ejecuciónα Tipos de datos y longitudesα Separadores (problemas con el punto y la coma)α Lo que quiere ver el usuario vs lo ideal para ETLα Excel creados por el usuarioα Número variable de hojas y nombres diferentes
  6. 6. Limitaciones de uso en SSISα ¿No se puede utilizar en Lookup ni en Fuzzy Lookup? β Sólo si la columna por la que enlazo no es numérica (float)α Las hojas ocultas no están accesibles β Las columnas ocultas sí están accesibles
  7. 7. Problemática 32/64 bitsEn BIDS
  8. 8. Problemática 32/64 bitsEjecución SSISα Ejecución en modo 32 bitsα El formato .CSV puede ser una alternativa
  9. 9. Tipos de datos y longitudesAsignación automáticaα Excel lee las 8 primeras filas y de ahí asigna tipos de datos y longitudesα Filas escaneadas para obtener el tipo de datos β [HKEY_LOCAL_MACHINESOFTWAREMicrosoftJet4.0EnginesExce l] located registry REG_DWORD "TypeGuessRows". β Valor por defecto 8 (8 filas) β Si indicamos 0 escanea todas (afecta al rendimiento)
  10. 10. Tipos de datos y longitudesAsignación automáticaα Texto β DT_WSTR (hasta 255 caracteres) β DT_NTEXTα Números β DT_R8 (floats)α Fechas y horas β DT_DATE
  11. 11. Tipos de datos y longitudesCasuísticas habitualesα Cuando tenemos datos de explotación, vemos que los datos no se ajustan a las longitudes establecidas β Genera truncamientosα Necesitamos una muestra lo más completa posible
  12. 12. Tipos de datos y longitudesCasuísticas habitualesα Separadores de miles y de decimales β Uso de punto o coma en función de la configuración
  13. 13. Tipos de datos y longitudesPersonalizandoα Crear una muestra personalizada de pocas filas que implique la generación de tipos de datos y longitudes apropiados
  14. 14. Tipos de datos y longitudesPersonalizandoα Entrar en propiedades avanzadas del origen Excel y definir los tipos de datos y longitudes apropiadas γ Evitar cambios posteriores, que afecten otras partes del DataFlow γ DT_WSTR (hasta 4000) γ Cambios de DT_WSTR a DT_NTEXT δ Permite cambiar en Excel Source Output, pero da error en Excel Source Error Output γ Cambios de DT_R8 a DT_I1, DT_I2, …α En el origen no podemos hacer cualquier conversión de datos β Para estos casos utilizaremos Data Conversion o Derived Column
  15. 15. Configuración orígenes Excel
  16. 16. InformesLo que quiere ver el usuario vs lo ideal para el ETLα Excel con diferentes formatos de líneas β Líneas en blanco β Títulos β Encabezados β Totales β Otros
  17. 17. Importar informe diseñado por usuario
  18. 18. Excel creados por el usuarioα No siempre los Excel se generan de forma automatizada β Multitud de aplicaciones exportan a Excel β El usuario crea sus propios Excelα Cuando es el usuario quien los genera β No siempre son iguales γ Cambios en los nombres de los ficheros γ Cambios en los nombres de las hojas del libro γ Cambios en el orden de las columnas γ Cambios en los encabezados γ Inclusión de líneas en blanco
  19. 19. Automatizando lecturasα Podemos leer los archivos de una carpeta cuyo nombre cumpla un patrón β Ventas_??_*.xlsα Podemos recorrer todas hojas de un libro β Evitamos errores por cambios de nombre β La inclusión o eliminación de hojas no afecta a la ejecuciónα Necesitamos escribir código .Net para ello
  20. 20. Leyendo «todas» las hojas de «todos» los libros quecumplen el patrón Ventas_??_*.xls
  21. 21. Buenas prácticasα Analizar los problemas con los tipos de datos β Modificar los tipos de datos asignados por defecto γ (Show advanced editor) β Usar Data Conversion / Derived Column β Tener una muestra completa γ Eliminar la restricción por defecto de escaneo de 8 filas γ Evitar que los datos de explotación sean diferentes a los que nos mostraron para el desarrollo β Crear nuestra propia muestra resumidaα Automatizar tareas que nos eviten errores de ejecución y posteriores modificaciones sobre el paquete
  22. 22. Buenas prácticasα Compromiso de no cambiar la estructura del ficheroα Pongamos en común la estructura a utilizar β Que perjudique lo menos posible a la visualización y al ETL γ Ambas partes han de ceder
  23. 23.  No olvideis rellenar las evaluaciones en el Portal del Summit! Nos encontrareis en la zona de exposición en los siguientes horarios α Esta tarde a la hora del café α En cualquier descanso  Salvador Ramos Jorge Sánchez Mentor – BI DPA – BI SQL Server MVP, MCTS, MCITP MCTS sramos@solidq.com jsanchezdiaz@solidq.com
  24. 24. Salvador Ramos Jorge SánchezMentor – BI DPA – BISQL Server MVP, MCTS, MCITP MCTSsramos@solidq.com jsanchezdiaz@solidq.com
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×