SlideShare a Scribd company logo
1 of 27
Download to read offline
Técnicas de Inyección / Extracción de Datos en #BigData
+
Técnicas Drag & Drop en Apache Cassandra
@javituiter	
  
www.franciscojavierpulido.com	
  
@exploradata	
  
www.exploradata.com	
  
Sobre mí
Graduado	
  en	
  
Ingeniera	
  del	
  
So;ware	
  
Master	
  en	
  
Sistemas	
  en	
  
Ingeniería	
  de	
  la	
  
Información	
  
Big	
  Data	
  Specialist	
  
www.ExploraData.com	
  
Bloguero	
  
&	
  
Tuitero	
  
ExploraBrand: Marketing Digital
www.explorabrand.com	
  
Inyección/Extracción
de Datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección / Extracción de datos en #BigData
Inyección/Extracción
de Datos
en Cassandra
Inyección / Extración de datos en Cassandra
Comando	
  COPY	
  
Inyección / Extración de datos en Cassandra
Comando	
  COPY	
  
-­‐  Desarrollar	
  desde	
  0	
  un	
  programa	
  para	
  lanzar	
  múlMples	
  
instancias	
  del	
  comando	
  (secuencialmente,	
  ya	
  que	
  
paralelamente	
  estaba	
  sujeto	
  a	
  errores	
  de	
  
concurrencia)	
  
-­‐  Paralelizable	
  en	
  varios	
  nodos	
  manualmente	
  
-­‐  Limitado	
  a	
  500.000	
  registros	
  por	
  hilo/lanzamiento	
  
Inyección / Extración de datos en Cassandra
Apache	
  Sqoop	
  
·∙	
  Relacional	
  
·∙	
  NoSQL	
  
·∙	
  Relacional	
  
·∙	
  NoSQL	
  
Hadoop	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
-­‐  Herramienta	
  exclusiva	
  para	
  la	
  etapa	
  de	
  
Obtención	
  de	
  datos	
  
-­‐  Source	
  
-­‐  Channel	
  
-­‐  Sink	
  
-­‐  Interceptor	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
Channel	
  1	
  
Channel	
  N	
  
Source	
  1	
   .	
  
.	
  
.	
  
.	
  
.	
  
.	
  
Source	
  2	
  
Sink	
  1	
  
Sink	
  2	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
Inyección / Extración de datos en Cassandra
Apache	
  Flume	
  
+	
  Sink	
  a	
  Cassandra	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  
Personalizado	
  
hbp://www.treselle.com/blog/flume-­‐with-­‐
cassandra-­‐integraMon	
  	
  
Inyección / Extración de datos en Cassandra
DataStax:	
  SSTableLoader	
  
Técnicas Drag&Drop
en Cassandra
Técnicas Drag&Drop en Cassandra
ETL	
  
•  Extraer, Transformar y Cargar (Load). En definitiva:
•  Extraer datos de múltiples fuentes
• Aplicar calidad y consistencia (limpiar) a los datos
•  Conformar (unificar) los datos
•  Cargar los datos en un DW
•  La idea de Flujo.
• Actividad inicial y con ejecución periódica/programable.
•  Herramientas: Talend, JasperSoft, Pentaho Data Integration
Técnicas Drag&Drop en Cassandra
Pentaho	
  Data	
  IntegraMon	
  
•  PDI es un set de herramientas, que permite diseñar ETLs, mediante
transformaciones y trabajos que pueden ser ejecutadas por las herramientas de
Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
•  Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
•  Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y
escribir desde y en distintos orígenes de datos.
•  Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos
trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares
(crontab -e).
Técnicas Drag&Drop en Cassandra
Técnicas Drag&Drop en Cassandra
Conectores	
  Big	
  Data	
  en	
  PDI	
  
•  En PDI tenemos múltiples conectores para sistemas Big Data:
• AVRO
•  Cassandra
•  CouchDB
•  Hadoop
•  Hbase
•  Map Reduce
•  MongoDB
Técnicas Drag&Drop en Cassandra
Cassandra	
  en	
  PDI	
  
• Tenemos tres tipos de “pasos” para Apache Cassandra:
•  Cassandra Input: se utiliza para realizar lecturas
•  Cassandra Output: se utiliza para realizar escrituras
•  SSTable Output: se utiliza para volcar a una SSTable de Cassandra.
•  Requisitos:
• Apache Cassandra 1.2.X
•  PDI 5.0.1 Stable
•  Librerías oficiales de Apache Cassandra para PDI
•  Limitaciones:
•  Los “pasos” funcionan correctamente con hasta 500K registros
Técnicas Drag&Drop en Cassandra
Cassandra	
  Input	
  
Técnicas Drag&Drop en Cassandra
Cassandra	
  Output	
  
Técnicas Drag&Drop en Cassandra
SSTable	
  Output	
  
*	
  Este	
  paso	
  necesita	
  ser	
  ejecutado	
  siempre	
  en	
  un	
  nodo	
  de	
  Cassandra.	
  
PDI en Acción
?	
  
¿ Dudas ?
@javituiter	
  
www.franciscojavierpulido.com	
  
@exploradata	
  
www.exploradata.com	
  

More Related Content

What's hot

What's hot (7)

Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Hadoop
HadoopHadoop
Hadoop
 
El mundo Big Data y las APIs
El mundo Big Data y las APIsEl mundo Big Data y las APIs
El mundo Big Data y las APIs
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 

Similar to Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

Similar to Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra (20)

Tecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup CassandraTecnicas Big Data: Meetup Cassandra
Tecnicas Big Data: Meetup Cassandra
 
Scala@real life
Scala@real lifeScala@real life
Scala@real life
 
Scala @ Real life
Scala @ Real lifeScala @ Real life
Scala @ Real life
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)DBA del Futuro (Un nuevo paradigma)
DBA del Futuro (Un nuevo paradigma)
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Arquitectura Lambda
Arquitectura LambdaArquitectura Lambda
Arquitectura Lambda
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Why Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén CasadoWhy Apache Flink is better than Spark by Rubén Casado
Why Apache Flink is better than Spark by Rubén Casado
 
Herramientas de visualización de datos
Herramientas de visualización de datosHerramientas de visualización de datos
Herramientas de visualización de datos
 
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivelSPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
SPS Madrid 2019 - Eleva tu aplicaciones de PowerApps a otro nivel
 
Analitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big dataAnalitica y toma de decisiones en tiempo real sobre plataformas big data
Analitica y toma de decisiones en tiempo real sobre plataformas big data
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Polybase
PolybasePolybase
Polybase
 
Comparativa herramientas ETL
Comparativa herramientas ETLComparativa herramientas ETL
Comparativa herramientas ETL
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
spiceworks
spiceworksspiceworks
spiceworks
 
Pizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de ProyectoPizza Fast Assistant Presentación de Proyecto
Pizza Fast Assistant Presentación de Proyecto
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
M04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bdM04 09 20_v05_plataformas_bd
M04 09 20_v05_plataformas_bd
 

Recently uploaded

04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
CristhianZetaNima
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
bcondort
 
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdfMODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
vladimirpaucarmontes
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
annavarrom
 

Recently uploaded (20)

PPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdfPPT ELABORARACION DE ADOBES 2023 (1).pdf
PPT ELABORARACION DE ADOBES 2023 (1).pdf
 
clasificasion de vias arteriales , vias locales
clasificasion de vias arteriales , vias localesclasificasion de vias arteriales , vias locales
clasificasion de vias arteriales , vias locales
 
osciloscopios Mediciones Electricas ingenieria.pdf
osciloscopios Mediciones Electricas ingenieria.pdfosciloscopios Mediciones Electricas ingenieria.pdf
osciloscopios Mediciones Electricas ingenieria.pdf
 
Sesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO CersaSesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
Sesión 02 TIPOS DE VALORIZACIONES CURSO Cersa
 
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESOCAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
CAPITULO 4 ANODIZADO DE ALUMINIO ,OBTENCION Y PROCESO
 
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
04. Sistema de fuerzas equivalentes II - UCV 2024 II.pdf
 
hitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docxhitos del desarrollo psicomotor en niños.docx
hitos del desarrollo psicomotor en niños.docx
 
Manual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdfManual_Identificación_Geoformas_140627.pdf
Manual_Identificación_Geoformas_140627.pdf
 
Falla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integralFalla de san andres y el gran cañon : enfoque integral
Falla de san andres y el gran cañon : enfoque integral
 
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdfReporte de simulación de flujo del agua en un volumen de control MNVA.pdf
Reporte de simulación de flujo del agua en un volumen de control MNVA.pdf
 
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptxCARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
CARGAS VIVAS Y CARGAS MUERTASEXPOCI.pptx
 
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdfLA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
LA APLICACIÓN DE LAS PROPIEDADES TEXTUALES A LOS TEXTOS.pdf
 
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdfMODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
MODIFICADO - CAPITULO II DISEÑO SISMORRESISTENTE DE VIGAS Y COLUMNAS.pdf
 
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdfSesión N°2_Curso_Ingeniería_Sanitaria.pdf
Sesión N°2_Curso_Ingeniería_Sanitaria.pdf
 
Principales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards DemingPrincipales aportes de la carrera de William Edwards Deming
Principales aportes de la carrera de William Edwards Deming
 
ARBOL DE CAUSAS ANA INVESTIGACION DE ACC.ppt
ARBOL DE CAUSAS ANA INVESTIGACION DE ACC.pptARBOL DE CAUSAS ANA INVESTIGACION DE ACC.ppt
ARBOL DE CAUSAS ANA INVESTIGACION DE ACC.ppt
 
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERASDOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
DOCUMENTO PLAN DE RESPUESTA A EMERGENCIAS MINERAS
 
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
01 MATERIALES AERONAUTICOS VARIOS clase 1.ppt
 
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptxCALCULO DE ENGRANAJES RECTOS SB-2024.pptx
CALCULO DE ENGRANAJES RECTOS SB-2024.pptx
 
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADOPERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
PERFORACIÓN Y VOLADURA EN MINERÍA APLICADO
 

Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra

  • 1. Técnicas de Inyección / Extracción de Datos en #BigData + Técnicas Drag & Drop en Apache Cassandra @javituiter   www.franciscojavierpulido.com   @exploradata   www.exploradata.com  
  • 2. Sobre mí Graduado  en   Ingeniera  del   So;ware   Master  en   Sistemas  en   Ingeniería  de  la   Información   Big  Data  Specialist   www.ExploraData.com   Bloguero   &   Tuitero  
  • 5. Inyección / Extracción de datos en #BigData
  • 6. Inyección / Extracción de datos en #BigData
  • 7. Inyección / Extracción de datos en #BigData
  • 9. Inyección / Extración de datos en Cassandra Comando  COPY  
  • 10. Inyección / Extración de datos en Cassandra Comando  COPY   -­‐  Desarrollar  desde  0  un  programa  para  lanzar  múlMples   instancias  del  comando  (secuencialmente,  ya  que   paralelamente  estaba  sujeto  a  errores  de   concurrencia)   -­‐  Paralelizable  en  varios  nodos  manualmente   -­‐  Limitado  a  500.000  registros  por  hilo/lanzamiento  
  • 11. Inyección / Extración de datos en Cassandra Apache  Sqoop   ·∙  Relacional   ·∙  NoSQL   ·∙  Relacional   ·∙  NoSQL   Hadoop  
  • 12. Inyección / Extración de datos en Cassandra Apache  Flume   -­‐  Herramienta  exclusiva  para  la  etapa  de   Obtención  de  datos   -­‐  Source   -­‐  Channel   -­‐  Sink   -­‐  Interceptor  
  • 13. Inyección / Extración de datos en Cassandra Apache  Flume   Channel  1   Channel  N   Source  1   .   .   .   .   .   .   Source  2   Sink  1   Sink  2  
  • 14. Inyección / Extración de datos en Cassandra Apache  Flume  
  • 15. Inyección / Extración de datos en Cassandra Apache  Flume   +  Sink  a  Cassandra                           Personalizado   hbp://www.treselle.com/blog/flume-­‐with-­‐ cassandra-­‐integraMon    
  • 16. Inyección / Extración de datos en Cassandra DataStax:  SSTableLoader  
  • 18. Técnicas Drag&Drop en Cassandra ETL   •  Extraer, Transformar y Cargar (Load). En definitiva: •  Extraer datos de múltiples fuentes • Aplicar calidad y consistencia (limpiar) a los datos •  Conformar (unificar) los datos •  Cargar los datos en un DW •  La idea de Flujo. • Actividad inicial y con ejecución periódica/programable. •  Herramientas: Talend, JasperSoft, Pentaho Data Integration
  • 19. Técnicas Drag&Drop en Cassandra Pentaho  Data  IntegraMon   •  PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •  Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •  Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •  Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 21. Técnicas Drag&Drop en Cassandra Conectores  Big  Data  en  PDI   •  En PDI tenemos múltiples conectores para sistemas Big Data: • AVRO •  Cassandra •  CouchDB •  Hadoop •  Hbase •  Map Reduce •  MongoDB
  • 22. Técnicas Drag&Drop en Cassandra Cassandra  en  PDI   • Tenemos tres tipos de “pasos” para Apache Cassandra: •  Cassandra Input: se utiliza para realizar lecturas •  Cassandra Output: se utiliza para realizar escrituras •  SSTable Output: se utiliza para volcar a una SSTable de Cassandra. •  Requisitos: • Apache Cassandra 1.2.X •  PDI 5.0.1 Stable •  Librerías oficiales de Apache Cassandra para PDI •  Limitaciones: •  Los “pasos” funcionan correctamente con hasta 500K registros
  • 23. Técnicas Drag&Drop en Cassandra Cassandra  Input  
  • 24. Técnicas Drag&Drop en Cassandra Cassandra  Output  
  • 25. Técnicas Drag&Drop en Cassandra SSTable  Output   *  Este  paso  necesita  ser  ejecutado  siempre  en  un  nodo  de  Cassandra.  
  • 27. ?   ¿ Dudas ? @javituiter   www.franciscojavierpulido.com   @exploradata   www.exploradata.com