Title: Drag&Drop Data Techniques with Apache Cassandra
Description: Do you want to manage your Big Data WorkFlows of Apache Cassandra with the most advance visualization tools?. We´ll talk about PDI & Cassandra at this event and we´ll comment our favorite tips & tricks with Apache Cassandra in ExploraData.
Target: Data Engineers, Data Scientist, Big Data Lovers.
Título: Técnicas de Datos Drag&Drop con Apache Cassandra
Descripción: ¿Quieres administrar tus Flujos de Trabajo Big Data de Apache Cassandra con las herramientas de visualización más avanzadas?. En este evento hablaremos de PDI & Apache cassandra y comentaremos nuestros trucos favoritos con Apache Cassandra en ExploraData.
Público Objetivo: Ingenieros de Datos, Científicos de Datos, Amantes del Big Data.
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
1. Técnicas de Inyección / Extracción de Datos en #BigData
+
Técnicas Drag & Drop en Apache Cassandra
@javituiter
www.franciscojavierpulido.com
@exploradata
www.exploradata.com
2. Sobre mí
Graduado
en
Ingeniera
del
So;ware
Master
en
Sistemas
en
Ingeniería
de
la
Información
Big
Data
Specialist
www.ExploraData.com
Bloguero
&
Tuitero
10. Inyección / Extración de datos en Cassandra
Comando
COPY
-‐ Desarrollar
desde
0
un
programa
para
lanzar
múlMples
instancias
del
comando
(secuencialmente,
ya
que
paralelamente
estaba
sujeto
a
errores
de
concurrencia)
-‐ Paralelizable
en
varios
nodos
manualmente
-‐ Limitado
a
500.000
registros
por
hilo/lanzamiento
11. Inyección / Extración de datos en Cassandra
Apache
Sqoop
·∙
Relacional
·∙
NoSQL
·∙
Relacional
·∙
NoSQL
Hadoop
12. Inyección / Extración de datos en Cassandra
Apache
Flume
-‐ Herramienta
exclusiva
para
la
etapa
de
Obtención
de
datos
-‐ Source
-‐ Channel
-‐ Sink
-‐ Interceptor
13. Inyección / Extración de datos en Cassandra
Apache
Flume
Channel
1
Channel
N
Source
1
.
.
.
.
.
.
Source
2
Sink
1
Sink
2
15. Inyección / Extración de datos en Cassandra
Apache
Flume
+
Sink
a
Cassandra
Personalizado
hbp://www.treselle.com/blog/flume-‐with-‐
cassandra-‐integraMon
18. Técnicas Drag&Drop en Cassandra
ETL
• Extraer, Transformar y Cargar (Load). En definitiva:
• Extraer datos de múltiples fuentes
• Aplicar calidad y consistencia (limpiar) a los datos
• Conformar (unificar) los datos
• Cargar los datos en un DW
• La idea de Flujo.
• Actividad inicial y con ejecución periódica/programable.
• Herramientas: Talend, JasperSoft, Pentaho Data Integration
19. Técnicas Drag&Drop en Cassandra
Pentaho
Data
IntegraMon
• PDI es un set de herramientas, que permite diseñar ETLs, mediante
transformaciones y trabajos que pueden ser ejecutadas por las herramientas de
Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
• Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
• Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y
escribir desde y en distintos orígenes de datos.
• Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos
trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares
(crontab -e).
21. Técnicas Drag&Drop en Cassandra
Conectores
Big
Data
en
PDI
• En PDI tenemos múltiples conectores para sistemas Big Data:
• AVRO
• Cassandra
• CouchDB
• Hadoop
• Hbase
• Map Reduce
• MongoDB
22. Técnicas Drag&Drop en Cassandra
Cassandra
en
PDI
• Tenemos tres tipos de “pasos” para Apache Cassandra:
• Cassandra Input: se utiliza para realizar lecturas
• Cassandra Output: se utiliza para realizar escrituras
• SSTable Output: se utiliza para volcar a una SSTable de Cassandra.
• Requisitos:
• Apache Cassandra 1.2.X
• PDI 5.0.1 Stable
• Librerías oficiales de Apache Cassandra para PDI
• Limitaciones:
• Los “pasos” funcionan correctamente con hasta 500K registros