Python Flink Streaming

© GMV, 2016 Propiedad de GMV
Todos los derechos reservados
PYTHON Y FLINK
Madrid Python Meetup

Madrid Python Meetup 2016/03/10 Página 2
ÍNDICE INTRODUCCIÓN
APACHE FLINK
EXPERIENCIA PYTHON
CONCLUSIONES

UN GRUPO TECNOLÓGICO
GLOBAL
Grupo
multinacional
tecnológico
Fundado en
1984
Capital
privado
Sede principal
en España
(Madrid)
Oficinas en 10 países
Más de 1.100
empleados
Origen
vinculado
al sector
espacial y
defensa
Aeronáutica, Espacio, Defensa,
Seguridad, Sanidad, Transporte,
Banca y finanzas, y Tecnologías de la
Información y la Comunicación
Ingeniería, desarrollo
e integración de
sistemas, software,
hardware, servicios y
productos
especializados
QUIÉNES SOMOS

ACLARACIONES
INTRODUCCIÓN
Apache Flink no es un
servidor web ni un jefe indio
No vamos a contar palabras
¿Qué sabéis de Big Data?

MADUREZ DEL BIGDATA
¿POR QUÉ APACHE FLINK?
Descartar
Almacenar
Procesar
Streaming

ARQUITECTURA TÍPICA
Data
adquisition
Stream Processing Serving DB
• Es común almacenar también la información en crudo
• La base de la arquitectura suele ser un clúster con HDFS

DESPLIEGUE
W1
W2
W3
W4
Wn
M1
Clúster de HDFS + Flink
K1 K2 Kn
Clúster de Kafka
C3C1 C2
C5C4 C6
Clúster de Cassandra
W5
W6

APACHE FLINK
El core de Flink es un motor
de procesamiento de flujos
de datos en streaming.
Proporciona distribución de los
datos, comunicación y tolerancia
a fallos para realizar
computación distribuida con
streams de datos.
Sobre ese core se han
desarollado dos API y varias
librerías en Scala, Java y Python

VENTANAS
FLINK: CARACTERÍSTICAS DIFERENCIADORAS
5 2 6 3 7 5 3 8 2 1 9 4
5 2 6 3 7 5 3 8 2 1 9 4
5 2 6 3 7 5 3 8 2 1 9 4
5 2 6 3 7 5 3 8 2 1 9 4
Ventanas temporales
Ventanas deslizantes
16 23 16
16 21 23 14 16
1s2s
stream.timeWindowAll(Time.seconds(1)).
sum();
stream.timeWindowAll(Time.seconds(1),T
ime.milliseconds(500)).sum();

(A,5) (A,6) (A,5) (A,1)
VENTANAS POR CLAVE
FLINK: CARACTERÍSTICAS DIFERENCIADORAS
(A,5) (B,2) (A,6) (C,3) (C,7) (A,5) (B,3) (C,8) (B,2) (A,1) (C,9) (B,4)
Ventanas fijas por clave
1s2s
(B,2) (B,3) (B,2) (B,4)
(C,3) (C,7) (C,8) (C,9)
(A,5) (A,6) (A,5) (A,1)
(B,2) (B,3) (B,2) (B,4)
(C,3) (C,7) (C,8) (C,9)
(A,11)(B,2)(C,3) (A,5)(B,3)(C,15) (A,1)(B,6)(C,9)
(A,11)(B,5) (C,10) (A,6) (C,17) (B,6)
Ventanas por número de elementos
stream.keyBy(0).timeWindow
(Time.seconds(1)).sum(1)
stream.keyBy(0).countWindow(
2).sum(1)

TRIGGERS Y EVICTORS
DATASTREAM API
5 2 9 9 7 0 3 8 2 A 9 4
20 18
Pueden cancelar el procesado de los
elementos de una ventana
Permiten adelantar el procesado de una
ventana
5 2 9 9 7 -1 3 8 2 1 9 4
25 18 16
Podemos controlar los elementos que
llegan de las ventanas antes de
evaluarlos
Triggers
Evictors
7 3 8

EL TIEMPO ES IMPORTANTE
DATASTREAM API
¿Qué tiempo utilizar para construir las ventanas?
El momento en el que se
generó el evento
El momento en que se
recibe el evento
El momento en que se
procesa el evento
Flink maneja relojes diferentes para cada
uno de ellos

RENDIMIENTO
COMPARATIVA
• Lo deseable es mantener un alto caudal con una latencia baja
• Flink permite ajustar los tamaños de los buffers internos para
aumentar el caudal a costa de aumentar la latencia y
viceversa.

FUNCIONALIDADES
COMPARATIVA
Streaming “true” mini batches “true”
API low-level high-level high-level
Fault tolerance tuple-level ACKs RDD-based (lineage) coarse checkpointing
State not built-in external internal
Exactly once at least once exactly once exactly once
Windowing not built-in restricted flexible
Latency low medium low
Throughput medium high high

SEGÚN LA DOCUMENTACIÓN
EXPERIENCIA CON PYTHON
La mayoría de las API no están
disponibles.
¡¡No está disponible la API
para Streams!!
El API para procesado en batch
tiene todas las operaciones
(alguna más que en scala)
Los conectores de E/S son
muchos menos y con menos
opciones

PRUEBA BÁSICA
class Adder(GroupReduceFunction):
def reduce(self, iterator, collector):
count, event = iterator.next()
count += sum([x[0] for x in iterator])
collector.collect((event, count))
if __name__ == "__main__":
output_file = 'out.txt'
env = get_environment()
data =
env.read_csv("/home/jordi/Development/python-
flink/final-dataset.csv",
(INT, STRING, STRING, STRING, STRING, STRING,
STRING, STRING, BOOL, BOOL, INT, INT, INT, INT,
STRING, INT, INT, STRING, STRING, FLOAT, FLOAT,
STRING))
data
.map(lambda x: (1, x[5]))
.group_by(1)
.reduce_group(Adder())
.map(lambda x: 'Event: %s. Freq: %s' % (x[0],x[1]))
.write_text(output_file,write_mode=WriteMode.OVERWRITE)
env.execute(local=True)
El rendimiento es más bajo que el
mismo programa en scala.
Levanta un intérprete Python que
envía el código al core de Flink

POCA ACIVIDAD
El último commit de la parte de Python fue hace varios meses:
En proporción, hay muy poco código Python:

CONCLUSIONES

www.gmv.es
www.facebook.com/infoGMV
@infoGMV_es
www.linkedin.com/company/gmv
GRACIAS
José Carlos Baquero (jcbaquero@gmv.com)
Pablo González (pagonzalez@gmv.com)
Jordi Redondo (jredondo@gmv.com)

TERASORT
PERFORMANCE
Terasort es una prueba para medir el rendimiento de tecnologías
BigData. Se trata de ordenar 1 Tb de datos (o más) en el menor
tiempo posible
http://eastcirclek.blogspot.com.es/2015/06/terasort-for-spark-and-flink-with-range.html

TERASORT
PERFORMANCE
http://eastcirclek.blogspot.com.es/2015/06/terasort-for-spark-and-flink-with-range.html

STREAMING - YAHOO
PERFORMANCE
https://yahooeng.tumblr.com/post/135321837876/benchmarking-streaming-computation-engines-at
The job of the benchmark is to read various JSON events from Kafka, identify the
relevant events, and store a windowed count of relevant events per campaign
into Redis.

STREAMING - YAHOO
PERFORMANCE

CONSTRUCCIÓN DE VENTANAS
VENTANAS
http://data-artisans.com/how-apache-flink-enables-new-streaming-applications-part-1/

CONSTRUCCIÓN DE VENTANAS
VENTANAS

Python Flink Streaming

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

Viewers also liked

Viewers also liked (20)

Similar to Python Flink Streaming

Similar to Python Flink Streaming (20)

More from Paradigma Digital

More from Paradigma Digital (14)

Recently uploaded

Recently uploaded (20)

Python Flink Streaming