Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data: porque la vida sucede en Real-Time

714 views

Published on

Presentación de alto nivel donde se analizan las problemáticas principales del procesamiento en tiempo real en Big Data.

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Big Data: porque la vida sucede en Real-Time

  1. 1. BIG DATA PORQUE LA VIDA SUCEDE EN REAL-TIME Dr Rubén Casado Tejedor @ruben_casado
  2. 2. VOLUMEN Grandes cantidades de datos. Necesidad de soluciones tecnológica y económicamente escalables. VARIEDAD Información estructurada, semi y desestructurada. Necesidad de almacenar y procesar distintos tipos de información. VELOCIDAD Alta frecuencia de generación de información. Necesidad de producir resultados en tiempo real.
  3. 3. INSERT MAIN TITLE AT 36PT MIN 30PT Insert sub-title at 24pt, min 20pt INSERT HEADING 20PT MIN 18PT Insert text maximum lines to the bottom of this box, minimum font size 14pt and line spacing at Multiple 1.1 INSERT HEADING 20PT MIN 18PT Insert text maximum lines to the bottom of this box, minimum font size 14pt and line spacing at Multiple 1.1 INSERT HEADING 20PT MIN 18PT Insert text maximum lines to the bottom of this box, minimum font size 14pt and line spacing at Multiple 1.1 Cada 60 segundos
  4. 4. BACH PROCESSING es el paradigma de procesamiento para APACHE HADOOP VOLUMEN SPARK
  5. 5. NoSQL es la solución para la HDFS VARIEDAD CLAVE-VALOR, COLUMNA, DOCUMENTO, GRAFOS
  6. 6. STREAMING PROCESSING es el paradigma de procesamiento para STORM VELOCIDAD APACHE FLINK
  7. 7. STREAMING PROCESSING Analizar según sucede
  8. 8. Plataforma tradicional de BI Plataforma Big Data bach processing Analytical Database Data as a platform Data Ingest Data Collection
  9. 9. Apollo 15 1971 Astronauta David R. Scott en el Lunar Roving Vehicle (LRV)
  10. 10. Coche autodirigido
  11. 11. Waze
  12. 12. ¿QUÉ ES STREAMING PROCESSING? CLASIFICACIÓN EJEMPLOS LATENCIA TOLERANCIA AL RETRASO Hard • Marcapasos • Sistema antibloqueo de frenos • Microsegundos - milisegundos • Ninguna à fallo total del sistema, pérdidas de vidas humanas, etc. Soft • Sistema de reservas online • VoIP • Milisegundos - segundos • Baja à fallo total del Sistema, sin pérdidas de vidas humanas. Near • Sistema de video-conferencia • Domótica • Segundos - minutos • Alta à sin riesgo de fallo del sistema
  13. 13. In many scenarios the computation part of the system is operating in a non-hard real-time fashion, however, the clients may not be consuming the data in real-time, due to network delays, application design, or perhaps a client application is not even running. Put another way, what we really have is a non-hard real-time service with clients that consume data when they need it. This is a streaming data system, a non-hard realtime system that makes its data available at the moment a client application needs it, it is not soft or near, it is streaming.
  14. 14. ARQUITECTURA GENERAL STREAMING PROCESSING SYSTEM CAPA DE ADQUISICIÓN COLA DE MENSAJES CAPA DE PROCESAMIENTO ALMACENAMIENTO EN MEMORIA CAPA DE ACCESO ALMACENAMIENTO LARGA DURACIÓN ORIGEN
  15. 15. 2009 UC Berkeley empieza a trabajar en Spark 2010 Yahoo! crea S4 2010 Cloudera crea Flume 2011 NathanMarzcrea Storm 2014 Stratosphere evoluciona a Apache Flink 2013 Se publica Spark v0.7 con la primera version de Spark Streaming 2013 Linkedin presenta Samza 2012 LinkedIn desarrolla Kafka 2015 Ebay libera Pulsar 2015 DataTorrent libera como incubator Apache Apex 2016 Se publica Apache Storm v1.0 con grandes cambios 2016 Google promueve Apache Beam con el apoyo de DataArtisans y Cloudera 2016 Se publica Apache Spark 2.0 con notables cambios
  16. 16. SEMÁNTICA DE PROCESAMIENTO AT-LEAST-ONCE AT-MOST-ONCE EXACTLY-ONCE Cada mensaje se procesa al menos una vez. Se asegura que todos los mensajes recibidos son procesados, pero podría pasar que algún mensaje se procesase más de una vez. Cada mensaje se procesa como máximo una vez. Se asegura que ningún mensaje es procesado más de una vez, pero podría pasar que algún mensaje no se procesase. Cada mensaje se procesa exactamente una vez. Ningún mensaje se queda sin procesar y ningún mensaje se procesa más de una vez. La más compleja de implementar.
  17. 17. NOCIÓN DEL TIEMPO ProcessingTime Event Time Skew
  18. 18. Event Time Processing Time Una nueva esperanza Episodio IV 1977 El Imperio Contraataca Episodio V 1980 El Retorno del Jedi Episodio VI 1983 La Amenaza Fantasma Episodio I 1999 El ataque de los Clones Episodio II 2002 La venganza de los Sith Episodio III 2005 El despertar de la fuerza Episodio VII 2015
  19. 19. 9:008:00 14:0013:0012:0011:0010:002:001:00 7:006:005:004:003:00 NOCIÓN DEL INFINITO
  20. 20. VENTANAS 13:00 14:008:00 9:00 10:00 11:00 12:00
  21. 21. Fijas Deslizantes 1 2 3 54 Sesiones 2 431 Key 2 Key 1 Key 3 Tiempo 2 3 4 TIPOS DE VENTANAS
  22. 22. Cuando juntamos tiempo y ventanas….
  23. 23. TRIGGER Y WATERMARK
  24. 24. Estrategia early and late firings
  25. 25. CONCLUSIONES
  26. 26. TECNOLOGÍAS DE IMPLEMENTACIÓN STREAMING PROCESSING SYSTEM CAPA DE ADQUISICIÓN COLA DE MENSAJES CAPA DE PROCESAMIENTO ALMACENAMIENTO EN MEMORIA CAPA DE ACCESO ALMACENAMIENTO LARGA DURACIÓN ORIGEN
  27. 27. ¡GRACIAS! Rubén Casado Tejedor ruben.casado.tejedor@accenture.com ruben_casado

×