Hadoop

  • 146 views
Uploaded on

Trabajo de Framework Apache Hadoop para aplicaciones distribuidas.. Arquitectura, uso, ventajas, desventajas, etc.

Trabajo de Framework Apache Hadoop para aplicaciones distribuidas.. Arquitectura, uso, ventajas, desventajas, etc.

More in: Engineering
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
146
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
15
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 2. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 3. INTRODUCCIÓN Actualmente el crecimiento exponencial de datos como las nuevas las nuevas tecnologías de almacenamiento de ellas, están cambiando la arquitectura de los nuevos sistemas y el modo con el cual se está acelerando el proceso de esta información. Motivo a esto, es la aparición de varias herramientas de código libre que permiten manejar enormes cantidades de datos en sistemas distribuidos.
  • 4. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 5. HADOOP Hadoop es un framework de software basado en Java y está orientado a aplicaciones distribuidas con un uso extensivo de datos y de alta escalabilidad. Se presenta como una solución para los programadores sin experiencia en el desarrollo de aplicaciones para entornos distribuidos, dado que oculta la implementación de detalles propios de estos sistemas: paralelización de tareas, administración de procesos, balanceo de carga y tolerancia a fallos.
  • 6. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 7. VISIÓN ACTUAL Hoy en día, el análisis de estos enormes volúmenes de datos de distintos formatos, se están extendiendo paulatinamente en el mundo de las Empresas, Redes Sociales y Weblogs. Este fenómeno ha creado una nueva organización sin fronteras a la que llamamos … “Big Mc Data”
  • 8. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 9. MAPREDUCE Hadoop proporciona un entorno de ejecución orientado a aplicaciones desarrolladas bajo el modelo de programación MapReduce. Bajo este modelo, la ejecución de una aplicación presenta dos etapas: • Map: donde se realiza la ingestión y la transformación de los datos de entrada, en la cual los registros de entrada pueden ser son procesados en paralelo. • Reduce: fase de agregación o resumen, donde todos los registros asociados entre sí deben ser procesados juntos por una misma entidad.
  • 10. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 11. HDFS Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido, escalable y portátil escrito en Java para el framework Hadoop, pensado para almacenar grandes cantidades de información, del orden Terabytes o Petabytes tolerante a fallos y diseñado para ser instalado en máquinas de bajo costo.
  • 12. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 13. ARQUITECTURA La arquitectura de Hadoop se sustenta sobre 3 pilares fundamentales: • Sistema de Archivos : Denominado HDFS. • Hadoop MapReduce: Planificador de trabajos, así como una serie de nodos encargados para llevarlos a cabo. • Hadoop Common : Conjunto de utilidades que posibiliten la integración de subproyectos de Hadoop.
  • 14. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 15. FUNCIONAMIENTO Sobre el sistema de archivos se ubica el motor de MapReduce, que consiste en un planificador de trabajos denominado JobTracker, a través del que las aplicaciones cliente envían trabajos MapReduce. Este planificador envía el flujo de trabajo entrante a los nodos TaskTracker disponibles en el clúster, que se ocuparán de ejecutar las funciones map y reduce en cada nodo.
  • 16. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 17. MODOS DE EJECUCIÓN Hadoop se puede ejecutar de tres formas distintas: • Modo Local / Standalone : Por defecto, Hadoop está configurado para ejecutarse en este modo como un proceso de Java aislado. Esto es útil para depuración. • Modo Pseudo-distribuido : Hadoop puede ejecutarse en este modo, en donde cada tarea se ejecuta en proceso Java diferente. • Modo Distribuido : Esta es la forma de aprovechar toda la potencia de Hadoop, ya que se maximiza el paralelismo de procesos y se utilizan todos los recursos disponibles del clúster en el que se va a configurar Hadoop.
  • 18. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 19. EJEMPLOS DE USO Existe un gran número de aplicaciones y empresas que utilizan Hadoop en sus clústers. Entre los más relevantes podemos mencionar los siguientes: • Facebook • Google • Twitter • Yahoo!
  • 20. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 21. DESVENTAJAS • La curva de aprendizaje de Hadoop es Alta • Hadoop no permite hacer lookups • Hadoop reprocesa todo siempre • Latencia
  • 22. • Introducción • Hadoop • Visión Actual • MapReduce • HDFS • Arquitectura • Funcionamiento • Modos de Ejecución • Ejemplos de Uso • Desventajas • Alternativas
  • 23. ALTERNATIVAS