Hadoop se ha consolidado como una de las herramientas principales para procesamiento de altos volúmenes de información (Big Data). El rol de Hadoop en las empresas continua evolucionando optimizando la arquitectura de almacenamiento y procesamiento de datos, incrementando el performance y disminuyendo los costos.
El participante aprenderá acerca del ecosistema de Hadoop, así como las funcionalidades básicas de HDFS y MapReduce. Además de, podremos explorar como usar Hive y Pig para el desarrollo rápido de procesamiento.
2. www.sgcampus.com.mx @sgcampus
• Maestro en Ciencias de la Computación
• Autor del libro Practical Data Analysis
http://amzn.to/1k69HWn
• Estancia de Investigación en el Laboratorio de
Epidemiologia Computacional de la Universidad
del Norte de Texas (2011)
• Investigador Invitado en el SDSC 2012 Summer
Institute: Discover Big Data, Universidad de
California
• Revisor Técnico de los libros:
Raspberry Pi Networking Cookbook
Raspberry Pi Robotic Projects
Hadoop Operations and Cluster Management
Acerca del Ponente
13. www.sgcampus.com.mx @sgcampus
Datos Crudos
Datos Limpios
Consultas y Reportes
OLAP –Reportes Ad-Hoc
Análisis Estadístico
Modelado Predictivo
Optimización
VentajaCompetitiva
Madurez Analítica
¿Qué paso?
¿Por que paso?
¿Qué va a pasar?
¿Que es lo mejor
que puede pasar?
Madurez Analítica
15. www.sgcampus.com.mx @sgcampus
Introducción a Hadoop
Apache Hadoop es un framework desarrollado en Java y de
licencia libre que permite el desarrollo de aplicaciones
distribuidas con grandes cantidades de datos.
17. www.sgcampus.com.mx @sgcampus
HDFS
• HDFS es un sistema de archivos distribuido, escalable y
portátil escrito en Java y creado especialmente para
trabajar con archivos de gran tamaño.
• Una de sus principales características es un tamaño de
bloque muy superior al habitual (100 MB) para no perder
tiempo en los accesos de lectura.
Sistema de Archivos que sigue el patrón
“Write once read many”