SlideShare a Scribd company logo
1 of 4
Download to read offline
Internet
Desktop
Cliente
BigData & Responsive Web Architecture
Intranet
Hadoop Cluster
HDFS
<Big Data Storage>
Ambari
<Web Admin
Console>
Logs
Usuario
ODBC
BD transaccional
<BD Relacional>
Web
Application
<Responsive>
AngularJS
<MVC client Fwork>
Web
Services
<Spring REST>
YARN
<Resource Mng>
MapReduce
<Batch
Process>
TEZ
<RealTime Process>
PIG
<Script 4ETL>
Hive
<SQL-
DWarehouse>
HCatalog
<Hive
TableMng>
HBase
<NoSql DB>
Tableau
<BI>
Análisis
App
<Java>
JDBC
SQOOP
<Bulk Load>
Excel
<Office App>
Flume
<Java Agent
Stream Data>
Twitter
<Social Network>
Load Load
SOLR
<Search & BI>
Zepellin
<Notebook
Data Analisys>
Load
WebHDFS
<REST>
Load
Custom
App
Análisis
App
<App>
HBase
API
Slider
<LongRun
Process>
Spark
<inMemory Process>
HDF-Nifi
<DataFlow Mng>
Custom
App
<App>
JDBC
Load
Drill
<SQL HBase>
BigData & Responsive Architecture cheat sheet by
Luis Alberto Espinoza Bustamante
(SCRUM Master Certified)
https://cl.linkedin.com/in/soaagenda
www.soaAgenda.com
Componentes Hadoop
 HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original
raw unstructured data) de gran escala(Big DataStorage).
 YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el
Data Operating System de Hadoop.
 MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de
mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).
 Ambari: consola web de administración Hadoop.
 TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a
ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas
map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para
compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que
permite interactive-realtime processing de bigdata.
 PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se
compila en MapReduce Jobs (ahora hechos en TEZ)
 Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData,
permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de
data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL
(statements) en TEZ (processing graphs)
 HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog
se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.
 HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de
datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.
 SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de
datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que
esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP
esta optimizado para alta carga datos batch.
Componentes Hadoop
 Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden
ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante
manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente
Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux
 WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS
mediante aplicaciones (custom load)
 SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop
guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)
 Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR
 Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es
motor equivalente a TEZ pero optimizado para longterm.
 Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es
equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten
extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF
es un paquete de NiFi.
 Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el
concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos,
que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes
(sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data
obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.
 SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset
compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base
de los notebooks (aplicaciones de análisis) de Zepellin.
Otros Conceptos Relacionados
 Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.
 data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.
 Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración
(usan los data scientist)
 IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan
mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.
 Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.
 Drill: SQL query engine para Hbase (noSQL) y Hadoop.
 WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En
HortonWorks hay que instalarlo.

More Related Content

What's hot

What's hot (19)

Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScriptFull-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
Full-stack JavaScript: Desarrollo integral de aplicaciones Web con JavaScript
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
TALEND ETL Introducción
TALEND ETL IntroducciónTALEND ETL Introducción
TALEND ETL Introducción
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Microsoft Azure SQL Database
Microsoft Azure SQL DatabaseMicrosoft Azure SQL Database
Microsoft Azure SQL Database
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014Power BI. Integración de datos | SolidQ Summit 2014
Power BI. Integración de datos | SolidQ Summit 2014
 
Guía power bi
Guía   power biGuía   power bi
Guía power bi
 
Power BI UG Lima webcast enero 22 - Seguridad
Power BI UG Lima   webcast enero 22 - SeguridadPower BI UG Lima   webcast enero 22 - Seguridad
Power BI UG Lima webcast enero 22 - Seguridad
 
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
Perspectiva de Microsoft Business Intelligence a partir de la integracion con...
 
Inteligencia de Negocios con Microsoft
Inteligencia de Negocios con MicrosoftInteligencia de Negocios con Microsoft
Inteligencia de Negocios con Microsoft
 
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
Seminario Web MongoDB-Paradigma: Cree aplicaciones más escalables utilizando ...
 
Introducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BIIntroducción a Análisis de Datos SqlServer Power BI
Introducción a Análisis de Datos SqlServer Power BI
 
Presentación taller aplicaciones
Presentación  taller aplicacionesPresentación  taller aplicaciones
Presentación taller aplicaciones
 
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
SolidQ Business Analytics Day | Una nueva plataforma de gestión de informació...
 
Introduccion a Power BI
Introduccion a Power BIIntroduccion a Power BI
Introduccion a Power BI
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 

Similar to Best hadoop bigdata architecture resume

Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentaho
Finger Cash
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
eduardojose55
 

Similar to Best hadoop bigdata architecture resume (20)

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Couch db
Couch dbCouch db
Couch db
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Sfd 2013 pentaho
Sfd 2013 pentahoSfd 2013 pentaho
Sfd 2013 pentaho
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Introducción a polybase en SQL Server
Introducción a polybase en SQL ServerIntroducción a polybase en SQL Server
Introducción a polybase en SQL Server
 
SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0SGBD y tecnologías que usan las aplicaciones web 2.0
SGBD y tecnologías que usan las aplicaciones web 2.0
 
base de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptxbase de datos con codigos abiertos.pptx
base de datos con codigos abiertos.pptx
 
Documento Web2Py
Documento Web2PyDocumento Web2Py
Documento Web2Py
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
Que SGBD y Tecnologías usan : Facebook, Twitter, Youtube, Google, Uber.
 
BigData
BigDataBigData
BigData
 
Hadoop, Cloud y Spring
Hadoop, Cloud y Spring Hadoop, Cloud y Spring
Hadoop, Cloud y Spring
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
Wamp server
Wamp serverWamp server
Wamp server
 
Motores de bases de datos open source
Motores de bases de datos open sourceMotores de bases de datos open source
Motores de bases de datos open source
 
Google Cloud Platform y Python
Google Cloud Platform y PythonGoogle Cloud Platform y Python
Google Cloud Platform y Python
 

More from Luis Alberto Espinoza Bustamante (8)

Big Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data UniversityBig Data University BD0101EN Certificate _ Big Data University
Big Data University BD0101EN Certificate _ Big Data University
 
Big Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data UniversityBig Data University DS0105EN Certificate _ Big Data University
Big Data University DS0105EN Certificate _ Big Data University
 
Taller Agil Scrum Master
Taller Agil Scrum MasterTaller Agil Scrum Master
Taller Agil Scrum Master
 
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_EspinozaBerkeley_CS105x_Passing_Grade_Luis_Espinoza
Berkeley_CS105x_Passing_Grade_Luis_Espinoza
 
certificadosPostitulos
certificadosPostituloscertificadosPostitulos
certificadosPostitulos
 
SOA Governance, Enfoque Practico
SOA Governance, Enfoque PracticoSOA Governance, Enfoque Practico
SOA Governance, Enfoque Practico
 
Portal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con RedminePortal de Colaboracion SOA con Redmine
Portal de Colaboracion SOA con Redmine
 
Servicios SOA
Servicios SOAServicios SOA
Servicios SOA
 

Recently uploaded

Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 

Recently uploaded (20)

biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,MARCO TEORICO, SEMINARIO DE INVESTIGACION,
MARCO TEORICO, SEMINARIO DE INVESTIGACION,
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 

Best hadoop bigdata architecture resume

  • 1. Internet Desktop Cliente BigData & Responsive Web Architecture Intranet Hadoop Cluster HDFS <Big Data Storage> Ambari <Web Admin Console> Logs Usuario ODBC BD transaccional <BD Relacional> Web Application <Responsive> AngularJS <MVC client Fwork> Web Services <Spring REST> YARN <Resource Mng> MapReduce <Batch Process> TEZ <RealTime Process> PIG <Script 4ETL> Hive <SQL- DWarehouse> HCatalog <Hive TableMng> HBase <NoSql DB> Tableau <BI> Análisis App <Java> JDBC SQOOP <Bulk Load> Excel <Office App> Flume <Java Agent Stream Data> Twitter <Social Network> Load Load SOLR <Search & BI> Zepellin <Notebook Data Analisys> Load WebHDFS <REST> Load Custom App Análisis App <App> HBase API Slider <LongRun Process> Spark <inMemory Process> HDF-Nifi <DataFlow Mng> Custom App <App> JDBC Load Drill <SQL HBase> BigData & Responsive Architecture cheat sheet by Luis Alberto Espinoza Bustamante (SCRUM Master Certified) https://cl.linkedin.com/in/soaagenda www.soaAgenda.com
  • 2. Componentes Hadoop  HDFS: (Hadoop Distributed FileSystem) DataStorage distribuido, repositorio de información (original raw unstructured data) de gran escala(Big DataStorage).  YARN: administrador de recursos en cluster, coordinación ejecución distribuida (scheduling), es el Data Operating System de Hadoop.  MapReduce: framework java para procesamiento (batch) distribuido de bigdata, es como lenguaje de mas bajo nivel, se programa en Java, se esta reemplazando por TEZ (new hadoop2).  Ambari: consola web de administración Hadoop.  TEZ: framework optimizado para procesamiento bigdata, con TEZ se definen diagramas de dataflow a ejecutar (DAG directed acyclic graph), orquestación tareas map o reduce, permite paralelizar tareas map y reduce por separado. TEZ también define Java API (extiende API original MapReduce para compatibilidad). En Ambari se pueden ver los flujos DAG gráficamente. Logra performance que permite interactive-realtime processing de bigdata.  PIG: Script Language (PIG Latin) para realizar procesos ETL y programas de Data Analisys. PIG se compila en MapReduce Jobs (ahora hechos en TEZ)  Hive: Datawarehouse (BD Relacional para Query-Analisis) da una vista Relacional al BigData, permitiendo crear tablas y querys SQL, conservando la data original en HDFS, son como vistas SQL de data en Hadoop (emula tablas-SQL). Ofrece interfaces JDBC y ODBC. Hive encapsula TEZ; traduce SQL (statements) en TEZ (processing graphs)  HCatalog Administrador de Tablas (SQL)expone metadata Hive a otras Hadoop App. Hive y HCatalog se unieron luego Hive Querys usa HCatalog para implementar un “CREATE TABLE”.  HBase: Base de Datos NoSQL, que implementa tablas columnares, para análisis de gran cantidad de datos en tiempo real. Ofrece API Java (org.apache.hadoop.hbase) y REST para integrarse.  SQOOP: bulkcopy, es una aplicación de comandos que permite carga datos desde hacia bases de datos relacionales, posee conectores para las principales bases de datos. Es una aplicación batch que esta fuera de Ambari, (como todo bulkcopy). Aunque se podría usar Flume u otro componente, SQOOP esta optimizado para alta carga datos batch.
  • 3. Componentes Hadoop  Flume: agentes para transferencia de datos (stream data) en Hadoop, stream data pueden ser logs o social data (Twitter). Pequeñas servicios Linux en Java (agente) que mediante manejo de eventos obtienen y cargan datos de stream en el HDFS de Hadoop. Un agente Flume se programa con un archivo de configuración (.conf) , y se ejecuta en consola Linux  WebHDFS: interfaz REST para HDFS, normalmente se usa para realizar carga datos a HDFS mediante aplicaciones (custom load)  SOLR (on Hadoop): búsqueda e indexación, tiene su propia base datos, pero para Hadoop guarda documentos e indexación en HDFS (vía PIG Jobs y conectores). (Search like Google)  Banana for SOLR: Dashboard para Análisis Datos JSON indexados con SOLR  Slider: framework para ejecutar aplicación de largo aliento (longterm) soporta HBase, es motor equivalente a TEZ pero optimizado para longterm.  Hortonworks Dataflow (HDF) y NiFi: Aplicación de diseño e implementación de Dataflow, es equivalente a un ETL, para Hadoop tiene plugins (processors) para HDFS, que permiten extraer y cargar en Hadoop. Tiene una API REST que permite controlar Nifi por una app. HDF es un paquete de NiFi.  Zepellin: es una consola web que permite análisis colaborativo de datos, implementa el concepto “notebook” (en contexto de data analisys), que son plantillas de análisis de datos, que permiten visualizar la data. Zepellin permite ejecutar Spark, y provee varios interpretes (sh, Python).Zepellin junto SPARK permite realizar predictive models, basados en data obtenida de sensores (Twitter se puede tomar como sensor) entre otras fuentes.  SPARK: motor de data processing en memoria, se pueden crear aplicaciones sobre dataset compartidos. SPARK tiene interpretes para programar en Scala, Java, Python, y R. Es la base de los notebooks (aplicaciones de análisis) de Zepellin.
  • 4. Otros Conceptos Relacionados  Bigdata tomar un montón de data no estructurada, volverla algo valioso y en tiempo real.  data warehouse base de datos diseñada para consultas y análisis mas que para transaccionalidad.  Web notebook estructura de datos compartida y que es plataforma de análisis de datos, un espacio de colaboración (usan los data scientist)  IOT: Internet de las Cosas, tiene relación con Bigdata (Hadoop) ya que suelen implementar sensores que entregan mucha información (big data)que solo se puede recopilar-analizar con una plataforma como Hadoop.  Phoenix: permite acceder HBase mediante SQL-JDBC, compila SQL en una serie de HBase scans.  Drill: SQL query engine para Hbase (noSQL) y Hadoop.  WebHCat: (ex Templeton) REST API para HCatalog y Hive, permite crear tablas y querys (SQL) entre otros. En HortonWorks hay que instalarlo.