SlideShare a Scribd company logo
1 of 35
Download to read offline
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Data	
  Analy6cs	
  con	
  Hadoop	
  
Data	
  
Analy6cs	
  
Data	
  
Value	
  
Data	
  
Ingest	
  
Agenda	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
	
  
–  ¿Qué	
  es	
  Hadoop?	
  
–  Técnicas	
  para	
  capturar	
  datos	
  
–  Análisis	
  de	
  datos	
  con	
  Hadoop	
  
–  Casos	
  prác6cos	
  
Myself	
  
Ø  Licenciado	
  en	
  CC.	
  Matemá6cas	
  e	
  Ingeniero	
  Técnico	
  en	
  
Informá6ca	
  de	
  Ges6ón.	
  
Ø  Empecé	
  a	
  trabajar	
  en	
  IT	
  hace	
  más	
  de	
  14	
  años.	
  
Ø  Actualmente	
  trabajo	
  en	
  el	
  área	
  de	
  arquitectura	
  de	
  una	
  
en6dad	
  financiera	
  como	
  Arquitecto	
  Big	
  Data	
  diseñando	
  
soluciones	
  en	
  entornos	
  Big	
  Data.	
  
Ø  Instructor	
  de	
  Hadoop.	
  
Ø  Soy	
  un	
  entusiasta	
  de	
  la	
  analí6ca	
  de	
  los	
  datos	
  en	
  con6nua	
  
formación	
  en	
  técnicas	
  de	
  Machine	
  Learning	
  y	
  Data	
  Mining.	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  hUps://www.linkedin.com/in/fcojavierlahoz	
  
	
  
What’s	
  that?	
  
Hadoop	
  es	
  un	
  sistema	
  de	
  código	
  abierto	
  que	
  se	
  u6liza	
  para	
  
almacenar,	
  procesar	
  y	
  explotar	
  grades	
  volúmenes	
  de	
  datos.	
  
Hadoop	
  se	
  inspiró	
  en	
  los	
  documentos	
  de	
  Google	
  para	
  
MapReduce	
  y	
  Google	
  File	
  System.	
  
Componentes:	
  
•  HDFS.	
  El	
  Hadoop	
  Distributed	
  File	
  System	
  es	
  un	
  sistema	
  de	
  
archivos	
  distribuido,	
  escalable	
  y	
  tolerante	
  a	
  fallos.	
  
•  MapReduce.	
  Paradigma	
  de	
  computación	
  paralela	
  donde	
  se	
  
distribuyen	
  las	
  tareas	
  para	
  su	
  procesamiento	
  unitario	
  (Map)	
  y	
  se	
  
agrupan	
  una	
  vez	
  procesados	
  (Reduce).	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
•  Flume,	
  es	
  una	
  herramienta	
  distribuida,	
  
fiable	
  y	
  escalable	
  para	
  la	
  recolección,	
  
agregación	
  y	
  carga	
  de	
  grandes	
  can6dades	
  
de	
  datos.	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
•  Flume,	
  es	
  una	
  herramienta	
  distribuida,	
  
fiable	
  y	
  escalable	
  para	
  la	
  recolección,	
  
agregación	
  y	
  carga	
  de	
  grandes	
  can6dades	
  
de	
  datos.	
  
	
  
•  Sqoop,	
  está	
  diseñada	
  para	
  transferir	
  datos	
  
de	
  manera	
  eficiente	
  y	
  escalable	
  de	
  bases	
  
de	
  datos	
  relacionales	
  a	
  Hadoop.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Flume	
  
Flume	
  6ene	
  una	
  arquitectura	
  simple	
  y	
  flexible	
  basada	
  en	
  el	
  
streaming	
  de	
  datos.	
  
Es	
  tolerante	
  a	
  fallos	
  y	
  escalable.	
  
Se	
  basa	
  en	
  una	
  configuración	
  descentralizada	
  basada	
  en	
  
ficheros	
  planos.	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
 
La	
  arquitectura	
  de	
  Flume	
  está	
  basada	
  en	
  agentes:	
  
	
  
	
  
	
  
	
  
Agente	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Flume	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Source	
   Sink	
  
Channel	
  
Datos	
   Datos	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Sqoop	
  
Con	
  Sqoop	
  se	
  puede	
  importar	
  datos	
  de	
  bases	
  de	
  datos	
  
relacionales	
  a	
  HDFS,	
  Hive	
  o	
  HBase.	
  
Algunas	
  bases	
  de	
  datos	
  serían:	
  	
  
–  Oracle	
  
–  MySQL	
  
–  Teradata	
  
–  DB2	
  
–  ….	
  
También	
  se	
  pueden	
  exportar	
  ficheros	
  de	
  HDFS	
  a	
  bases	
  de	
  
datos	
  relacionales.	
  	
  
	
  
	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Sqoop	
  
Caracterís6cas	
  de	
  Sqoop:	
  
•  Sqoop	
  puede	
  importar	
  una	
  tabla	
  o	
  una	
  esquema	
  de	
  base	
  
de	
  datos.	
  
•  También	
  se	
  pueden	
  filtrar	
  los	
  datos	
  de	
  una	
  tabla,	
  por	
  
ejemplo,	
  para	
  cargar	
  incrementales	
  basados	
  en	
  una	
  
fecha	
  de	
  alta	
  o	
  modificación.	
  
•  Permite	
  proyectar	
  una	
  tabla	
  recuperando	
  sólo	
  los	
  
campos	
  requeridos.	
  
	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
	
  
Cuando	
  ya	
  tenemos	
  datos	
  cargados	
  en	
  nuestro	
  Cluster	
  de	
  
Hadoop	
  existen	
  dis6ntas	
  herramientas	
  para	
  analizar	
  los	
  
datos	
  según	
  el	
  lenguaje	
  a	
  u6lizar.	
  
	
  
	
  
También	
  existen	
  herramientas	
  OpenSource	
  y	
  comerciales	
  
que,	
  mediante	
  workflows,	
  nos	
  permiten	
  procesar	
  y	
  
analizar	
  los	
  datos.	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
•  Hive,	
  abstraccion	
  por	
  encima	
  de	
  Hadoop	
  para	
  ejecutar	
  
procesos	
  MapReduce	
  mediante	
  un	
  interfaz	
  SQL.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
•  Hive,	
  abstraccion	
  por	
  encima	
  de	
  Hadoop	
  para	
  ejecutar	
  
procesos	
  MapReduce	
  mediante	
  un	
  interfaz	
  SQL.	
  
•  Pig,	
  lenguaje	
  de	
  alto	
  nivel	
  para	
  el	
  procesamiento	
  de	
  
procesos	
  MapReduce	
  mediante	
  flujos	
  de	
  datos.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Hive	
  es	
  un	
  sistema	
  de	
  almacen	
  de	
  datos	
  (data	
  
warehouse)	
  capaz	
  de	
  seleccionar	
  y	
  ges6onar	
  grandes	
  
conjuntos	
  de	
  datos	
  almacenados	
  en	
  HDFS.	
  
	
  
Se	
  implementa	
  en	
  SQL	
  (HiveQL).	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Hive	
  es	
  un	
  sistema	
  de	
  almacen	
  de	
  datos	
  (data	
  
warehouse)	
  capaz	
  de	
  seleccionar	
  y	
  ges6onar	
  grandes	
  
conjuntos	
  de	
  datos	
  almacenados	
  en	
  HDFS.	
  
	
  
Se	
  implementa	
  en	
  SQL	
  (HiveQL).	
  
	
  
Hive	
  NO	
  es	
  una	
  base	
  de	
  datos	
  y	
  usa	
  los	
  recursos	
  de	
  
Hadoop	
  para	
  almacenar	
  y	
  procesar.	
  
Sólo	
  implementa	
  un	
  subconjunto	
  del	
  estandard	
  SQL.	
  
	
  
Tiene	
  latencias	
  grandes	
  (por	
  el	
  uso	
  de	
  MapReduce).	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Casos	
  de	
  Uso:	
  
	
  
•  Almacenamiento	
  histórico	
  ges6onado	
  con	
  
par6ciones,	
  por	
  ejemplo	
  con	
  fecha	
  (año,	
  mes,	
  día).	
  
•  Para	
  repor6ng	
  tradicional	
  o	
  avanzado	
  a	
  través	
  de	
  
herramientas	
  de	
  BI.	
  
•  Para	
  analí6ca	
  avanzada	
  mediante	
  paquetes	
  
estadís6cos,	
  como	
  por	
  ejemplo,	
  R.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Arquitectura	
  de	
  Hive:	
  
	
  
•  Hive	
  usa	
  un	
  schema	
  “on	
  read”	
  lo	
  que	
  implica	
  que	
  no	
  
se	
  validan	
  los	
  datos	
  cuando	
  se	
  cargan	
  o	
  se	
  insertan	
  y	
  
pueden	
  no	
  ser	
  correctos	
  cuando	
  se	
  consultan	
  
devolviendo	
  valores	
  NULL.	
  
•  Los	
  datos	
  se	
  almacenan	
  en	
  ficheros	
  dentro	
  del	
  HDFS	
  
en	
  el	
  siguiente	
  path	
  (por	
  defecto):	
  
	
  	
  	
  	
  /user/hive/warehouse/<db_name>.db/<db_table>/	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
•  Los	
  metadatos	
  (estructuras)	
  se	
  almacenan	
  en	
  el	
  
Metastore	
  que	
  está	
  compuesto	
  por	
  un	
  servicio	
  y	
  un	
  
repositorio.	
  Hay	
  varios	
  6pos	
  de	
  metastore:	
  
–  Metastore	
  embebido	
  
–  Metastore	
  local	
  
–  Metastore	
  remoto:	
  
	
  
	
  
	
  
	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Metastore	
   MySQL	
  
Hive	
  Cli	
  
BI	
  Tools	
   HiveServer2	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Pig	
  es	
  una	
  plataforma	
  para	
  el	
  análisis	
  de	
  grandes	
  
conjuntos	
  de	
  datos	
  que	
  consiste	
  en	
  un	
  lenguaje	
  de	
  alto	
  
nivel	
  para	
  expresar	
  programas	
  de	
  análisis	
  de	
  datos.	
  
En	
  Pig	
  se	
  procesa	
  la	
  información	
  como	
  un	
  flujo	
  de	
  
datos	
  encadenando	
  las	
  salidas	
  y	
  entradas	
  de	
  las	
  
operaciones.	
  
Las	
  operaciones	
  realizadas	
  en	
  Pig	
  se	
  transforman	
  en	
  
procesos	
  MapReduce	
  que	
  se	
  ejecutan	
  sobre	
  el	
  Cluster.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Arquitectura	
  de	
  Pig:	
  
	
  
Pig	
  es	
  una	
  capa	
  que	
  está	
  
por	
  encima	
  de	
  Hadoop.	
  Los	
  
flujos	
  de	
  datos	
  se	
  
procesarán	
  con	
  MapReduce	
  
leyendo	
  y	
  escribiendo	
  en	
  
HDFS	
  u	
  otras	
  fuentes	
  
(MongoDB,	
  Cassandra,	
  
HBase)	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Pig	
  
Scrip6ng	
  
MapReduce	
  
HDFS	
  
	
  
	
  
	
  
	
  
	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
   	
   	
   	
  	
  	
  	
  	
  B	
  =	
  foreach	
  A	
  generate	
  $0	
  as	
  id;	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
   	
   	
   	
  	
  	
  	
  	
  B	
  =	
  foreach	
  A	
  generate	
  $0	
  as	
  id;	
  
	
   	
   	
   	
   	
   	
   	
   	
   	
  	
  	
  	
  	
  	
  store	
  B	
  into	
  ‘result.csv’ 	
  	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Casos	
  prác6cos	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Ø Análisis	
  de	
  Tweets	
  con	
  Hive	
  
Ø Procesamiento	
  de	
  datos	
  mediante	
  Pig	
  
	
  
	
  
	
  
	
  
¿Ganas	
  de	
  más?	
  
Ø Cursos	
  online	
  en	
  la	
  plataforma	
  
SoyData.net	
  (BigData4Success):	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
ü Introducción	
  a	
  Hadoop	
  e	
  instalación	
  en	
  AWS	
  
ü Inges6ón	
  y	
  análisis	
  de	
  datos	
  con	
  casos	
  prác6cos	
  
desplegados	
  en	
  AWS	
  
	
  Cupón	
  de	
  promoción:	
  PROMOLANZAMIENTO	
  
	
  
	
  
Q	
  &	
  A	
  
	
  
Thank	
  you	
  for	
  your	
  
aUen6on!!	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Data	
  Analy6cs	
  con	
  Hadoop	
  
Data	
  
Analy6cs	
  
Data	
  
Value	
  
Data	
  
Ingest	
  

More Related Content

What's hot

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Ángel Rayo
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Stratebi
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 

What's hot (17)

Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
Hadoop
HadoopHadoop
Hadoop
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de usoEl futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
 

Similar to OpenAnalytics 04/2015 - Data Analytics con Hadoop

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptxClikC
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBkattia vargas
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016nnakasone
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 

Similar to OpenAnalytics 04/2015 - Data Analytics con Hadoop (20)

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Polybase
PolybasePolybase
Polybase
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data2
Big data2Big data2
Big data2
 
Hadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadasHadoop: tecnologias relacionadas
Hadoop: tecnologias relacionadas
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEB
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 

More from OpenAnalytics Spain

OpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics Spain
 
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics Spain
 
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpen Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpenAnalytics Spain
 
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...OpenAnalytics Spain
 
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...OpenAnalytics Spain
 
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpen Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpenAnalytics Spain
 
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpen Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpenAnalytics Spain
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpenAnalytics Spain
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics Spain
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics Spain
 
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics Spain
 
OpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics Spain
 
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics Spain
 
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics Spain
 
Open Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpen Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpenAnalytics Spain
 
OpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics Spain
 

More from OpenAnalytics Spain (16)

OpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs ROpenAnalytics 04/2015 - Watson vs R
OpenAnalytics 04/2015 - Watson vs R
 
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLVOpenAnalytics 04/2015 - CustomeR Life Value - CLV
OpenAnalytics 04/2015 - CustomeR Life Value - CLV
 
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATAOpen Analytics 2014 - Ángel Sánchez - UX & BIG DATA
Open Analytics 2014 - Ángel Sánchez - UX & BIG DATA
 
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
Open Analytics 2014 - Daniele grasso - Herramientas Open Source en periodismo...
 
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
Open Analytics 2014 - Ángel Rey - Procesamiento y análisis de mensajes geopos...
 
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open SourceOpen Analytics 2014 - Pedro Alves - Innovation though Open Source
Open Analytics 2014 - Pedro Alves - Innovation though Open Source
 
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business AnalyticsOpen Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
Open Analytics 2014 - Emilio Arias - Intro evento + Business Analytics
 
Open Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con KnimeOpen Analytics - Minería de Datos con Knime
Open Analytics - Minería de Datos con Knime
 
OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014 OpenAnalytics - Taller de Talend 13/02/2014
OpenAnalytics - Taller de Talend 13/02/2014
 
OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)OpenAnalytics - Minería de datos por Diego García (Unican)
OpenAnalytics - Minería de datos por Diego García (Unican)
 
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio BustilloOpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
OpenAnalytics - Smartcities y Software libre por Ignacio Bustillo
 
OpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo GarridoOpenAnalytics - Periodismo de datos por Hugo Garrido
OpenAnalytics - Periodismo de datos por Hugo Garrido
 
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto AbellaOpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
OpenAnalytics - OpenData orientado al mundo empresarial por Alberto Abella
 
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)OpenAnalytics - BigData por Ivan del Prado (Datasalt)
OpenAnalytics - BigData por Ivan del Prado (Datasalt)
 
Open Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de EquifaxOpen Analytics - Data Quality por Diego Martínez de Equifax
Open Analytics - Data Quality por Diego Martínez de Equifax
 
OpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio AriasOpenAnalytics - Business Intelligence por Emilio Arias
OpenAnalytics - Business Intelligence por Emilio Arias
 

Recently uploaded

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosJhonJairoRodriguezCe
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanamcerpam
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxJorgeParada26
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.FlorenciaCattelani
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIhmpuellon
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21mariacbr99
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...JohnRamos830530
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estossgonzalezp1
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativanicho110
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxFederico Castellari
 

Recently uploaded (10)

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 

OpenAnalytics 04/2015 - Data Analytics con Hadoop

  • 1. Fco.  Javier  Lahoz  Sevilla   Data  Analy6cs  con  Hadoop   Data   Analy6cs   Data   Value   Data   Ingest  
  • 2. Agenda   Fco.  Javier  Lahoz  Sevilla     –  ¿Qué  es  Hadoop?   –  Técnicas  para  capturar  datos   –  Análisis  de  datos  con  Hadoop   –  Casos  prác6cos  
  • 3. Myself   Ø  Licenciado  en  CC.  Matemá6cas  e  Ingeniero  Técnico  en   Informá6ca  de  Ges6ón.   Ø  Empecé  a  trabajar  en  IT  hace  más  de  14  años.   Ø  Actualmente  trabajo  en  el  área  de  arquitectura  de  una   en6dad  financiera  como  Arquitecto  Big  Data  diseñando   soluciones  en  entornos  Big  Data.   Ø  Instructor  de  Hadoop.   Ø  Soy  un  entusiasta  de  la  analí6ca  de  los  datos  en  con6nua   formación  en  técnicas  de  Machine  Learning  y  Data  Mining.     Fco.  Javier  Lahoz  Sevilla  hUps://www.linkedin.com/in/fcojavierlahoz    
  • 4. What’s  that?   Hadoop  es  un  sistema  de  código  abierto  que  se  u6liza  para   almacenar,  procesar  y  explotar  grades  volúmenes  de  datos.   Hadoop  se  inspiró  en  los  documentos  de  Google  para   MapReduce  y  Google  File  System.   Componentes:   •  HDFS.  El  Hadoop  Distributed  File  System  es  un  sistema  de   archivos  distribuido,  escalable  y  tolerante  a  fallos.   •  MapReduce.  Paradigma  de  computación  paralela  donde  se   distribuyen  las  tareas  para  su  procesamiento  unitario  (Map)  y  se   agrupan  una  vez  procesados  (Reduce).     Fco.  Javier  Lahoz  Sevilla  
  • 5. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 6. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 7. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 8. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 9. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:       Fco.  Javier  Lahoz  Sevilla  
  • 10. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:   •  Flume,  es  una  herramienta  distribuida,   fiable  y  escalable  para  la  recolección,   agregación  y  carga  de  grandes  can6dades   de  datos.       Fco.  Javier  Lahoz  Sevilla  
  • 11. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:   •  Flume,  es  una  herramienta  distribuida,   fiable  y  escalable  para  la  recolección,   agregación  y  carga  de  grandes  can6dades   de  datos.     •  Sqoop,  está  diseñada  para  transferir  datos   de  manera  eficiente  y  escalable  de  bases   de  datos  relacionales  a  Hadoop.   Fco.  Javier  Lahoz  Sevilla  
  • 12. Técnicas  para  capturar  datos  -­‐  Flume   Flume  6ene  una  arquitectura  simple  y  flexible  basada  en  el   streaming  de  datos.   Es  tolerante  a  fallos  y  escalable.   Se  basa  en  una  configuración  descentralizada  basada  en   ficheros  planos.     Fco.  Javier  Lahoz  Sevilla  
  • 13.   La  arquitectura  de  Flume  está  basada  en  agentes:           Agente                       Técnicas  para  capturar  datos  -­‐  Flume   Fco.  Javier  Lahoz  Sevilla   Source   Sink   Channel   Datos   Datos  
  • 14. Técnicas  para  capturar  datos  -­‐  Sqoop   Con  Sqoop  se  puede  importar  datos  de  bases  de  datos   relacionales  a  HDFS,  Hive  o  HBase.   Algunas  bases  de  datos  serían:     –  Oracle   –  MySQL   –  Teradata   –  DB2   –  ….   También  se  pueden  exportar  ficheros  de  HDFS  a  bases  de   datos  relacionales.             Fco.  Javier  Lahoz  Sevilla  
  • 15. Técnicas  para  capturar  datos  -­‐  Sqoop   Caracterís6cas  de  Sqoop:   •  Sqoop  puede  importar  una  tabla  o  una  esquema  de  base   de  datos.   •  También  se  pueden  filtrar  los  datos  de  una  tabla,  por   ejemplo,  para  cargar  incrementales  basados  en  una   fecha  de  alta  o  modificación.   •  Permite  proyectar  una  tabla  recuperando  sólo  los   campos  requeridos.         Fco.  Javier  Lahoz  Sevilla  
  • 16. Análisis  de  datos  con  Hadoop     Cuando  ya  tenemos  datos  cargados  en  nuestro  Cluster  de   Hadoop  existen  dis6ntas  herramientas  para  analizar  los   datos  según  el  lenguaje  a  u6lizar.       También  existen  herramientas  OpenSource  y  comerciales   que,  mediante  workflows,  nos  permiten  procesar  y   analizar  los  datos.     Fco.  Javier  Lahoz  Sevilla  
  • 17. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.       Fco.  Javier  Lahoz  Sevilla  
  • 18. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   Fco.  Javier  Lahoz  Sevilla  
  • 19. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   •  Hive,  abstraccion  por  encima  de  Hadoop  para  ejecutar   procesos  MapReduce  mediante  un  interfaz  SQL.   Fco.  Javier  Lahoz  Sevilla  
  • 20. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   •  Hive,  abstraccion  por  encima  de  Hadoop  para  ejecutar   procesos  MapReduce  mediante  un  interfaz  SQL.   •  Pig,  lenguaje  de  alto  nivel  para  el  procesamiento  de   procesos  MapReduce  mediante  flujos  de  datos.   Fco.  Javier  Lahoz  Sevilla  
  • 21. Análisis  de  datos  con  Hadoop  -­‐  Hive   Hive  es  un  sistema  de  almacen  de  datos  (data   warehouse)  capaz  de  seleccionar  y  ges6onar  grandes   conjuntos  de  datos  almacenados  en  HDFS.     Se  implementa  en  SQL  (HiveQL).                     Fco.  Javier  Lahoz  Sevilla  
  • 22. Análisis  de  datos  con  Hadoop  -­‐  Hive   Hive  es  un  sistema  de  almacen  de  datos  (data   warehouse)  capaz  de  seleccionar  y  ges6onar  grandes   conjuntos  de  datos  almacenados  en  HDFS.     Se  implementa  en  SQL  (HiveQL).     Hive  NO  es  una  base  de  datos  y  usa  los  recursos  de   Hadoop  para  almacenar  y  procesar.   Sólo  implementa  un  subconjunto  del  estandard  SQL.     Tiene  latencias  grandes  (por  el  uso  de  MapReduce).     Fco.  Javier  Lahoz  Sevilla  
  • 23. Análisis  de  datos  con  Hadoop  -­‐  Hive   Casos  de  Uso:     •  Almacenamiento  histórico  ges6onado  con   par6ciones,  por  ejemplo  con  fecha  (año,  mes,  día).   •  Para  repor6ng  tradicional  o  avanzado  a  través  de   herramientas  de  BI.   •  Para  analí6ca  avanzada  mediante  paquetes   estadís6cos,  como  por  ejemplo,  R.   Fco.  Javier  Lahoz  Sevilla  
  • 24. Análisis  de  datos  con  Hadoop  -­‐  Hive   Arquitectura  de  Hive:     •  Hive  usa  un  schema  “on  read”  lo  que  implica  que  no   se  validan  los  datos  cuando  se  cargan  o  se  insertan  y   pueden  no  ser  correctos  cuando  se  consultan   devolviendo  valores  NULL.   •  Los  datos  se  almacenan  en  ficheros  dentro  del  HDFS   en  el  siguiente  path  (por  defecto):          /user/hive/warehouse/<db_name>.db/<db_table>/       Fco.  Javier  Lahoz  Sevilla  
  • 25. Análisis  de  datos  con  Hadoop  -­‐  Hive   •  Los  metadatos  (estructuras)  se  almacenan  en  el   Metastore  que  está  compuesto  por  un  servicio  y  un   repositorio.  Hay  varios  6pos  de  metastore:   –  Metastore  embebido   –  Metastore  local   –  Metastore  remoto:               Fco.  Javier  Lahoz  Sevilla   Metastore   MySQL   Hive  Cli   BI  Tools   HiveServer2  
  • 26. Análisis  de  datos  con  Hadoop  -­‐  Pig   Pig  es  una  plataforma  para  el  análisis  de  grandes   conjuntos  de  datos  que  consiste  en  un  lenguaje  de  alto   nivel  para  expresar  programas  de  análisis  de  datos.   En  Pig  se  procesa  la  información  como  un  flujo  de   datos  encadenando  las  salidas  y  entradas  de  las   operaciones.   Las  operaciones  realizadas  en  Pig  se  transforman  en   procesos  MapReduce  que  se  ejecutan  sobre  el  Cluster.   Fco.  Javier  Lahoz  Sevilla  
  • 27. Análisis  de  datos  con  Hadoop  -­‐  Pig   Arquitectura  de  Pig:     Pig  es  una  capa  que  está   por  encima  de  Hadoop.  Los   flujos  de  datos  se   procesarán  con  MapReduce   leyendo  y  escribiendo  en   HDFS  u  otras  fuentes   (MongoDB,  Cassandra,   HBase)       Fco.  Javier  Lahoz  Sevilla   Pig   Scrip6ng   MapReduce   HDFS            
  • 28. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales           Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 29. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);     Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 30. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);                  B  =  foreach  A  generate  $0  as  id;     Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 31. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);                  B  =  foreach  A  generate  $0  as  id;                              store  B  into  ‘result.csv’       Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 32. Casos  prác6cos   Fco.  Javier  Lahoz  Sevilla   Ø Análisis  de  Tweets  con  Hive   Ø Procesamiento  de  datos  mediante  Pig          
  • 33. ¿Ganas  de  más?   Ø Cursos  online  en  la  plataforma   SoyData.net  (BigData4Success):     Fco.  Javier  Lahoz  Sevilla   ü Introducción  a  Hadoop  e  instalación  en  AWS   ü Inges6ón  y  análisis  de  datos  con  casos  prác6cos   desplegados  en  AWS    Cupón  de  promoción:  PROMOLANZAMIENTO      
  • 34. Q  &  A     Thank  you  for  your   aUen6on!!   Fco.  Javier  Lahoz  Sevilla  
  • 35. Fco.  Javier  Lahoz  Sevilla   Data  Analy6cs  con  Hadoop   Data   Analy6cs   Data   Value   Data   Ingest