0
El papel del Cloud Computing en BD & DS
Javier Cacheiro López
jlopez@cesga.es
Contenido
 Soluciones Cloud
 Cloud Federado: EGI FedCloud
 BigData en FedCloud
 Conclusiones
Cloud
Cloud
Modelos Cloud
 Infrastructure as a Service (IaaS)
 Amazon EC2
 Platform as a Service (PaaS)
 Salesforce, Google App En...
Escalabilidad
Escalabilidad vertical: Scale up
Escalabilidad horizontal: Scale out
Virtualización
Virtual Machine Monitor (VMM)
VMM / Hipervisor
Hardware Máquina Física
Máquina
Virtual
Máquina
Virtual
Máquina
Virtual
Anillos de Protección
Tipos de VMM
 VMM Tipo 1 (bare metal)
 Anillo 0
 Hipervisor directamente sobre el hardware
 VMM Tipo 2 (hosted)
 Anil...
Modos de Virtualización
Descripción Ventajas Ejemplos
Rendimiento Xen PV
Rendimiento KVM, Xen HVM
Desventaj
as
Virtualizac...
Soluciones de Virtualización en entornos cloud
 Xen
 KVM
 VMware
 Hyper-V
Xen: Conceptos Básicos
 Dom0: el SO anfitrión con el kernel de Xen
 DomU: cada una de las máquinas virtuales
 VIF: Virt...
Linux paravirt_ops (pv-ops)
 Pv-ops es una parte del kernel de Linux que le
permite ejecutarse como máquina paravirtual
...
Xen StubDom
 StubDom representa un nuevo modelo de
gestión de dispositivos para MV HVM
disponible a partir de Xen 3.3
 E...
KVM: Conceptos Básicos
 Requiere de un procesador con soporte de
virtualización
 Soporta paravirtualización para ciertos...
Virtualización Completa vs Paravirtualización
MicroKernel
Hardware
Máquina
Virtual
Máquina
Virtual
Máquina
Virtual
Driver ...
Xen vs KVM: Linpack
Xen vs KVM: I/O
Standards
 Open Virtualization Format (OVF): Formato
standard para exportar máquinas virtuales
entre VMMs
 Virtual Machi...
Consideraciones prácticas
 Las máquinas virtuales HVM y con
virtualización total pueden presentar problemas
con el reloj ...
Soluciones Cloud IaaS
IaaS Pública IaaS Privada
Google Compute Engine
Public IaaS: Hipervisores
 AWS Amazon EC2:
 Xen en general y Xen HVM para instancias tipo:
cluster compute, high I/O, se...
IaaS
Comparativa
Fuente: http://blog.opennebula.org/?p=4042
Arquitectura OpenNebula
Almacenamiento Cloud
Evolución soluciones almacenamiento
Almacenamiento local
SAN
Distributed Replicated Block Device (DRDB)
Object Storage
Tipos de Almacenamiento
Object Storage
Amazon S3
OpenStack Swift
Ceph
File Storage
NAS (NFS, CIFS)
GlusterFS
Ceph FS
Block...
Object Storage
 Escalable:
 Posibilidad de ampliar/reducir el almacenamiento
 Barato:
 Agrega los discos locales de mu...
Object Storage: Ejemplos
 Amazon S3
 OpenStack Swift
 Ceph
 Object Storage: Ceph filesystem
 Block Storage: Ceph RADO...
Object Storage: Inconvenientes
 Si se actualiza un fichero hay que esperar a
que se propaguen los cambios a todas la
répl...
Soluciones de Almacenamiento IaaS
AWS
Object Storage Block Storage
Simple Storage Service (S3) Elastic Block Storage (EBS)...
Cloud Federado
EGI FedCloud
MonitorizaciónMonitorización
AccountingAccounting
OpenNebula
3.x
MySQL
database
MySQL
database
Summarized records
Running /stopped/finished VMs
Summari...
Ejecutando Hadoop en FedCloud
Configuración de Hadoop
N+1 Hadoop cluster
 1 Master
 NameNode / Secondary NameNode
 JobTracker
 N Slaves
 DataNode
...
Despliegue del cluster
Tiempo de despliegue de un cluster Hadoop de
101 nodos
 Obtener identificador: 71-86 min
 Tiempo ...
Despliegue: Carga en el frontend
Despliegue: Uso de red
Enciclopedia Británica
Wikipedia
GAIA
GAIA
 Misión de la ESA para elaborar un mapa
tridimensional de nuestra Galaxia, la vía
láctea: http://sci.esa.int/gaia/
...
GAIA
Se analizaron distintas soluciones:
• Cassandra
• Hadoop
• InterSystems Cache
• IBM DB2
• PostgreSQL 9 + Pl/Proxy2 + ...
GAIA
 Solución elegida: Hadoop
GAIA: Escalabilidad en FedCloud
Conclusiones
BigData + Cloud
Ejecutar BigData sobre una plataforma IaaS
ofrece ventajas e inconvenientes
Pros
 Elasticidad: tanta como tenga la aplicación
 Rapidez para obtener recursos
 Facilidad en la configuración
 Senci...
Contras
 Tiempo de despliegue:
 Es necesario optimizar el gestor cloud para mejorar
el tiempo de despliegue
 Rendimient...
Upcoming SlideShare
Loading in...5
×

Cloud y BigData

253

Published on

Análisis de las posibilidades que ofrecen las plataformas cloud IaaS para ejecutar calculos BigData. Pruebas de Hadoop sobre como EGI FedCloud

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
253
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
14
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Cloud y BigData"

  1. 1. El papel del Cloud Computing en BD & DS Javier Cacheiro López jlopez@cesga.es
  2. 2. Contenido  Soluciones Cloud  Cloud Federado: EGI FedCloud  BigData en FedCloud  Conclusiones
  3. 3. Cloud
  4. 4. Cloud
  5. 5. Modelos Cloud  Infrastructure as a Service (IaaS)  Amazon EC2  Platform as a Service (PaaS)  Salesforce, Google App Engine  Software as a Service (SaaS)  Google Docs
  6. 6. Escalabilidad Escalabilidad vertical: Scale up Escalabilidad horizontal: Scale out
  7. 7. Virtualización
  8. 8. Virtual Machine Monitor (VMM) VMM / Hipervisor Hardware Máquina Física Máquina Virtual Máquina Virtual Máquina Virtual
  9. 9. Anillos de Protección
  10. 10. Tipos de VMM  VMM Tipo 1 (bare metal)  Anillo 0  Hipervisor directamente sobre el hardware  VMM Tipo 2 (hosted)  Anillo 3  Hipervisor dentro de un SO
  11. 11. Modos de Virtualización Descripción Ventajas Ejemplos Rendimiento Xen PV Rendimiento KVM, Xen HVM Desventaj as Virtualización completa (full virtualization) Simulación completa del hardware de la máquina física Pérdida de rendimiento No es necesario modificar el SO de la MV VMWare Workstation, VirtualBox Paravirtualización Simulación parcial del hardware de la máquina física. La MV es consciente de que corre en un entorno virtual. Es necesario modificar el SO de la MV para que se ejecute en el anillo 1 Virtualización asistida por hardware (Native Virtualization) Virtualización total que se aprovecha del soporte para virtualización presente en el hardware como las extensiones VT de Intel o Pacifica de AMD Es necesario hardware específico
  12. 12. Soluciones de Virtualización en entornos cloud  Xen  KVM  VMware  Hyper-V
  13. 13. Xen: Conceptos Básicos  Dom0: el SO anfitrión con el kernel de Xen  DomU: cada una de las máquinas virtuales  VIF: Virtual Network Inferface  VBD: Virtual Block Device  HVM: Virtualización con soporte hardware
  14. 14. Linux paravirt_ops (pv-ops)  Pv-ops es una parte del kernel de Linux que le permite ejecutarse como máquina paravirtual  Está disponible para x86, x86_64 e ia64  El mismo kernel puede arrancar nativamente en el hardware físico o como máquina paravirtual  Xen y VMware tienen soporte de pv-ops
  15. 15. Xen StubDom  StubDom representa un nuevo modelo de gestión de dispositivos para MV HVM disponible a partir de Xen 3.3  El nuevo modelo utiliza un mini-SO para tareas como acceso a disco, a dispositivos de vídeo o a memoria  Se consigure una mejora considerable de rendimiento
  16. 16. KVM: Conceptos Básicos  Requiere de un procesador con soporte de virtualización  Soporta paravirtualización para ciertos drivers a través de VirtIO  RHEL6 añade KVM y elimina Xen
  17. 17. Virtualización Completa vs Paravirtualización MicroKernel Hardware Máquina Virtual Máquina Virtual Máquina Virtual Driver Driver API Gestión Traducción Binaria Hipervisor Hardware Máquina Virtual Máquina Virtual Máquina Virtual API Gestión API Hardware Virtual HVM Virtualización Completa Paravirtualización
  18. 18. Xen vs KVM: Linpack
  19. 19. Xen vs KVM: I/O
  20. 20. Standards  Open Virtualization Format (OVF): Formato standard para exportar máquinas virtuales entre VMMs  Virtual Machine Disk Format (VMDK): Formato standard para la creación de discos virtuales (usado principalmente por VMware)  VMI: Interfaz alternativo a pv-ops desarrollado por VMware (eliminado a partir del kernel 2.6.37)
  21. 21. Consideraciones prácticas  Las máquinas virtuales HVM y con virtualización total pueden presentar problemas con el reloj del sistema  Muchos VMM no gestionan eficiencientemente MV multi-procesador  El rendimiento de ficheros y LVM para almacenar las MV es similar  Algunas distribuciones de Linux incluyen una versión de /lib/tls que no es compatible con Xen (es recomendable deshabilitarla)
  22. 22. Soluciones Cloud IaaS IaaS Pública IaaS Privada Google Compute Engine
  23. 23. Public IaaS: Hipervisores  AWS Amazon EC2:  Xen en general y Xen HVM para instancias tipo: cluster compute, high I/O, second generation (m3) and Windows  Rackspace:  Xen para Linux y XenServer para Windows  Google Compute Engine  KVM  Windows Azure  Hyper-V
  24. 24. IaaS
  25. 25. Comparativa Fuente: http://blog.opennebula.org/?p=4042
  26. 26. Arquitectura OpenNebula
  27. 27. Almacenamiento Cloud
  28. 28. Evolución soluciones almacenamiento Almacenamiento local SAN Distributed Replicated Block Device (DRDB) Object Storage
  29. 29. Tipos de Almacenamiento Object Storage Amazon S3 OpenStack Swift Ceph File Storage NAS (NFS, CIFS) GlusterFS Ceph FS Block Storage SAS/SATA/iSCSI Amazon EBS Ceph RDB
  30. 30. Object Storage  Escalable:  Posibilidad de ampliar/reducir el almacenamiento  Barato:  Agrega los discos locales de muchos servidores  Replicación automática:  Tolerancia a fallos  Interfaz http: usualmente API REST
  31. 31. Object Storage: Ejemplos  Amazon S3  OpenStack Swift  Ceph  Object Storage: Ceph filesystem  Block Storage: Ceph RADOS Block Device (RDB)  File Storage: Ceph FS  GlusterFS
  32. 32. Object Storage: Inconvenientes  Si se actualiza un fichero hay que esperar a que se propaguen los cambios a todas la réplicas  Preferible para almacenar datos que no cambian mucho  Interfaz http
  33. 33. Soluciones de Almacenamiento IaaS AWS Object Storage Block Storage Simple Storage Service (S3) Elastic Block Storage (EBS) OpenStack Swift Ceph, GlusterFS, NetApp Eucalyptus Walrus Storage Controller (SC) CloudStack Swift Ceph OpenNebula Ceph
  34. 34. Cloud Federado
  35. 35. EGI FedCloud
  36. 36. MonitorizaciónMonitorización
  37. 37. AccountingAccounting OpenNebula 3.x MySQL database MySQL database Summarized records Running /stopped/finished VMs Summarized records Running /stopped/finished VMs meghacloud.cesga.es Apelglobalrepo.
  38. 38. Ejecutando Hadoop en FedCloud
  39. 39. Configuración de Hadoop N+1 Hadoop cluster  1 Master  NameNode / Secondary NameNode  JobTracker  N Slaves  DataNode  TaskTracker
  40. 40. Despliegue del cluster Tiempo de despliegue de un cluster Hadoop de 101 nodos  Obtener identificador: 71-86 min  Tiempo total: 2,5-3 horas
  41. 41. Despliegue: Carga en el frontend
  42. 42. Despliegue: Uso de red
  43. 43. Enciclopedia Británica
  44. 44. Wikipedia
  45. 45. GAIA
  46. 46. GAIA  Misión de la ESA para elaborar un mapa tridimensional de nuestra Galaxia, la vía láctea: http://sci.esa.int/gaia/  El satélite será lanzado en agosto  Datos a analizar: ~1PB
  47. 47. GAIA Se analizaron distintas soluciones: • Cassandra • Hadoop • InterSystems Cache • IBM DB2 • PostgreSQL 9 + Pl/Proxy2 + Cassandra
  48. 48. GAIA  Solución elegida: Hadoop
  49. 49. GAIA: Escalabilidad en FedCloud
  50. 50. Conclusiones
  51. 51. BigData + Cloud Ejecutar BigData sobre una plataforma IaaS ofrece ventajas e inconvenientes
  52. 52. Pros  Elasticidad: tanta como tenga la aplicación  Rapidez para obtener recursos  Facilidad en la configuración  Sencillez en el despliegue  Ideal para pruebas
  53. 53. Contras  Tiempo de despliegue:  Es necesario optimizar el gestor cloud para mejorar el tiempo de despliegue  Rendimiento  Es necesario optimizar las MV para mejorar su rendimiento de E/S  Entorno heterogéneo  Rendimiento de cada MV variable dependiendo de la carga del anfitrión
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×