• Save
Impacto de Cloud Computing en los experimentos del LHC
Upcoming SlideShare
Loading in...5
×
 

Impacto de Cloud Computing en los experimentos del LHC

on

  • 365 views

Experiencias de nubes científicas: El modelo computacional del LHC

Experiencias de nubes científicas: El modelo computacional del LHC
Worldwide LHC Computing Grid (WLCG)
Fernando H. Barreiro Megino (CERN IT - Experiment Support)

Statistics

Views

Total Views
365
Views on SlideShare
365
Embed Views
0

Actions

Likes
1
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • The accelerator complex at CERN is a succession of machines with increasingly higher energies. Each machine injects the beam into the next one, which takes over to bring the beam to an even higher energy, and so on. In the LHC—the last element of this chain—each particle beam is accelerated up to the record energy of 7 TeV. In addition, most of the other accelerators in the chain have their own experimental halls, where the beams are used for experiments at lower energies.
  • 2012 ended without the world destroyed, but with a new heavy boson discovered that matches the Higgs boson.

Impacto de Cloud Computing en los experimentos del LHC Impacto de Cloud Computing en los experimentos del LHC Presentation Transcript

  • EGI-InSPIRE Impacto de Cloud Computing en los experimentos del LHC Fernando H. Barreiro Megino (CERN IT - Experiment Support) 1EGI-InSPIRE RI-261323 www.egi.eu
  • CERN y el LHC 2EGI-InSPIRE RI-261323 www.egi.eu
  • CERN: El laboratorio de física mas grande del mundo ~ 1 billón de CHF/año 20 estados miembros y creciendo 2.424 miembros de personal 10.000+ usuarios en todo el mundo 3EGI-InSPIRE RI-261323 www.egi.eu
  • Entendiendo el Big Bang Big Bang 13.7 Billion Years Today 1028 cmEGI-InSPIRE RI-261323 www.egi.eu
  • Visión global del LHC 5EGI-InSPIRE RI-261323 www.egi.eu
  • Instalaciones de ATLASEGI-InSPIRE RI-261323 www.egi.eu
  • Hitos alcanzados en CERN 1954 Se funda el CERN bajo la tutela de la UNESCO 1957 Comienza la operación del primer acelerador 1983 Descubrimiento de las partículas W y Z 1989 El gigante LEP comienza a operar 1989 Se inventa la World Wide Web 2004 Se encuentra por primera vez antimateria 2008 El LHC se pone en marcha 7EGI-InSPIRE RI-261323 www.egi.eu
  • 4 Julio 2012 Más de1,000 estaciones de TV retransmitieron el evento y mas de 1 billón de personas lo vieron “This is just the beginning. Our understanding of the Universe is about to change.” CERN’s Director-General “It’s really an incredible thing that it happened in my lifetime.” Peter Higgs 8EGI-InSPIRE RI-261323 www.egi.eu
  • El modelo computacional del LHC Worldwide LHC Computing Grid (WLCG) 9EGI-InSPIRE RI-261323 www.egi.eu
  • Requerimientos computacionales de la Fisica de Altas Energias (FAE) • Los desafíos del análisis de datos es su volumen y la necesidad de compartir los datos a través de la colaboración del LHC • Debemos almacenar y analizar Petabytes de datos • Colaboración internacional distribuida por todo el mundo • La financiación es nacional Jobs de simulación de ATLAS Volumen de datos almacenados por ATLAS en el grid Y estas gráficas muestran solamente uno de los 4 experimentos del LHC Y estas gráficas muestran solamente uno de los 4 experimentos del LHC 10EGI-InSPIRE RI-261323 www.egi.eu
  • Modelo MONARC (1998) • Arquitectura jerárquica fundamento del Worldwide LHC Computing Grid 11EGI-InSPIRE RI-261323 www.egi.eu
  • El WLCG en acción (2013) • Desde el inicio de la toma de datos, el WLCG ha funcionado con éxito y ha permitido el análisis de datos a miles de físicos • Sin embargo la mayoría de las soluciones en uso son específicas al dominio HEP, desarrolladas y mantenidas por la comunidad de FAE • En 2013 la FAE no es un caso de computación particular • Tenemos que aprender de la industria para mejorar la sostenibilidad de nuestro entorno 12EGI-InSPIRE RI-261323 www.egi.eu
  • Modelo de integración básico entre grid y cloud The grid of clouds 13EGI-InSPIRE RI-261323 www.egi.eu
  • Modelo simplificado para la integración con clouds 14EGI-InSPIRE RI-261323 www.egi.eu
  • Observaciones sobre nuestra disposición 1. Aún no hemos definido una estrategia para el uso de almacenamiento transitorio o final en la nube • Necesidad de integrar el almacenamiento de datos en la nube con la capa de gestión de datos del WLCG 1. Usamos principalmente la nube para computación y los datos se transfieren a través de la WAN • Jobs de simulación: Bajo I/O. Carga idónea para la nube • Jobs de análisis: Mayor I/O. Aun preferimos ejecutarlos en el grid (cerca del elemento de almacenamiento) 15EGI-InSPIRE RI-261323 www.egi.eu
  • Creación de nubes privadas en la FAE Virtualización de nuestros centros de cálculo 16EGI-InSPIRE RI-261323 www.egi.eu
  • Motivación • Varios centros de cálculo y proyectos nacionales asociados a actividades del CERN están adoptando soluciones de código abierto para administrar sus recursos como una infraestructura cloud • Facilidad de uso • Flexibilidad en la gestión de instalaciones • Provisión dinámica de recursos a múltiples comunidades de usuarios Ejemplo: Openstack como solución adoptada en conjunto con la industria Granjas online de ATLAS&CMS04/02/13 17EGI-InSPIRE RI-261323 www.egi.eu
  • CERN Agile Infrastructure • Objetivo para 2015: manejar de manera eficiente y sostenible un centro de cálculo completamente virtualizado • Manejar los centros de datos de Ginebra y Budapest (en construcción) como un único pool • Gestionar infraestructura general y los recursos del Tier 0 • 100K-300K máquinas virtuales en 15K hypervisors 18EGI-InSPIRE RI-261323 www.egi.eu
  • CERN Agile Infrastructure04/02/13 19EGI-InSPIRE RI-261323 www.egi.eu
  • CERN Agile Infrastructure: Openstack • El objetivo para la infraestructura virtualizada en CERN es proporcionar el mismo rendimiento que la infraestructura original • Durante el despliegue de la nube Openstack en CERN, los experimentos ATLAS y CMS recibieron recursos significativos: 200 máquinas virtuales x (4cores, 8 GB RAM, 80 GB de disco) • Los experimentos obtienen recursos adicionales • La infraestructura obtiene carga útil para la comisión de la infraestructura y la comparación con la infraestructura original 20EGI-InSPIRE RI-261323 www.egi.eu
  • CERN Agile Infrastructure: Openstack • ATLAS opera una cola estándar • Jobs de HammerCloud: jobs de prueba que miden métricas sobre el rendimiento de la infraestructura (p.ej. CPU y red) • Trabajos reales de simulación: proporcionan una estimación sobre la fiabilidad del sistema • Sólo durante enero ~ 15k días de CPU de trabajos exitosos Uso de los recursos por ATLAS: Jobs Uso de los recursos por ATLAS: Jobs • CMS está ejecutando pruebas de continuamente quemando CPU continuamente quemando CPU simulación y análisis • Desarrollo de la gestión automática del ciclo de vida de las máquinas virtuales 21EGI-InSPIRE RI-261323 www.egi.eu
  • HLT trigger farms • Long Shutdown 1: Paro de la actividad del LHC entre Febrero 2013 y Noviembre 2014 para mantenimiento y upgrades • ATLAS y CMS disponen de granjas con ~3000 máquinas junto a los detectores para la adquisición de datos • ATLAS: 15000 CPUs, 315 TB almacenamiento • CMS: 13000 CPUs, 232 TB almacenamiento • Qué hacer con estos recursos durante la parada técnica? • La flexibilidad de Cloud Computing permite reusarlos temporalmente para trabajos de simulación • Openstack se está instalando como infraestructura superpuesta para gestionar los recursos y poder cambiar rápidamente la granja entre distintos usos • Las granjas se necesitarán una vez al mes para pruebas en el SW de adquisición de datos! 22EGI-InSPIRE RI-261323 www.egi.eu
  • Y muchas más opciones e iniciativas • OpenNebula (ej. Port d’Informació Científica) • StratusLab (ej. Rutherford Appleton Laboratory) • VMWare ESXi (ej. Lancaster University) … • El uso generalizado de cloud middleware podría reducir dependencias sobre grid middleware • Dirección pendiente por entender y desarrollar • Es necesario estandarizar interfaces y funcionalidades 23EGI-InSPIRE RI-261323 www.egi.eu
  • Uso de nubes públicas en la FAE Expansión a proveedores externos 24EGI-InSPIRE RI-261323 www.egi.eu
  • Motivación ¿Por qué no expandir a la nube durante picos de demanda? • ALICE, ATLAS, CMS y LHCb realizando pruebas en clouds públicas • Clouds de investigación • Proveedores comerciales 25EGI-InSPIRE RI-261323 www.egi.eu
  • HelixNebula – La Nube Científica Email:contact@helix-nebula.eu Twitter: HelixNebulaSC Website: http://www.helix-nebula.eu/ 26EGI-InSPIRE RI-261323 www.egi.eu
  • Plan estratégico de HelixNebula • Actividad pionera en estudiar relaciones público-privadas 1. Realizar evaluaciones técnicas de proveedores comerciales europeos 2. Estudiar aspectos sociológicos, legales, de seguridad y de coste 3. Incrementar la competencia entre proveedores y evitar lock-ins 4. Encontrar modelos de negocio y aplicaciones que puedan sostener el mercado europeo en los próximos años • Objetivo: Crear una nube federada y un mercado europeo competitivo para servicios de cloud • Infraestructura natural para la comunidad científica para el almacenamiento, acceso y procesado de datos • Habilitar aplicaciones a través de varios dominios científicos • Aplicaciones de diseminación y –en caso que sea posible- acceso abierto a los datos científicos 27EGI-InSPIRE RI-261323 www.egi.eu
  • HelixNebula: primera evaluación técnica • CERN: ATLAS como buque insignia • Objetivo: Demostrar que es posible expandir la capacidad computacional de ATLAS a través de nubes comerciales • Una de las primeras pruebas a mediana escala para el experimento: • Pruebas en Atos, CloudSigma y T-Systems entre marzo y septiembre 2012 • “Tarifa plana” con negociación ad-hoc de recursos y duración de la prueba • Aportamos más de 40k días de CPU de trabajos de simulación al experimento • Dimos consejos útiles a los proveedores sobre como mejorar sus servicios 28EGI-InSPIRE RI-261323 www.egi.eu
  • HelixNebula: conclusiones de la primera evaluación técnica • Cada proveedor ofrecía servicios similares, pero con diferencias que dificultaban la portabilidad • Diferentes conceptos de IaaS • Máquinas virtuales persistentes: clonación completa de los discos para crear una nueva instancia • Máquinas virtuales efímeras: se pueden perder accidentalmente • Diferentes formatos de imagen • La conexión a un proveedor requería condiciones particulares (VPN) • APIs distintas (normalmente propietarias) • Posibilidad de contextualización de usuario sólo fue directa en un proveedor • De lo contrario usábamos el modelo "disco de oro“ 29EGI-InSPIRE RI-261323 www.egi.eu
  • Arquitectura HelixNebula: The Blue Box http://www.helix-nebula.eu/index.php/uploads/file/81/33/HelixNebulaArchitecture.pdf.html Objetivos •Corto plazo: limitar el esfuerzo en migrar aplicaciones entre proveedores y evitar lock-ins •Largo plazo: habilitar un ecosistema multi-usario y multi-proveedor en el que nuevos participantes puedan conectarse y contratar/ofrecer servicios Consideraciones practicas: •Implementar la caja azul es un proyecto ambicioso. Por qué no empezar por aplicaciones existentes en el mercado? •Enstratus y Slipstream fueron identificados como candidatos iniciales 30EGI-InSPIRE RI-261323 www.egi.eu
  • HelixNebula: Segunda evaluación técnica • La segunda evaluación técnica está a punto de comenzar y usarán Enstratus y Slipstream como capas intermedias • Los tests serán similares a la primera ronda, pero formalizando poco a poco las relaciones 1. Con las “cajas azules”: Comparar Enstratus y Slipstream • Cuánto simplifican realmente nuestro trabajo? 1. Con los proveedores: Medir la calidad de servicio en base a unos criterios acordados • “Time to first instance” • Escalabilidad y fallos de nodos • Rendimiento y fiabilidad de las máquinas • Asistencia técnica: tiempo de respuesta y satisfacción del nivel de soporte • Coste • En el caso de CERN el experimento CMS se unirá a las pruebas 31EGI-InSPIRE RI-261323 www.egi.eu
  • Amazon: Pruebas de ATLAS/BNL • Brookhaven National Laboratory (BNL) recibió una concesión de $50.000 en Amazon • BNL aprovechó esta oportunidad para • Demostrar la escalabilidad de la arquitectura de ATLAS con recursos en la nube: miles de nodos leyendo datos del sistema de almacenamiento en BNL a través de la WAN • Jugar con los distintos modelos de pago (On Demand, reserved instances y spot instances) y determinar costes empíricamente • EC2 spot instances • Estrategia de Amazon de llenar recursos desocupados al mejor postor • El usuario fija el precio máximo por hora que está dispuesto a pagar • El Spot Price fluctúa según la oferta&demanda. • Cualquier máquina puede ser parada si el Spot Price excede el máximo fijado por el usuario 32EGI-InSPIRE RI-261323 www.egi.eu
  • Amazon: Pruebas de ATLAS/BNL • Tipo: m1.small • 1 virtual core • 1.7 GiB RAM • 160 GB • I/O $3.00/CPU*h Performance: Moderate $0.007/CPU*h 33EGI-InSPIRE RI-261323 www.egi.eu
  • Amazon: Pruebas de ATLAS/BNL. Conclusiones • Con el spot price se pueden obtener precios muy interesantes, pero los recursos son volátiles • 5000 jobs concurrentes a un precio de ~$1k/día • Precio no considera los costes de tráfico de red • Ninguna garantía de servicio • Sin embargo, para cargas computacionales grandes aún parece mas rentable disponer de centros de cálculo propios - en particular si queremos garantía de servicio (por ejemplo usando instancias reservadas) 34EGI-InSPIRE RI-261323 www.egi.eu
  • Conclusiones 35EGI-InSPIRE RI-261323 www.egi.eu
  • Resumen • En el mundo de la FAE, la computación grid y cloud están vistas como tecnologías complementarias que van a convivir en diferentes niveles de abstracción • Centros de cálculo virtualizados: gestión flexible de recursos • Uso de nubes externas a través de colaboraciones y la posible contratación de recursos a proveedores comerciales • Simulación y procesado de datos • Tenemos un modelo para ejecutar nuestros jobs en nubes externas – con poco esfuerzo podemos arrancar un cluster de nodos acoplado al sistema de gestión de carga de los experimentos • Podemos mejorar la automatización y monitorización, pero las necesidades actuales están cubiertas 36EGI-InSPIRE RI-261323 www.egi.eu
  • Resumen: cuestiones pendientes • Tenemos poca experiencia en el almacenamiento de datos en la nube • Debemos integrar la nube (p.ej. Block storage) con nuestra capa de gestión de datos • Si resolvemos este aspecto, podremos habilitar el uso de la nube para trabajos de análisis con mayores requerimientos de I/O • Cloud computing es una tecnología joven y se echa en falta la adopción de estándares • En las interfaces • En los servicios ofrecidos por los proveedores y la federación de nubes • Encontrar modelos de negocio para la colaboración con proveedores europeos 37EGI-InSPIRE RI-261323 www.egi.eu
  • Gracias por su atencion Preguntas? 902-CERN-IT Fernando.Harald.Barreiro.Megino@cern.ch 38EGI-InSPIRE RI-261323 www.egi.eu
  • Créditos • Tim Bell3, Ian Bird3, Franco Brasolin2, Jose Antonio Coarasa Perez4, Alessandro Di Girolamo3, Michael Ernst2, John Hover2, Bob Jones3, Alexei Klimentov2, Wolfgang Lengert5, Ramon Medrano Llamas3, Daniel van der Ster3 1 ATLAS 2BNL 3CERN IT 4CMS 5ESA 39EGI-InSPIRE RI-261323 www.egi.eu