Continuidad de TI - Estrategias de Disaster Recovery

6,541 views

Published on

Estrategia DRP y Continuidad de TI - Cómo influye un ambiente virtualizado

Published in: Technology
  • Be the first to comment

Continuidad de TI - Estrategias de Disaster Recovery

  1. 1. “Gestión de Continuidad en TI” Lic. Alejandro Melo Certificado en Continuidad de Negocio (ABCP) Norberto Figuerola Ciudad de Panamá noviembre de 2014 1
  2. 2. Continuidad del Negocio y DRP TI • Administración de Crisis • Imagen Corporativa • Reclamos - Demandas • Ingresos • Mercado Continuidad de Negocio Respuesta a Emergencias BCM Vidas Humanas Instalaciones • Permanencia • Rentabilidad • Continuidad Plan Recuperación ante Desastres (DRP) Plan de Continuidad de Negocio (BCP) • Operaciones • Procesos • Servicios e Infraestructura de TI – Continuidad de Servicios de TI noviembre de 2014 2
  3. 3. La continuidad del negocio es parte de la gestión general del riesgo en una compañía y tiene áreas superpuestas con la gestión de seguridad y tecnología de la información. Continuidad del Negocio y DRP TI ISO 31000 ISO 22301 ISO 27000 noviembre de 2014 3
  4. 4. Plan de Recuperación ante Desastres (TI) Un plan de recuperación ante desastres (DRP) es un proceso documentado o conjunto de procedimientos para recuperar y proteger la infraestructura tecnológica de una empresa en caso de un desastre. Llamamos desastre a cualquier causa que afecte a la infraestructura (datos, hardware o software), ya sea natural, intencional o involuntaria, e impida la normal continuidad del negocio. El DRP está incluído en un plan integral de la organización llamado Plan de Continuidad del Negocio (BCP) que incluye los componentes siguientes: • Plan de reanudación del Negocio • Plan de emergencia del Personal • Plan de continuidad de Operaciones • Plan de manejo de Incidentes • Plan de Comunicación y Crisis noviembre de 2014 4
  5. 5. Qué es un Desastre ? ENFOQUE CONCEPTUAL Y MEJORES PRÁCTICAS • Cualquier EVENTO MAYOR que afecte el funcionamiento normal de las operaciones de una empresa. • Es un evento o suceso impredecible de cierta magnitud, cuyos efectos o consecuencias ocasionan la pérdida parcial o total de servicios esenciales para el funcionamiento de las actividades productivas de la empresa por un lapso prolongado. • Para mitigar las consecuencias de un desastre, nacen los DRP (Disaster Recovery Planning), que consisten básicamente en las acciones para recuperarse en caso de que se presente un desastre. El DRP se utiliza normalmente en el contexto de operaciones para el procesamiento de datos. noviembre de 2014 5
  6. 6. Relación entre el DRP y el BCP “The Business Continuity Strategy should principally focus on business processes and associated issues (e.g. business process continuity, staff continuity, buildings continuity). Once the Business Continuity Strategy has been produced, and the role that IT services has to provide within the strategy has been determined, an ITSCM strategy can be produced that supports and enables the Business Continuity Strategy. This ensures that cost-effective decisions can be made, considering all the ‘resources’ to deliver a business process. Failure to do this tends to encourage ITSCM options that are faster, more elaborate and expensive than are actually needed.” ITIL Service Design V3 IT Service Continuity Management noviembre de 2014 6
  7. 7. Origen de las Amenazas AMENAZAS A LA CONTINUIDAD DE NEGOCIO  Fraudes  Conmoción Social  Huelgas  Vandalismo  Sabotaje  Terrorismo Desastres más comunes • 42% Fallas de HW • 30% Errores Humanos • 14% Errores de SW o Datos • 7% Seguridad • 5% Robo - Fraudes Sociales / Políticas  Fallas Comunicaciones  Seguridad - Virus  Fallas de Suministro Eléctrico  Caída de Servidores  Fallas Storage Naturales  Terremotos  Inundaciones  Incendios  Cortes Energía  Incendios Forestales  Incendios  Explosiones  Cortes Energía  Errores Operación  Pérdida de Datos  Sabotaje Causadas por el hombre Tecnológicas Amenazas noviembre de 2014 7
  8. 8. 8 Terminología Tradicional en DRP RPO (Recovery Point Objective) define la pérdida de datos máxima tolerable que se acepta ante una situación de desastre. Si no hay pérdida de datos aceptable, el RPO es cero. Para reducir un RPO es necesario aumentar la frecuencia de la copia de seguridad o el sincronismo de datos. noviembre de 2014 RTO (Recovery Time Objective) es el tiempo de recuperación objetivo para tener la infraestructura disponible. Determina el tiempo tolerable para que recuperar los sistemas críticos. Ej: restaurar los datos de copia de seguridad o corrección de una falla. Se lleva a cabo por el administrador del sistema, administrador de la red, el administrador de almacenamiento, etc El tiempo de recuperación de trabajo (WRT) determina el tiempo tolerable que se necesita para verificar el sistema, la integridad de los datos, comprobar las bases de datos y asegurarse de que las aplicaciones o servicios se están ejecutando bien. Se lleva a cabo por el administrador de la aplicación, el administrador de bases de datos, etc. Cuando los sistemas afectados por el desastre son verificados, se reanuda de nuevo la producción. La suma de RTO y WRT se define como el tiempo de inactividad máximo tolerable (MTD), que define la cantidad total de tiempo que un proceso de negocio puede ser interrumpido sin causar consecuencias inaceptables. Este valor debe ser definido por el director de TI junto con el equipo de gestión de negocios .
  9. 9. Terminología Tradicional en DRP Ejemplo: un DRP tradicional tiene como objetivo recuperar 5 aplicaciones claves para el negocio, dentro de las 2 horas después de ocurrido el desastre (RTO), y acepta perder 6 horas de datos (RPO). El RTO y RPO dependen de las necesidades del negocio y de las posibilidades de inversión en HW y SW, además de la estrategia de backup y recovery seleccionada. noviembre de 2014 9
  10. 10. La misión principal de un Plan de Recuperación de Desastres es restaurar los sistemas críticos de negocio a una condición normal o casi normal después de un incidente. Existen tres clásicas estrategias para definir los sitios de recuperación, y su elección depende de la misión crítica de las aplicaciones, el RPO y RTO definidos, costos de mantenimiento, comunicaciones, etc. Cold Standby : Los componentes de hardware y software, acceso a la red, y la restauración de datos se llevan a cabo de forma manual. Requiere reiniciar aplicaciones en el sitio de copia de seguridad, así como permitir la redirección de red al nuevo centro de datos. RPO y RTO de días o semanas. Es el más económico de mantener, pero más caro para recuperar. 10 Tipos de Centros de Recuperación noviembre de 2014
  11. 11. Warm Standby : En este escenario ya se encuentra creado un ambiente de espera mediante un vínculo estable y una granja alternativa duplicada del centro de datos alternativo. Se debe asegurar de que se actualiza regularmente mediante el uso de copias de seguridad completas e incrementales. Los recursos y servicios se pueden activar de forma manual o automática cuando el centro primario queda fuera de servicio. Esta solución proporciona un mejor RTO y RPO que el modo de espera en frío, midiéndose en horas a días. 11 Tipos de Centros de Recuperación noviembre de 2014
  12. 12. Hot Standby: En un escenario de recuperación de desastres de espera activa, se configura una granja de conmutación para que pueda asumir las operaciones de producción casi inmediatamente ante fallos en el data center primario. La replicación de datos se realiza en forma asincrónica o sincrónica. Por lo general, el RTO y RPO se aproximan a cero, lo que significa que los datos reflejados en el sitio de respaldo son exactamente los mismos que en el sitio original. Se requiere que el Hypervisor provea las herramientas para trabajar en HA. 12 Tipos de Centros de Recuperación noviembre de 2014
  13. 13. DR en ambientes Virtualizados - HA La Virtualización trajo muchas ventajas sobre ambientes de servidores físicos unicamente. Los Hypervisores mejoran la disponibilidad del HW y aplicativos, al hacer abstracción de los recursos, con mayor resilencia y más fácil recuperación. Con la virtualización se puede configurar clustes de alta disponibilidad que facilita la recuperación de máquinas virtuales si falla un server físico. • Vmware vSphere • Microsoft Hyper-V Server • Citrix XenServer De acuerdo al hypervisor existen requerimientos en cuanto a cómo diseñar un ambiente clusterizado HA (memoria, discos, servidores, comunicaciones, etc.) y existen SW de terceros que ofrecen funciones por sobre el hypervisor noviembre de 2014 13
  14. 14. DR en ambientes Virtualizados - HA N + 1 N + 1 + 1 N + 2 + 1 Activo Pasivo Spare noviembre de 2014 14
  15. 15. Recovery as a Service (RaaS) noviembre de 2014 15
  16. 16. DR – Site alternativo (activo – pasivo) La implementación de un plan de Disaster Recovery para un ambiente alternativo, es similar tanto sea físico como virtual. Se necesita hacer un back-up, enviarlo al site alternativo y ser capaz de recuperarlo. La diferencia en el virtualizado es que el backup y recovery es de maquinas virtuales (VM). Microsoft's Hyper-V incluye en forma nativa varias funciones de backup que dependiendo de las necesidades lo transforman en una plataforma DR. Los requerimientos son: Site alternativo: Ubicación alternativa adecuada convenientemente con una conexión lo más rápida posible para el recupero. Infraestructura HW y SW alternativa: el sito alternativo debe tener los servidores físicos y las plataformas virtuales de software necesarias. Este sistema puede estar levantado y ejecutándose o en stand-by para su iniciación (costos) Software de backup virtual: Dependerá mucho del hypervisor que se utilice. Hyper-V integra el Volume Shadow Copy Service (VSS) que asegura el bakcup de las máquinas virtuales y su rápida restauración con el SO y Aplicaciones (SQL, Exchange, etc.) o el WSFC para failover cluster . Software de replicación: el proceso de recovery termina con la implementación de los virtual server backups en el site de contingencia, ya sea trasladando manualmente las cintas (o discos), o a través de herramientas de replicación automáticas. Herramientas: Computer Associated – Veritas - Neverfail’s Heartbeat Failover – Veeam Software Backup & Replication – Symmantec – Netbackup - CommVault - HP - EMC noviembre de 2014 16
  17. 17. Estrategias de Backup Backups completos: copia la totalidad de los datos en otro juego de soportes, que puede consistir en cintas, discos, o DVD. La ventaja es que se dispone de la totalidad de los datos en un único juego de soportes. Esto permite restaurar los datos en un tiempo mínimo (menor RTO), pero implica más tiempo y más espacio para efectuar el backup. Backups incrementales: sólo copia los datos que han variado desde la última operación de backup de cualquier tipo. La ventaja es que copia una menor cantidad de datos que un backup completo, por eso se realizan en ventanas de tiempo menores y exigen menos espacio Backups diferenciales: es similar a un backup incremental la primera, pues copiará todos los datos que hayan cambiado desde el backup anterior. Sin embargo, cada vez que se vuelva a ejecutar, seguirá copiando todos los datos que hayan cambiado desde el anterior completo. Soporte de Backups : D2T - D2D - D2D2T - D2D2C Dependen del costo, rapidez y cumplimiento de exigencias de respaldo (períodos de tiempo a guardar) noviembre de 2014 17
  18. 18. Virtual Server Backup Agent-based backup: es el más común y maduro de los metodos. Instala un agente de backup en cada VM. Puede restaurar archivos individuales, imagenes completas o máquinas enteras. Desventaja cuando se corren múltiples VM en servidores físicos con limitados recursos de I/O. Image-based backup: esta forma opera a nivel de virtualización y hace una imagen o “snapshot” del disco virtual completo. También se lo llama block-based backup y al ser una imagen completa incluye archivo borrados o bloques vacíos del disco. Por ello las herramientas utilizan funciones de data reduction o backup incrementales. noviembre de 2014 18
  19. 19. Virtual Server Backup Agent-Assisted Backup: provee rápido y eficiente backup online y offline, y a diferencia del agent-based no consume espacio ni CPU y ofrece un backup más granular (Full VM, aplicaciones, bases de datos, archivos, folders, etc.). Es excelente con aplicaciones como AD, Exchange, SQL y SharePoint. Serverless backup: también llamado LAN-free backup o proxy based backup, requiere una conectividad a un arreglo SAN con fibra óptica, iSCSI o FCoE. Serverless backup permite disco-cinta o disco-disco sin utilizar recursos del servidor, a través de un agente inteligente que realiza una copia snapshot de los datos. noviembre de 2014 19
  20. 20. Disaster Recovery vs Disaster Avoidance La Recuperación de Desastres (DR) normalmente se basan en un sitio secundario pasivo para apoyar el sitio principal activo (configuración activo /pasivo). Esto significa que el centro de datos secundario no hace casi ningún trabajo hasta que ocurra un desastre (cold, warm, hot) y se confía todo en las copias de seguridad y snapshots para conservar y recuperar los datos críticos de carga de trabajo. "Disaster avoidance" es la implementación de un sitio alternativo junto con el sitio principal activo (configuración activo /activo). Esto significa que el centro de datos secundario puede albergar cargas de trabajo activas y comparte las tareas en tiempo real. La prevención de desastres depende de la migración de VM y tecnologías de clúster, junto con el servidor altamente resistente. Cuando se produce un desastre, el sitio secundario puede seguir trabajando sin casi ser perceptible. Una infraestructura para evitar desastres contiene servidores en clúster con tolerancia a fallos, apoyados con sistemas de alimentación ininterrumpida, generadores de emergencia y sistemas de refrigeración de backup. La conectividad de red y switches suele ser redundante y soporta trunking y failover. Los arreglos de discos son mirroring o duplicados, se basan en plataformas de virtualización para una rápida migración, asi como software de conmutación por error de carga de trabajo, lo que mantiene la sincronización entre máquinas virtuales duplicadas a través de los centros de datos. noviembre de 2014 20
  21. 21. Proceso para construír el Plan DR La construcción de un DRP se debe tomar como un proyecto, pero una vez logrado es considerado como un proceso continuo, dado que tiene que evolucionar en la medida que se produzca cualquier cambio en la Infraestructura. noviembre de 2014 21
  22. 22. Proceso para construír el Plan DR • Definir claramente cual será el alcance del Plan DR (qué incluye y qué NO incluye) • Definir cual será la estrategia de continuidad de TI • Definir estrategia, política y procesos de backup-recovery que serán utilizados • Identificar y priorizar las funciones y servicios de negocio críticas (BIA) • Identificar interdependencias • Identificar y priorizar los activos (infraestructura TI) críticos al negocio • Identificar y clasificar los riesgos, amenazas, SPOF • Cuantificar el impacto potencial y amenazas a los activos y servicios críticos • Determinar períodos de recuperación críticos: SLA, RTO y RPO • Preparar respuestas y procedimientos de emergencia • Organizar e implementar adecuadamente el sitio de recupero • Identificar a los recursos humanos requeridos y responsables de DR • Establecer los mecanismos de comunicación • Probar el Plan • Educación y Entrenamiento • Auditoría y Actualización del Plan en forma constante noviembre de 2014 22
  23. 23. Proceso para construír el Plan DR Es útil tener en cuenta todos los escenarios posibles, y entonces decidir en cuáles desea centrarse al trabajar en la planificación de recuperación ante desastres para su entorno: • Pérdida de un sitio entero • Pérdida de un único centro de datos • Pérdida de un sistema (error de hardware o de sistema operativo) • Pérdida de datos (eliminación de datos o datos dañados) • Pérdida de una dependencia crítica Recuperarse de la pérdida de un sitio entero tiene consideraciones muy diferentes respecto a la recuperación de un solo sistema. También querrá definir los umbrales de recuperación en función de sus SLA. • Para el armado del BIA es importante contar con el Catalogo de Servicios • Para la identificación de los activos a proteger es importante contar con la CMDB noviembre de 2014 23
  24. 24. Objetivos básicos de BIA y AR • Identificar los activos de la compañía y las funciones que son necesarias para la recuperación del negocio en caso de desastre y priorizarlas de acuerdo a su criticidad (BIA). • Identificar las amenazas más probables a los activos y funciones (AR). • Crear objetivos para el desarrollo de estrategias que eliminen los riesgos eliminables y minimicen el impacto de aquellos riesgos que no se pueden eliminar. • Crear objetivos para el desarrollo de estrategias para el respaldo y/o recuperación de aquellas funciones que son críticas para el negocio y que podrían verse afectadas en un desastre. noviembre de 2014 24
  25. 25. Análisis de Impacto en el Negocio (BIA) Un Análisis de impacto en el negocio (BIA) es una parte clave del proceso. Analiza las funciones, procesos o actividades del negocio y las prioriza para determinar cuales son de misión crítica, para identificar y cuantificar el impacto que podría tener en la organización la pérdida de dichas funciones. En principio todas las actividades del negocio son importantes, pero debemos distinguir las críticas y de ellas cuales son los recursos y el tiempo mínimo necesario para su recuperación en caso de algún evento de desastre o crisis. noviembre de 2014 25
  26. 26. Análisis de los Riesgos (AR) El BIA ayuda a identificar los procesos de negocios más críticos, y describe el impacto potencial que tendría una interrupción de esos procesos. Un AR análisis o evaluación de los riesgos identifica situaciones internas y externas que podrían tener un impacto negativo en los procesos críticos. También intenta cuantificar la potencial gravedad de tales eventos, y la probabilidad de que ocurran. Peligros naturales Peligros sociales o políticos Peligros causados por el hombre Tecnológicos Tormenta Terrorismo Error de operador Falla de energía Inundación Fraude Error de programación Corte de la Red Caída de rayos Disturbios Incendio provocado Daño por humo Nevada Huelga Falta prevención Incendio Terremoto Robos Pérdida de datos Fallas en el HW Tornado Vandalismo Falta de mantenimiento Fallas en el SW Huracán Daño por bomba Falta de calidad Malware Para cada Riesgo identificado analizar probabilidad de ocurrencia, potencialidad, medidas de prevención, medidas de mitigación, actividades de recuperación, planes de contingencia noviembre de 2014 26
  27. 27. AR: Identificar amenazas a los Activos Algunas medidas típicas de reducción de riesgos y amenazas: · Instalación de UPS y generadores de energía para el Hardware necesario. · Métodos RAID de discos o mirroring para preveer pérdida de datos o inconsistencias. · Comunicaciones o redes redundantes · Equipamiento “spare” para el caso de fallas, por ejemplo un LAN Server completamente configurado y disponible para reemplazar otro en falla. · Identificación y eliminación de “SpoFs”, tal como un sólo punto de acceso a la red o un solo sistema de provisión de energía eléctrica. · Sistemas de TI y de Comunicaciones “resilentes”. · Servicios tercerizados y provisión por más de un proveedor. · Sistemas de detección y supresión de incendios y control de accesos y seguridad. · Un proceso y estrategia completo y seguro de backup y recovery , que incluya almacenamiento fuera del lugar de servicio primario. · Sistemas tipo Fault-tolerant para aplicaciones de misión crítica, donde una caída es inaceptable. · Cluster de servidores fisicos virtualizados con HA. · Site alternativo de recovery en caso de desastre o pérdida de funcionamiento del site principal noviembre de 2014 27
  28. 28. Prueba Inicial e Implementación noviembre de 2014 28
  29. 29. noviembre de 2014 29

×