Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Disaster Recovery – aneb zálohování a obnova dat pro případ, když všechny ochrany selžou

140 views

Published on

Prezentace z eKonference Arrow
30.4.2020

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Disaster Recovery – aneb zálohování a obnova dat pro případ, když všechny ochrany selžou

  1. 1. 1 Disaster Recovery Josef Czyž System Engineer Petr Vančák System Engineer
  2. 2. 2 Disaster Recovery - Agenda DOPORUČENÍ NÚKIB - Vypracujte Distaster Recovery Plán (DRP) a mějte po ruce i kontakty na všechny další administrátory, nadřízené pracovníky a členy CERT/CSIRT týmů - Pravidelně zálohujte důležitá a citlivá data a pravidelně testujte obnovu a funkčnost obnovených dat
  3. 3. 3 Disaster Recovery Plán (DRP) ˃ Strukturovaný dokument ˃ Orientace na IT infrastrukturu ˃ Důležitá součást Business Continuity Plánu ˃ Býva často sestavován po RI (risk analysis) a BIA (business impact analysis) ˃ Udavá jasné RO (recovery objectives) ˃ Obsahuje jednotlivé IMP (incident management plány) ˃ Stanovuje strategii zálohování
  4. 4. 4 DRP – Možné výpadkem postižené cíle ˃ Aplikace ˃ Komunikace (síť) ˃ Datové Centrum ˃ Budova ˃ Campus ˃ Město ˃ Region ˃ Kontinent
  5. 5. 5 Typy DRP - Virtualizační ˃ Virtualizační DRP - jednodušší na realizaci - velké možnosti testování (Fire Drill) - rychlé obnovy - možnosti spuštení VM přímo ze zálohy - integrované HA
  6. 6. 6 Typy DRP - Síťový ˃ Síťový DRP - vyžaduje kompletní schéma sítě - měl by obsahovat step-by-step návod - zálohy konfigurace síťových prvků - hard-print nastavení prvků - redundance
  7. 7. 7 Typy DRP - Cloudový ˃ Cloudový DRP - sahá od zálohy souborů do cloudu až po kompletni DR site v cloudu - náročnější na vytvoření a provoz - finanční náročnost - možnost využití sofistikovanějších toolů pro realizaci
  8. 8. 8 Typy DRP – Datové centrum ˃ DC DRP - zaměřený jak na infrastrukturu IT tak i na samotnou budovu DC - měl by obsahovat všechny možné scénáře výpadků - záložní zdroje - klimatizace - záložní konektivita - fyzické zabezpeční
  9. 9. 9 DRP – Rozsah a cíle ˃ Některé DRP mívají i více než 100 stran ˃ Možnost stažení vzorových DRP z internetu ˃ Prioritizace kritických aplikací, služeb, sítí ˃ Stanovení RTO a RPO u jednotlivých služeb ˃ Návaznost na další služby (restarty, rekonfigurace dalších komponent atd.) ˃ Posloupnost vzájemných závislostí služeb ˃ Zajištění minimálního dopadu na další služby
  10. 10. 10 DRP - Checklist ˃ Scope of Recovery ˃ Sběr konfigurace síťových prvků ˃ Identifikace největších hrozeb a zranitelností ˃ Review historie předchozích výpadků a jejich vyřešení ˃ Identifikace aktuálních strategií Disaster Recovery ˃ Sestavení týmu zodpovědného za provedení DR ˃ Schválení a validace nadřízeným ˃ Testování DRP ˃ Implementace a Audit DRP ˃ Pravidelná aktualizace DRP
  11. 11. 11 DRP – co by v něm nemělo chybět ˃ Obsah ˃ Historie změn ˃ Přehled všech kontaktů (interní + externí) a jejich zodpovědností ˃ Diagram kdo informuje koho v případě incidentu nebo disasteru ˃ Uložení a hard-copies DRP ˃ Zálohovací/záložní strategie (site-mirror, passive DR, off-site backup) ˃ Informační strategie (interní, externí, média) ˃ Kompletní dokumentace o konfiguraci serverů/zařízení (jméno, FS, LAN, aplikace…) ˃ Různé scénáře výpadků (malware, OS, HW, kompletní disaster) ˃ Jednotlivé kroky nutné pro znovuzprovoznění ˃ Podklady (templates) pro finální reporting (akce, časy, výsledek, ponaučení) a pro předání zpět do běžného provozu
  12. 12. 12 Zálohovací a záložní strategie ˃ Clustering (HA) ˃ Archivace ˃ Zálohování
  13. 13. 13 High Availability ˃ Lokální Cluster (active/pasive) ˃ Campus Cluster ˃ Metro Cluster ˃ Global Cluster ˃ Hybrid Cluster ˃ Replikace dat (synchronní/asynchronní)
  14. 14. 14 Archivace ˃ Nenahrazuje zálohování, i archiv je potřeba zálohovat ˃ Odlehčuje primární systémy ˃ Zkracuje potřebný čas pro zálohování i obnovy ˃ Šetří náklady ˃ Není prioritou při DR obnově dat
  15. 15. 15 Zálohování ˃ RTO (recovery time objective) ˃ RPO (recovery point objective) ˃ Správná volba software dle potřeb zákazníka ˃ Správný sizing zálohovacího HW (servery, diskové úložiště, pásky, cloud…) ˃ Hardening celého backup řešení ˃ Kopie záloh a jejich umístění a dostupnost
  16. 16. 16 Ransomware na primarním datovém úložišti a co s ním Josef Czyž System Engineer
  17. 17. 17 Jak jsou ohrožena data úložištích ˃ Zašifrování lokálně připojeného disku ˃ Zašifrování jednotlivých disků v SAN nebo sdílených adresářů v NAS ˃ Zašifrování všech sdílených disků a adresářů v SAN a NAS nebo celých datastorů ˃ Prolomení administrativních účtů na centrálním úložišti - důsledky Při ransomware útoku
  18. 18. 18 Více otázek než odpovědí ? Zašifrovanými daty a požadavkem výkupného problém nezačal ˃ Jaké a kam získal útočník přístupy ˃ Kam může? ˃ Co může vypnout? ˃ Může vypnout mojí ochranu? ˃ Jak na to přijdu, dříve než si řeknou o výkupné? ˃ Jak to zastavím? ˃ Jak můžu data obnovit a jak rychle?
  19. 19. 19 Zmírnění dopadů - na čem záleží Na SPOLEHLIVOSTI a RYCHLOSTI obnovy záloh ˃ Zálohování musí být jednoduché a automatizované ˃ Odolné - imunní proti nechtěným změnám či ztrátám ˃ Rychlost – bude obnova dat trvat dny, hodiny, sekundy? ˃ Kdy jste naposledy vyzkoušeli jak dlouho by trvala obnova celé kapacity vašeho centrálního úložiště?
  20. 20. 20 Co by mělo moje uložiště umět? A má zásadní význam pro zmírnění následků útoku ˃ Robustní RBAC politiky pro zajištění přístupu k poli ˃ Efektivní snapshoty, které nemají dopad na výkon či funkčnost pole a jsou neporušitelné či nesmazatelné (uživatelem/administrátorem) ˃ Politiky pro tvorbu snapshotů a jejich replikaci či integraci se zálohovacím sw ˃ Pokud má pole redukční mechanismy (deduplikace, komprese), pak reporting poměru redukce na úrovni volume/snapshotu
  21. 21. 21 Nevratné operace administrátorů? A jaj, teď jsem se ukliknul / co když se „uklikne“ útočník ˃ „Odpadkový koš“ – smazání objektů na poli nemá okamžitý účinek a smazané objekty lze obnovit, např. do x hodin ˃ Safe mode – vypnutí možnosti manuálního „vysypání koše“ (i pro a hlavně pro administrátora) ˃ K nevratnému odstranění objektu dojde až po uplynutí ochranné lhůty
  22. 22. 22 Virtualizace Co je oříšek a co možnost ˃ Obří datastory – výzvou flexibilita a možnosti rychlých obnov i velkých VM >TB ˃ Live migration: Jak vůbec rychle najdu ve kterém snapshotu jsou data požadované VM a v jakém stavu? ˃ VM A má data ok před 24h, ale VM B má ok data ve snapshotu před 25h… ˃ vVOL – datové svazky (disky) VM ve formě svazků (LUNů) na poli ˃ Využijí veškeré vlastnosti, které pole poskytuje (snapshot svazku přímo na poli, pravidla, replikace atd.) ˃ Undelete – libovolný svazek jednoduše obnovitelný i po smazání ˃ Restore – jednoduchý a rychlý návrat k předchozímu stavu z lokálních snapshotů
  23. 23. 23 Pole s redukčními vlastnostmi Proč je dobré pole s deduplikací a kompresí v boji s ransomware ˃ Tradičně: nejen snapshoty, ale i kopie svazků nezabírají žádné další místo nebo jen minimum – možnost častějších snímku a lepší ochrany ˃ Je jedno jestli si snapshot dělá aplikace sama na úrovni FS – na poli budou duplicitní data vždy jen jednou ˃ Netradičně: Napadený, zakryptovaný volume, vykazuje redukci dat 1:1 místo původních 5:1 (například) –> rychlé odhalení napadených disků
  24. 24. 24 Z praxe VM před „napadením“ – vCenter pohled c: d:
  25. 25. 25 Z praxe VM před „napadením“ – Storage pohled c: d:
  26. 26. 26 Z praxe VM po „napadení“ – Storage pohled c: d:
  27. 27. 27 A co teď Jsme napadení!!! – je čas hledat ten správný snapshot Nezašifrované Zašifrované
  28. 28. 28 A co teď Rapid restore z lokálního snapshotu
  29. 29. 29 Na co se ptát dodavatele centrálního pole A co mi zajistí alepoň trochu více klidu a jistoty ˃ Tradičně: rychlost (all flash), bezpečnost (šifrovaní dat na discích, správa klíčů, zabezpečení admin přístupu), zabezpečení dat (snapshoty, replikace, offload do S3, NFS, cloud), vysoká dostupnost (active/active, SPOF, synchronní replikace -> clustering) ˃ Navíc ale nutně: ˃ to co je výše, umí to moje pole použít současně a na všech objektech? ˃ Bez dopadu na výkon? ˃ S jednoduchou administrací! – nejvíce chyb dělají administrátoři ˃ Nejlépe automatizovaně pomocí přiřazených politik
  30. 30. 30 Na co se ptát dodavatele centrálního pole Klíčové pro eliminaci dopadu ransomware ˃ Snapshoty – 100vky – 1000 na poli současně bez dopadu na výkon all flash ˃ Replikace a offloading – nativně i v integraci se zálohovacím sw ˃ Rychlý restore z lokálních snapshotů – ŽÁDNÉ kopírování dat mezi volumy ˃ Nesmazatelné objekty (volumy + snapshoty) i v případě kompromitace admin přístupu na pole ˃ Možnost replikace na jinou storage, která je schopna obnovit celé datové centrum, tedy v řádu 1 – 10 TB/h ( máme řešení i pro 270TB/h ☺ )
  31. 31. 31 Otázky a Odpovědi Prostor pro Vaše dotazy Zadávejte prosím písemně do sekce Questions Naši dodavatelé

×