Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych

1,216 views

Published on

A presentation on less-popular threats to data centre operational continuity from "Infratech Summit. Physical Infrastructure for server rooms and data centres" conference in Warsaw/Poland, April 23, 2015 (please note that the presentation is in Polish).

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych

  1. 1. Kilka mniej oczywistych zagrożeń dla ciągłości operacyjnej centrum przetwarzania danych Paweł Wawrzyniak Warszawa, 23 kwietnia 2015 http://www.nordea.pl/
  2. 2. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  3. 3. O Nordea IT Polska sp. z o.o. (NITPL)  Nordea IT Polska sp. z o.o. została powołana do życia przez Nordea Bank AB, by wykorzystując wiedzę i wieloletnie doświadczenie ekspertów nabyte w Nordea Bank Polska S.A., wspierać Grupę Nordea w działaniach z obszaru IT  Z sukcesem realizujemy wiele dużych międzynarodowych projektów informatycznych, wspieramy bank w Polsce, krajach bałtyckich i Skandynawii  Posiadamy 2 nowoczesne CPD, w których prowadzimy działalność m.in. w zakresie kolokacji i usług powiązanych Działamy w ramach pięciu departamentów
  4. 4. O Nordea IT Polska sp. z o.o. (NITPL)  Data Centre Services, zespół 6-7 osób: – Wsparcie dla Nordea Operation Centre w Polsce, Łódź 700 osób (2 lokalizacje) – Floor Management, Service Management i nadzór nad jakością usługi Primary Data Centre – Floor Management, Service Management i nadzór nad jakością usługi Disaster Recovery Centre – Wsparcie projektów (przedsięwzięć) realizowanych w powyższych obszarach odnośnie definicji wymagań, definicji standardów i zgodności projektów oraz ich wykonania z wymaganiami Nordea AB (w tym projektu migracji Nordea Bank Polska S.A. do PKO BP S.A)
  5. 5. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  6. 6. Bezpieczeństwo CPD… Podstawowe założenia • Bezpieczeństwo CPD musi być zapewnione na kilku warstwach: • Fizycznej (lokalizacja, otoczenie, budynek, pomieszczenia, itp.) • Infrastrukturalnej (zasilanie, chłodzenie, wyposażenie, łącza telekomunikacyjne, sieć, serwery, sprzęt IT, oprogramowanie, itd.) • Organizacyjnej (polityka; procesy: ITILv3; procedury; standardy: ISO 27001, ISO 27002, ISO 31000; kadry)
  7. 7. Bezpieczeństwo CPD… Podstawowe założenia Źródło: Protect Data - Data Backup Services 44% 32% 14% 7% 3% Awarie sprzętowe lub systemów Błąd ludzki Uszkodzenie oprogramowania Wirusy komputerowe Klęski żywiołowe
  8. 8. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  9. 9. • Analiza ryzyka • Dostępność stabilnego zasilania, łączy telekomunikacyjnych • Drogi dojazdowe • Bezpośrednie sąsiedztwo i charakter prowadzonej tam działalności • Plan zagospodarowania przestrzennego • Klęski żywiołowe • Dodatkowe zalety lub wady otoczenia (lotnisko vs stadion) • Pamiętajmy, że cykl życia CPD to zwykle 10 do 20 lat (i więcej) Warstwa fizyczna Temat 1: Bezpieczna lokalizacja źródło: http://www.kzgw.gov.pl/
  10. 10. • Zagrożenia: • Prace ziemnie w bezpośrednim sąsiedztwie mogą uszkodzić trasy kablowe łącz telekomunikacyjnych, podziemne kable zasilające, instalację gazową itp. (z drugiej strony to samo może wydarzyć się poza zasięgiem naszego wzroku) • Prace budowlane z użyciem ciężkiego sprzętu budowlanego mogą generować niebezpieczne wstrząsy (np. palowanie) • Ruch na drodze dojazdowej może się zwiększyć (dalsze sąsiedztwo) – co może oznaczać np. wstrząsy, ryzyko związane z wypadkiem lub przewozem niebezpiecznych substancji • W otoczeniu może pojawić się mniej bezpieczne sąsiedztwo Warstwa fizyczna Temat 1: Bezpieczna lokalizacja PDC, 2010-2012
  11. 11. • Standardy korporacyjne dla CPD • Drugie CPD? • Przy planowaniu drugiego ośrodka, który ma być synchronizowany z ośrodkiem podstawowym w konfiguracji: aktywny <-> aktywny celem zapewnienia ciągłej lub prawie ciągłej dostępności, przy ograniczeniach obecnej technologii światłowodowej, zaleca się dystans 5 do 15 km • Warto rozważyć posiadanie trzeciego ośrodka (disaster recovery) w odległości np. ponad 200 km (cold site) • Tylko zapasowy ośrodek przetwarzania może nas efektywnie ochronić przed skutkami klęski żywiołowej Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
  12. 12. • Pytania: • Czy przetestowano plany DRP? • Czy wszystkie warstwy infrastruktury świadczenia usług przełączą się automatycznie? • W jakim czasie nastąpi przełączenie usług? • Czy w organizacji mamy „osoby kluczowe” dla działania danej usługi? • Krytyczne jest wczesne wykrywanie awarii (monitoring infrastruktury i usług) Warstwa fizyczna Temat 1: Bezpieczna lokalizacja
  13. 13. • Pytania: • Załóżmy brak zasilania na obszarze województwa przez okres dłuższy niż np. 72h. Czy ktokolwiek dostarczy nam paliwo do agregatów – pomimo tego, że mamy kontrakt na dostawę paliwa? • A jak będzie wyglądała sprawa dostępności łączy operatorskich? (centrala operatora na pewno jest podtrzymywana, ale jak wygląda to w odległych lokalizacjach?) • Rozważamy sytuacje klęsk żywiołowych, wszelkie czarne scenariusze („W”), a czy nie lepiej być gotowym na niedostępność CPD z powodu braku… Bieżącej wody, faktu zastosowania rakotwórczego kleju do wykładzin na powierzchni biurowej lub blokady drogi dojazdowej w związku z wypadkiem? Warstwa fizyczna Temat 1: Bezpieczna lokalizacja Primary Data Centre
  14. 14. • Od początku października do początku listopada 2014 roku stwierdzono 18 lotów nad francuskimi elektrowniami atomowymi lub w ich pobliżu • Atak dronem? W przypadku celowego ataku różne warianty, np. rozpoznanie obiektu i zabezpieczeń technicznych, ciecze wylewane na wymienniki ciepła, małe ładunki wybuchowe itp. Niezamierzony atak - utrata kontroli nad dronem, uszkodzenia obiektu CPD • Kolega z Zespołu DCS złożył własnego drona w tydzień. Potrzebne części zakupił przez Internet • Obecnie eksperci twierdzą, że drony nie są w stanie przenosić ładunków o odpowiedniej mocy, aby być zagrożeniem • A w niedalekiej przyszłości? Czy będziemy umieszczać takie ryzyko w analizach? Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne © Nevit Dilmen, źródło: Wikipedia
  15. 15. • Wniesienie na ośrodek ładunku wybuchowego, podsłuchu lub rozpylenie gazu to zdarzenia możliwe • Procedury ochrony osób i mienia muszą być regularnie przeglądane i aktualizowane • Listy osób uprawnionych do dostępu i mogących autoryzować gości muszą być zawsze aktualne • Firmy zewnętrzne (np. serwis systemów CPD, budynkowych lub IT) muszą pracować pod nadzorem autoryzowanego personelu (ryzyko sabotażu) • Dokładna kontrola ruchów osobowo-materiałowych • Największym wrogiem ochrony i najlepszych procedur jest - rutyna. Warto przeprowadzać okresowe testy czujności • Charakter CPD – być może obiekt powinien podlegać obowiązkowej ochronie i posiadać plan ochrony? • Audyty bezpieczeństwa są koniecznością • EPO na stanowisku ochrony – SPOF, z którym musimy żyć (ryzyko konieczne do zaakceptowania) Warstwa fizyczna Temat 2: Bezpieczeństwo fizyczne Primary Data Centre
  16. 16. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  17. 17. • Budynek może być jednocześnie np. centralą firmy i CPD – tzw. budynek mieszanego przeznaczenia • Decyzja może wynikać z: • konieczności dostarczenia rozwiązania tymczasowego • mylnie rozumianego prestiżu lub wygody • braku innej możliwości • Taki budynek może znajdować się w centrum miasta, co oznacza dodatkowe utrudnienia (poza łatwym dojazdem dla personelu, służb miejskich i patroli/grup interwencyjnych ochrony) – np. działalność sąsiednich firm, bliskość ulic, torów kolejowych, częste zaniki zasilania etc. • Najgorszy scenariusz dla CPD Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1 „Stare” Primary Data Centre, 2008
  18. 18. Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1 Problem Rozwiązanie Nakładanie się dwóch różnych standardów bezpieczeństwa fizycznego osób i mienia, współdzielone systemy zabezpieczeń technicznych (SKD, SSWiN, CCTV, kamery IP) Należy wyraźnie określić zasady dostępu do pomieszczeń, odpowiedzialności, wydać stosowne instrukcję ochronie oraz personelowi (centrali i CPD), umożliwić przepływ informacji Nakładanie się i zacieranie odpowiedzialności Za bezpieczeństwo osób i mienia w obiekcie CPD odpowiada kierownik obiektu. W budynku mieszanego przeznaczenia jest kierownik obiektu, który nie musi być kierownikiem CPD – taka sytuacja powinna być wyjaśniona za pomocą odpowiednich regulacji Problemy z wykonywaniem napraw po awariach i przeglądów prewencyjnych Wzajemna komunikacja o konieczności wykonania przeglądów lub napraw, które mogą wzajemnie zakłócać działalność centrali i CPD, o ile to możliwe – komunikacja z wyprzedzeniem (plan przeglądów), uzyskiwanie zgody biznesu na prace serwisowe infrastruktury CPD, dobrze zdefiniowane procesy zarządzania zdarzeniami, incydentami, problemami i zmianami Zagrożenie dla ciągłości działania CPD w przypadku współdzielenia infrastruktury np. zasilania (trafostacja, agregat, UPS budynkowy) Możliwie maksymalne odseparowanie infrastruktury krytycznej CPD od powierzchni biurowych. Trafostacja i agregat (o odpowiedniej mocy) mogą być współdzielone, UPS budynkowy musi być osobno dedykowany dla powierzchni biurowych i odbiorów w CPD
  19. 19. Warstwa infrastrukturalna Temat 3: Charakterystyka budynku. 2 w 1 Problem Rozwiązanie Możliwy dyskomfort pracowników biura (hałas, transport urządzeń) Pomieszczenie UPS i serwerownie powinny zostać wygłuszone tak, aby nie zakłócać pracy w sąsiednich biurach. Trasy transportowe powinny być tak wyznaczone, aby nie blokować korytarzy w przestrzeni biurowej (w miarę możliwości), ewentualnie dostawy sprzętu po godzinach pracy biura Awarie infrastruktury budynkowej mogą wpływać na obszar CPD (instalacja wodociągowa, kanalizacja) System BMS w CPD powinien korzystać z czujek zalania, które zainstalowane powinny być w miejscach potencjalnego pojawienia się wody (nie tylko przy klimatyzatorach, także np. pod sufitem) Ograniczenia infrastruktury budynku biurowego Konieczność wymiany trafostacji, agregatu, wzmocnienia stropu w pomieszczeniach serwerowni i UPS, instalacja dodatkowych systemów ppoż. (system gaszenia gazem + butlownia), duże ilości okablowania w szachtach itp.. „Stare” Primary Data Centre. Komora
  20. 20. • Przestrzeń CPD może być dedykowana wyłącznie jednemu użytkownikowi • Brak współdzielonej infrastruktury krytycznej, systemów zabezpieczenia technicznego, dedykowana ochrona i własne standardy bezpieczeństwa fizycznego • Taki budynek może znajdować się poza centrum miasta, ale w jego bliskości (łatwy dojazd dla personelu, służb miejskich, patroli/grup interwencyjnych ochrony) • Jest to scenariusz lepszy od budynku mieszanego przeznaczenia z przestrzenią współdzieloną Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana Disaster Recovery Data Centre. Komora
  21. 21. Warstwa infrastrukturalna Temat 4: Charakterystyka budynku. Przestrzeń dedykowana Problem Rozwiązanie Mogą występować ryzyka związane z działalnością prowadzoną przez sąsiadów Należy upewnić się i zagwarantować sobie (poprzez porozumienie z Administratorem Budynku), że w budynku nie będzie prowadzona działalność, która może nieść zagrożenie dla CPD (np. hurtownia farb i lakierów, gotówkowa placówka bankowa) Awarie infrastruktury budynkowej mogą wpływać na obszar CPD (instalacja wodociągowa, kanalizacja) System BMS w CPD powinien korzystać z czujek zalania, które zainstalowane powinny być w miejscach potencjalnego pojawienia się wody (nie tylko przy klimatyzatorach, także np. pod sufitem) Disaster Recovery Data Centre – komora i MDF
  22. 22. • CPD zaprojektowane i zbudowane od podstaw • Lokalizacja poza centrum miasta, ale umożliwiająca łatwy dojazd dla personelu służb miejskich, patroli/grup interwencyjnych ochrony • Brak ograniczeń strukturalnych i infrastrukturalnych istniejących budynku (projekt uwzględniający wszystkie potrzeby CPD) • Ułatwione zarządzanie obszarem bezpieczeństwa fizycznego osób i mienia • Ułatwione zarządzanie dostawami i usuwaniem sprzętu, przeglądami i naprawami po awariach • Szansa na zapewnienie bardzo wysokiego poziomu bezpieczeństwa w warstwie fizycznej, infrastrukturalnej i organizacyjnej Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt Primary Data Centre. Komora AST
  23. 23. Warstwa infrastrukturalna Temat 5: Charakterystyka budynku. Dedykowany obiekt Primary Data Centre. Wewnątrz komory AST
  24. 24. • Korozja urządzeń IT w serwerowni o kontrolowanych warunkach środowiskowych jest możliwa! • Miejscowe i ciągłe pomiary temperatury oraz wilgotności (BMS) nie dadzą nam 100% pewności, że sytuacja korozji nie wystąpi (np. pomiar w 3 miejscach zimnego korytarza na wysokości 2/3 szaf IT) • Tego typu pomiary pozwalają, co najwyżej, udowodnić, że w obrębie komory serwerowni spełnione są parametry określone w SLA odnośnie oczekiwanej temperatury i wilgotności Warstwa infrastrukturalna Temat 6: Monitoring środowiska
  25. 25. • Dobrą praktyką są okresowe pomiary przy użyciu kamery termowizyjnej, dokonywane w różnych miejscach komory, nieobjętych bezpośrednio pomiarem temperatury i wilgotności – np. na wlocie zimnego powietrza do urządzeń wolnostojących • Zdalny monitoring nie jest panaceum na wszelkie dolegliwości – nic nie zastępuje regularnych wizualnych inspekcji • Konieczne jest rozwiązanie problemu poprzez zmniejszenie wilgotności i zwiększenie temperatury nawiewu Warstwa infrastrukturalna Temat 6: Monitoring środowiska źródło: http://dpcalc.org/
  26. 26. • Nie ma szczurów, bo są myszy. A szczury jedzą myszy, więc gdyby były szczury, to by nie było myszy – cytat z życia! • Gryzonie uwielbiają izolacje kabli, a także światłowody • Ilość zakamarków CPD komplikuje zidentyfikowanie obecności intruzów • Znalezienie przegryzionego światłowodu może nie być łatwe • Na tak specyficzne zagrożenie także trzeba być gotowym Warstwa infrastrukturalna Temat 7: Atak gryzoni! źródło: Internet
  27. 27. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  28. 28. • Zarządzanie zmianą – musi być dobrze udokumentowane i zaimplementowane (ANSI/TIA-942) • Zarządzanie konfiguracją – aktualna dokumentacja • Zarządzanie pojemnością – kontrola i planowanie zużycia zasobów • Zarządzanie zdarzeniami, incydentami, problemami • Procedura dostawy i instalacji (z testami i weryfikacją poprawności) • Procedura wizualnych inspekcji i badań kamerą termowizyjną • Procedura usuwania sprzętu Warstwa organizacyjna Temat 8: Najważniejsze procesy
  29. 29. • Urządzenie nieprawidłowo podłączone do dwutorowego systemu zasilania • Dodatkowo, wizualna inspekcja pozwalała potwierdzić, że zasilanie doprowadzone jest z dwóch torów • Konfiguracja nie jest jednak zgodna z wymaganiami producenta, które określono w dokumentacji instalatora • Dziurawa procedura dostawy i instalacji sprzętu – nie uwzględniono konieczności wykonania testu, który pozwoliłby ustalić, że zasilanie rozprowadzone jest do modułów urządzenia w sposób zapewniający utrzymanie ciągłości działania • Brak testu może sprawić, że źle podłączone urządzenie pozostanie niewykryte przez wiele miesięcy • Utrata zasilania na jednym torze oznacza całkowite wyłączenie urządzenia… Zasilanego dwutorowo, ale niewłaściwie Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia Nieprawidłowo rozprowadzone zasilanie
  30. 30. • Tego typu awarii można uniknąć – należy posiadać procedurę dostawy i instalacji sprzętu, która wymaga testu i sprawdzenia poprawności konfiguracji (część procesu Zarządzania zmianą) • Wymagania instalacyjne powinny być konfrontowane z dokumentacją producenta • Dokumentacja konfiguracji serwerowni powinna być aktualizowana od razu po instalacji • Autoryzowany personel powinien bezpośrednio nadzorować firmy zewnętrzne, odpowiedzialne za instalację urządzeń • Tego typu błędy można naprawić wyłącznie w czasie bezpiecznego okna serwisowego – wyłączenie urządzenia może nie być możliwe (sic!). Wówczas konieczne jest posiłkowanie się dodatkowym źródłem (tymczasowym) zasilania Warstwa organizacyjna Temat 9: Brak weryfikacji poprawności instalacji urządzenia Prawidłowo rozprowadzone zasilanie
  31. 31. • Montaż tzw. „nieprodukcyjnego” urządzenia bez przejścia procesu zarządzania zmianą (CR-a) – sam CR nie zagwarantuje ciągłości operacyjnej, ale… • Dla CPD nie ma rozróżnienia na sprzęt produkcyjny i nieprodukcyjny. • Każda instalacja niesie za sobą ryzyko, każdy sprzęt konsumujący zasoby staje się produkcyjny, ma wpływ na zarządzanie konfiguracją i pojemnością, może stać się przyczyną incydentu (staje się częścią żywej infrastruktury) • Oby infrastruktura nie zaczęła żyć własnym życiem! Warstwa organizacyjna Temat 10: Zmiany produkcyjne i „nieprodukcyjne” Okablowanie a’la spaghetti źródło: Internet
  32. 32. • Instalacja urządzenia w szafie, która jest na granicy zapasu mocy. W najbardziej korzystnym scenariuszu może oznaczać to zadziałanie zabezpieczenia w listwie PDU dla kilku gniazd (1 pole), zasilanych z jednego toru. W najgorszym wariancie wyłączeniu ulegną urządzenia w całej szafie. Jeżeli istnieje problem z selektywnością zabezpieczeń, to wpływ może być jeszcze większy (cała serwerownia?) – przy przeciążeniu lub zwarciu • Nierównomierne obciążenie torów zasilania – błahe, ale wciąż popularne. Ma negatywny wpływ na zarządzanie pojemnością • Mnożenie urządzeń jednozasilaczowych, które stają się „krytyczne” i zabezpieczanie ich coraz większą ilością STS-ów. Dodatkowo, komplikuje proces zarządzania pojemnością Warstwa organizacyjna Temat 11: Inne wciąż popularne błędy Problem z selektywnością zabezpieczeń. Przykładowy wpływ awarii (zwarcie) lub przeciążenia zasilacza
  33. 33. • Zaniki zasilania to zwykle serie – często mają związek ze złymi warunkami atmosferycznymi • Przy zanikach częstszych niż 3 na godzinę, układ automatyki klimatyzacji zostaje zablokowany, sprężarki chillerów przestają pracować (jest to mechanizm ochronny) - konieczny jest fizyczny restart sterownika (na dachu?) • W serwerowni zaczyna rosnąć temperatura • Najlepiej wyciągnąć sygnał do pomieszczenia kontroli i nadzoru CPD (BMS) • Uruchomienie agregatu na okres 1h po pierwszym zaniku zasilania lub praca do zatrzymania • Każde przełączenie źródła zasilania przez SZR to dodatkowe ryzyko • Problem z restartem sterownika klimatyzacji lub startem agregatu – w czasie burzy z piorunami? • Tier I i Tier II – szczególne ryzyko • SMS? • Obsługa 24/7 (Tier III, Tier IV) Warstwa organizacyjna Temat 12: Procesy, procedury a rzeczywistość
  34. 34. • O Nordea IT Polska sp. z o.o. (NITPL) • Bezpieczeństwo CPD... • Warstwa fizyczna • Warstwa infrastrukturalna • Warstwa organizacyjna • Podsumowanie
  35. 35. Podsumowanie • Obowiązuje reguła najsłabszego ogniwa • Wszystkie warstwy infrastruktury są ze sobą powiązane • Testy integracyjne i obciążeniowe przed uruchomieniem • Regularne audyty i oceny ryzyka • Aktualna dokumentacja • Zdefiniowane, udokumentowane i wdrożone procesy • Zdefiniowane i ciągle aktualizowane procedury • Gotowość do ciągłych zmian • Optymizm w stosunku do wyzwań codzienności 
  36. 36. Podsumowanie W prezentacji wykorzystano pomysły i spostrzeżenia członków Zespołu DCS Nordea IT Polska sp. z o.o.: Zenon Ruta, Sebastian Jary, Filip Jeziorski, Piotr Trzciński, Krzysztof Kęsicki, Bartosz Kwiatek, Paweł Wawrzyniak
  37. 37. Dziękuję 

×