Całkiem spore: ogień w serwerowni,
https://www.flickr.com/photos/pultzpics/5864033917
jeszcze gorzej: akcja gaśnicza
http://www.flickr.com/photos/33252741@N08/3287848148
błędne wdrożenia
dostępność przy blokadzie wdrożeń
https://www.flickr.com/photos/nalbertini/6364521809
błędne wdrożenia
dostępność przy blokadzie wdrożeń
https://www.flickr.com/photos/nalbertini/6364521809
Nie CZY, ale ILE NA RAZ ?
kilka lat temu, globalna firma, czerwone puszki, napój o smaku coli
burza + miotła upadając trąca wyłącznik generatorów
1h blackout
Kilkanaście godzin przywracanie sprawności, w tym czasie brak możliwości sprzedaży
2012 Amazon: 30min outage US-East region, Netflix, Instagram 16h out
Brak planu - Jasna komunikacja
Backup – słabe RTO
Klastry – fail maszyny, szafy, ale trzeba ręcznie przekonfigurować
Serwerownie – niezależność infrastruktury, ale wymagania dla aplikacji
Hybrydy – brak gwarancji czegokolwiek, SAMOLOT
Koszty, a co jeśli ich nie poniesiemy ?
Onet 200M rocznie
https://www.flickr.com/photos/doug88888/4612035503
http://venturebeat.com/2013/08/16/3-minute-outage-costs-google-545000-in-revenue/
http://www.myretailmedia.com/blog/9575/amazon_site_faces_blackout_which_may_cost_it_66_240_per_minute.php
http://www.emersonnetworkpower.com/en-US/Brands/Liebert/Infographics/Pages/Cost_Implications_of_Outages.aspx
Cała automatyka ta sama
Bez uzależniania się: używamy tylko EC2 i S3
Może inny provider ?
http://pixabay.com/pl/niebieski-ludzie-posta%C4%87-osoby-35182/
Ciągła gotowość
15 min strona statyczna
kilkadziesiąt min read-only
kilkanaście min full RW
rozwijanie
http://openclipart.org/detail/2482/exclamation-icons-by-molumen-2482
Każdy, łatwo, bez przygotowania
Jak często testować procedury ?
https://www.flickr.com/photos/imarlon/5870443132/
Jak często?
(backup: nie robi, robi, posiada)
Większość: nigdy,
Raz na rok? Na pół?
Raz na kwartał? – byliśmy tu, to za mało
https://www.flickr.com/photos/dafnecholet/5374200948/in/photolist-9bUbH3-8ZpGMD-bnZKrV-7gqFt6-5qq1mL-8UmXQP-2e69Di-71TkY-6YMWud-8ZQ8Zk-bmQ7kW-7gutJQ-7gqDsa-5NmQya-9uKMHb-92bGhe-8YvoyY-mEFyav-4jF7gg-arRhc2-5jLKHc-9ZeeR6-98r4Fu-6RhBnK-92iCQV-9v9Ti4-bzHJak-9uZmCu-8YkWzQ-iT5onj-67gyg5-7guveh-7pZMFo-dXpJv9-i2NaxZ-4mDhZd-5VLLjE-4rVGpG-yt9Lw-8XQn9v-93Qa1u-ajvEwa-4CzkNB-5Nobj3-4jkjPw-6A788o-6RHjWb-8NWLq1-52bbqE-xmLLQ
Cały czas!
Codziennie do porannej kawy!
Wdrożenia i regresja: dziś zepsute, jutro zauważone
Tak my robimy
kwartalne dodatkowo na potwierdzenie
https://www.flickr.com/photos/fullcolorpandas/9738121179
Zwariowałem?
Gdy musisz wykonać coś 100tys razy – zobaczysz wyraźnie co czasem nie działa,
nabierasz wprawy , poznasz sytuacje wyjątkowe
Ciekawostka: HaProxy po zgłoszeniu problemu „nikt normalny nie zmienia konfiguracji LB tak często”
https://www.flickr.com/photos/gemmabou/6892959779
Jak zachowa się system w ekstremalnych warunkach?
My dowiedzieliśmy się
Multimaster słabo działa w WAN
Nie można zakładać, że zmienimy lokalizację używając BGP, DNS
Kogo dotyczy DRP?
Kto powinien dbać o aktualność DRP ?
https://www.flickr.com/photos/aktivioslo/5238029950
wszystkich (admin, developer)!
DRP od początku życia aplikacji!
Odporność wszyta w architekturę !
https://www.flickr.com/photos/dhammza/577671123
Zapewnij fizyczne bezpieczeństwo: szafy, komory, strefy, reduncancja wszędzie gdzie się da
Paradoksalnie o wyjściu z chmury - myśl zanim do niej wejdziesz!
Aplikacja niezależna od sprzętu, sprzęt od dostawcy, Google walczy na cenę
Testuj regularnie, automatycznie!
procedura awaryjna wyryta na czole!