Come testare la resilienza della mia applicazione al fallimento di una zona di disponibilità

COME TESTARE LA RESILIENZA
DELLA MIA APPLICAZIONE AL
FALLIMENTO DI UNA ZONA DI
DISPONIBILITÀ
O COME PIACE A ME: DARE FUOCO A UNA ZONA DI
DISPONIBILITÀ

CHI SONO:
• Giuseppe Borgese SRE @ Nozomi Networks – Istruttore AWS
Freelance
• Azienda Americana con Headquarter Europeo a Mendrisio
Svizzera
• Cybersecurity in ambito OT/IoT – Cloud principale AWS
• HIRING!!! https://www.nozominetworks.com/company/careers/
• Mi piace scrivere articoli, codice Terraform, video tutorial su
youtube trovate tutto partendo da www.borsoft.ch
• Admin AWS User Group Catania (citta’ Natale)

ZONE DI DISPONIBILITÀ – LA REGION NON
ESISTE
• Le zone si trovano in zone
“distanti” una dall’altra NORD-
SUD-OVEST-EST
• Progettare tutte le applicazioni in
modo che resistano al down di
una zona di disponibilità

X`
• SIMULIAMO NON LO FACCIAMO DAVVERO 
• Risata spontanea

COME SIMULARLO? NETWORK ACL DENTRO IL
VPC
• Cosa sono le Network ACL
(NACL)?
• Firewall Stateless a livello di
subnet
• Tutto quando arriva dentro le
subnet deve passare anche
attraverso le NACL
• Nel nostro esempio ogni
subnet ha la sua NACL, ma
possono essere condivise

SERVIZI DENTRO IL VPC O FUORI IL VPC
• Fuori: S3, DynamoDB, Lambda (default), API GW (Regional/Edge)
• Dentro: Ec2, DynamoDB DAX, Lambda (con ENI), ELB, RDS, API
GW(internal)
• Con questo esperimento testiamo tutto quello che sta dentro il
VPC

TERRAFORM
MODULE TO
CREATE THE
EXAMPLE
• Potete ripetere
l’esperimento “a casa
vostra”
• Gia’ creato per motivi di
tempo
• ALB e’ uno ma in verita’ …
• Visualiziamo ELB, facciamo
curl
• Host del dns ELB
• Target Group e ECS

DIAMO FUOCO CON IL NACL
• Ogni subnet ha la sua NACL
• Scegliamo una zona di disponibilita’
• Rimuoviamo la allow per le due subnet sia in ingress che
in uscita
• Facciamo partire un cronometro

EFFETTI
• In circa 4 minuti (tempi variano) 1 IP del ALB verra’ rimosso
• In base ai tempi di health check del target group uno dei
container verra’ messo in draining
• ECS fara’ partire un container in un’altra subnet
• Downtime (parziale) molto basso in caso di un evento
catastrofico
• Auto riparazione del sistema

FIX
• Sistemando le ACL in circa 1 o 2 minuti IP del ALB torna su
• Il container rimane nella zona, per un bilanciamento bisogna
aspettare il prossimo evento di scaling.

INGEGNERIA DEL CAOS
• Per fare ancora piu’ esperimenti

FINE
• Colleghiamoci su linkedin - Giuseppe Borgese o tramite il mio
sito:
• www.borsoft.ch
• Articolo in inglese su questo argomento, c’e’ anche il github
repository.
• https://www.linkedin.com/pulse/set-fire-aws-availability-
zone-giuseppe-borgese/
• Se volete lavorare per la Svizzera dall’Italia (vi garantisco che
conviene farlo), tantissimi ruoli aperti. Contattatemi e google
nozomi careers

Come testare la resilienza della mia applicazione al fallimento di una zona di disponibilità

Recommended

Recommended

More Related Content

Similar to Come testare la resilienza della mia applicazione al fallimento di una zona di disponibilità

Similar to Come testare la resilienza della mia applicazione al fallimento di una zona di disponibilità (12)

Come testare la resilienza della mia applicazione al fallimento di una zona di disponibilità