I held this presentation at the FHI IT Room Infra conference on 14 November 2017. It gives a brief overview of the creation of the Dutch National HPC data center (in dutch).
1. Hoe verhuis je een supercomputer?
SURFsara is verhuisd van VANCIS naar Digital Realty
van 1-7 – 16/10/16
Robert Lukkenaer
2. • SURFsara biedt een geintegreerde ICT Research infrastructuur met
diensten voor berekenen, opslag, visualisatie, netwerken, cloud en e-
science
• SARA is opgericht in 1971 als een Amsterdams rekencenter door de UVA,
VU en het CWI
• Onafhankelijke stichting vanaf 1995
• Oprichting VANCIS in 2008 waarin de diensten aan ondernemingen,
universiteiten, onderwijs en gezondheidszorg instituten zijn ondergebracht
• Per 1 januari 2013 is SARA onderdeel geworden van Stichting SURF en
gaat verder onder de naam SURFsara
• SURFsara is vanaf 1984 altijd de thuisbasis geweest van de nationale
supercomputer, beginnend met een Control Data Cyber 205
• Vancis is maart 2016 vervreemd
SURFsara
4. Aanleiding voor de verhuizing
• Per 1 januari 2013 is SARA onderdeel van Stichting SURF
• Het datacenter is gecommercialiseerd (VANCIS)
• Een openbare aanbesteding voor datacenter facilities werd noodzakelijk:
– gewonnen door Telecity (tegenwoordig: Digital Realty), nieuwbouw
AMS-1T
– Conclusie: VERHUIZEN naar een fonkelnieuw datacenter per 1/7/2016.
– Het Nationaal HPC Datacenter is geboren
5. Het Nationaal HPC Datacenter
• Vermogen: 1,5 MW met optie tot 1,8 MW
• 800m2:
– 2 grote vloeren (1 voor Cartesius, en 1 voor de E-
Infrastructuur)
– 45m2 tbv de tapesilo (aparte klimaatregeling)
• Zeer energie-efficiënt:
– PUE: 1,19 design
– Waterkoeling tbv Cartesius (tot 1MW)
• Hi-FOG watermist blusinstallatie
6. Verhuisscope
• Cartesius, de nationale supercomputer, een BULLX
bestaande uit 42 racks
• Een enorme tape robot, inclusief 30pB tapes
• 160 racks aan andere HPC equipment:
– Front-end storage
– CXFS Hierarchische storage management
– Hadoop
– HPC Cloud
– Lisa
– GRID
– Ceph
– Surfdrive
– KA/Ondersteunende systemen
7. Definitie van een supercomputer
• Capability computing:
Gebruikt om hele grote complexe
problemen op te lossen,
bijvoorbeeld weermodellen.
• Capacity computing
Gebruikt om heel veel kleinere
problemen op te lossen,
bijvoorbeeld (ALS Icebucket
Challenge)
8. Waarom een supercomputer gebruiken
• Je JOB op een supercomputer draaien indien:
– de verwachte rekentijd jaren is op een PC
– De hoeveelheid benodigd geheugen veel groter is dan beschikbaar in een enkele
computer
• Cartesius, de Nationale Supercomputer, maakt het mogelijkheid om massive parallel
jobs te runnen
• Gebruikers zijn voornamelijk wetenschappers
10. Wat zijn de uitdagingen
• Cartesius is groot, complex, kostbaar en kwetsbaar
• We moesten gefaseerd verhuizen, ook de diensten waar Cartesius
van afhankelijk is en omgekeerd (b.v. backup)
• Supercomputing is niet High-Available. Er is geen backup. Het is
dus geen kwestie van “vMotion” naar de overzijde
• De hoeveelheid data:
– veel te volatiel en groot om via datacom te kopieren.
– Een restore bij data-loss zou maanden duren, een full backup
kost maanden
– Het risico op dataverlies moest worden gemitigeerd
• De machine moest zo kort onbeschikbaar zijn, voor de gebruikers
en om de (dubbele) kosten te minimaliseren. Bij oplevering van het
nieuwe DC gingen we huur betalen.
11. Technische migratie uitdagingen
• Gewicht en grootte van de racks (~1800kg)
• Hergebruik van de infiniband bekabeling (7000 stuks a 200 euro per
stuk)
• Nieuwe layout van de machine
• Het Telecity standaard datacenter moest worden aangepast voor de
supercomputer (b.v. waterkoeling). Een supercomputer draait
batchjobs. De variatie in stroomgebruik tussen idle & full-load is een
factor van 3
• Noodzaak voor een Power-cycle (in een maintenance window) om de
baseline vast te stellen
• Ondersteunende diensten en afhankelijkheden:
- Directory, Archief, Data-Services, Vancis TSM backup en restore
service, SURFsara accounting.
- Andere diensten die op Cartesius gehost worden, bijvoorbeeld
het visualisatie cluster
13. Verhuis scenario – Ramp down & up
• Voorbereiden en afbouwen
– Opbouwen van de landingsomgeving
– 30% van de capaciteit afschakelen
– Verhuizen en opbouwen “bruggehoofd”
• Cutover
– 100% afschakelen
– Finale data (r)sync backup
– Uitzetten
– Management en storage verhuizen
– Bruggehoofd starten
– Validatie tests
• Ramp-up
– Afbouwen capaciteit
– De-installeren, prepareren, verhuizen, installeren
van alle servers & storage
– Re-connect & in productie nemen
0%
100%
Oud
0%
Nieuw
10 dagen
donker
10 weken
30%
30%
14. Waar liepen we tegenaan
• Het risico van Data-loss. Mitigatie: We hebben een storage
rack vrij kunnen maken en de productie via rsync synchroon
gehouden
• Machines waren te zwaar en moesten deels gedemonteerd
worden voor transport
• De machine moest toch door het donker (plan: 2 weken
werd 10 dagen). Gebruikers waren niet blij
– we waren vroegtijdig begonnen met communiceren via
allerlei kanalen waardoor het beheersbaar werd
• De layout van de machine is gewijzigd in de nieuwe opzet
(vanwege power & waterkoeling), waardoor we ~1000
nieuwe kabels nodig hadden
• We hebben het transportrisico via de assurantiebeurs
moeten verzekeren (dat loont overigens)
15. Learnings
• Change freeze was noodzakelijk
• Goede relaties opbouwen met het latende
datacenter loont
• Voorbereiding is cruciaal, zeer vroegtijdig
betrekken van de vendor liep goed
• Soepel project dankzij een zeer uitgebreid
draaiboek en risicomanagement
• Nauwelijks verlies aan disks of andere
componenten na afkoeling en transport (er gaat
iedere week wel wat kapot)
16. Benefits
• Business case is positief (ook in retrospect)
• Aanzienlijk lagere stroomrekening door betere
PUE van het nieuwe datacenter (was ook wel
nodig want de verhuizing was kostbaar)
• Capaciteitsuitbreiding werd mogelijk (en is al
gedaan)
• Het is nu mogelijk Catesius in-place te vervangen,
er is immers voldoende vloercapaciteit (power is
het issue)
17. Contactgegevens
• Bedrijfsnaam: Lukkenaer, NJI
• Adres: Brugstraat 9, 3632 EH Loenen aan de
Vecht
• Telefoonnummer: 06-53860047
• E-mailadres: robert@lukkenaer.nl
• www.lukkenaer.nl
• Standnummer: FOREHAND / SIEMON