La grossa mole di informazioni prodotta dai dispositivi che ci circondano fa sì che ci si debba dotare di apparecchiature sempre più sofisticate e in grado di ospitare i dati, avendo cura che questi non vengano corrotti o peggio ancora irrimediabilmente persi. A causa della breve scadenza della maggior parte dei dati acquisti (si pensi ad esempio ai dati meteorologici), è indispensabile poter processare gli stessi nel più breve tempo possibile, rendendoli nel contempo accessibili in lettura e scrittura nel medesimo istante ad un certo numero di calcolatori. Lo scopo di questo incontro è quello di illustrare le tecnologie hardware e software utilizzate all'interno del CRS4 per la gestione degli apparati di Storage e la messa a disposizione delle informazioni contenute al loro interno.
2. Soluzioni
di
Storage
AGENDA
• HDD
e
SSD
• Fa;ori
che
influenzano
le
performance
• Protezione
dei
daB
• Accessibilità
dei
daB
• Filesystem
Paralleli
• Lo
storage
del
CRS4
martedì 13 novembre 12
3. Soluzioni
di
Storage
Dopo
la
CPU
e
la
scheda
madre
il
componente
più
criBco
di
un
computer
è
il
disco
rigido
martedì 13 novembre 12
4. Soluzioni
di
Storage
L'hard disk è stato inventato nel 1956 da IBM. Il primo prototipo
era costituito da 50 dischi del diametro di 24 pollici (circa 60 cm)
e poteva immagazzinare circa 5 megabyte di dati. Era grande
quanto un frigorifero, con un peso di oltre una tonnellata. La
denominazione originaria era fixed disk (disco fisso).cit Wikipedia
martedì 13 novembre 12
5. Soluzioni
di
Storage
• Il
form
factor:
– Dischi
da
5,25”
(obsoleB)
– Dischi
da
3,5”
fino
a
4
TB
– Dischi
da
2,5”
fino
a
2
TB
– Dischi
da
1,8”
fino
a
320
GB
martedì 13 novembre 12
6. Soluzioni
di
Storage
• Cosa
abbiamo
oggi
a
disposizione:
– Tecnologia
Parallel
ATA
• Conne;ori
a
40
pin
lunghi
max
45
cm
• Data
transfer
rate
fino
a
133
MB/sec
• Fino
a
7200
RPM
– Tecnologia
Serial
ATA
• Conne;ori
a
7
pin
lunghi
max
1metro
• Dara
transfer
rate
fino
a
6
Gbit/sec
• Fino
a
7200
RPM
martedì 13 novembre 12
7. Soluzioni
di
Storage
• Cosa
abbiamo
oggi
a
disposizione:
– Tecnologia
SCSI
(Small
Computer
System
Interface)
• Possibilità
di
collegare
fino
16
disposiBvi
in
un
singolo
canale
• Data
transfer
rate
fino
a
5120
Mbit/sec
(640
MB/sec)
• Fino
a
15000
RPM
– Tecnologia
SAS
(Serial
A;ached
SCSI)
• Data
transfer
rate
fino
a
6
Gbit/sec
• Fino
a
15000
RPM
martedì 13 novembre 12
8. Soluzioni
di
Storage
• Cosa
abbiamo
oggi
a
disposizione:
– Tecnologia
Fibre
Channel
• Data
transfer
rate
fino
a
800
MB/sec
full
duplex
• Alta
affidabilità
(UBlizzaB
in
ambienB
HPC)
• Fino
a
15000
RPM
– Tecnologia
SSD
(Solid
State)
• Data
transfer
rate
fino
a
20
volte
superiore
alla
tecnologia
SATA
• Dischi
obmizzaB
per
la
le;ura/scri;ura
martedì 13 novembre 12
9. Soluzioni
di
Storage
• Fa;ori
che
influenzano
le
performance
– Access
Time:
tempo
che
intercorre
da
quando
il
dato
viene
richiesto
a
quando
il
dato
viene
trasferito.
• Seek
Bme
• RotaBonal
latency
martedì 13 novembre 12
10. Soluzioni
di
Storage
• Fa;ori
che
influenzano
le
performance
– Seek
Time:
Nei
dischi
rotanB,
misura
li
tempo
necessario
alla
tesBna
per
posizionarsi
nella
traccia
del
disco
in
cui
il
dato
deve
essere
le;o
o
scri;o.
Velocizzare
il
tempo
di
seek
spesso
richiede
un
maggiore
dispendio
di
energia
e
provoca
anche
del
rumore,
ecco
perché
spesso
i
dischi
meno
rumorosi
sono
anche
quelli
meno
performanB
martedì 13 novembre 12
11. Soluzioni
di
Storage
• Fa;ori
che
influenzano
le
performance
– RotaBonal
latency
(o
semplicemente
latenza):
Corrisponde
al
tempo
necessario
per
posizionare
il
se;ore
di
disco
richiesto
immeditamente
so;o
la
tesBna
di
le;ura.
Que
tempo
è
fortemente
dipendente
dalla
velocità
di
rotazione
del
disco.
In
alcuni
casi
bisogna
considerare
anche
i
tempi
di
spin-‐up
martedì 13 novembre 12
12. Soluzioni
di
Storage
• Fa;ori
che
influenzano
le
performance
– Anche
se
a
qualche
volta
vi
fanno
arrabbiare…
non
urlate
mai
contro
gli
Hard
Disk
perché
creereste
problemi
di
latenza
martedì 13 novembre 12
13. Soluzioni
di
Storage
• Fa;ori
che
influenzano
le
performance
– Frammentazione
del
filesystem
– Calore
– Vibrazioni
– Interleaving
martedì 13 novembre 12
14. Soluzioni
di
Storage
• Protezione
dei
DATI
RAID
0
(striping)
• Incremento
delle
prestazioni
• Nessuna
ridondanza
RAID
1
(Mirroring)
•
Il
dato
viene
copiato
su
entrambi
i
dischi
•
Le
prestazioni
dipendono
dal
più
lento
dei
due
dischi
martedì 13 novembre 12
15. Soluzioni
di
Storage
• Protezione
dei
DATI
RAID
10
(
mirroring
-‐striping)
• Combina
i
vantaggi
(
e
gli
svantaggi
)
delle
due
Bpologie
di
RAID,
0
e
1
garantendo
un
buon
livello
di
sicurezza
e
adeguate
prestazioni
in
le;ura
e
scri;ura
martedì 13 novembre 12
16. Soluzioni
di
Storage
• Protezione
dei
DATI
RAID
5:
• Il
RAID
5
uBlizza
la
tecnica
dello
striping
e
per
la
sicurezza
uBlizza
la
tecnica
del
controllo
di
parità.
• Realizzabile
a
parBre
da
3
Hdd
• I
daB
e
la
loro
parità
vengono
distribuiB
su
tub
gli
Hdd
• La
ro;ura
di
un
disco
non
genera
perdità
di
daB,
ma
si
ha
un
degrado
delle
prestazioni
• Operazioni
di
le;ura
abbastanza
veloci,
possibili
rallentamenB
nelle
operzioni
di
scri;ura
a
causa
del
calcolo
dei
daB
di
parità
martedì 13 novembre 12
17. Soluzioni
di
Storage
• Protezione
dei
DATI
RAID
6:
• Il
RAID
6
uBlizza
la
tecnica
dello
striping
e
per
la
sicurezza
uBlizza
la
tecnica
del
controllo
di
parità
con
doppio
calcolo
e
scri;ura
della
parità
stessa.
• Realizzabile
a
parBre
da
4
Hdd
• I
daB
vengono
distribuiB
su
tub
gli
Hdd
• La
parità
viene
riportata
due
volte
su
dischi
diversi
• La
ro;ura
di
due
dischi
non
genera
perdita
di
daB,
ma
si
ha
un
degrado
delle
prestazioni
• Operazioni
di
le;ura
abbastanza
veloci,
possibili
rallentamenB
nelle
operazioni
di
scri;ura
a
causa
del
calcolo
dei
daB
di
parità
martedì 13 novembre 12
18. Soluzioni
di
Storage
• Accessibilità
dei
daB
– NAS
(Networkork
A;ached
Storage)
• Termine
uBlizzato
per
descrivere
un
sistema
di
storage
completo,
fruibile
a;raverso
una
LAN
• Composto
solitamente
da
un
controller
collegato
ad
un
pool
di
dischi,
in
grado
di
esportare
i
daB
a;raverso
i
protocolli
più
comuni
(NIS,
CIFS,
HTTP
etc)
• Filesystem
di
dimensioni
limitate
e
comunque
non
superiori
ai
100
TeraByte.
martedì 13 novembre 12
19. Soluzioni
di
Storage
• Accessibilità
dei
daB
– SAN
(Storage
Area
Network)
• Termine
uBlizzato
per
indicare
una
rete
ad
Alte
Prestazioni
alla
quale
sono
collegaB
differenB
Bpi
di
memorie
di
massa
(Storage),
disponibili
e
fruibili
da
ogni
punto
della
rete
stessa.
• Connessioni
FC
e/o
iB
• Filesystem
di
dimensioni
superiori
al
PetaByte
martedì 13 novembre 12
20. Soluzioni
di
Storage
• Accessibilità
dei
daB
NAS
vs
SAN
Ogni
client
connesso
alla
LAN
può
Solo
server
dotaB
di
connessioni
ISCSI
uBlizzare
protocolli
NFS,
CIFS
,
h;p
o
Fibre
Channel
posso
conne;ersi
alla
etc
per
conne;ersi
alla
NAS
e
SAN
condividere
i
file
Un
Nas
idenBfica
i
daB
tramite
il
nome
Una
SAN
indirizza
i
daB
solo
a;raverso
file,
ed
è
in
grado
di
assegnare
il
numero
di
blocco
disco
in
cui
esso
è
permessi
di
le;ura/scri;ura,
data
di
contenuto
crezione
etc
Il
filesystem
viene
controllato
ed
Il
filesystem
viene
controllato
ed
esportato
a;raverso
un
controller
esportato
solo
a;raverso
server
NAS dedicaB
Il
backup
e
gli
snapshot
vengono
Il
backup
e
gli
snapshot
vengono
eseguiB
sui
file
con
un
notevole
eseguiB
sui
blocchi,
vengono
copiaB
risparmio
di
tempo
e
spazio
disco anche
i
blocchi
vuoB
martedì 13 novembre 12
21. Soluzioni
di
Storage
• Filesystem
Paralleli
–
ParBcolare
Bpo
di
filesystem
distribuito
che
distribuisce
i
file
a;raverso
una
serie
di
server,
e
fa
in
modo
che
gli
stessi
daB
possano
venire
acceduB
in
maniera
concorrente
da
più
applicazioni
o
da
più
processi
senza
calo
di
prestazioni.
martedì 13 novembre 12
22. Soluzioni
di
Storage
• Filesystem
Paralleli
– Perché
dotarsi
di
Filesystem
Paralleli?
• Tempi
di
elaborazione
drasBcamente
ridob
• Accesso
concorrente
in
le;ura
e
scri;ura
ai
file
• Scalabilità
del
filesystem
senza
messa
in
off-‐line
• Possibilità
di
creare
filesystem
di
enormi
dimensioni
(decine
di
Petabyte)
con
un
unico
mountpoint
– Esempo
di
Filesystem
Paralleli:
• LUSTRE
• GPFS
martedì 13 novembre 12
25. Soluzioni
di
Storage
• Pro
:
– Licenziato
so;o
GNU
GPL
– Aumento
delle
dimensioni
del
filesystem
senza
tempi
di
fermo
– La
velocità
di
accesso
ai
daB
aumenta
al
crescere
del
numero
degli
OSS
– Possibilità
di
“spli;are”
i
file
lungo
tub
i
dischi
martedì 13 novembre 12
26. Soluzioni
di
Storage
• Contro:
– Oracle
non
esegue
più
la
manutenzione
e
lo
sviluppo
del
filesystem
– Per
poter
montare
un
filesystem
lustre
occorre
uBlizzare
una
parBcolare
versione
di
kernel
modificato
dagli
sviluppatori
di
lustre
– Il
mal
funzionamento
di
uno
qualsiasi
dei
client
che
eseguono
il
montaggio
del
filesystem,
può
degradare
le
prestazioni
dell’intero
filesystem.
– Il
catalogo
MDT
non
può
essere
replicato
a
caldo
martedì 13 novembre 12
27. Soluzioni
di
Storage
• Cosa
succede
se:
– Si
rompe
un
OST:
• Tub
i
daB
contenuB
in
quell’
OST
non
sono
più
diponibili,
LUSTRE
conBnua
comunque
a
funzionare
– Si
rompe
l’MDT:
• Tub
i
daB
del
filesystem
diventano
inacessibili
e
probabilmente
persi
per
sempre
– Si
rompe
l’MGT:
• Il
filesystem
lustre
diventa
inaccessibile,
ma
non
c’è
perdita
di
daB
martedì 13 novembre 12
29. Soluzioni
di
Storage
• Il
Quorum
– Viene
definito
come
il
numero
minimo
di
nodi,
uBli
al
corre;o
funzionamento
di
GPFS
– Se
il
numero
di
nodi
raggiungibili
è
inferiore
al
quorum,
il
filesystem
non
è
più
accessibile.
I
nodi
riavviano
il
GPFS.
quorum
=
50%
+
1
(del
numero
di
nodi
nel
cluster)
martedì 13 novembre 12
30. Soluzioni
di
Storage
• Pro:
– Archite;ura
basata
su
dischi
condivisi
che
perme;e
di
raggiungere
un
elevata
scalabilità
– I
file
vengono
“spalmaB”
su
tub
i
dischi
generando
un
elevato
throughput
– In
caso
di
aggiunta
di
nuovo
storage
il
carico
può
essere
ribilanciato
automaBcamente
– Possono
essere
creaB
più
Metadata
Catalog
– Non
è
necessario
uBlizzare
kernel
modificaB
martedì 13 novembre 12
31. Soluzioni
di
Storage
• Contro:
– Qualsiasi
Host
che
monta
il
filesystem
GPFS
può
eseguire
comandi
in
grado
di
degradare
il
filesystem
– Licenziato
a
pagamento
– Il
ribilanciamento
dei
daB
degrada
fortemente
le
prestazioni
del
filesystem
– Il
numero
degli
host
che
possono
montare
il
filesystem
deve
essere
deciso
in
fase
di
creazione
del
filesystem
e
non
può
essere
modificato
martedì 13 novembre 12
33. Soluzioni
di
Storage
• L’ulBma
acquisizione:
– 3
Armadi
rack
composB
da
2
Controller
SFA
10K
e
600
dischi
sata
da
3TB
per
un
totale
di
5,4
PB
RAW
– 12
Server
con
connessioni
IB
e
10
GbE
(4
per
ogni
Armadio)
– 1
Storage
IBM
Storwize
V7000
con
24
dischi
SAS
da
600
GB
10000
RPM
– 2
Server
con
connessioni
10
GBE
collegaB
allo
Storwize
martedì 13 novembre 12