Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP Yönetimi

Dr. Hüseyin ÇOTUK
24.01.2018
Ankara
Ceph Türkiye Meetup
Ceph Temelleri ve
CRUSH MAP Yönetimi

Gündem
• Ceph Nedir?
• Ceph’in Avantajları
• Ceph Bileşenleri
• Ceph Üzerinde Veri Nasıl Saklanır?
– CRUSH Algoritması
– CRUSH MAP
• CRUSH MAP Kişiselleştirme
• Soru/Cevap

İlk Bakışta Ceph
• Açık kaynak kodlu
• Donanım bağımsız, yazılım tabanlı
• Exabyte ölçeğinde tasarım
• Distributed object store
• Unified (Object, Block, FS desteği)
• Metadata sunucusu yok (CRUSH)
• Copy-on-write cloning, thin provisioning
• Cloud workloads
• Snapshot, clone
• Mirroring
• Replika veya Erasure Coding (EC)

RAID Devrinin Sonu
●
30 yıldır her türlü yük çalışıyor
●
Disk boyutları arttıkça uzun recovery time, yüksek
hesaplama gücü, ciddi performans etkisi
●
Birden fazla disk bozulduğunda hata toleransı düşük
●
Yedek diskler atıl bekliyor
●
Aynı RAID grubundaki (RG) disklerin birbiri ile aynı
tip ve özellikte olması gerek
●
RAID kartlarının maliyetleri yüksek (TCO)
●
Sistemin büyümesi kartlara bağlı
●
RAID gruplarına eklenecek disk sayısı sınırlı
●
Veri bütünlüğü aynı raf/RG içerisinde mümkün
●
Gelişmiş özellikler için gereken lisans maliyetleri

Dağıtık Mimaride Depolama Çözümleri
●
Lustre
●
GlusterFS
●
HDFS
●
GPFS

Diğer DD Çözümleri ile Karşılaştırmalar
●
GPFS
– Ticari (IBM), maliyeti yüksek
– Entegrasyon zor, sınırlı arayüz desteği
●
HDFS
– Blok depolama yok
– POSIX uyumlu değil
– HA desteği yok (single NameNode)
– Az sayıda büyük dosya saklamaya elverişli
●
Lustre
– Metadata problemi (performans, risk)
– Çok sayıda küçük boyutlu dosya saklamaya uygun değil
– Sunucu arızasını tespit eden mekanizma yok (Client farklı sunucuya
bağlanmak zorunda)
●
GlusterFS
– Sistem yöneticisinin farklı coğrafi lokasyon için strateji üretmesi gerekir
– Blok depolama desteği yok (plugin gerektirir)

Ceph: The Future of the Storage

Neden Ceph?
●
Ücretsiz
●
Donanım bağımsız
●
Esnek, ölçeklenebilir (exabyte scale)
●
Hata toleransı yüksek (dağıtık mimari)
●
Yüksek performans
●
Hızlı recovery
●
Unified (OS, BS, FS)
●
Gelişmiş özellikler (mirroring, replication)
●
Erasure coding opsiyonu
●
Hibrid çalışabilme (sunucu, disk)
●
Multi region desteği
●
S3, Swift API uyumlu

Ceph Bileşenleri
• RADOS (Reliable Autonomic Distributed
Object Store)
• LIBRADOS (Rados Library)
• OSD (Object Storage Device)
• MON (Monitor)
• RGW (Rados Gateway)
• RBD (Rados Block Device)
• MDS (Metadata Server)
• FS (File System)

Ceph OSD – Journal İlişkisi

Ceph Üzerinde Veri Nasıl Saklanır?
●
Yerleşim Grupları (Placement Groups-PG)
– Havuz ve OSD arasında verileri gruplamak üzere
kullanılan yapıtaşları
●
Veri Havuzları (Pools)
– İmajları barındıran mantıksal ayraçlar
– Büyüklükle orantılı PG’ye sahip
– Havuz bazında farklı replika sayısı seçilebilir
●
İmajlar (Images)
– Havuz içinde farklı verilerin tutulduğu yapıtaşları
●
Kural Grupları (Rulesets)
– Veriyi istenilen hiyerarşik yapıda dağıtmaya imkan
veren kurallar

Ceph Üzerinde Veri Nasıl Saklanır?

CRUSH Algoritması
●
Controlled Replication Under Scalable
Hashing

CRUSH Örnek
●
“huseyin” isimli nesneyi “cotuk” isimli
havuza yazma
– PG Sayısı : 32768
– Cotuk pool id : 5
– hash(‘huseyin’) = 0x894513ce
– 0x894513ce mod 32768 = 0x13CE
– PG → 5.13CE
– CRUSH(‘5.13CE’, {CLUSTER_TOPOLOGY} )
●
OSD 7
●
OSD 26
●
OSD 16

CRUSH Map
●
Her hiyerarşik yapı için tanımlanan kurallarla
birlikte Ceph’in veriyi nasıl saklayacağını belirler.
●
Çok aşamalı olabileceği gibi en az bir düğüm ve
yaprak hiyerarşisine sahip olmalıdır.
●
Hiyerarşideki her düğüm sepet (bucket) olarak
adlandırılır ve her sepetin bir tipi vardır.
●
Verileri tutan nesneler disklere verilebilecek
ağırlıklara göre disklere dağıtılır.
●
İhtiyaca göre istenilen esneklikte hiyerarşik yapı
tanımlanabilir. Tek kısıt en alttaki yaprak ismi
verilen düğümler OSD’leri temsil etmelidir.
●
Her yaprak düğüm bir sunucuya ya da başka bir
tipteki sepete bağlı olmalıdır.

CRUSH Hiyerarşisi
●
Root
Region
DC
Room
Pod
PDU
Row
Rack
Chassis
Host
OSD

CRUSH Failure Domains
●
Verinin hangi hiyerarşide yedekleneceğini
belirler.
●
Varsayılan olarak verinin replikaları farklı
sunucularda tutulacak şekilde dağıtılır.
●
İstenirse rack bazında, hatta arada yeterli
bağlantı varsa DC veya region bazında bile
kopyalar dağıtılabilir.
●
Kurallar içerisinde tanım yapılır.

CRUSH MAP Düzenleme
# ceph osd getcrushmap -o crushmap.txt
# crushtool -d crushmap.txt -o crushmap-
decompiled
# vi crushmap-decompiled
# crushtool -c crushmap-decompiled -o
crushmap-compiled
# ceph osd setcrushmap -i crushmap-
compiled

CRUSH MAP Bileşenleri
●
Devices
– Kümedeki tüm OSD’lerin listesi
●
Bucket types
– Kullanılabilecek bucket tipleri
– Özelleştirilebilir
●
Bucket definitions
●
Rules

Örnek CRUSH MAP Düzenleme - CLI
●
Amaç:
– İki farklı disk grubu (SSD, SATA) oluşturmak
– Replika ile veri bütünlüğünü sağlamak
– Havuzları ilgili disk gruplarına atamak

●
ceph osd crush rename-bucket default sata
●
ceph osd crush add-bucket ssd root
●
ceph osd crush add-bucket server1-ssd host
●
ceph osd crush add-bucket server1-sata host
●
●

●
●
●
ceph osd crush move server1-ssd root=ssd
●
●

●
ceph osd crush move server1-sata root=sata
●
●
●
ceph osd crush set osd.1 1.5 root=ssd
host=server1-ssd
●
ceph osd crush set osd.7 5.46 root=sata
host=server1-sata ...(diğer OSD’ler için aynı işlem)
1 2 3 4 5 6
7 8 9 10 11 12

CRUSH Rules
●
ceph osd crush rule create-replicated
{name} {root} {failure-domain-type} [{class}]
# ceph osd crush rule create-replicated ssd-
rule ssd host [ssd]
# ceph osd crush rule create-replicated
sata-rule sata host [sata]

Havuz – Kural Eşleme
#ceph osd pool create bench_hdd 100 100
#ceph osd pool set bench_hdd crush_ruleset 0
#ceph osd pool create bench_ssd 100 100
#ceph osd pool set bench_ssd crush_ruleset 1
#ceph osd pool create ssd_pool 256 256
#ceph osd pool set ssd_pool crush_ruleset 0
#ceph osd pool create sata_pool 100 100
#ceph osd pool set sata_pool crush_ruleset 1

Neden OpenStack + Ceph ?
●
OpenStack Depolama Gereksinimleri
– Ephemeral (Nova+Glance)
– Block (Cinder)
– File (Manila)
– Object (Swift)
●
Gelişmiş özellikler
– Live migration
– Direct snapshot & restore
– Mirroring
– HA
– Replication failover

Neden OpenStack + Ceph ?
OpenStack Kullanıcı Anketi 2017

Ceph Benchmark: Optimizasyon Öncesi
1 fio + 4 farklı pool rbd bench + 3 node cephfs üzerinden
dd aynı anda çalıştırılıp throughput ölçümü (4.372 GB/sn)

Ceph Benchmark: Optimizasyon Sonrası
1 fio + 4 farklı pool rbd bench + 3 node cephfs üzerinden
dd aynı anda çalıştırılıp throughput ölçümü (6.521 GB/sn)

Ceph Türkiye Ankara
●
https://www.meetup.com/Turkey-Ceph-
Meetup/

Soru / Cevap
●
Teşekkürler
●
Dr. Hüseyin ÇOTUK
– http://www.huseyincotuk.com
– huseyin@huseyincotuk.com
– huseyin@cephturkiye.com
– https://twitter.com/huseyin_cotuk
●
Sorular

Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP Yönetimi

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP Yönetimi

Similar to Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP Yönetimi (20)

Ceph Türkiye 7. Meetup Ankara: Ceph Temelleri ve CRUSH MAP Yönetimi