Použitie Cassandry v Azetmaile
350 000 používateľov za deň1 100 000 používateľov za mesiac    4 500 000 mailov za deň
104 TB unikátnych príloh  27 TB tiel emailov + 4 TB metadát0,6 TB dát pre fulltextové vyhľadávanie
Architektúra emailu                      SMTP                  Backend   MySql    NFS   Cassandra   MogileFS   ElasticSear...
Technológie použité v emaile NFS storage – telá mailov MogileFS – unikátne prílohy Cassandra – metainformácie o mailoch...
Zmena úložiska metadát emailovNFSvýhody: jednoduchosť použitianevýhody: problém so škálovaním a konzistenciou, chýbajúca...
CASSANDRA – NoSql DBVznikla v spoločnosti Facebook (inbox search), spája amazondynamo model a google bigtablescalability...
Python/Django/Pycassa/Pypollo
CASSANDRA – použitie počet nodov: 7 počet replík: 3 počet uložených kľúčov: ~2.3 mld obsadené miesto: ~4 TB read requ...
CASSANDRA partitioning dáta v clustri reprezentuje cyklický ring node má pridelený token T, určuje pozíciu v  ringu nod...
CASSANDRA replicationnode   token                           DC1:N4DC1:N1   25DC2:N1   26DC1:N2   50DC2:N2   51DC1:N3   75 ...
CASSANDRA replication rôzne stratégie umiestňovania replík  •   simple – repliky sa ukladajú na nody podľa poradia v ring...
"640K ought to be enough for anybody.”                                         B.G.
Cassandra v Azetmaile - Rubyslava #14
Upcoming SlideShare
Loading in …5
×

Cassandra v Azetmaile - Rubyslava #14

550 views

Published on

Prezentacia pouzitia Cassandra NoSQL technologie pre potreby Azetmailu.

Rubyslava #14 a PyVo #13
Bratislava, 15.3.2012

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
550
On SlideShare
0
From Embeds
0
Number of Embeds
131
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Cassandra v Azetmaile - Rubyslava #14

  1. 1. Použitie Cassandry v Azetmaile
  2. 2. 350 000 používateľov za deň1 100 000 používateľov za mesiac 4 500 000 mailov za deň
  3. 3. 104 TB unikátnych príloh 27 TB tiel emailov + 4 TB metadát0,6 TB dát pre fulltextové vyhľadávanie
  4. 4. Architektúra emailu SMTP Backend MySql NFS Cassandra MogileFS ElasticSearch Frontend
  5. 5. Technológie použité v emaile NFS storage – telá mailov MogileFS – unikátne prílohy Cassandra – metainformácie o mailoch a priečinkoch používateľa ElasticSearch – fulltextové vyhľadávanie Memcache – session dáta pre email MySQL – dáta o používateľoch
  6. 6. Zmena úložiska metadát emailovNFSvýhody: jednoduchosť použitianevýhody: problém so škálovaním a konzistenciou, chýbajúcaredundancia dát, nízky výkon pri veľkom objeme dátCassandra, ElasticSearchvýhody: replikácia, vysoká dostupnosť, jednoduchý scale upnevýhody: transakčné spracovanie, nároky na HW
  7. 7. CASSANDRA – NoSql DBVznikla v spoločnosti Facebook (inbox search), spája amazondynamo model a google bigtablescalabilityflexibility – prístup ku CAP problémuconsistency – všetky repliky majú rovnaké dátaavailability – dostupnosť clustra pri výpadku nodupartition tolerance – fungovanie pri rozpade clustra
  8. 8. Python/Django/Pycassa/Pypollo
  9. 9. CASSANDRA – použitie počet nodov: 7 počet replík: 3 počet uložených kľúčov: ~2.3 mld obsadené miesto: ~4 TB read requests rate: 345 ops write requests rate: 221 ops read request latency: 12 ms write request latency: 2ms
  10. 10. CASSANDRA partitioning dáta v clustri reprezentuje cyklický ring node má pridelený token T, určuje pozíciu v ringu node zodpovedá za interval (T-1; T> ring rozdelený intervaly (dané počtom nodov) kľúč je mapovaný na token, určuje cieľový primárny node partitioners: random partitioner (md5 hash) – rovnomerné rozloženie byte ordered partioner – umožňuje range scan
  11. 11. CASSANDRA replicationnode token DC1:N4DC1:N1 25DC2:N1 26DC1:N2 50DC2:N2 51DC1:N3 75 DC2:N3DC2:N3 76 DC1:N3 DC1:N1DC1:N4 100 DC2:N1replication factorDC1: 1DC2: 2 DC2:N2 DC1:N2
  12. 12. CASSANDRA replication rôzne stratégie umiestňovania replík • simple – repliky sa ukladajú na nody podľa poradia v ringu • network topology – zohľadňuje fyzické umiestnenie nodov (datacentrum, rack, …) klientské operácie sú vykonávané s úrovňou konzistencie: • one – práve jeden node • quorum – nadpolovičná väčšina nodov • all – všetky nody požadovaná konzistencia určuje: • dostupnosť clustra pri výpadku nodu • konzistenciu čítaných dát • garanciu zápisu dát na x nodov
  13. 13. "640K ought to be enough for anybody.” B.G.

×