分散仮想ストレージシステム紹介

5,272 views

Published on

OSS(オープンソース)分散仮想ストレージのXtreemFS, Ceph, GlusterFSの紹介資料

Published in: Technology
0 Comments
12 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,272
On SlideShare
0
From Embeds
0
Number of Embeds
249
Actions
Shares
0
Downloads
115
Comments
0
Likes
12
Embeds 0
No embeds

No notes for slide

分散仮想ストレージシステム紹介

  1. 1. 分散仮想ストレージシステム ご紹介資料 OSSラボ株式会社 2013/11/21 1
  2. 2. クラウドストレージとは l  クラウド上のストレージサービス l  l  ユーザは物理的にどのデータセンタ/サーバ/ストレージ/ディスクに自分のデー タが格納されているのか、全く意識しなくて良い バックアップもオプション指定するだけで、自動的に地理的分散を保証してくれる オブジェクトストレージ(REST, JSON/XML etc.)のCloud Storage と、ブロックデバイスのPersistent Diskを提供 オブジェクトストレージ(REST, NTFS)のBLob Storage(Azure Drive)と、ブロックデバイスの Local Storageを提供 オブジェクトストレージ (REST)のS3と、ブロックデ バイスのEBSを提供 異なるサービス間、またはオンプレミス環境の ストレージと互換性/可搬性がない 2
  3. 3. クラウド透過なクラウドストレージが理想 ハイブリッド・クラウド 仮想マシン群 オンプレミス (物理・仮想マシン) パブリッククラウドサービス (仮想マシン) プライベートクラウド VMware, OpenStack, etc. POSIX (FUSE) ブロック デバイス 共有ファイル オンプレミス (物理・仮想マシン) VMイメージ 自動 レプリケーション プライベートクラウド REST API (S3, SWIFT互換) オブジェクト ストレージ 自動 レプリケーション パブリッククラウドサービス (仮想マシン) 3
  4. 4. 仮想ストレージとは l  仮想ストレージの階層 l  l  l  l  Disk Virtualization (ディスクの仮想化) :論理ブロック(LBA) Block Virtualization (ブロックの仮想化) :LVM/RAID File Virtualization (ファイルの仮想化) :VFS File System Virtualization (ファイルシステムの仮想化) (SNIA(Storage Network Industry Association)が作成したストレージ仮想化技術の分類) l  ファイルシステムの仮想化: l  l  l  ユーザからはサーバや記憶装置の多様性と分散が隠蔽され、単なるボリュー ムやファイルとして扱える透過性を持つ。 商用製品例 l  l  l  l  l  クラスタ/グリッドファイルシステム/仮想ストレージ/Software Defined Storage, etc. EMC ViPR VMware VSAN Datacore SANSymphony-V NexentaStor 分散ファイルシステムは、レプリケーションによるフォールトトレラント性強化を 目指したもの、並列化による性能強化を目指したもの、両方を同時に実現しよ うと設計されたものがある。 4
  5. 5. 分散仮想ストレージとは l  l  l  l  l  汎用PCサーバ/汎用OS(Linux)を使用 特別なハードウェア不要 フォールトトレラント スケールアウト 汎用プロトコル l  l  l  l  l  POSIXファイルシステム ブロックデバイス REST(AWS S3/SWIFT互換) NFS/SAMBA リモートレプリケーション(WAN越し) 5
  6. 6. 分散仮想ストレージのアーキテクチャ l  メタデータ管理 l  l  ネーミング l  l  同期/非同期、Read only/Read/Write、CAP定理、PAXOS ロードバランス l  l  WORM/Transactional locking/Leasing レプリケーション/同期方式 l  l  POSIX/FUSE/Block/REST キャッシングと一貫性保持 l  l  データ格納場所とオブジェクトIDのマッピングアルゴリズム クライアントアクセス l  l  集中管理型/分散管理型、フォールトトレランス、スケールアウト データ偏在の自動修正 自己修復機能(Self Healing) 6
  7. 7. ユースケース:共有ファイルサーバ 非同期Read Only レプリケーション R/W アプリケーション DC #1 DC #n 仮想ストレージ 仮想ストレージ ストレージ クラスタ データ 同期 レプリケーション R/W 同期 レプリケーション R/W アプリケーション ストレージ クラスタ ストレージ クラスタ 同期 レプリケーション アプリケーション DC #n R/W 仮想ストレージ ストレージ クラスタ ストレージ クラスタ データ アプリケーション データ DC #1 データ R/W Read Only データ 同期Read/Write レプリケーション アプリケーション ストレージ クラスタ データ アプリケーション Read Only アプリケーション ストレージ クラスタ データ 同期 レプリケーション ストレージ クラスタ R/W アプリケーション データ 7
  8. 8. ユースケース:バックアップ/DR DC内一次バックアップ R/W アプリケーション DR二次バックアップ 仮想ストレージ ファイルマウント 仮想ストレージ ストレージ クラスタ ストレージ クラスタ データ 同期 レプリケーション ストレージ クラスタ データ 非同期 Read Only レプリケーション 同期 レプリケーション ストレージ クラスタ データ 仮想ボリューム ブロックデバイス データ 仮想ボリューム ストレージ クラスタ ストレージ クラスタ データ アプリケーション 同期 レプリケーション R/W LVM ミラリング ストレージ クラスタ データ データ 非同期 Read Only レプリケーション 同期 レプリケーション ストレージ クラスタ データ 8
  9. 9. ユースケース:ログ集約 DC #1 Write アプリケーション アプリケーション Write 仮想ストレージ ストレージ クラスタ アプリケーション ストレージ クラスタ ログ ログ Write DC #n ストレージ クラスタ ログ ログ ログ ログ 非同期 Read Only レプリケーション Write ストレージ クラスタ アプリケーション ログ ログ 9
  10. 10. ユースケース:CDN クライアント クライアント Read Only DC内一次ストレージ リモートレプリケーション 仮想ストレージ 仮想ストレージ 書き込み アプリケーション ストレージ クラスタ データ 同期 レプリケーション ストレージ クラスタ データ 非同期 Read Only レプリケーション ストレージ クラスタ データ 同期 レプリケーション ストレージ クラスタ データ 10
  11. 11. ユースケース: VMイメージストア ライブマイグレーション DC #1 DC #n 仮想ストレージ マウント VM ストレージ クラスタ 同期 レプリケーション VM VM ストレージ クラスタ 同期 Read/Write レプリケーション 同期 レプリケーション ストレージ クラスタ ストレージ クラスタ マウント VM ライブマイグレーション 11 11
  12. 12. ユースケース:HAストレージ DC #1 DC #n 仮想ストレージ ホスト アクティブ マウント ストレージ クラスタ HA構成 ホスト スタンバイ HA構成 非同期 Read Only レプリケーション ストレージ クラスタ ホスト スタンバイ ストレージ クラスタ マウント ストレージ クラスタ ホスト アクティブ 12
  13. 13. XtreemFS l  概要と特長 l  l  XtreemFSは、スケーラビリティとフォールトトレランスを備えたオブ ジェクトベースのグローバル分散ファイルシステムであり、BSDライセ ンスで提供される。Javaで実装され、Linux, MacOSX, Windows(ク ライアントのみ)がサポートされている。またHDFS互換の機能も提供 されており、HDFS Name Node / Data Nodeの代わりに使用する事 もできる。 開発/サポート体制 l  フランス政府研究省および、経済財政産業省が共同管理するフラン ス国立研究所であるINRIA(Institut National de Recherche en Informatique et en Automatique、 フランス国立情報学自動制御研 究所)が中心となってEC各国と中国の19機関が2006年から共同開 発した、科学技術計算グリッドシステム環境XtreemOSプロジェクトの 一環として開発された。 13
  14. 14. XtreemFSのアーキテクチャ ONC-RPC User space Kernel space Application vfs FUSE XtreemFS Client ① DIR ② Meta-data ③ MRC BabuDB BabuDB Heart-beat OSD vfs File system ブロックデバ イスドライバ ブロック デバイス 14
  15. 15. XtreemFSのReplication機能 l  Replicationは以下のポリシーが可能 l  Read/Write l  l  l  l  Primary/Backupモデル、定期的に更新されるリースによってPrimaryが選定される レプリカ数は最大10までが推奨 Writeは、全てのBackupに直ちに同期される 同期には下記の2通りのポリシーがある §  §  l  Read Only l  l  l  l  l  WaR1(Write all, Read 1) 全てのBackupに書き込みを完了する WqRq (Write quorum, Read quorum)過半数のBackupに書き込みが完了する 複製先は更新できない Full replicaとPartial Replicaが設定できる Fullはファイル作成時に全ての複製が作成される Partialはファイル作成時には空のファイルが作成されクライアントからリクエストがあった時点でオンデマンドでフェッチさ れる 複製先の選択 l  Gouping PolicyによってOSD (データノード)がどのデータセンターに所属し、データセンター/クライアント 間の距離によって、複製先が選択される 15
  16. 16. Ceph l  概要と特長 l  l  l  Ceph は、カリフォルニア大学サンタクルーズ校 (UCSC) の Sage Weil (現DreamHost / Inktank共同設立者)がストレージ・システムに関する博 士論文の研究プロジェクトとして、2007年から開発を始められたファイルシ ステムであり、2010年 に Linux カーネル (2.6.34 以降) に組み込まれた。 CephはLGPL V2.1ライセンスで提供され、商用版はCeph Enterpriseとし てInktankから販売サポートされている。 開発/サポート体制 l  l  開発はInktankを中心に進められているOpen Coreモデルである。オープ ンソース版がコアになり、商用版は管理用GUIやSNMPインターフェース、 Hyper-V連携等が加えられ、サポートが提供される。 2012年7月に最初の安定板をリリースした後、約3ヶ月毎にバージョンアッ プが行われ、現在は2013年11月にリリースされた5番目のV0.72 (Emperor)が提供されている。V0.72は、Linuxカーネル3.4.20以降また は3.6.6以降でサポートされており、Windows版やMac版は提供されていな い。また、OpenStackやCloudStackと共同でIaaS基盤とのストレージ連携 を強化している。 16
  17. 17. Cephのアーキテクチャ RADOS User space Kernel space Application Ceph-kernel Client vfs kernel Device driver ① Monitors ② ③ MDS OSDs User space Kernel space Application vfs FUSE Ceph-fuse Client vfs File system ブロックデバ イスドライバ ブロック デバイス 17
  18. 18. CephのMulti-site Replication機能 オブジェクトストレージ(RADOSGW)のみ 対応済み l  物理的ロケーションの離れた別クラス ターにメタデータとデータを複製。 l  複製方式は、マスター/スレーブ、ス レーブはRead Only l  複製先は複数可能 l  ディザスタリカバリー用のバックアップ データを保証する。 l  一貫性はAP(Eventually consistency) 18
  19. 19. GlusterFS l  概要と特徴 l  l  GlusterFSは、2005年に起業したGluster, Inc.によって開発されていたが、 2011年のレッドハットによるGluster買収後はレッドハットにより開発されて いる、ファイルベースの分散並列フォールトトレラントファイルシステムであ る。オープンソース版のGlusterFS CommunityはLGPL V3ライセンスで提 供され、商用版はRed Hat Storage Serverとして販売サポートされている。 開発/サポート体制 l  l  l  開発はレッドハットを中心に2000人以上のコミュニティで進められている。 FedoraとRHELの関係と同様、オープンソース版が先進的機能を取り入れ、 商用版がアップストリーム安定版としてサポートが提供される。 レッドハットに買収された2011年にV3.0をリリースした後、数ヶ月毎にバー ジョンアップが行われ現在はV3.4が提供されており、V3.5が2013/12にGA 予定である。 Redhat Storageのドキュメントはレッドハット社、日本IBMなどから日本語ド キュメントが提供されており、コミュニティの日本語ドキュメントも多数存在 する。 19
  20. 20. GlusterFSのアーキテクチャ ボリューム トランスレータ User space Kernel space Application vfs FUSE ノード ノード クライアント Glusterfsd Glusterfsd トランスレータ トランスレータ vfs vfs File system File system ブロックデバイ スドライバ ブロックデバイ スドライバ ブリック ブリック 20
  21. 21. GlusterFSのGeo Replication機能 l  l  l  l  l  l  物理的ロケーションの離れた別クラスター にデータをBrick単位で複製する。 複製方式は、マスター/スレーブ、スレー ブはRead Only 複製先は、普通のファイルシステムでも可 能。 ディザスタリカバリー用のバックアップ データを保証する。 非同期型レプリケーション(ファイルの変 更は定期的に実施、違いを検知した時に 同期を行う。) rsync&SSH を使用するため、rsyncの限 界(ファイル総数等)が機能の限界。 21

×