Your SlideShare is downloading. ×
0
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
GlusterFS 技術と動向 2of2
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

GlusterFS 技術と動向 2of2

7,332

Published on

2011/12/8 第4回クラウドストレージ研究会 発表資料 2/2

2011/12/8 第4回クラウドストレージ研究会 発表資料 2/2

Published in: Technology
0 Comments
13 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
7,332
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
133
Comments
0
Likes
13
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 第4回クラウドストレージ研究会GlusterFS 技術と動向 2of2 
 2011/12/8(株)NTTPCコミュニケーションズ Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   1 
  • 2. 発表者の紹介 高橋 敬祐 (TAKAHASHI Keisuke) (個人用)Twitter ID : @keithseahus•  NTTPCコミュニケーションズ在籍 (2006年〜) – Webマイニング系開発 – 分散FS特にGlusterFSの調査,研究,それを利用した開発及びOSS活動 – 宇宙航空関連実証実験及び開発 – その他先端技術調査 •  出入りしている勉強会 –  VIOPS •  この界隈で特に関係の深い人 –  クラウドネットワーク研究会 –  伊藤氏 ( @thatsdone ) –  クラウドストレージ研究会 –  STEC 伊藤氏 ( @HarrisonIto ) –  Tokyo Erlang Workshop –  NTTPC 中冨 ( @nakacya ) –  その他 –  NTTPC 高田 ( @mikiT_T ) Google Groups: http://groups.google.com/group/gluster-ja Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   2 
  • 3. GlusterFS 技術と動向 2of21.  GlusterFSの概要と動向2.  GlusterFSの技術 1.  ストレージの階層構造 2.  分散アルゴリズム 1.  分散アルゴリズム 2.  Elasticなレイアウト変更 3.  特殊なケース 3.  メタデータ構造 4.  レプリケーション 1.  レプリケーション 2.  レプリケーションのデータフロー 3.  レプリカ障害とその対応 5.  運用面での注意点3.  FAQ4.  まとめ Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   3 
  • 4. レプリケーション Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   4 
  • 5. レプリケーション A VFS FUSE glusterfs glusterfsd glusterfsd VFS VFSfile system file systemblock device block device Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   5 
  • 6. レプリケーション VFS glusterfsが... FUSE A glusterfs glusterfsd glusterfsd VFS VFSfile system file systemblock device block device Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   6 
  • 7. レプリケーション VFS FUSE レプリケーションを行う glusterfs glusterfsd glusterfsd VFS VFSfile system file system A Ablock device block device Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   7 
  • 8. レプリケーション レプリカのペアはbrick単位で固定 レプリカ1/2 レプリカ2/2 B B brick4-1 brick4-2 A A brick3-1 brick1-1 brick3-2 brick1-2 C C brick2-1 brick2-2上記ボリューム作成例:# gluster volume create <volume> replica 2 brick1-1 brick1-2brick2-1 brick2-2 brick3-1 brick3-2 brick4-1 brick4-2 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   8 
  • 9. レプリケーションのデータフロー Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   9 
  • 10. レプリケーションのデータフロー VFS FUSE glusterfsglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   10 
  • 11. レプリケーションのデータフロー A VFS FUSE glusterfsglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   11 
  • 12. レプリケーションのデータフローFUSEでマウントしたクライアントによるデータの入力 VFS FUSE A glusterfs glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   12 
  • 13. レプリケーションのデータフローglusterfsプロセスがデータをレプリケーション VFS FUSE glusterfs A Aglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   13 
  • 14. レプリケーションのデータフロー すべてのレプリカを同時に転送 VFS FUSE glusterfs A Aglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   14 
  • 15. レプリケーションのデータフローネットワークの速度や遅延の影響を受ける VFS FUSE glusterfs A Aglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   15 
  • 16. レプリケーションのデータフローすべてのレプリカの転送が完了したら処理を終了 VFS FUSE glusterfs A A glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   16 
  • 17. レプリケーションのデータフロー読み込み時は、最も早く応答したbrickから転送される。 VFS FUSE glusterfs A A glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   17 
  • 18. レプリケーションのデータフロー読み込み時は、最も早く応答したbrickから転送される。 VFS FUSE glusterfs A A A glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   18 
  • 19. レプリケーションのデータフロー VFS FUSE A glusterfs A Aglusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   19 
  • 20. レプリケーションのデータフロー NFSでマウントした場合 VFS (NFSv3 クライアント) glusterfs (NFSv3 サーバ)glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   20 
  • 21. レプリケーションのデータフロー NFSでマウントした場合 A VFS (NFSv3 クライアント) glusterfs (NFSv3 サーバ)glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   21 
  • 22. レプリケーションのデータフロー クライアントから転送されるデータ量は レプリカ数の影響を受けない VFS (NFSv3 クライアント) A glusterfs (NFSv3 サーバ)glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   22 
  • 23. レプリケーションのデータフローglusterfsより先の処理についてはFUSEと同様 VFS (NFSv3 クライアント) A A glusterfs (NFSv3 サーバ)glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   23 
  • 24. レプリカ障害とその対応 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   24 
  • 25. レプリカ障害とその対応 想定される主な障害 (a)経路断によるbrick切断 (b)glusterfsdプロセスダウン によるbrick切断 glusterfs glusterfs ……。 glusterfsd glusterfsd glusterfsd glusterfsd(c)サーバダウンによるbrick切断 (d)brick切断中のレプリカ不整合 glusterfs glusterfs glusterfsd glusterfsd glusterfsd glusterfsd Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   25 
  • 26. レプリカ障害とその対応•  brick切断への対応 –  42秒でのタイムアウト •  プロセスダウンのみwait無しでの切り離し –  切断状態の記憶 •  以後同一glusterfsの別セッションは待たされない –  継続的なkeepaliveと再接続要求•  レプリカ不整合への対応 –  self-heal •  open(), stat(), write(), truncate(), readdir(), lookup()などがトリガ Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   26 
  • 27. 運用面での注意点 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   27 
  • 28. 運用面での注意点OSやハードウェアの監視を怠らないで下さい。 VFS FUSE glusterfsからは glusterfsdの状態しか見えない。 glusterfs glusterfsd ファイルシステム以下で異常が起きて も、glusterfsdはケアしない。 VFS 例えばread-only file systemやfile system input-output errorはblock device ユーザに返ってしまう。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   28 
  • 29. 運用面での注意点……。 volumeがfullになる前にadd-brickとrebalanceを。 A /path/to/fileA ③800〜1199 A 768 ①0〜399 A ②400〜799 Aファイル生成がエラーになります。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   29 
  • 30. 運用面での注意点 クラスタをまたがってノードを転用する場合は 転用対象ノードの /etc/glusterd/{peers,vols} 配下を削除して下さい。 クラスタA クラスタB fs A1 fs A2 fs B1 fs B2 volγ fsd B1 fsd B2volαvolβ fsd A1 fsd A2 volβ fsd A1 fsd A2 ある一定の条件下で特定の操作をすると、 転用先のクラスタの構成情報が汚染されます。 (転用元の構成情報が追加されてしまう) Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   30 
  • 31. FAQ Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   31 
  • 32. FAQ Q. レプリカの数を 変更できますか? A. できません。 どうしても、という場合は、レプリカ数を変更したボリュームを別途作成し、 データ移行を行うことになります。他にももっと良い方法があるかもしれません。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   32 
  • 33. FAQ Q. NFSマウントした場合に fcntl()やflock()が 効かないのですが。 A. 効きません。RFC 1813 のAnnexで規定するNLM (Network Lock Manager)を、 GlusterFSのNFSサーバが実装していないためです。 FUSEではこれらのロックが有効です。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   33 
  • 34. FAQ Q. レプリカ障害中に、 レプリカ数は保たれますか? A. 保たれません。レプリケーションを構成するノードがアクセス不能となった場合に そのノードの代替を他のノードが務めることはありません。 replace-brickを用いれば、ノードの入れ替えは可能です。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   34 
  • 35. FAQ Q. マルチテナンシーを 実現するには?A. 他の手段との組み合わせが 必要です。 サーバ仮想化やVLAN等を組み合わせれば、 異なるユーザ同士を隔離できます。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   35 
  • 36. FAQ Q. rebalanceって コスト高いですよね? A.  はい。 現在上手くやる方法を考えています。 現状だと、rebalanceのstart/stopを利用して、例えば深夜帯などトラフィックの少ない時間帯のみ実行する等 運用による解決を考えています。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   36 
  • 37. FAQQ. 最大の導入実績(台数)は?A. Gluster社の公式発表には、 某商用サービスPのケースで 「3データセンタに6台ずつ」 とあります。 …古くからある情報です。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   37 
  • 38. FAQQ. 向き不向きを教えて下さい。 A. 汎用的な用途に 向いていると思います。 シンプルでイージー、それでいてPOSIX準拠の I/Fを持っているためです。 反面、ある特定用途専用の分散FSには敵いません。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   38 
  • 39. FAQQ. 「スケールアウトNAS」と どっちがいいの? A. ノーコメントです。私自身はプログラマなので、ハードウェアプロダクトには詳しくありません。ただ「スケールアウトNAS」の機能性は 魅力的だと思っています。 分散FSならハードウェアを選べるので、 ベンダロックインのリスクがありません。 これをどう評価するか次第だと思います。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   39 
  • 40. FAQ Q. 某分散FSと どっちがいいの? A. ノーコメントです。 用途次第だと思います。また、SwiftやZFSのように、組み合わせて使える 相性の良い分散FSもあります。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   40 
  • 41. まとめGlusterFSの技術について、一歩踏み込んでご紹介しました。SPoFを抱えないために、レプリケーションへの対応は当然のこと、アルゴリズムによる分散やxattrによるメタデータ管理を行っています。皆様には既にGlusterFSを導入するための十分な知識があります。ぜひ試してみて下さい。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   41 
  • 42. GlusterFS 技術と動向1.  GlusterFSの概要と動向2.  GlusterFSの技術 1.  ストレージの階層構造 2.  分散アルゴリズム 1.  分散アルゴリズム ありがとうございました 2.  Elasticなレイアウト変更 3.  特殊なケース 3.  メタデータ構造 4.  レプリケーション 1.  レプリケーション 2.  レプリケーションのデータフロー 3.  レプリカ障害とその対応 5.  運用面での注意点3.  FAQ4.  まとめ Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   42 
  • 43. 参考•  Gluster Support –  Red Hat Networkによるサポートへ移行。•  NTTPC Gluster Support –  Glusterの正式な代理店。 –  ライセンスの販売取り次ぎ。 –  日本語でのサポート。 –  日本語での構築支援。 –  ご用命は storage-contact @ nttpc.co.jp まで。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   43 
  • 44. 参考•  過去の活動 –  第一回GlusterFS座談会 •  2011/09/14 於 株式会社プリファードインフラストラクチャー様 •  スライド公開中(プログラマ/ソフトウェア技術者向け)。 •  Ustream(録画)公開中。 -> http://www.ustream.tv/channel/glusterfs •  Togetterあり。 -> http://togetter.com/li/188183 –  第?回社内Lightning Talk Nite •  2011/11/2 於 (株)NTTPCコミュニケーションズ(クローズド+招待者only) •  スライド公開中(Web系プログラマ向け)。 –  Internet Week 2011 仮想化DAY 「最新動向GlusterFS」 •  2011/12/1 於 秋葉原 •  スライド公開中(インターネット/仮想化/クラウド関係者向け)。 –  サービス開発者・運用者のためのGlusterFSガイド •  2011/12/5 於 (株)NTTPCコミュニケーションズ(クローズド) •  スライド公開検討中。•  今後の活動(検討・調整中) –  第二回GlusterFS座談会 •  日程未定 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   44 
  • 45. 参考•  クリスピー・クリーム・ドーナツはクリスピー・クリーム・ドーナツ・ジャパン 株式会社の登録商標です。•  十万石まんじゅうは株式会社十万石ふくさやの登録商標です。•  Charlie and the Chocolate Factory, 2005, Warner Bros. All rights reserved.•  ビアード・パパは株式会社 麦の穂の登録商標です。 Copyright  (C)  2011,  NTTPC  Communications,  Inc.  All  Rights  Reserved.   45 

×