Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

分散ファイルシステムGfarm上でのHadoop MapReduce

11,822 views

Published on

  • Sex in your area is here: ♥♥♥ http://bit.ly/39pMlLF ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating for everyone is here: ♥♥♥ http://bit.ly/39pMlLF ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • ファイルのレプリカ側、マスター側のような区別はなく、ユーザーはレプリカなのか最初に出来たファイルなのかわかりません。また、Gfarm側ではレプリカを作成したファイルを更新すると、レプリカが一つになってしまいます。
    しかし、gfarm2fsでマウントする際に自動複製作成機能を設定でき、レプリカを作成したファイルに関して更新した場合、全てのレプリカに更新が反映されます。
    http://datafarm.apgrid.org/ml/gfarm-announce-ja/msg00044.html
    私自身はこれらの機能を使ったことはなく、ドキュメントなどでの理解なので、実際に使用する際は検証された方が良いと思います。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • 大変役に立ちました。質問させて下さい。Gfarmは双方向のレプリケーション可能でしょうか。レプリケーション側でも更新したいというニーズがあり、検討しております。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • GlusterFSで分散ファイルシステム構築しようと考えているので勉強になりました。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

分散ファイルシステムGfarm上でのHadoop MapReduce

  1. 1. 分散ファイルシステムGfarm上でのHadoopMapReduce<br />三上俊輔<br /><shun0102@gmail.com><br />
  2. 2. 自己紹介<br />筑波大学システム情報工学研究科コンピュータサイエンス専攻M1<br />HPCS研究室<br />分散ファイルシステム<br />サイト、twitter<br />http://shun0102.net<br />Twitter: shun0102<br />
  3. 3. HDFSの問題点<br />POSIXに準拠してない<br />追記以外の再書き込み不可、複数ライターからの書き込み不可<br />マウントしたい<br />Hdfs-fuse は不安定<br />マスターが単一障害点<br />まだ簡単な解決策はない<br />
  4. 4. 他のファイルシステムの利用<br />Gfarm<br />今日話します<br />GlusterFS<br />性能評価をとってみました<br />Ceph<br />負荷をかけると固まる、、、<br />Lustre, PVFS2<br />今後調べてみたい<br />
  5. 5. Gfarmの特徴<br />汎用的な分散ファイルシステム<br />サーバーの余ってるローカルファイルシステムを束ねて分散共有ストレージにできる<br />Better NFS<br />メタデータサーバ1台(active-standby可)<br />多数ファイルシステムノード<br />スケールアウト<br />データアクセスはファイルシステムノードへ直接<br />HDFSの様にメタデータサーバの処理能力までスケールアウト<br />
  6. 6. Gfarmの活用事例<br />筑波大、産総研、KEK、NICT、KDDI研究所、NTTコミュニケーションズ<br />商用サポート<br />ベストシステムズ<br />参考(GfarmWorkshop 2010)<br />http://datafarm.apgrid.org/event/gfarm10/program.html<br />
  7. 7. Gfarmの構成<br />Gfarmメタデータサーバー<br />Gfarmストレージサーバー<br />Gfarmストレージサーバー<br />Gfarmストレージサーバー<br />Client<br />Metadata ops<br />Read or Write<br />Read or Write<br />files<br />files<br />files<br />仮想的な共有ファイルシステム(Gfarm)<br />
  8. 8. HDFSと比較した欠点<br />ブロック分割しない<br />単一ファイルへのアクセスがスケールしない<br />複製作成が非同期<br />レプリカが一つしかない時間がある<br />
  9. 9. 他のファイルシステムの利用法<br />JNIのlayerを挟むか、マウントしてアクセス<br />マウントの場合はファイルの格納場所がわからない<br />HadoopMapReduce applications<br />File System API<br />HDFS client library<br />FUSE<br />JNI shim layer<br />FUSE client<br />Client library<br />Filesystemservers<br />Filesystemservers<br />HDFS servers<br />
  10. 10. マシン性能その1<br />
  11. 11. HDFS vsGfarm(書き込み)<br /><ul><li>Hadoop付属のTestDFSIOベンチマークを使用
  12. 12. 各ノードが別々の50GBのファイルを書き込む(複製はなし)
  13. 13. ローカルに書き込むのでスケールする
  14. 14. Gfarmが約30%高い性能</li></li></ul><li>HDFS vsGfarm(読み込み)<br /><ul><li>Hadoop付属のTestDFSIOベンチマークを使用
  15. 15. 各ノードが5GBの別々のファイルを読み込む
  16. 16. HDFSとGfarmはほぼ同等の性能</li></li></ul><li>HDFS vsGfarm(まとめ)<br />書き込みはメモリにのる分性能差が出た<br />読み込みはディスクネックで性能差が出ない<br />
  17. 17. GlusterFS<br />ローカルファイルシステムを束ねて一つのファイルシステムにできる<br />マスターなし<br />FUSEベース<br />複製ありなし、ストライピングするしないを選択<br />
  18. 18. マシン性能その2<br />
  19. 19. GlusterFSvsHDFS<br />7.4 MB/sec/node<br />22 MB/sec/node<br />10.3 MB/sec/node<br />
  20. 20. GlusterFSvs HDFS<br />5.5 MB/sec/node<br />10.8 MB/sec/node<br />10.8 MB/sec/node<br />
  21. 21. HDFSに負ける理由は?<br />ローカリティを利用できないから?<br />FUSEのオーバヘッド?<br />
  22. 22. むしろ良い方と思うべき?<br />FUSEベースでインストールしやすい<br />マスターなし<br />
  23. 23. まとめ<br />GfarmはHDFSと同等の性能<br />GlusterFSは性能では劣るが使いやすい印象<br />Cephはまだ運用では使えない<br />

×