JTPA Geek Salon Dec 2009

3,374 views

Published on

Published in: Technology, Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,374
On SlideShare
0
From Embeds
0
Number of Embeds
629
Actions
Shares
0
Downloads
0
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

JTPA Geek Salon Dec 2009

  1. 1. 次世代ストレージシステムを 次世代ストレージシステムを語る ストレージシステム 桂島 航 / Wataru Katsurashima Product Manager, HYDRAstor NEC Corporation of America Page 1 © NEC Corporation 2009
  2. 2. 自己紹介 自己紹介 ▐ 仕事 グリッドストレージ製品( グリッドストレージ製品(HYDRAstor)のプロダクトマネージャ 製品 ) プロダクトマネージャ • HYDRAstorのサイト http://www.hydrastor.com ▐ 経歴 入社後、研究所でストレージ仮想化技術等に携わる グリッドストレージ(HYDRAstor)の製品化提案に携わる 2005年9月から北米に赴任し、HYDRAstorの製品マネジメントを担当 ▐ サイト LinkedIn: http://www.linkedin.com/in/wataruk Facebook: http://www.facebook.com/profile.php?id=1223041657 Twitter: http://twitter.com/w_katsura Page 2 © NEC Corporation 2009
  3. 3. HYDRAstor Project ▐ 米国市場ターゲットの新事業開発プロジェクト 米国市場ターゲットの新事業開発プロジェクト ターゲット ▐ 日米共同開発 ▐ シリコンバレー流の事業立上 シリコンバレー流 Detailed information is in NEC annual report 2007. Page 3 © NEC Corporation 2009
  4. 4. 本日の 本日の要旨 ▐ ストレージの最新技術をいくつかピックアップして解説 ストレージの最新技術をいくつかピックアップして解説 をいくつかピックアップして Data Deduplication – 容量を劇的に縮小 SSD – 性能を劇的に向上 Erasure Coding – 信頼性を劇的に向上 ※上記の技術の一つの実装例として ▐ HYDRAstorを少し解説 を ▐ クラウド時代のストレージシステムを考える (ディスカッション) クラウド時代のストレージシステムを 時代 ディスカッション) Page 4 © NEC Corporation 2009
  5. 5. Deduplication技術が出てきた背景 技術が てきた背景 技術 テープからディスクバックアップに えたいが、 テープからディスクバックアップに変えたいが、高い。 からディスクバックアップ なんとかできないか? なんとかできないか? ▐ テープバックアップに皆が悩んでいる テープバックアップに 性能 故障率 管理 セキュリティ(盗難) ▐ ただ、ディスクバックアップはお金がかかる ただ、ディスクバックアップはお金 はお バックアップストレージは、実は凄い容量が必要 • 大きな企業だと、平均で8~12週ぐらいのバックアップを保管 バックアップ容量=プライマリストレージ容量×10ぐらいになる Page 5 © NEC Corporation 2009
  6. 6. とは? Deduplicationとは? とは 同一内容のデータを重複格納しない技術 同一内容のデータを重複格納しない技術 しない Backup Data Example ▐ プロセス Day 1: Full Day 2: Day 3: …Day 8: Full Incremental Incremental ストレージ側で同一データ かどうかを判断 1 7 1 4 1 6 5 1 1 6 1 4 同じデータの場合にはリン 4 6 2 1 6 3 4 7 1 6 7 8 クだけを張って削除 ▐ 経済的価値 装置コストの 装置コストの削減 コスト メンテナンスコストの メンテナンスコストの削減 1 2 3 4 消費電力コスト コストの 消費電力コストの削減 5 6 7 8 Storage フロアコストの フロアコストの削減 system Deduplication Page 6 © NEC Corporation 2009
  7. 7. Deduplicationのメカニズム(概要) のメカニズム(概要) ブロックごとにハッシュを計算して重複を検出・排除する ブロックごとにハッシュを計算して重複を検出・排除する ごとにハッシュ して重複 A B A C D E E ファイルストリームをブロック ファイルストリームをブロック に分割 に分割 ※ブロックに分割せず、ファイルレベルで比 較するものもある (シングル・インスタン ス・ストアとして区別されることが多い) A B A C D E E ハッシュ値を計算し重複判定 ハッシュ値を計算し重複判定 ※実際にデータを照らし合わせるものもある Hash Hash Hash Hash Hash Hash Hash 001001… 011011… 001001… 000101… 101101…101001… 101001… 重複ブロックは削除 重複ブロックは削除 A B X C D E X (リンクのみ生成) (リンクのみ生成) Page 7 © NEC Corporation 2009
  8. 8. の Deduplicationの効果 バックアップ環境で1/20~の圧縮効果 バックアップ環境で 環境 ~ 重複排除技術により、フルバックアップを繰り返しても 実際の格納容量はほとんど増えないのがポイント ユーザ A社 ユーザ B社 容量 圧縮効果 容量 圧縮効果 (GB) フルバックアップの世代増加に (倍) (GB) 導入から2週間で約50倍の (倍) 伴い、圧縮効率も向上 圧縮効果 30,000 25 30,000 60 25,000 25,000 50 圧縮効果 20 圧縮効果 20,000 20,000 40 15 15,000 15,000 30 10 10,000 バックアップデータ容量 10,000 バックアップデータ容量 20 5 5,000 5,000 10 0 0 0 0 導入開始 2W 3W 4W 5W 格納容量 導入開始 1W 2W 3W *最小構成時 Page 8 © NEC Corporation 2009
  9. 9. 方式解説: Deduplication方式解説 ベーシック 方式解説 ① 重複排除のタイミング 重複判定と排除をどの時点(どこで)で実施するか ② 物理データ圧縮 重複排除後、さらにデータ圧縮を行うか否か ③ WAN最適化レプリケーション 重複排除機能と連携したレプリケーションが行えるか否か Page 9 © NEC Corporation 2009
  10. 10. ①重複排除のタイミング(1/2) 分類 重複排除 タイミング ▐ 重複排除のタイミングによって2タイプに分類できる ① Source型 ② Target型 重複排除処理のタイミング 分類 バックアップデータの流れ ① Source型 業務サーバにインストールしたバックアップクライ アントソフトウェアが重複を削除 バックアップサーバ 1 2a ②-a Target型-Inlineタイプ ストレージがリアルタイムに重複を排除 バックアップストレージ (ディスクに書く前に重複を排除) コントローラ 2b 業務サーバ バックアップストレージ ②-b Target型-Post-processingタイプ ・データベース 一度、データを無圧縮でストレージに書き込んだ後、 ディスク ・ファイルサーバ 等 バックグラウンドで重複排除を実施 【一般的なバックアップシステムの例】 Page 10 © NEC Corporation 2009
  11. 11. ①重複排除のタイミング(2/2) メリットとデメリット 重複排除のタイミング メリットと タイプ 主な用途 メリット デメリット ×サーバに大きな負荷 • 小~中規模環境 ◎サーバ・ストレージ がかかる ①Source • リモートオフィス 間のネットワーク負 ネットワーク負 ネットワーク ×既存バックアップ環境 • クラウドバックアップ 荷を軽減 の大幅変更が必要 ◎サーバ負荷が無く、 サーバ負荷 サーバ負荷が 性能を 性能を出しやすい ×バックアップ時にスト ②Target – Inline • 中~大規模環境 ◎バックアップ運用設 レージに負荷が集中 計が比較的容易 ×余剰なディスク容量が ◎サーバ負荷が無く、 サーバ負荷 サーバ負荷が 必要 ③Target – 性能を 性能を出しやすい • 中~大規模環境 ×重複排除処理時間を Post-processing ◎既存NAS/VTLにア 確保したバックアップ ドオンしやすい 運用設計が必要 Page 11 © NEC Corporation 2009
  12. 12. ②物理データ圧縮との併用 データ圧 との併用 重複排除の 重複排除の後に物理圧縮を行うことで、更に容量を削減 物理圧縮を うことで、 容量を 重複排除処理+物理圧縮処理 ①バックアップデータを入力 データA データ データB データ データC データ ②重複するデータブロックを検出 A B C D A E F G A B H D E F I ABHJKLEFG ③重複するデータブロックを排除 A B C D E F G H I J K L 重複排除されたデータ容量 物理データ圧縮の有無で生じる容量差 ④重複排除されたデータを ABCDEFGH I J KL 物理圧縮されたデータ容量 更に物理圧縮して格納 Page 12 © NEC Corporation 2009
  13. 13. 最適化レプリケーション ③WAN最適化レプリケーション 最適化 重複ブロックを認識することで、転送量を大幅に削減できる 重複ブロックを認識することで、転送量を大幅に削減できる ブロック することで Only unique blocks are transferred Backup Servers 7 8 1 2 3 WAN Data 1 2 3 7 4 5 6 Deduplication 4 5 6 8 Data Center Recovery Site 送付する前に、相手先がどのブロックを保有しているかを確認 相手先が持っていないブロック(ユニークなブロック)だけを送付 WANコストは非常に高いので、コスト削減効果が高い Page 13 © NEC Corporation 2009
  14. 14. 方式解説: Deduplication方式解説 アドバンスト 方式解説 重複排除の効果を左右する四つのポイント ① 可変長ブロック ② Global Deduplication ③ Application-Aware Deduplication ④ データインテグリティ改善 Page 14 © NEC Corporation 2009
  15. 15. ①可変長ブロック 可変長ブロック ファイルの更新後や アーカイブファイル ファイルの更新後や、アーカイブファイル(tar/zipなど でも など)でも など 重複を適切に検出するための するための技術 重複を適切に検出するための技術 固定長分割と可変長分割の違い データ1(変更前) B1 B2 B3 B4 B5 B6 データ2(変更後) B1 B2 B'3 B4 B5 B6 挿入 重複排除を 重複排除を行うと 固定長での重複判定 B1 B2 ×挿入部以降のブロックを異なるデータと認識 可変長での重複判定 B1 B2 B4 B5 B6 ◎挿入部以降のブロックも正しく一致を認識 Page 15 © NEC Corporation 2009
  16. 16. ②Global Deduplication (1/3) 概念 ノード・コントローラをまたいだDeduplication ノード・コントローラをまたいだ をまたいだ Local – Volume Local – Node Global Dedupe Dedupe Dedupe Dedupe Dedupe Single Dedupe Repository Repository Repository Repository Repository Repository Page 16 © NEC Corporation 2009
  17. 17. ②Global Deduplication (2/3) 効果 大規模になればなるほど、効果が 大規模になればなるほど、効果が増してくる になればなるほど ストレージ統合による ストレージ統合による 統合 重複排除ロスの 重複排除ロスの効果 ロス 容量圧縮の 空き容量圧縮の効果 Global Dedupe Global Dedupe Page 17 © NEC Corporation 2009
  18. 18. 実装方法の ②Global Deduplication (3/3) 実装方法の一例 注意: ここでは、HYDRAstorのGlobal Deduplicationの実装方法について説明しています Hash 0000 - 0001 -> Disk 1 DHTを用いて、 を いて、 Hash 0010 - 0101 -> Disk 2 ブロックを複数のノードで ブロックを複数のノードで Hash 0110 - 0111 -> Disk 3 Hash 1010101… Hash 1000 - 1010 -> Disk 4 分散して して管理 分散して管理 Hash 1011 - 1100 -> Disk 5 Hash 1101 - 1111 -> Disk 6 Disk Array Disk Array ▐ DHT (Distributed Hash Table) 0 Hash 00 -> Super Node 1 ハッシュテーブルを複数ノード 0 0 Hash 010 -> Super Node 2 1 で分散して管理させるしくみ Hash 1 Hash 011 -> Super Node 3 1010101… 0 0 Hash 100 -> Super Node 4 ノード間でクエリをルーティング 1 Hash 10 -> Super Node 4 Hash 101 -> Super Node 6 1 1 ノード間で状態をモニタリングし Hash 11 -> Super Node 5 あい、適宜、管理状態を変化さ せる Storage Nodes Storage Nodes Page 18 © NEC Corporation 2009
  19. 19. ③Application-aware Deduplication 上位アプリに挿入される管理データ(マーカ) 上位アプリに挿入される管理データ(マーカ)を除き、元データを復元 アプリ される管理データ データを File-level Marker 問題: 上位アプリ 自分の管理のために アプリが のために色 マーカーを 問題 上位アプリが自分の管理のために色々なマーカーを挿入 Agent-side Marker データでも でも違 ブロックになってしまう 同じデータでも違うブロックになってしまう Original Files Agent Operation File Aggregation (tar) Blocking Block-level Marker ストレージ側 ストレージ側 Marker Filtering Page 19 © NEC Corporation 2009
  20. 20. ④データインテグリティ改善 データインテグリティ改善(1/2) 背景 改善 重複排除の負の部分として、 重複排除の 部分として、 として データロスの影響が きくなるという側面 側面がある データロスの影響が大きくなるという側面がある Day 2: Day 3: Day 1: Full …Day 7: Full Incremental Incremental Q: What data 1 7 1 4 1 6 5 1 1 6 1 4 can be restored 4 6 2 1 6 3 4 7 1 6 7 8 if block #1 lost? A: NONE! 1 2 3 4 5 6 7 8 Page 20 © NEC Corporation 2009
  21. 21. ④データインテグリティ改善 データインテグリティ改善(2/2) 対策の例 改善 対策の ハッシュやチェックサムを ったデータ化けの検出と修正など ハッシュやチェックサムを使ったデータ化けの検出と修正など データ 検出 ▐ リード時にブロックのハッシュを再計算することで、ブロックレベル でデータ化けを検出する ▐ リード時にフラグメント(ブロックを構成する断片)のチェックサムを 再計算することで、フラグメントレベルでデータ化けを検出。検出 後はフラグメントを再生成する ▐ 定期的にデータを読み出して、上記検出処理を走らせる Page 21 © NEC Corporation 2009
  22. 22. SSDが注目される背景(1/2) が注目される背景 される背景 I/O速度の問題 速度の 速度 ディスクI/O速度が ディスク 速度がCPU速度の進化についていけず、 速度 速度の 速度 進化についていけず についていけず、 ボトルネックになりやすくなっている ボトルネックになりやすくなっている ▐ 1981年の段階と比較して、CPUは非常に高速化している CPU: x1,000 (MHz to GHz) ▐ しかし、ディスクI/O速度はほとんど進化していない(回転数の問題) HDD: x12.5 • 1981: HDDシークタイム 8.33ms (3,600RPM) • 2009: HDDシークタイム 2.9ms (15,000RPM) 容量あたりIOPS(*1)で見ると、かなり退化している • 1981: 20 IOPS/GB • 2009: 0.833 IOPS/GB  1981年の約1/25 (*1) IOPS: I/O per second Source: Rob Peglar, Overview and Current Topics in Solid State Storage. SNW 2009 Fall Page 22 © NEC Corporation 2009
  23. 23. SSDが注目される背景(2/2) フラッシュの価格低下 が注目される背景 される背景 フラッシュの 価格低下により、数十 クラスでもそれなりの値段 価格低下により、数十GBクラスでもそれなりの値段に により クラスでもそれなりの値段に ただ、今後は 下落幅が小さくなる と予想されている Page 23 © NEC Corporation 2009
  24. 24. 解説: SSD解説 ベーシック 解説 ① SLC vs. MLC ② SSD vs. HDD ③ 接続インタフェースの違い Page 24 © NEC Corporation 2009
  25. 25. ①SLC vs. MLC 現時点で エンタープライズ向けはほぼ全 現時点で、エンタープライズ向けはほぼ全てSLC ▐ SLC: Single Level Cell – 1つのセルに1bit 高コスト: SLCの4倍 速い処理速度 高い信頼性 エンタープライズ向け: サーバ・ストレージ向けはほぼ全てSLC ▐ MLC: Multi Level Cell – 1つのセルに2bit (or more) 低コスト: SLCの4分の1 処理速度はSLCに劣る 低い信頼性 コンシューマー向け: 世に出ている90%のフラッシュはMLC Page 25 © NEC Corporation 2009
  26. 26. ②SSD vs. HDD (1/4) SSDのメリット の 現時点で 現時点で、IOPSは115倍、消費電力は5分の1 は 倍 消費電力は Source: Will Akin: Understanding Performance of SSDs in the Enterprise. Intel Developers Forum 2009 Page 26 © NEC Corporation 2009
  27. 27. ②SSD vs. HDD (2/4) コストパフォーマンス(単体) コストパフォーマンス(単体) 容量あたりで見ると、まだかなり高 容量あたりで見ると、まだかなり高い。 あたりで ただ、 あたりで見 あたりで ると、 がかなりの優位 がかなりの優位。 ただ、IOPSあたりで見ると、逆にSSDがかなりの優位。 Intel X25-E Extreme Seagate Cheetah 15Krpm 64GB 146.3 GB 価格(*1) $725 $185 価格/容量 $11.3 / GB $1.26 / GB (1/9の値段) の値段 IOPS 35000 300 価格/IOPS $0.021 / IOPS (1/30の値段 の値段) $0.62 / IOPS (*1) by Google Product Search Page 27 © NEC Corporation 2009
  28. 28. ②SSD vs. HDD (3/4) コストパフォーマンス(システム) コストパフォーマンス(システム) 電力コスト/コントローラコスト削減 電力コスト/コントローラコスト削減 vs. ドライブ単価 コスト ドライブ単価 http://www.snia.org/forums/sssi/programs/TCOcalc Page 28 © NEC Corporation 2009
  29. 29. は を えるのか? ②SSD vs. HDD (4/4) SSDはHDDを置き換えるのか? 2012年頃までに、速いHDD(15Krpm)の需要は無くなる 年頃までに、 年頃までに ( ) 需要は の用途では では、 高IOPSの用途では、 くなってきて、 SSDの方が安くなってきて、 の 大容量HDD SSD + 大容量 という時代時代がくる という時代がくる Page 29 © NEC Corporation 2009
  30. 30. ③接続インタフェース 接続インタフェース(1/2) SATA vs. PCIe インタフェース PCIeバスに直接刺す事で性能向上が図れる バスに直接刺す バス 性能向上が Intel X25-E Extreme Fusion-io ioDrive 80GB Interface SATA PCIe Sustained 250 MB/s (read) 750 MB/s (read) Throughput 170 MB/s (write) 500 MB/s (write) IOPS (4k) >35,000 IOPS (read) 119,790 IOPS (read) >3,300 IOPS (write) 89,549 IOPS (75/25 r/w mix) Latency 75 ms 26μs (read) スループット (read): 3倍 IOPS (read): 3.42倍 レイテンシ: 1/3000 Page 30 © NEC Corporation 2009
  31. 31. ③接続インタフェース 接続インタフェース(2/2) PCIe接続のメリット・デメリット インタフェース 接続の 接続 メリット・ ▐ 利点 PCIeに接続することで性能を向上 に接続することで性能を することで性能 • レイテンシが圧倒的に小さくなる IOPS向上 • SAS/SATAの帯域限界を越えられる スループット向上 ▐ 欠点 保守性が 保守性が悪い • HDDだと全面についており、ホットスワップできる。PCIeだとカバーを開けなく てはならない 長さに限界がある PCIeスロット数には限界があり、多数搭載しにくい PCIeは確かに性能が稼げるが、保守性の問題がある。 は かに性能が げるが、保守性の問題がある。 性能 がある 企業向けでは 高性能が必要な用途に けでは、 企業向けでは、高性能が必要な用途に限られるか Page 31 © NEC Corporation 2009
  32. 32. 解説: SSD解説 アドバンスト 解説 SSD普及に向けての二つのポイント ① Automated Tiering ② SSDの課題 Page 32 © NEC Corporation 2009
  33. 33. ①Automated Tiering と をハイブリッドにして にして、 SSDとHDDをハイブリッドにして、 上位から透過的に わせる技術 から透過的 上位から透過的に使わせる技術 ▐ キャッシュとしての利用 Filesystem Cache: Sun 7000, NetApp Add-on to RAID Card: Adaptec SAN Cache Appliance: DataRam ▐ 階層化ストレージ(自動マイグレーション) Integrated Volume: Compellent File level migration: Veritas File System Volume level migration: EMC FAST Virtualization Appliance: IBM SVC 少ないSSD容量でも恩恵が受けられるので、 ない 容量でも恩恵が けられるので、 容量でも恩恵 の採用を すと見 SSDの採用を促すと見られている Page 33 © NEC Corporation 2009
  34. 34. の課題(1/2) ピーク性能とサステインド性能の違い ②SSDの課題 ピーク性能 サステインド性能 性能と 性能の Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009 Page 34 © NEC Corporation 2009
  35. 35. の課題(2/2) 性能の安定性 ②SSDの課題 性能の Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009 Page 35 © NEC Corporation 2009
  36. 36. Erasure Coding: 概要 少ない容量オーバヘッドで高い信頼性を実現 ない容量オーバヘッドで 容量オーバヘッド 信頼性を ▐ Replication ▐ Erasure Coding Redundant Fragments Example: N=8, m=5 Decode Encode Fragments Original Original Original block block 容量オーバヘッド: 200% 容量オーバヘッド: 60% 許容される同時故障数: 2 許容される同時故障数: 3 Page 36 © NEC Corporation 2009
  37. 37. 応用例① サイト間 Erasure Coding: 応用例① サイト間で分散 レプリケーションの代替として使用し 必要容量を レプリケーションの代替として使用し、必要容量を削減 として使用 Source: http://www.cleversafe.com/vision/Replication_vs._Information_Dispersal Page 37 © NEC Corporation 2009
  38. 38. 応用例② ストレージシステムで Erasure Coding: 応用例② ストレージシステムで利用 RAIDの代替として使用 の代替として使用 として ▐ より柔軟な信頼性設定 ボリュームごとにパリティ数選択 ▐ RAID5/6と同様のオーバヘッドで 高い信頼性 ▐ RAIDよりも高速なリビルド データ部分のみをリビルドするため Page 38 © NEC Corporation 2009
  39. 39. Erasure Coding: 実装方法 オープンソースのライブラリがいくつかある オープンソースのライブラリがいくつかある Supported Algorithms Lang Luby o Cauchy-based C Reed-Solomon Zfec o Classic Reed- C Solomon Python Haskell Jerasure o Classic Reed- C Solomon o Cauchy-based Reed-Solomon o Minimal Density RAID-6 codes Encoding performance for [12,4]. Source: James S. Plank et al.: A Performance Evaluation and Examination of Open-Source Erasure Coding Libraries For Storage. FAST ’09: 7th USENIX Conference on File and Storage Technologies Page 39 © NEC Corporation 2009
  40. 40. HYDRAstor: 概要 Backup Servers 90TB/hr 20.8PBs Effective Performance Capacity NFS 1 Logical Replication CIFS Pool 1.8TB/hr 315TBs Effective Archive Systems •DataRedux™ Enterprise Deduplication •Distributed Resilient Data™ Unrestricted Scalability Reduces Complexity & Cost Self Management Reduces Staff Costs and Eliminates Errors Global Deduplication Maximizes Storage Efficiency of Large System 本日解説 した技術 した技術 WAN-optimized Replication Reduces Network Costs for DR Enhanced Data Resiliency Improves Data Protection with Low Overhead (based on Erasure Coding) Page 40 © NEC Corporation 2009
  41. 41. HYDRAstor: Grid Storage Architecture Community of Smart Nodes Node Hardware Accelerator Nodes • Industry-standard servers Storage Nodes • Multiple types allowed • Heterogeneous & open Two types of Nodes Intelligent Management SW • Accelerator Nodes for Performance Scalability • Fully distributed system • Storage Nodes for • Self-aware & self-organizing Capacity Scalability • Virtualizes hardware platform Page 41 © NEC Corporation 2009
  42. 42. HYDRAstor: Independent Linear Scalability Uniquely Scale Performance Performance and Capacity to Meet Current and Capacity Future Needs Accelerator Nodes (AN) Storage Nodes (SN) • Performance: 1.8 TB/hr • Raw Capacity: 12 TB (1 TB SATA HDD) • Ports: 6 x 1GbE or 2 x 10GbE • Effective Capacity: 157.5 TB PERFORMANCE SCALABILITY CAPACITY SCALABILITY Page 42 © NEC Corporation 2009
  43. 43. HYDRAstor: Self Management Simple, fast deployment No storage provisioning tasks Easy, non-disruptive node addition/removal Accelerator Nodes Automatic load balancing across Storage Nodes nodes Automated health & status management SNMP, e-mail alerts, phone home Centralized management interface Web browser GUI, and CLI Reduces Staff Costs and Eliminates Errors Introduced by Manual Tasks Page 43 © NEC Corporation 2009

×