More Related Content
Similar to JTPA Geek Salon Dec 2009
Similar to JTPA Geek Salon Dec 2009 (20)
JTPA Geek Salon Dec 2009
- 1. 次世代ストレージシステムを
次世代ストレージシステムを語る
ストレージシステム
桂島 航 / Wataru Katsurashima
Product Manager, HYDRAstor
NEC Corporation of America
Page 1 © NEC Corporation 2009
- 2. 自己紹介
自己紹介
▐ 仕事
グリッドストレージ製品(
グリッドストレージ製品(HYDRAstor)のプロダクトマネージャ
製品 ) プロダクトマネージャ
• HYDRAstorのサイト http://www.hydrastor.com
▐ 経歴
入社後、研究所でストレージ仮想化技術等に携わる
グリッドストレージ(HYDRAstor)の製品化提案に携わる
2005年9月から北米に赴任し、HYDRAstorの製品マネジメントを担当
▐ サイト
LinkedIn: http://www.linkedin.com/in/wataruk
Facebook: http://www.facebook.com/profile.php?id=1223041657
Twitter: http://twitter.com/w_katsura
Page 2 © NEC Corporation 2009
- 3. HYDRAstor Project
▐ 米国市場ターゲットの新事業開発プロジェクト
米国市場ターゲットの新事業開発プロジェクト
ターゲット
▐ 日米共同開発
▐ シリコンバレー流の事業立上
シリコンバレー流
Detailed information is in NEC annual report 2007.
Page 3 © NEC Corporation 2009
- 4. 本日の
本日の要旨
▐ ストレージの最新技術をいくつかピックアップして解説
ストレージの最新技術をいくつかピックアップして解説
をいくつかピックアップして
Data Deduplication – 容量を劇的に縮小
SSD – 性能を劇的に向上
Erasure Coding – 信頼性を劇的に向上
※上記の技術の一つの実装例として
▐ HYDRAstorを少し解説
を
▐ クラウド時代のストレージシステムを考える (ディスカッション)
クラウド時代のストレージシステムを
時代 ディスカッション)
Page 4 © NEC Corporation 2009
- 5. Deduplication技術が出てきた背景
技術が てきた背景
技術
テープからディスクバックアップに えたいが、
テープからディスクバックアップに変えたいが、高い。
からディスクバックアップ
なんとかできないか?
なんとかできないか?
▐ テープバックアップに皆が悩んでいる
テープバックアップに
性能
故障率
管理
セキュリティ(盗難)
▐ ただ、ディスクバックアップはお金がかかる
ただ、ディスクバックアップはお金
はお
バックアップストレージは、実は凄い容量が必要
• 大きな企業だと、平均で8~12週ぐらいのバックアップを保管
バックアップ容量=プライマリストレージ容量×10ぐらいになる
Page 5 © NEC Corporation 2009
- 6. とは?
Deduplicationとは?
とは
同一内容のデータを重複格納しない技術
同一内容のデータを重複格納しない技術
しない
Backup Data Example
▐ プロセス Day 1: Full
Day 2: Day 3:
…Day 8: Full
Incremental Incremental
ストレージ側で同一データ
かどうかを判断 1 7 1 4 1 6 5 1 1 6 1 4
同じデータの場合にはリン 4 6 2 1 6 3 4 7 1 6 7 8
クだけを張って削除
▐ 経済的価値
装置コストの
装置コストの削減
コスト
メンテナンスコストの
メンテナンスコストの削減 1 2 3 4
消費電力コスト
コストの
消費電力コストの削減 5 6 7 8
Storage
フロアコストの
フロアコストの削減 system
Deduplication
Page 6 © NEC Corporation 2009
- 7. Deduplicationのメカニズム(概要)
のメカニズム(概要)
ブロックごとにハッシュを計算して重複を検出・排除する
ブロックごとにハッシュを計算して重複を検出・排除する
ごとにハッシュ して重複
A B A C D E E ファイルストリームをブロック
ファイルストリームをブロック
に分割
に分割
※ブロックに分割せず、ファイルレベルで比
較するものもある (シングル・インスタン
ス・ストアとして区別されることが多い)
A B A C D E E ハッシュ値を計算し重複判定
ハッシュ値を計算し重複判定
※実際にデータを照らし合わせるものもある
Hash Hash Hash Hash Hash Hash Hash
001001… 011011… 001001… 000101… 101101…101001… 101001…
重複ブロックは削除
重複ブロックは削除
A B X C D E X (リンクのみ生成)
(リンクのみ生成)
Page 7 © NEC Corporation 2009
- 8. の
Deduplicationの効果
バックアップ環境で1/20~の圧縮効果
バックアップ環境で
環境 ~
重複排除技術により、フルバックアップを繰り返しても
実際の格納容量はほとんど増えないのがポイント
ユーザ A社 ユーザ B社
容量 圧縮効果 容量 圧縮効果
(GB) フルバックアップの世代増加に (倍) (GB) 導入から2週間で約50倍の (倍)
伴い、圧縮効率も向上 圧縮効果
30,000 25 30,000 60
25,000 25,000 50
圧縮効果 20 圧縮効果
20,000 20,000 40
15
15,000 15,000 30
10
10,000 バックアップデータ容量 10,000 バックアップデータ容量 20
5
5,000 5,000 10
0 0 0 0
導入開始 2W 3W 4W 5W 格納容量 導入開始 1W 2W 3W
*最小構成時
Page 8 © NEC Corporation 2009
- 9. 方式解説:
Deduplication方式解説 ベーシック
方式解説
① 重複排除のタイミング
重複判定と排除をどの時点(どこで)で実施するか
② 物理データ圧縮
重複排除後、さらにデータ圧縮を行うか否か
③ WAN最適化レプリケーション
重複排除機能と連携したレプリケーションが行えるか否か
Page 9 © NEC Corporation 2009
- 10. ①重複排除のタイミング(1/2) 分類
重複排除 タイミング
▐ 重複排除のタイミングによって2タイプに分類できる
① Source型
② Target型
重複排除処理のタイミング 分類
バックアップデータの流れ ① Source型
業務サーバにインストールしたバックアップクライ
アントソフトウェアが重複を削除
バックアップサーバ
1 2a ②-a Target型-Inlineタイプ
ストレージがリアルタイムに重複を排除
バックアップストレージ (ディスクに書く前に重複を排除)
コントローラ
2b
業務サーバ
バックアップストレージ
②-b Target型-Post-processingタイプ
・データベース 一度、データを無圧縮でストレージに書き込んだ後、
ディスク
・ファイルサーバ
等 バックグラウンドで重複排除を実施
【一般的なバックアップシステムの例】
Page 10 © NEC Corporation 2009
- 11. ①重複排除のタイミング(2/2) メリットとデメリット
重複排除のタイミング メリットと
タイプ 主な用途 メリット
デメリット
×サーバに大きな負荷
• 小~中規模環境 ◎サーバ・ストレージ
がかかる
①Source • リモートオフィス 間のネットワーク負
ネットワーク負
ネットワーク
×既存バックアップ環境
• クラウドバックアップ 荷を軽減
の大幅変更が必要
◎サーバ負荷が無く、
サーバ負荷
サーバ負荷が
性能を
性能を出しやすい ×バックアップ時にスト
②Target – Inline • 中~大規模環境
◎バックアップ運用設 レージに負荷が集中
計が比較的容易
×余剰なディスク容量が
◎サーバ負荷が無く、
サーバ負荷
サーバ負荷が
必要
③Target – 性能を
性能を出しやすい
• 中~大規模環境 ×重複排除処理時間を
Post-processing ◎既存NAS/VTLにア
確保したバックアップ
ドオンしやすい
運用設計が必要
Page 11 © NEC Corporation 2009
- 12. ②物理データ圧縮との併用
データ圧 との併用
重複排除の
重複排除の後に物理圧縮を行うことで、更に容量を削減
物理圧縮を うことで、 容量を
重複排除処理+物理圧縮処理
①バックアップデータを入力 データA
データ データB
データ データC
データ
②重複するデータブロックを検出 A B C D A E F G A B H D E F I ABHJKLEFG
③重複するデータブロックを排除 A B C D E F G H I J K L 重複排除されたデータ容量
物理データ圧縮の有無で生じる容量差
④重複排除されたデータを ABCDEFGH I J KL 物理圧縮されたデータ容量
更に物理圧縮して格納
Page 12 © NEC Corporation 2009
- 13. 最適化レプリケーション
③WAN最適化レプリケーション
最適化
重複ブロックを認識することで、転送量を大幅に削減できる
重複ブロックを認識することで、転送量を大幅に削減できる
ブロック することで
Only unique blocks
are transferred
Backup Servers
7 8 1 2 3
WAN
Data
1 2 3 7 4 5 6
Deduplication
4 5 6 8
Data Center Recovery Site
送付する前に、相手先がどのブロックを保有しているかを確認
相手先が持っていないブロック(ユニークなブロック)だけを送付
WANコストは非常に高いので、コスト削減効果が高い
Page 13 © NEC Corporation 2009
- 14. 方式解説:
Deduplication方式解説 アドバンスト
方式解説
重複排除の効果を左右する四つのポイント
① 可変長ブロック
② Global Deduplication
③ Application-Aware Deduplication
④ データインテグリティ改善
Page 14 © NEC Corporation 2009
- 15. ①可変長ブロック
可変長ブロック
ファイルの更新後や アーカイブファイル
ファイルの更新後や、アーカイブファイル(tar/zipなど でも
など)でも
など
重複を適切に検出するための
するための技術
重複を適切に検出するための技術
固定長分割と可変長分割の違い
データ1(変更前) B1 B2 B3 B4 B5 B6
データ2(変更後) B1 B2 B'3 B4 B5 B6
挿入
重複排除を
重複排除を行うと
固定長での重複判定 B1 B2
×挿入部以降のブロックを異なるデータと認識
可変長での重複判定 B1 B2 B4 B5 B6
◎挿入部以降のブロックも正しく一致を認識
Page 15 © NEC Corporation 2009
- 16. ②Global Deduplication (1/3) 概念
ノード・コントローラをまたいだDeduplication
ノード・コントローラをまたいだ
をまたいだ
Local – Volume Local – Node Global
Dedupe Dedupe Dedupe Dedupe Dedupe Single Dedupe
Repository Repository Repository Repository Repository Repository
Page 16 © NEC Corporation 2009
- 17. ②Global Deduplication (2/3) 効果
大規模になればなるほど、効果が
大規模になればなるほど、効果が増してくる
になればなるほど
ストレージ統合による
ストレージ統合による
統合
重複排除ロスの
重複排除ロスの効果
ロス 容量圧縮の
空き容量圧縮の効果
Global Dedupe Global Dedupe
Page 17 © NEC Corporation 2009
- 18. 実装方法の
②Global Deduplication (3/3) 実装方法の一例
注意: ここでは、HYDRAstorのGlobal Deduplicationの実装方法について説明しています
Hash 0000 - 0001 -> Disk 1
DHTを用いて、
を いて、 Hash 0010 - 0101 -> Disk 2
ブロックを複数のノードで
ブロックを複数のノードで Hash 0110 - 0111 -> Disk 3
Hash 1010101… Hash 1000 - 1010 -> Disk 4
分散して
して管理
分散して管理 Hash 1011 - 1100 -> Disk 5
Hash 1101 - 1111 -> Disk 6
Disk Array
Disk Array
▐ DHT (Distributed Hash Table)
0 Hash 00 -> Super Node 1
ハッシュテーブルを複数ノード 0
0 Hash 010 -> Super Node 2
1
で分散して管理させるしくみ Hash 1 Hash 011 -> Super Node 3
1010101…
0 0 Hash 100 -> Super Node 4
ノード間でクエリをルーティング 1 Hash 10 -> Super Node 4
Hash 101 -> Super Node 6
1
1
ノード間で状態をモニタリングし Hash 11 -> Super Node 5
あい、適宜、管理状態を変化さ
せる
Storage Nodes
Storage Nodes
Page 18 © NEC Corporation 2009
- 20. ④データインテグリティ改善
データインテグリティ改善(1/2) 背景
改善
重複排除の負の部分として、
重複排除の 部分として、
として
データロスの影響が きくなるという側面
側面がある
データロスの影響が大きくなるという側面がある
Day 2: Day 3:
Day 1: Full …Day 7: Full
Incremental Incremental
Q: What data
1 7 1 4 1 6 5 1 1 6 1 4 can be restored
4 6 2 1 6 3 4 7 1 6 7 8 if block #1 lost?
A: NONE!
1 2 3 4
5 6 7 8
Page 20 © NEC Corporation 2009
- 21. ④データインテグリティ改善
データインテグリティ改善(2/2) 対策の例
改善 対策の
ハッシュやチェックサムを ったデータ化けの検出と修正など
ハッシュやチェックサムを使ったデータ化けの検出と修正など
データ 検出
▐ リード時にブロックのハッシュを再計算することで、ブロックレベル
でデータ化けを検出する
▐ リード時にフラグメント(ブロックを構成する断片)のチェックサムを
再計算することで、フラグメントレベルでデータ化けを検出。検出
後はフラグメントを再生成する
▐ 定期的にデータを読み出して、上記検出処理を走らせる
Page 21 © NEC Corporation 2009
- 22. SSDが注目される背景(1/2)
が注目される背景
される背景 I/O速度の問題
速度の
速度
ディスクI/O速度が
ディスク 速度がCPU速度の進化についていけず、
速度 速度の
速度 進化についていけず
についていけず、
ボトルネックになりやすくなっている
ボトルネックになりやすくなっている
▐ 1981年の段階と比較して、CPUは非常に高速化している
CPU: x1,000 (MHz to GHz)
▐ しかし、ディスクI/O速度はほとんど進化していない(回転数の問題)
HDD: x12.5
• 1981: HDDシークタイム 8.33ms (3,600RPM)
• 2009: HDDシークタイム 2.9ms (15,000RPM)
容量あたりIOPS(*1)で見ると、かなり退化している
• 1981: 20 IOPS/GB
• 2009: 0.833 IOPS/GB 1981年の約1/25
(*1) IOPS: I/O per second
Source: Rob Peglar, Overview and Current Topics in Solid State Storage. SNW 2009 Fall
Page 22 © NEC Corporation 2009
- 23. SSDが注目される背景(2/2) フラッシュの価格低下
が注目される背景
される背景 フラッシュの
価格低下により、数十 クラスでもそれなりの値段
価格低下により、数十GBクラスでもそれなりの値段に
により クラスでもそれなりの値段に
ただ、今後は
下落幅が小さくなる
と予想されている
Page 23 © NEC Corporation 2009
- 24. 解説:
SSD解説 ベーシック
解説
① SLC vs. MLC
② SSD vs. HDD
③ 接続インタフェースの違い
Page 24 © NEC Corporation 2009
- 25. ①SLC vs. MLC
現時点で エンタープライズ向けはほぼ全
現時点で、エンタープライズ向けはほぼ全てSLC
▐ SLC: Single Level Cell – 1つのセルに1bit
高コスト: SLCの4倍
速い処理速度
高い信頼性
エンタープライズ向け: サーバ・ストレージ向けはほぼ全てSLC
▐ MLC: Multi Level Cell – 1つのセルに2bit (or more)
低コスト: SLCの4分の1
処理速度はSLCに劣る
低い信頼性
コンシューマー向け: 世に出ている90%のフラッシュはMLC
Page 25 © NEC Corporation 2009
- 26. ②SSD vs. HDD (1/4) SSDのメリット
の
現時点で
現時点で、IOPSは115倍、消費電力は5分の1
は 倍 消費電力は
Source: Will Akin: Understanding Performance of SSDs in the Enterprise. Intel Developers Forum 2009
Page 26 © NEC Corporation 2009
- 27. ②SSD vs. HDD (2/4) コストパフォーマンス(単体)
コストパフォーマンス(単体)
容量あたりで見ると、まだかなり高
容量あたりで見ると、まだかなり高い。
あたりで
ただ、 あたりで見
あたりで ると、 がかなりの優位
がかなりの優位。
ただ、IOPSあたりで見ると、逆にSSDがかなりの優位。
Intel X25-E Extreme Seagate Cheetah 15Krpm
64GB 146.3 GB
価格(*1) $725 $185
価格/容量 $11.3 / GB $1.26 / GB (1/9の値段)
の値段
IOPS 35000 300
価格/IOPS $0.021 / IOPS (1/30の値段
の値段) $0.62 / IOPS
(*1) by Google Product Search
Page 27 © NEC Corporation 2009
- 28. ②SSD vs. HDD (3/4) コストパフォーマンス(システム)
コストパフォーマンス(システム)
電力コスト/コントローラコスト削減
電力コスト/コントローラコスト削減 vs. ドライブ単価
コスト ドライブ単価
http://www.snia.org/forums/sssi/programs/TCOcalc
Page 28 © NEC Corporation 2009
- 29. は を えるのか?
②SSD vs. HDD (4/4) SSDはHDDを置き換えるのか?
2012年頃までに、速いHDD(15Krpm)の需要は無くなる
年頃までに、
年頃までに ( ) 需要は
の用途では
では、
高IOPSの用途では、
くなってきて、
SSDの方が安くなってきて、
の
大容量HDD
SSD + 大容量
という時代時代がくる
という時代がくる
Page 29 © NEC Corporation 2009
- 30. ③接続インタフェース
接続インタフェース(1/2) SATA vs. PCIe
インタフェース
PCIeバスに直接刺す事で性能向上が図れる
バスに直接刺す
バス 性能向上が
Intel X25-E Extreme Fusion-io ioDrive 80GB
Interface SATA PCIe
Sustained 250 MB/s (read) 750 MB/s (read)
Throughput 170 MB/s (write) 500 MB/s (write)
IOPS (4k) >35,000 IOPS (read) 119,790 IOPS (read)
>3,300 IOPS (write) 89,549 IOPS (75/25 r/w mix)
Latency 75 ms 26μs (read)
スループット (read): 3倍
IOPS (read): 3.42倍
レイテンシ: 1/3000
Page 30 © NEC Corporation 2009
- 31. ③接続インタフェース
接続インタフェース(2/2) PCIe接続のメリット・デメリット
インタフェース 接続の
接続 メリット・
▐ 利点
PCIeに接続することで性能を向上
に接続することで性能を
することで性能
• レイテンシが圧倒的に小さくなる IOPS向上
• SAS/SATAの帯域限界を越えられる スループット向上
▐ 欠点
保守性が
保守性が悪い
• HDDだと全面についており、ホットスワップできる。PCIeだとカバーを開けなく
てはならない
長さに限界がある
PCIeスロット数には限界があり、多数搭載しにくい
PCIeは確かに性能が稼げるが、保守性の問題がある。
は かに性能が げるが、保守性の問題がある。
性能 がある
企業向けでは 高性能が必要な用途に
けでは、
企業向けでは、高性能が必要な用途に限られるか
Page 31 © NEC Corporation 2009
- 32. 解説:
SSD解説 アドバンスト
解説
SSD普及に向けての二つのポイント
① Automated Tiering
② SSDの課題
Page 32 © NEC Corporation 2009
- 33. ①Automated Tiering
と をハイブリッドにして
にして、
SSDとHDDをハイブリッドにして、
上位から透過的に わせる技術
から透過的
上位から透過的に使わせる技術
▐ キャッシュとしての利用
Filesystem Cache: Sun 7000, NetApp
Add-on to RAID Card: Adaptec
SAN Cache Appliance: DataRam
▐ 階層化ストレージ(自動マイグレーション)
Integrated Volume: Compellent
File level migration: Veritas File System
Volume level migration: EMC FAST
Virtualization Appliance: IBM SVC
少ないSSD容量でも恩恵が受けられるので、
ない 容量でも恩恵が けられるので、
容量でも恩恵
の採用を すと見
SSDの採用を促すと見られている
Page 33 © NEC Corporation 2009
- 34. の課題(1/2) ピーク性能とサステインド性能の違い
②SSDの課題 ピーク性能 サステインド性能
性能と 性能の
Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009
Page 34 © NEC Corporation 2009
- 35. の課題(2/2) 性能の安定性
②SSDの課題 性能の
Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009
Page 35 © NEC Corporation 2009
- 36. Erasure Coding: 概要
少ない容量オーバヘッドで高い信頼性を実現
ない容量オーバヘッドで
容量オーバヘッド 信頼性を
▐ Replication ▐ Erasure Coding
Redundant
Fragments
Example:
N=8, m=5
Decode
Encode
Fragments
Original
Original Original
block block
容量オーバヘッド: 200% 容量オーバヘッド: 60%
許容される同時故障数: 2 許容される同時故障数: 3
Page 36 © NEC Corporation 2009
- 37. 応用例① サイト間
Erasure Coding: 応用例① サイト間で分散
レプリケーションの代替として使用し 必要容量を
レプリケーションの代替として使用し、必要容量を削減
として使用
Source: http://www.cleversafe.com/vision/Replication_vs._Information_Dispersal
Page 37 © NEC Corporation 2009
- 38. 応用例② ストレージシステムで
Erasure Coding: 応用例② ストレージシステムで利用
RAIDの代替として使用
の代替として使用
として
▐ より柔軟な信頼性設定
ボリュームごとにパリティ数選択
▐ RAID5/6と同様のオーバヘッドで
高い信頼性
▐ RAIDよりも高速なリビルド
データ部分のみをリビルドするため
Page 38 © NEC Corporation 2009
- 39. Erasure Coding: 実装方法
オープンソースのライブラリがいくつかある
オープンソースのライブラリがいくつかある
Supported Algorithms Lang
Luby o Cauchy-based C
Reed-Solomon
Zfec o Classic Reed- C
Solomon Python
Haskell
Jerasure o Classic Reed- C
Solomon
o Cauchy-based
Reed-Solomon
o Minimal Density
RAID-6 codes Encoding performance for [12,4].
Source: James S. Plank et al.: A Performance Evaluation and Examination of Open-Source Erasure Coding Libraries For
Storage. FAST ’09: 7th USENIX Conference on File and Storage Technologies
Page 39 © NEC Corporation 2009
- 40. HYDRAstor: 概要
Backup Servers
90TB/hr 20.8PBs
Effective
Performance
Capacity
NFS 1 Logical
Replication
CIFS Pool
1.8TB/hr 315TBs
Effective
Archive Systems
•DataRedux™ Enterprise Deduplication
•Distributed Resilient Data™
Unrestricted Scalability Reduces Complexity & Cost
Self Management Reduces Staff Costs and Eliminates Errors
Global Deduplication Maximizes Storage Efficiency of Large System
本日解説
した技術
した技術
WAN-optimized Replication Reduces Network Costs for DR
Enhanced Data Resiliency Improves Data Protection with Low Overhead
(based on Erasure Coding)
Page 40 © NEC Corporation 2009
- 41. HYDRAstor: Grid Storage Architecture
Community of Smart Nodes
Node Hardware
Accelerator Nodes • Industry-standard servers
Storage Nodes • Multiple types allowed
• Heterogeneous & open
Two types of Nodes
Intelligent Management SW
• Accelerator Nodes for
Performance Scalability • Fully distributed system
• Storage Nodes for • Self-aware & self-organizing
Capacity Scalability • Virtualizes hardware platform
Page 41 © NEC Corporation 2009
- 42. HYDRAstor: Independent Linear Scalability
Uniquely Scale
Performance
Performance and Capacity
to Meet Current and
Capacity
Future Needs
Accelerator Nodes (AN) Storage Nodes (SN)
• Performance: 1.8 TB/hr • Raw Capacity: 12 TB (1 TB SATA HDD)
• Ports: 6 x 1GbE or 2 x 10GbE • Effective Capacity: 157.5 TB
PERFORMANCE SCALABILITY CAPACITY SCALABILITY
Page 42 © NEC Corporation 2009
- 43. HYDRAstor: Self Management
Simple, fast deployment
No storage provisioning tasks
Easy, non-disruptive node
addition/removal
Accelerator Nodes
Automatic load balancing across Storage Nodes
nodes
Automated health & status
management
SNMP, e-mail alerts, phone home
Centralized management interface
Web browser GUI, and CLI
Reduces Staff Costs and Eliminates Errors Introduced by Manual Tasks
Page 43 © NEC Corporation 2009