JTPA Geek Salon Dec 2009

次世代ストレージシステムを
次世代ストレージシステムを語る
ストレージシステム

桂島航 / Wataru Katsurashima
Product Manager, HYDRAstor
NEC Corporation of America

Page 1 © NEC Corporation 2009

自己紹介
自己紹介

▐ 仕事
グリッドストレージ製品（
グリッドストレージ製品（HYDRAstor）のプロダクトマネージャ
製品）プロダクトマネージャ
• HYDRAstorのサイト http://www.hydrastor.com

▐ 経歴
入社後、研究所でストレージ仮想化技術等に携わる
グリッドストレージ（HYDRAstor）の製品化提案に携わる
2005年9月から北米に赴任し、HYDRAstorの製品マネジメントを担当

▐ サイト
LinkedIn: http://www.linkedin.com/in/wataruk
Facebook: http://www.facebook.com/profile.php?id=1223041657
Twitter: http://twitter.com/w_katsura


HYDRAstor Project

▐ 米国市場ターゲットの新事業開発プロジェクト
米国市場ターゲットの新事業開発プロジェクト
ターゲット
▐ 日米共同開発
▐ シリコンバレー流の事業立上
シリコンバレー流
Detailed information is in NEC annual report 2007.


本日の
本日の要旨

▐ ストレージの最新技術をいくつかピックアップして解説
ストレージの最新技術をいくつかピックアップして解説
をいくつかピックアップして
Data Deduplication – 容量を劇的に縮小
SSD – 性能を劇的に向上
Erasure Coding – 信頼性を劇的に向上

※上記の技術の一つの実装例として
▐ HYDRAstorを少し解説
を

▐ クラウド時代のストレージシステムを考える（ディスカッション）
クラウド時代のストレージシステムを
時代ディスカッション）


Deduplication技術が出てきた背景
技術がてきた背景
技術

テープからディスクバックアップにえたいが、
テープからディスクバックアップに変えたいが、高い。
からディスクバックアップ
なんとかできないか？
なんとかできないか？

▐ テープバックアップに皆が悩んでいる
テープバックアップに
性能
故障率
管理
セキュリティ（盗難）

▐ ただ、ディスクバックアップはお金がかかる
ただ、ディスクバックアップはお金
はお
バックアップストレージは、実は凄い容量が必要
• 大きな企業だと、平均で８～１２週ぐらいのバックアップを保管
バックアップ容量＝プライマリストレージ容量×１０ぐらいになる


とは？
Deduplicationとは？
とは

同一内容のデータを重複格納しない技術
同一内容のデータを重複格納しない技術
しない

Backup Data Example
▐ プロセス Day 1: Full
Day 2: Day 3:
…Day 8: Full
Incremental Incremental
ストレージ側で同一データ
かどうかを判断 1 7 1 4 1 6 5 1 1 6 1 4
同じデータの場合にはリン 4 6 2 1 6 3 4 7 1 6 7 8
クだけを張って削除

▐ 経済的価値
装置コストの
装置コストの削減
コスト
メンテナンスコストの
メンテナンスコストの削減 1 2 3 4
消費電力コスト
コストの
消費電力コストの削減 5 6 7 8
Storage
フロアコストの
フロアコストの削減 system
Deduplication


Deduplicationのメカニズム（概要）
のメカニズム（概要）

ブロックごとにハッシュを計算して重複を検出・排除する
ブロックごとにハッシュを計算して重複を検出・排除する
ごとにハッシュして重複

A B A C D E E ファイルストリームをブロック
ファイルストリームをブロック
に分割
に分割
※ブロックに分割せず、ファイルレベルで比
較するものもある（シングル・インスタン
ス・ストアとして区別されることが多い）

A B A C D E E ハッシュ値を計算し重複判定
ハッシュ値を計算し重複判定
※実際にデータを照らし合わせるものもある

Hash Hash Hash Hash Hash Hash Hash
001001… 011011… 001001… 000101… 101101…101001… 101001…

重複ブロックは削除
重複ブロックは削除
A B X C D E X （リンクのみ生成）
（リンクのみ生成）


の
Deduplicationの効果

バックアップ環境で1/20～の圧縮効果
バックアップ環境で
環境～

重複排除技術により、フルバックアップを繰り返しても
実際の格納容量はほとんど増えないのがポイント

ユーザＡ社ユーザＢ社
容量圧縮効果容量圧縮効果
(ＧＢ) フルバックアップの世代増加に (倍) (ＧＢ) 導入から２週間で約５０倍の (倍)
伴い、圧縮効率も向上圧縮効果
30,000 25 30,000 60

25,000 25,000 50
圧縮効果 20 圧縮効果
20,000 20,000 40
15
15,000 15,000 30
10
10,000 バックアップデータ容量 10,000 バックアップデータ容量 20

5
5,000 5,000 10

0 0 0 0
導入開始 2W 3W 4W 5W 格納容量導入開始 1W 2W 3W
*最小構成時


方式解説:
Deduplication方式解説ベーシック
方式解説

① 重複排除のタイミング
重複判定と排除をどの時点（どこで）で実施するか

② 物理データ圧縮
重複排除後、さらにデータ圧縮を行うか否か

③ WAN最適化レプリケーション
重複排除機能と連携したレプリケーションが行えるか否か


①重複排除のタイミング(1/2) 分類
重複排除タイミング
▐ 重複排除のタイミングによって２タイプに分類できる
① Source型
② Target型

重複排除処理のタイミング分類

バックアップデータの流れ ① Source型
業務サーバにインストールしたバックアップクライ
アントソフトウェアが重複を削除
バックアップサーバ

1 2a ②-a Target型－Inlineタイプ
ストレージがリアルタイムに重複を排除
バックアップストレージ（ディスクに書く前に重複を排除）
コントローラ

2b
業務サーバ
バックアップストレージ
②-b Target型－Post-processingタイプ
・データベース一度、データを無圧縮でストレージに書き込んだ後、
ディスク
・ファイルサーバ
等バックグラウンドで重複排除を実施

【一般的なバックアップシステムの例】


①重複排除のタイミング(2/2) メリットとデメリット
重複排除のタイミングメリットと

タイプ主な用途メリット
デメリット
×サーバに大きな負荷
• 小～中規模環境 ◎サーバ・ストレージ
がかかる
①Source • リモートオフィス間のネットワーク負
ネットワーク負
ネットワーク
×既存バックアップ環境
• クラウドバックアップ荷を軽減
の大幅変更が必要
◎サーバ負荷が無く、
サーバ負荷
サーバ負荷が
性能を
性能を出しやすい ×バックアップ時にスト
②Target – Inline • 中～大規模環境
◎バックアップ運用設レージに負荷が集中
計が比較的容易
×余剰なディスク容量が
◎サーバ負荷が無く、
サーバ負荷
サーバ負荷が
必要
③Target – 性能を
性能を出しやすい
• 中～大規模環境 ×重複排除処理時間を
Post-processing ◎既存NAS/VTLにア
確保したバックアップ
ドオンしやすい
運用設計が必要


②物理データ圧縮との併用
データ圧との併用

重複排除の
重複排除の後に物理圧縮を行うことで、更に容量を削減
物理圧縮をうことで、容量を

重複排除処理＋物理圧縮処理

①バックアップデータを入力データA
データデータB
データデータC
データ

②重複するデータブロックを検出 A B C D A E F G A B H D E F I ABHJKLEFG

③重複するデータブロックを排除 A B C D E F G H I J K L 重複排除されたデータ容量

物理データ圧縮の有無で生じる容量差
④重複排除されたデータを ABCDEFGH I J KL 物理圧縮されたデータ容量
更に物理圧縮して格納


最適化レプリケーション
③WAN最適化レプリケーション
最適化

重複ブロックを認識することで、転送量を大幅に削減できる
重複ブロックを認識することで、転送量を大幅に削減できる
ブロックすることで

Only unique blocks
are transferred
Backup Servers
7 8 1 2 3
WAN
Data
1 2 3 7 4 5 6
Deduplication
4 5 6 8

Data Center Recovery Site

送付する前に、相手先がどのブロックを保有しているかを確認
相手先が持っていないブロック（ユニークなブロック）だけを送付
WANコストは非常に高いので、コスト削減効果が高い

方式解説:
Deduplication方式解説アドバンスト
方式解説

重複排除の効果を左右する四つのポイント

① 可変長ブロック

② Global Deduplication

③ Application-Aware Deduplication

④ データインテグリティ改善


①可変長ブロック
可変長ブロック

ファイルの更新後やアーカイブファイル
ファイルの更新後や、アーカイブファイル(tar/zipなどでも
など)でも
など
重複を適切に検出するための
するための技術
重複を適切に検出するための技術

固定長分割と可変長分割の違い

データ１(変更前) B1 B2 B3 B4 B5 B6

データ２(変更後) B1 B2 B'3 B4 B5 B6
挿入

重複排除を
重複排除を行うと

固定長での重複判定 B1 B2
×挿入部以降のブロックを異なるデータと認識
可変長での重複判定 B1 B2 B4 B5 B6
◎挿入部以降のブロックも正しく一致を認識


②Global Deduplication (1/3) 概念

ノード・コントローラをまたいだDeduplication
ノード・コントローラをまたいだ
をまたいだ

Local – Volume Local – Node Global

Dedupe Dedupe Dedupe Dedupe Dedupe Single Dedupe
Repository Repository Repository Repository Repository Repository


②Global Deduplication (2/3) 効果

大規模になればなるほど、効果が
大規模になればなるほど、効果が増してくる
になればなるほど

ストレージ統合による
ストレージ統合による
統合
重複排除ロスの
重複排除ロスの効果
ロス容量圧縮の
空き容量圧縮の効果

Global Dedupe Global Dedupe


実装方法の
②Global Deduplication (3/3) 実装方法の一例
注意: ここでは、HYDRAstorのGlobal Deduplicationの実装方法について説明しています

Hash 0000 - 0001 -> Disk 1
DHTを用いて、
をいて、 Hash 0010 - 0101 -> Disk 2

ブロックを複数のノードで
ブロックを複数のノードで Hash 0110 - 0111 -> Disk 3

Hash 1010101… Hash 1000 - 1010 -> Disk 4
分散して
して管理
分散して管理 Hash 1011 - 1100 -> Disk 5

Hash 1101 - 1111 -> Disk 6
Disk Array
Disk Array

▐ DHT (Distributed Hash Table)
0 Hash 00 -> Super Node 1
ハッシュテーブルを複数ノード 0
0 Hash 010 -> Super Node 2
1
で分散して管理させるしくみ Hash 1 Hash 011 -> Super Node 3
1010101…
0 0 Hash 100 -> Super Node 4
ノード間でクエリをルーティング 1 Hash 10 -> Super Node 4
Hash 101 -> Super Node 6
1
1
ノード間で状態をモニタリングし Hash 11 -> Super Node 5

あい、適宜、管理状態を変化さ
せる

Storage Nodes
Storage Nodes


③Application-aware Deduplication

上位アプリに挿入される管理データ（マーカ）
上位アプリに挿入される管理データ（マーカ）を除き、元データを復元
アプリされる管理データデータを

File-level Marker
問題: 上位アプリ自分の管理のために
アプリがのために色マーカーを
問題上位アプリが自分の管理のために色々なマーカーを挿入
Agent-side Marker データでも
でも違ブロックになってしまう
同じデータでも違うブロックになってしまう

Original Files

Agent Operation

File Aggregation (tar)

Blocking

Block-level Marker

ストレージ側
ストレージ側

Marker
Filtering


④データインテグリティ改善
データインテグリティ改善(1/2) 背景
改善

重複排除の負の部分として、
重複排除の部分として、
として
データロスの影響がきくなるという側面
側面がある
データロスの影響が大きくなるという側面がある

Day 2: Day 3:
Day 1: Full …Day 7: Full
Incremental Incremental
Q: What data
1 7 1 4 1 6 5 1 1 6 1 4 can be restored
4 6 2 1 6 3 4 7 1 6 7 8 if block #1 lost?
A: NONE!

1 2 3 4
5 6 7 8


④データインテグリティ改善
データインテグリティ改善(2/2) 対策の例
改善対策の

ハッシュやチェックサムをったデータ化けの検出と修正など
ハッシュやチェックサムを使ったデータ化けの検出と修正など
データ検出

▐ リード時にブロックのハッシュを再計算することで、ブロックレベル
でデータ化けを検出する

▐ リード時にフラグメント（ブロックを構成する断片）のチェックサムを
再計算することで、フラグメントレベルでデータ化けを検出。検出
後はフラグメントを再生成する

▐ 定期的にデータを読み出して、上記検出処理を走らせる


SSDが注目される背景(1/2)
が注目される背景
される背景 I/O速度の問題
速度の
速度

ディスクI/O速度が
ディスク速度がCPU速度の進化についていけず、
速度速度の
速度進化についていけず
についていけず、
ボトルネックになりやすくなっている
ボトルネックになりやすくなっている

▐ 1981年の段階と比較して、CPUは非常に高速化している
CPU: x1,000 (MHz to GHz)

▐ しかし、ディスクI/O速度はほとんど進化していない（回転数の問題）
HDD: x12.5
• 1981: HDDシークタイム 8.33ms (3,600RPM)
• 2009: HDDシークタイム 2.9ms (15,000RPM)
容量あたりIOPS(*1)で見ると、かなり退化している
• 1981: 20 IOPS/GB
• 2009: 0.833 IOPS/GB  1981年の約1/25
(*1) IOPS: I/O per second
Source: Rob Peglar, Overview and Current Topics in Solid State Storage. SNW 2009 Fall


SSDが注目される背景(2/2) フラッシュの価格低下
が注目される背景
される背景フラッシュの

価格低下により、数十クラスでもそれなりの値段
価格低下により、数十GBクラスでもそれなりの値段に
によりクラスでもそれなりの値段に

ただ、今後は
下落幅が小さくなる
と予想されている


解説:
SSD解説ベーシック
解説

① SLC vs. MLC

② SSD vs. HDD

③ 接続インタフェースの違い


①SLC vs. MLC

現時点でエンタープライズ向けはほぼ全
現時点で、エンタープライズ向けはほぼ全てSLC

▐ SLC: Single Level Cell – 1つのセルに1bit
高コスト: SLCの４倍
速い処理速度
高い信頼性
エンタープライズ向け: サーバ・ストレージ向けはほぼ全てSLC

▐ MLC: Multi Level Cell – 1つのセルに2bit (or more)
低コスト: SLCの４分の１
処理速度はSLCに劣る
低い信頼性
コンシューマー向け: 世に出ている90%のフラッシュはMLC


②SSD vs. HDD (1/4) SSDのメリット
の

現時点で
現時点で、IOPSは115倍、消費電力は５分の１
は倍消費電力は

Source: Will Akin: Understanding Performance of SSDs in the Enterprise. Intel Developers Forum 2009


②SSD vs. HDD (2/4) コストパフォーマンス（単体）
コストパフォーマンス（単体）

容量あたりで見ると、まだかなり高
容量あたりで見ると、まだかなり高い。
あたりで
ただ、あたりで見
あたりでると、がかなりの優位
がかなりの優位。
ただ、IOPSあたりで見ると、逆にSSDがかなりの優位。

Intel X25-E Extreme Seagate Cheetah 15Krpm
64GB 146.3 GB
価格(*1) $725 $185
価格/容量 $11.3 / GB $1.26 / GB (1/9の値段)
の値段
IOPS 35000 300
価格/IOPS $0.021 / IOPS (1/30の値段
の値段) $0.62 / IOPS

(*1) by Google Product Search


②SSD vs. HDD (3/4) コストパフォーマンス（システム）
コストパフォーマンス（システム）

電力コスト／コントローラコスト削減
電力コスト／コントローラコスト削減 vs. ドライブ単価
コストドライブ単価

http://www.snia.org/forums/sssi/programs/TCOcalc


はをえるのか？
②SSD vs. HDD (4/4) SSDはHDDを置き換えるのか？

2012年頃までに、速いHDD（15Krpm）の需要は無くなる
年頃までに、
年頃までに（）需要は

の用途では
では、
高IOPSの用途では、
くなってきて、
SSDの方が安くなってきて、
の

大容量HDD
SSD + 大容量
という時代時代がくる
という時代がくる


③接続インタフェース
接続インタフェース(1/2) SATA vs. PCIe
インタフェース

PCIeバスに直接刺す事で性能向上が図れる
バスに直接刺す
バス性能向上が

Intel X25-E Extreme Fusion-io ioDrive 80GB
Interface SATA PCIe
Sustained 250 MB/s (read) 750 MB/s (read)
Throughput 170 MB/s (write) 500 MB/s (write)
IOPS (4k) >35,000 IOPS (read) 119,790 IOPS (read)
>3,300 IOPS (write) 89,549 IOPS (75/25 r/w mix)
Latency 75 ms 26μs (read)

スループット (read): 3倍
IOPS (read): 3.42倍
レイテンシ: 1/3000

③接続インタフェース
接続インタフェース(2/2) PCIe接続のメリット・デメリット
インタフェース接続の
接続メリット・

▐ 利点
PCIeに接続することで性能を向上
に接続することで性能を
することで性能
• レイテンシが圧倒的に小さくなる IOPS向上
• SAS/SATAの帯域限界を越えられるスループット向上
▐ 欠点
保守性が
保守性が悪い
• HDDだと全面についており、ホットスワップできる。PCIeだとカバーを開けなく
てはならない
長さに限界がある
PCIeスロット数には限界があり、多数搭載しにくい

PCIeは確かに性能が稼げるが、保守性の問題がある。
はかに性能がげるが、保守性の問題がある。
性能がある
企業向けでは高性能が必要な用途に
けでは、
企業向けでは、高性能が必要な用途に限られるか


解説:
SSD解説アドバンスト
解説

SSD普及に向けての二つのポイント

① Automated Tiering

② SSDの課題


①Automated Tiering

とをハイブリッドにして
にして、
SSDとHDDをハイブリッドにして、
上位から透過的にわせる技術
から透過的
上位から透過的に使わせる技術
▐ キャッシュとしての利用
Filesystem Cache: Sun 7000, NetApp
Add-on to RAID Card: Adaptec
SAN Cache Appliance: DataRam

▐ 階層化ストレージ（自動マイグレーション）
Integrated Volume: Compellent
File level migration: Veritas File System
Volume level migration: EMC FAST
Virtualization Appliance: IBM SVC
少ないSSD容量でも恩恵が受けられるので、
ない容量でも恩恵がけられるので、
容量でも恩恵
の採用をすと見
SSDの採用を促すと見られている

の課題(1/2) ピーク性能とサステインド性能の違い
②SSDの課題ピーク性能サステインド性能
性能と性能の

Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009


の課題(2/2) 性能の安定性
②SSDの課題性能の

Source: Knut Grimsrud, Chris Saleski: Future Solid-State Drive (SSD) Innovations, Intel Developers Forum 2009


Erasure Coding: 概要

少ない容量オーバヘッドで高い信頼性を実現
ない容量オーバヘッドで
容量オーバヘッド信頼性を

▐ Replication ▐ Erasure Coding

Redundant
Fragments
Example:
N=8, m=5

Decode
Encode

Fragments
Original
Original Original
block block

容量オーバヘッド: 200% 容量オーバヘッド: 60%
許容される同時故障数: 2 許容される同時故障数: 3


応用例① サイト間
Erasure Coding: 応用例① サイト間で分散

レプリケーションの代替として使用し必要容量を
レプリケーションの代替として使用し、必要容量を削減
として使用

Source: http://www.cleversafe.com/vision/Replication_vs._Information_Dispersal


応用例② ストレージシステムで
Erasure Coding: 応用例② ストレージシステムで利用

RAIDの代替として使用
の代替として使用
として

▐ より柔軟な信頼性設定
ボリュームごとにパリティ数選択

▐ RAID5/6と同様のオーバヘッドで
高い信頼性

▐ RAIDよりも高速なリビルド
データ部分のみをリビルドするため


Erasure Coding: 実装方法

オープンソースのライブラリがいくつかある
オープンソースのライブラリがいくつかある

Supported Algorithms Lang

Luby o Cauchy-based C
Reed-Solomon

Zfec o Classic Reed- C
Solomon Python
Haskell

Jerasure o Classic Reed- C
Solomon
o Cauchy-based
Reed-Solomon
o Minimal Density
RAID-6 codes Encoding performance for [12,4].

Source: James S. Plank et al.: A Performance Evaluation and Examination of Open-Source Erasure Coding Libraries For
Storage. FAST ’09: 7th USENIX Conference on File and Storage Technologies


HYDRAstor: 概要
Backup Servers
90TB/hr 20.8PBs
Effective

Performance

Capacity
NFS 1 Logical
Replication
CIFS Pool

1.8TB/hr 315TBs
Effective
Archive Systems
•DataRedux™ Enterprise Deduplication
•Distributed Resilient Data™

Unrestricted Scalability Reduces Complexity & Cost

Self Management Reduces Staff Costs and Eliminates Errors

Global Deduplication Maximizes Storage Efficiency of Large System
本日解説
した技術
した技術
WAN-optimized Replication Reduces Network Costs for DR

Enhanced Data Resiliency Improves Data Protection with Low Overhead
(based on Erasure Coding)


HYDRAstor: Grid Storage Architecture

Community of Smart Nodes

Node Hardware
Accelerator Nodes • Industry-standard servers
Storage Nodes • Multiple types allowed
• Heterogeneous & open

Two types of Nodes
Intelligent Management SW
• Accelerator Nodes for
Performance Scalability • Fully distributed system
• Storage Nodes for • Self-aware & self-organizing
Capacity Scalability • Virtualizes hardware platform


HYDRAstor: Independent Linear Scalability

Uniquely Scale
Performance
Performance and Capacity
to Meet Current and
Capacity
Future Needs

Accelerator Nodes (AN) Storage Nodes (SN)

• Performance: 1.8 TB/hr • Raw Capacity: 12 TB (1 TB SATA HDD)
• Ports: 6 x 1GbE or 2 x 10GbE • Effective Capacity: 157.5 TB
PERFORMANCE SCALABILITY CAPACITY SCALABILITY


HYDRAstor: Self Management

Simple, fast deployment
No storage provisioning tasks
Easy, non-disruptive node
addition/removal
Accelerator Nodes
Automatic load balancing across Storage Nodes
nodes
Automated health & status
management
SNMP, e-mail alerts, phone home
Centralized management interface
Web browser GUI, and CLI

Reduces Staff Costs and Eliminates Errors Introduced by Manual Tasks


JTPA Geek Salon Dec 2009

Recommended

Recommended

More Related Content

What's hot

What's hot (7)

Viewers also liked

Viewers also liked (8)

Similar to JTPA Geek Salon Dec 2009

Similar to JTPA Geek Salon Dec 2009 (20)

Recently uploaded

Recently uploaded (8)

JTPA Geek Salon Dec 2009