More Related Content Similar to D21 dbts tokyo_2013_ssd (20) More from Insight Technology, Inc. (20) D21 dbts tokyo_2013_ssd11. SSD内部回路・基本構成
SSDの詳細構成は製品により異なりますが、大まかには以下の基本
構成になっています。(Channel = Bank 複数個, Bank = Die 複数個)
Channel
SSD内部
Cache
DRAM
NAND I/F
NAND I/F
NAND I/F
NANDNAND
NAND
NAND NAND
NANDNAND
NAND
(Die)
(Die)
NANDNAND
NAND
NAND NAND
NANDNAND
NAND
(Die)
(Die)
NAND I/F
)
(
※NAND I/F
①Intel・Micron
ONFi
②Samsung・東芝
Toggle DDR
SATA I/F
Host
I/O
NAND CONTROLLER
MPU
NANDNAND
NAND
NAND NAND
NANDNAND
NAND
(Die)
(Die)
NANDNAND
NAND
NAND NAND
NANDNAND
NAND
(Die)
(Die)
11
12. NAND 基本構造 1/2
Die(NANDチップ) = Plane 複数個
Plane = Block(ブロック)複数個
NAND
NAND
(Die)
(Die)
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
Block
NANDチップ(Die)
12
13. Block = Page(ページ) 複数個
Page = 記憶素子 複数個 = WL(Word Line)
記録素子が「碁盤の目」構造になっています。
Block
NAND 基本構造 2/2
Page
Page
Page
Page
・
・
・
=
Page
Page
SG WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL
Block
SG
BL
BL
BL
BL
BL
BL
SL
SL
Block(ブロック)
13
18. 記憶素子(セル)特性 2/2
書き換え可能回数
絶縁体(トンネル酸化膜)耐用回数
書き換え耐性 (Write Endurance)
工場出荷時は
「絶縁体」は、フローティングゲートの電子を維持
するのに十分な性能。
工場出荷時
Write/Erase処理のたびに
絶縁体が傷つくと、吸引されなくても、フローティ
ングゲートの電子が漏れていくようになります。
また磨耗が更に進むと、絶縁体の様々な場所に、
電子を溜め込んでしまう電荷トラップスペース(溜
り空間)が発生。
なお書き換え可能回数は、英語では、Program &
Erase cyclesと呼ばれるため、“P/E回数”と記載さ
れているものもあります。
製品磨耗後
18
23. 多値化(NAND種別 SLC vs. MLC)
+ + +
SLC = Single Level Cell
MLC = Multi Level Cell LC (電圧の細やかな制御が必要。)
いずれもRead 処理は、基板側(ソース・ドレイン電極間)に電流を流し、Vth(threshold
Voltage, 閾値電圧)を測定。
1.0V
2.5V
SLC →
4.0V
5.0V
1
11
- - -
6.0V
0
01
10
- -
- - -
- - - -
- - -
- -
-
00
MLC →
- - - - -
23
25. 多値化 & 微細化により…
0
- - - - - -
多値化
- - - - - -
- - - - - -
NAND個数が減少(同一容量の場合、記憶素子
数が減少)
- - - - - -
- - - - - -
電子リークの影響を受けやすくなり、微妙な電圧
制御に耐えられる書き換え可能回数が減少。
微細化
微細化
-
-
多値化
0
- - - -
- - - -
低下していく耐久性能(書き換え可能回数低下)
1
- - - -
- - - -
低下していく信頼性
ファイル破損,文字化け(信頼性低下)
- - - - - -
- - - - - -
0
データ保持性能低下
-
- - - - - -
1
1
- - - -
- - - -
2
-
-
- - - -
- - - -
3
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
- - - - - -
微細化/多値化
0
- -
1
- -
2
- -
3
- -
- -
- -
- -
- -
-
- - - - - -
- - - - - -
-
-
-
-
-
25
-
31. データ保持性能劣化 with 磨耗度
データ保持性能は、磨耗度に伴い低下。
絶縁体に
問題なし
未使用時(使用率 = 0%)
絶縁体には、まったく傷がない状態です。
-
-
-
製品寿命満了時(使用率 = 100%)
絶縁体が傷ついたことで、書き込まれた電子
は直ぐに、“抜けて”行きます。
下表を一見すると、製品寿命満了時の保持能
力は変わっていないように見えますが、書き
換え可能回数が少なければ早く満了。
(NAND製品傾向)
製造プロセス
MLC 保持 0%
能力 100%
2006年
2012年
9xnm
≧ 2 years
6months - 1year
≧ 6 months
痛んだ
絶縁体
19 – 2x
3 years
(未使用時)
-
-
-
(製品寿命満了間際)
31
43. Enterprise SSD vs. Client SSD
ベンチマーク試験は実施するにしても、正しい
試験方法をご存知ですか?
Client
Enterprise
バースト転送,Read or Write
ランダム転送, Read & Write
瞬間速度性能 > 安定性
安定性 > 瞬間速度性能
比較的長い
短い・頻度でカバー
Trimコマンド
サポート必須
サポート必須ではない
単価 ÷ 容量
安価
高価
“1”未満(通常 0.1~0.4)
“1”以上
高価
安価
≤ 1 in 1015
≤ 1 in 1016
3年間
5年間
項目
チューニング基準
速
度
処理速度,Latency時間性能
ガベージコレクション処理時間
耐
久
性
信
頼
性
耐久性能(DWPD)
単価 ÷ TBW
UBER(JEDEC規格)
製品保証
43
44. バースト vs. ランダム転送
Burst(バースト,高速) ⇒ 転送速度
≒ Sequential/Sustained Sequential (連続的)
≒ Bandwidth(バンドウィズ,帯域幅)
HDDとSSDでは
意味合いが微妙に
違います
Random(ランダム,無作為)
≒ IOPS(Input Output per Second) Sequential でない送信
SSD内部
I/F
連続領域
≒ 大きなファイル
MPU
Cache
Random
領域がバラバラ
≒ 小さなファイル
NAND Cont.
Sequential
I/F
NAND
I/F
NAND
I/F
NAND
Sequential
Random
◆ Read or Write 単独
◆ 比較的大きなファイル
を使用
◆ Sequential ではない
送信
44
45. チューニングの違い & 処理速度
製品カタログ表記
Sequential(≒ Burst )= Read or Write 100% & 比較的大きなサイズ
IOPS(≒ Random)= Read or Write 100% & 比較的小さなサイズ
業務系データベースシステムの場合
バッチ:
Read/Write比率 = 4:6~6:4混合,通常 4/8KByte 固定
オンライン: Read/Write比率 = 9:1~7:3混合,通常 4/8KByte 固定
Latency
Enterprise
Client
48
45
24
36
バースト
転送
ランダム
転送
45
46. SNIA: SSDベンチマーク仕様
SNIA(Storage Networking Industry Association)とは、SANやNASの普及を目
的とするストレージ関連ベンダーによって設立された世界最大の業界団体。
米国SNIA: http://www.snia.org/
日本SNIA: http://www.snia-j.org/
SNIAによってSSDのベンチマーク試験方法を定義・公開しています。主なドキ
ュメントとしては以下のものがあります。
SNIA SSS性能試験仕様に基づくSSDパフォーマンスの把握(日本語翻訳)
http://www.snia-j.org/tech/WH/SSD_TEST/files/SSD_TEST.pdf
ベンチマーク仕様書
Enterprise SSD用とClient SSD用に別れています。
http://www.snia.org/tech_activities/standards/curr_standards/pts
ただしベンチーマーク試験とはSSDに限らず、接続先環境(例: ハードウェア仕
様,OS等)によっても数値が大きく変化するため、結果を公表しているメーカは
存在しません。
46
53. Tips: 同じ製品でも….
同じ製品でも、容量によって速度が変わる可能性あり。
SATA I/F
NAND I/F
NAND
NAND
NAND
NAND
NAND I/F
NAND
NAND
NAND
NAND
NAND I/F
NAND
NAND
NAND
NAND
NAND
NAND
NAND
NAND
製品容量 64GB
SATA I/F
Cache
NAND Controller
MPU
製品容量 32GB
NAND I/F
NAND I/F
NAND I/F
NAND I/F
NAND
NAND
NAND
NAND
NAND
NAND
NAND
NAND
SSD内部
製品容量 64GB
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND
NAND
NAND I/F
Cache
NAND
NAND
NAND I/F
MPU
NAND
NAND
NAND I/F
NAND Controller
NAND I/F
NAND I/F
SATA I/F
Cache
NAND Controller
MPU
NAND
NAND
53
54. Tips: SSD処理性能の不思議 1/2
SSDは、ホスト側からデータが送信されてくると、FTL(Flash Translation Layer)と呼ば
れる回路で、ホスト側からの指定アドレス(論理アドレス,LBA - Logical Block
Address-)を、各NAND内の適当な物理領域(物理アドレス,PBA - Physical Block
Address-)に割り当て保存しています。
この割り当て(LBA-PBA変換)処理によって作成された「紐付け情報」を、一般にはマッピン
グ情報と言い、情報が保存されたファイルを、L2P Table (Logical-to-physical table)と呼んで
います。
このマッピング情報は、新しいデータが保存されるたびに追加され、データが修正保存され
ると新しい領域(場所)が割り当てられるため更新され、データが消去されると該当する箇所
も消去されます。
SSD
ホスト側から
「データ + LBA」が送信
FTL
(Flash Translation Layer)
・・・・
L2P
54
57. Enterprise SSD vs. Client SSD
安物買いの銭失い!! になっていませんか?
TBWやDWPDってご存知ですか?
Client
Enterprise
バースト転送,Read or Write
ランダム転送, Read & Write
瞬間速度性能 > 安定性
安定性 > 瞬間速度性能
比較的長い
短い・頻度でカバー
Trimコマンド
サポート必須
サポート必須ではない
単価 ÷ 容量
安価
高価
“1”未満(通常 0.1~0.4)
“1”以上
高価
安価
≤ 1 in 1015
≤ 1 in 1016
3年間
5年間
項目
チューニング基準
速
度
処理速度,Latency時間性能
ガベージコレクション処理時間
耐
久
性
信
頼
性
耐久性能(DWPD)
単価 ÷ TBW
UBER(JEDEC規格)
製品保証
57
61. 製品寿命指標
SSD製品寿命に関する業界標準基準
JEDEC(JEDEC Solid State Technology Association,半導体技術協会)に
より、2010年9月に公開。(仕様書番号 JESD218A)
製品寿命を“TBW(Tera-byte Written)”という数値で表現。
定義された試験環境/試験方法/負荷において、対象となるSSDが、製品寿命
満了までに、何TBのデータを書き込めるかを数値で表現。
SSDを二つのカテゴリーに分類
Enterpriseクラス(サーバ用途),Clientクラス(PC用途)
製品カタログ等での表記
TBW(Tera Bytes Written)」が記述されている場合と、最近はTBWに基づ
いた「DWPD(Drive Write Per Day)」、あるいは「Random drive writes/day」
が記述されている場合があります。
※参考資料: JEDEC “JESD218A”(http://www.jedec.org/)
61
62. TBW(Tera Byte Written)計算方法
TBW =
Capacity (容量) × Program/Erase可能回数
Write Amplification (書き換え倍率) × 1000(GB換算)
上記の計算式から
製品寿命(耐久性能)を「書き換え可能容量」として算出。
同一モデル製品であれば、“製品容量”に比例。
但し、後述記載の条件を満たしていること。
動作環境,データ保存条件,SSD製品としての故障率,デー
タ破損率。
62
63. TBWの検証条件
要注意
ス)
つのクラ
(二
異なる合格条件
動作環境
データ保存(電源Off)
FER
UBER
Client
40℃ (8時間/日)
30℃,1年間
≤ 3%
≤ 10-15
Enterprise
55℃ (24時間/日)
40℃,3ヶ月
≤ 3%
≤ 10-16
製品クラス
諸条件について
動作環境: Enterpriseクラスは連続稼動(速度は関係ない)
FER(Functional Failure Requirement)を満たしていること
故障したSSDの割合。テストには、31台以上の試験結果の提出が必須。
試験終了後: 以下の条件を満たすこと
電源Off/一定温度/一定期間保存し、UBER(Uncorrectable Bit Error Rate)を満たし
ていること。
ECC補正後の読み込み時のデータエラー数を、読み込んだ総ビット数で割った率。
常温付近では、7℃の温度上昇で「約2倍のリーク電流」があるとの研究結果あり。
※参考資料: JEDEC “JESD218” (http://www.jedec.org/)
63
64. TBWの問題
で も ..
ります
考にはな
参
ただしクラスの違い以外にも
1. 同一モデル製品であれば、“製品容量”に比例。
2倍の製品容量 = 2倍のTBW
2. JESD218規格には、ベンチマークで使用するファイ
ルサイズ/種別についての規定がない。
ベンチマークで使用するファイルサイズが、対象となる
SSD(NAND)のPageサイズやBlockサイズに一致すると
好結果になる。
Write Amplification 値が低下
ファイルサイズは、 Enterprise向けのみ別規格(仕様書
番号 JESD219)で規定しているが使用義務はなし。
64
65. DWPD (Full Drive Write Per Day)
TBWが保存可能総量を、単純に数値化しているのに
対して
DWPDは、製品容量と製品保証期間を加味。
容量に関係なく、耐久性能を相対比を提示する試み
例えば、「x10 DWPD」と記載されている場合は、
製品容量に対して、10倍のデータを保存し続けても、製品
保証期間中は使用可能であることを示しています。
65
67. Tips: 耐久性能をアップさせる方法
余剰領域(Over-Provisioned Capacity)の設定
予備領域(Spare Capacity/Area)とは考え方が異なる
一般的SSDは、2進法表示(Binary Gigabytes)と、IDEMA標
準容量の“差”を、予備領域(交替領域)用として使用。
余剰領域は以下の効果を狙ったもの(ただし物理上は同じ)
設定効果
Write Amplification 向上
ガベージコレクション効率向上
速度向上(速度劣化防止)
製品寿命延伸
参考論文
IBM Zurich Research Laboratory
Write Amplification Analysis in Flash-Based Solid State Drives
余剰領域 & WA (関係例)
67
72. Enterprise SSD vs. Client SSD
RAID構成等で複数のSSDを搭載する場合、
データ信頼性って結構重要です!!
Client
Enterprise
バースト転送,Read or Write
ランダム転送, Read & Write
瞬間速度性能 > 安定性
安定性 > 瞬間速度性能
比較的長い
短い・頻度でカバー
Trimコマンド
サポート必須
サポート必須ではない
単価 ÷ 容量
安価
高価
“1”未満(通常 0.1~0.4)
“1”以上
高価
安価
≤ 1 in 1015
≤ 1 in 1016
3年間
5年間
項目
チューニング基準
速
度
処理速度,Latency時間性能
ガベージコレクション処理時間
耐
久
性
信
頼
性
耐久性能(DWPD)
単価 ÷ TBW
UBER(JEDEC規格)
製品保証
72
74. データ信頼性指標 “UBER”
データ信頼性は、UBER(Uncorrectable Bit Error Rate)で表されます。
UBERとは、ECC回路による補正後、読み込み時のデータエラー数を、読み込
んだ総ビット数で割った率。
下記の表を一見すると、Client SSDでも充分な気がしますが、あくまで下記の
値は、1台分の数値です。RAID等で複数台使用すれば、倍数になります。
でもRAIDコントローラが修復しているから大丈夫・・・・??
Readエラー発生率
USER
HDD
10-14
SATA Desktop,Enterprise
10-16
SATA Enterprise
SAS/FC (7200rpm)
10-17
SAS/FC
“400MByte/s”
容量
1回/約12TB
1回/約9時間
Client
1回/約125TB
1回/約87時間
Enterprise
1回/約1,250TB
1回/約868時間
1回/約12,500TB
1回/約8,681時間
SATA Desktop
10-15
SSD(JDEC)
74
76. 信頼性 = 速度維持に貢献
現実のエラー発生頻度は想像より高
い!!
NAND I/F
NAND I/F
よって低い信頼性のSSDを使ってしまう
と速度低下の元に!!
SSD内部
NAND Controller
Cache
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND I/F
NAND
NAND
NAND
NAND
NAND I/F
I/F
SSD内部は並列I/Oつまり、RAID0(スト
ライピング)で速度向上しています。
よって1個のチップに問題が出ただけで、
“全損”の可能性があります。
MPU
NAND
NAND
NAND I/F
さらにSSDはHDDと違って、SSD全体
が読めなくなることがある。
NAND
NAND
NAND
NAND
76
77. Tips: Full‐data‐path protection
Full‐data‐path protection 機能があれば..
できる限り早い段階で誤りを見つけ再送処理できれ
ば、より速度低下は低く抑えられる。
車の渋滞メカニズムと同じ
交通量が多いほど僅かな遅延が、大きな渋滞を発生。
CRC or ECC
check
SSD内部
NAND Cont.
Cable
I/F
CPU
CPU
RAID
RAID
Cache
CRCor ECC
Generation
CRC or ECC
Generation
NAND
I/F
NAND
NAND
CRC or ECC
check
NAND
I/F
NAND
NAND
77
80. 誠
実
H o n e s t y
ソルナック株式会社は日本の製造業を
強力にサポートします。
http://www.solnac.jp
80