D21 dbts tokyo_2013_ssd

4,637 views

Published on

Published in: Technology

D21 dbts tokyo_2013_ssd

  1. 1. 基幹システム向けSSDとは (SSDの基礎 ~ Enterprise SSD) 2013年11月14日 ソルナック株式会社
  2. 2. はじめに(おことわり) 本日の内容(一部)は後日、“db tech showcase”サイトに て公開いたしますが、 なお公開資料には、 含まれておりません。 非配布 マークの付いた頁(ページ)は 内容についてのご質問は、 本日: 16時までは会場内にて対応 明日以降: 弊社にメールにてお問い合わせください。 E-mail: mktg@solnac.jp (http://www.solnac.jp) なおご質問への回答は、本日お話した内容に限らせていただ きます。 2
  3. 3. 商標および登録商標について 日経エレクトロニクスは、株式会社日経BPが発行する業界・技術専門誌です。 Intelは、米国およびその他の国におけるIntel Corporationの商標です。 Micronは、米国Micron Technology, Inc.およびその他の国における商標また は登録商標です。 Samsungは、Samsung Electronics Co., Ltd.およびその他の国における商標ま たは登録商標です。 東芝は、株式会社 東芝またはその子会社の商標または登録商標です。 その他、本文に記載の会社名、製品名はそれぞれの会社の商標もしくは登録 商標です。 (順不同) 3
  4. 4. 弊社紹介 会社名 ソルナック株式会社 主な業務内容 HDD技術支援サービス(障害解析/選定評価/使用機器評価) 高信頼性HDD/HDD関連製品の提供 SSD評価サービス 産業用ならびにエンタープライズ用SSD,産業用メモリモジュール販売 電子機器設計・開発・製造,品質評価サービス 会社略歴 2001年11月 創業 株式会社MCJによる買収完了 2012年 所在地 〒530-0003 大阪市北区堂島1-1-25,TEL 06-4796-3233 (http://www.solnac.jp) その他 IDEMA Japan 会員 (日本HDD協会,http://www.idema.gr.jp/) 4
  5. 5. HDD vs. SSD 比較 非配布 5
  6. 6. HDD vs. SSD 比較 非配布 6
  7. 7. 目次 SSD の正しい理解 ・・・・ 8頁 理解の低さが招いた災禍(データ保持能力) ・・・・ 35頁 Enterprise SSD vs. Client SSD (評価すべき基準) ・・・・ 39頁 Enterprise SSD vs. Client SSD (処理速度性能) ・・・・ 42頁 Enterprise SSD vs. Client SSD (耐久性能) ・・・・ 56頁 Enterprise SSD vs. Client SSD (データ信頼性能) ・・・・ 71頁 7
  8. 8. SSDの正しい理解 (NAND基本原理~問題点)
  9. 9. 最初に“クイズ”です!? 同一モデル(SSD)を、まったく同じ「環境 &処理負荷」 で使用した場合、以下のような数式が成立。 容量が2倍あれば、製品寿命は2倍になる。 上記のSSDが、データ信頼性(完全性)に対して特段の 機能を装備していない場合、以下のような数式が成立。 容量が2倍あれば、データ信頼性は「2分の1」倍になる。 回答は後ほど 9
  10. 10. SSDは… “夢のストレージ”ではありません!! 特に保存(アーカイブ)用ストレージには向いていません。 あるエンタープライズ向けSSDメーカーのメッセージ Your data will be there in the morning. しかし弱点を理解した上で利用すれば、皆さんの悩みを解決する大き な武器に!! そこで本日は時間の許す限り、お聴きになっているのがデータベース技術者である ことを前提に、SSDを選択するにあたって最低限知っていただきたいことに絞ってお 話を進めます。 なお本セミナーでは現在市場で入手可能な、「NAND型メモリフラッシュ(※)」 を記憶素子として搭載した、SSDを前提にご説明しています。 ※ NAND(ナンド)とは「Not AND」の略で論理回路の一種で、この仕組みを採用し ているフラッシュメモリがNAND型フラッシュメモリとなります。この資料においては 以降、NANDと記述しています。 10
  11. 11. SSD内部回路・基本構成 SSDの詳細構成は製品により異なりますが、大まかには以下の基本 構成になっています。(Channel = Bank 複数個, Bank = Die 複数個) Channel SSD内部 Cache DRAM NAND I/F NAND I/F NAND I/F NANDNAND NAND NAND NAND NANDNAND NAND (Die) (Die) NANDNAND NAND NAND NAND NANDNAND NAND (Die) (Die) NAND I/F ) ( ※NAND I/F ①Intel・Micron ONFi ②Samsung・東芝 Toggle DDR SATA I/F Host I/O NAND CONTROLLER MPU NANDNAND NAND NAND NAND NANDNAND NAND (Die) (Die) NANDNAND NAND NAND NAND NANDNAND NAND (Die) (Die) 11
  12. 12. NAND 基本構造 1/2 Die(NANDチップ) = Plane 複数個 Plane = Block(ブロック)複数個 NAND NAND (Die) (Die) Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block Block NANDチップ(Die) 12
  13. 13. Block = Page(ページ) 複数個 Page = 記憶素子 複数個 = WL(Word Line) 記録素子が「碁盤の目」構造になっています。 Block NAND 基本構造 2/2 Page Page Page Page ・ ・ ・ = Page Page SG WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL Block SG BL BL BL BL BL BL SL SL Block(ブロック) 13
  14. 14. 記憶素子(セル)処理 1/3 コントロールゲート電極 (正電圧“18V”を印加) + + + - - - コントロールゲート Write(Program)処理 フローティングゲート (基板側) コントロールゲート 絶縁体 (トンネル酸化膜) (浮遊ゲート)側への (データのWrite処理) 正電圧印加により フローティングゲートに電子が流入。 フローティングゲートに流入した電子は、トンネル酸 化膜によって、そのまま保持。 14
  15. 15. 記憶素子(セル)処理 2/3 Erase(消去)処理 基盤側への正電圧印 加により、フローティン グゲートから電子が流 出。 コントロールゲート電極 コントロールゲート フローティングゲート 絶縁体 (トンネル酸化膜) - - - (基板側) + + + 基盤側 (正電圧“20V”印加) (データのErase処理) 本書では消去処理のことを、DeleteではなくEraseを使用し、書き込み処理については、 Program と Write を併用しています。理由としてはSSDやNANDに関する英文文献等に おいて、併用されていることが多いためです。 15
  16. 16. 記憶素子(セル)処理 3/3 Read処理(SLCの場合) ソース-ドレイン電極に電流を印加する ことで判別。 フローティングゲート側に電子が蓄えら れている状態では、基板側の抵抗が高 い状態であるため、より高い電圧で電流 を流さないと基板側に電流が流れませ ん。(上図) フローティングゲート側に電子がない状 態では、基板側の抵抗が低い状態であ るため、低い電圧で基板側に電流が流 れます。(下図) ソース 電極 - - - ドレイン 電極 (基板側) (SLC: “0”) ソース 電極 ドレイン 電極 - - - (基板側) (SLC: “1”) 16
  17. 17. 記憶素子(セル)特性 1/2 ちょっと大雑把な表現ですが…. 通常時は 電子を通さない「絶縁体」のおかげで、 フローティングゲートの電子はそのまま 維持されます。 Write処理時 上側から強い力で吸引されることで、通 常は電子を通さない「絶縁体」を、電子 が通過し、下側から上側に移動。 通常時 フローティング ゲート側 Erase処理時 下側から強い力で吸引されることで、 「絶縁体」を電子が通過し、上側から 下側に移動。 基板側 Write処理時 Erase処理時 17
  18. 18. 記憶素子(セル)特性 2/2 書き換え可能回数 絶縁体(トンネル酸化膜)耐用回数 書き換え耐性 (Write Endurance) 工場出荷時は 「絶縁体」は、フローティングゲートの電子を維持 するのに十分な性能。 工場出荷時 Write/Erase処理のたびに 絶縁体が傷つくと、吸引されなくても、フローティ ングゲートの電子が漏れていくようになります。 また磨耗が更に進むと、絶縁体の様々な場所に、 電子を溜め込んでしまう電荷トラップスペース(溜 り空間)が発生。 なお書き換え可能回数は、英語では、Program & Erase cyclesと呼ばれるため、“P/E回数”と記載さ れているものもあります。 製品磨耗後 18
  19. 19. Write/Read/Erase 各処理単位 NANDは、記憶素子“1個単位”での処理はできません。 Write処理 Read処理 Erase処理 = = = Page(ページ)単位 Page(ページ)単位 Block(ブロック)単位 = = = Word Line x1 Word Line x1 Word Line x32~256 NAND内部 SG WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL WL SG BL BL BL BL BL BL SL SL 19
  20. 20. Read–Modify–Write–Erase 1/2 NAND記憶素子は、上書きが出来ないので、Re-Write(修正)処理の場合、 「Read – Modify – Write – Erase」処理で、一つの処理になります。 ① 書き換え対象となるデータの存在する該当Blockを特定。 書換対象部分(書換前) ② Block全体を作業用メモリに読み込む。 ③ 該当データをメモリ内で書き換える。 ④ 未使用のBlockに書き込む。 (1回目) 書換対象部分(書換後) ⑤ 元Blockを消去する。(2回目) → 1回分消費 巻き添え書換部分 作業用メモリ 未使用部分 作業用メモリ 作業用メモリ ② ③ ④ ① 20
  21. 21. Read–Modify–Write–(Erase) 2/2 前頁の処理方法は初期のSSDで実行されていた動きですが、毎回消去 (Erase)処理を行っていると、処理速度性能が遅くなるので、現在販売されてい るSSDは、一般的に以下の動きになっています。 書換対象部分(書換前) ① 書き換え対象となるデータの存在する該当Blockを特定。 書換対象部分(書換後) ② 対象Pageを作業用メモリに読み込む。 未使用部分 ③ 該当データをメモリ内で書き換える。 ④ 未使用のBlockに修正データを書き込む。 書換対象外部分 消去処理対象Page部分 ⑤ 元Block内の元Pageを、「消去対象Page」に登録する。 作業用メモリ 作業用メモリ 作業用メモリ ② ③ ④ ① 21
  22. 22. ガベージコレクション &ハウスキーピング 前頁の「消去対象Page」は、このままでは再利 用できません。 よってこのような複数Blockに散乱している「消 去対象Page」を、同一Block内に統合して消去 処理可能な状態にすることを、ガベージコレク ション処理。 さらに対象BlockをErase処理することをハウス キーピング処理といいます。 この一連の処理は、SSDにとっては、もっとも 時間的ペナルティが高く、負荷の重い処理で あるため、古いSSDにおいては、しばしばフ リーズ現象の原因になっていました。 MLC Read 速度 50μs Write Erase vs. Read ガベージコレクション処理 ファイルB ファイルA (容量: 1.5 Block) (容量: 1.5 Block) ファイルA (容量: 1.5 Block) ファイルB (容量: 0.5 Block) SSD(4 Block) Write処理時 保存後の状態 SSD(4 Block) Write処理時 保存後の状態 ファイルB のみ修正 ファイルC のみ削除 使用不可 領域 使用不可 領域 使用可能 領域創出 使用可能 領域創出 SLC 速度 25μs vs. Read 900μs - 18倍 650μs - 26倍 3ms 60倍 2ms 80倍 (※ 某社 NAND製品場合) ファイルC (容量: 1 Block) 22
  23. 23. 多値化(NAND種別 SLC vs. MLC) + + + SLC = Single Level Cell MLC = Multi Level Cell LC (電圧の細やかな制御が必要。) いずれもRead 処理は、基板側(ソース・ドレイン電極間)に電流を流し、Vth(threshold Voltage, 閾値電圧)を測定。 1.0V 2.5V SLC → 4.0V 5.0V 1 11 - - - 6.0V 0 01 10 - - - - - - - - - - - - - - - 00 MLC → - - - - - 23
  24. 24. 微細化(製造プロセス) SSDの低価格化を実現する手段として多値化とは別に、微細化と いう手法があります。 微細化(製造プロセス微細化)とは、その名の通り、各記憶素子 (NAND)を小さくして、単一面積あたりの記憶容量を増やす技術。 現在の主流製造技術。(NAND”19nm”,DRAM”25nm”) ただし今年に入り、NAND微細化限界説が本格化。 従来 微細化 24
  25. 25. 多値化 & 微細化により… 0 - - - - - - 多値化 - - - - - - - - - - - - NAND個数が減少(同一容量の場合、記憶素子 数が減少) - - - - - - - - - - - - 電子リークの影響を受けやすくなり、微妙な電圧 制御に耐えられる書き換え可能回数が減少。 微細化 微細化 - - 多値化 0 - - - - - - - - 低下していく耐久性能(書き換え可能回数低下) 1 - - - - - - - - 低下していく信頼性 ファイル破損,文字化け(信頼性低下) - - - - - - - - - - - - 0 データ保持性能低下 - - - - - - - 1 1 - - - - - - - - 2 - - - - - - - - - - 3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 微細化/多値化 0 - - 1 - - 2 - - 3 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 25 -
  26. 26. Tips: 多値化 & 微細化の影響 非配布 26
  27. 27. 書き換え可能回数 &データ保持能力 保持期間 3年間 新品時: 寿命満了時: 新品時: 寿命満了時: MLC(2012年) 3千回(書き換え可能回数 )/ 2年間(データ保持性能) 6ヶ月間(データ保持性能) 低 下 2年間 MLC(2006年) 3万回(書き換え可能回数 )/ 3年間(データ保持性能) 1年間(データ保持性能) 1年間 半年 3千回 1万回 2万回 3万回 書き換え回数 書き換え可能回数(横軸)とデータ保持性能(縦軸)の関係 書き換え回数の増加に伴い、データ保持性能も低下 書き換え可能回数は、微細化に伴い低下傾向 27
  28. 28. Tips: eMLC(HET) 非配布 28
  29. 29. データ保持性能劣化 データ保持性能(Data Retention)とは フローティングゲートに、保存(Write)された電子を、そのまま蓄えられ続けられる 能力。電子漏出(電子リーク)や電荷トラップにより破損。 データ保持性能は、以下の影響を受けます。 NAND種別/微細化に伴い低下 多値化: 閾値の設定数(SLC: 1個,MLC: 3個) 微細化: フローティングゲート内の電子量 ちなみに、1xnm台のプロセスで製造されたNANDにおいては、フローティングゲート内 の電子数は、100個程度!! 書き換え回数 絶縁体(トンネル酸化膜)の劣化に伴い、データ保持性能も低下 動作温度によっても低下 動作ストレス 書き換え間隔(Write処理頻度) ※主要参考資料: 東芝レビュー「 Vol.66 No.9(2011) 」(http://www.toshiba.co.jp/tech/review/2011/09/66_09pdf/a07.pdf) 29
  30. 30. 電子リークと電荷トラップ 電子は、動作・非動作,電源ON/OFFに関係なく、リーク(漏出) し、電子量(電圧)が変化。 また絶縁体(トンネル酸化膜)が劣化していくと、電荷トラップ(電 子を捕獲する欠陥)が増加するため、電子リーク速度が増加。 コップの中の水が少しづつ蒸発して減っていくように、 フローティングゲート内、および絶縁体(トンネル酸化膜)の 電子が時間とともに漏れていきます。 絶縁体(トンネル酸化膜)の劣化に伴い、この膜の途中で 留まる(トラップ)電子の量が増加していきます。 ++++ +++++ ++++ また絶縁体(トンネル酸化膜)に留まってしまった電子は、 フローティングゲート内の電子より早く漏れていき、 かつ、“しつこく”残ります。 - NANDに保存された値を決めるのは、基板側に 存在する電子量。 - - - - - - - - - - -- ------------ - 30
  31. 31. データ保持性能劣化 with 磨耗度 データ保持性能は、磨耗度に伴い低下。 絶縁体に 問題なし 未使用時(使用率 = 0%) 絶縁体には、まったく傷がない状態です。 - - - 製品寿命満了時(使用率 = 100%) 絶縁体が傷ついたことで、書き込まれた電子 は直ぐに、“抜けて”行きます。 下表を一見すると、製品寿命満了時の保持能 力は変わっていないように見えますが、書き 換え可能回数が少なければ早く満了。 (NAND製品傾向) 製造プロセス MLC 保持 0% 能力 100% 2006年 2012年 9xnm ≧ 2 years 6months - 1year ≧ 6 months 痛んだ 絶縁体 19 – 2x 3 years (未使用時) - - - (製品寿命満了間際) 31
  32. 32. データ保持性能劣化 with 高温 絶縁体(トンネル酸化膜) 電荷トラップ 書き換え回数が増えるほど、絶縁体(トンネル酸化膜)にトラッ プされる電子量が増加。 測定電圧は、「フローティングゲート+絶縁体」の電子量で決定。 + + + + + + + + - - - - - - - - - - - - - - - - 基板側 Write時(初期) 高温環境下での電荷トラップ トンネル酸化膜にトラップされる電子は高温ほど多くなる。 但しトラップされる場所は、高温ほど基板から遠い位置になる。 高温環境下のWrite処理時にトラップされた電子は、基板面側 から、より離れた領域(絶縁体内)にトラップされるため、基板 面近くにトラップされた電子より、リーク開始時間は遅い。 高温環境下での電子リーク ただし高温に起因した運動エネルギー活性化に伴い、電子 リーク発生量は大きくなる。 + + + - - + - - - - + + + - - - - - - + - - - - 基板側 高温Write時(磨耗後) 32
  33. 33. 動作ストレス耐性 1/2 フローティングゲート内電子量低下 記憶素子間の距離低下 + + + + - - - - - - - - 影響 + + + - - - - - - - ) 処 理 対 象 記 憶 素 子 + - + + + + - ※上下の記憶素子が影響を受け、 基板側の電子が、フローティングゲート側に移動。 書 き 込 み ( Write 隣接する素子へのWrite処理(電子 注入)が、処理対称でない素子にも 影響。 MLCは不具合が顕在化しやすい。 (閾値が多い) NAND微細化技術進展で顕在化 影響 Write Disturb Word Line - - - - - - - 33
  34. 34. 動作ストレス耐性 2/2 Read Disturb Read処理とは、Read処理対称となった素子に対して、「Bit Line(前述参 照)」を経由して電流を流し、電流の流れ具合(= 電圧)を測定することで 保存されている「データ値」を決定。 Read処理のために流れる電流によっても、「フローティングゲート」内の 電子量が変化。 MLCは不具合が顕在化しやすい。(閾値が多い) NAND微細化技術進展で顕在化 フローティングゲート内電子量低下 記憶素子間の距離低下 電流を流して 流れ具合を測定 - - - - - - - - - - - - - - - 34
  35. 35. 理解の低さが招いた災禍 (データ保持能力への理解不足)
  36. 36. データ保持能力への理解不足 電源ON/OFFに関係なく、データ破損は発生 電子リークに電源ON/OFFは関係ない。 動作ストレス(Read/Write Disturb)により加速化。 Read処理対象でないファイルは、リフレッシュ処理も動作しない ECC回路はRead処理時に動作。 この場合のリフレッシュ処理とは、エラービット数が一定の閾値を超えた場 合に強制書き換えを行う機能 ★ ★ MLC 11 1.0V 10 2.5V ★ 01 4.0V 00 5.0V 36
  37. 37. 避けられた災禍 起動専用デバイスとしてのSSD 続発する“データ破損・消失” 起動デバイスとしてのSSDを使用する場合は、データ保持能力に注視!! 障害発生事例 OS(Windows)用起動デバイスとして使用 ある日突然、複数のシステムにて「Operating System not found」が発生。 すべて再フォーマット/再インストールで正常利用可能。 暫くすると再発。 OS(Linux)用起動デバイスとして使用 ある日突然、複数のシステムにて「Unexpected Inconsistency Error」が発生。 すべて再フォーマット/再インストールで正常利用可能。 暫くすると再発。 Data Retention(データ保持性能) & Read Disturb が原因 37
  38. 38. 災禍の加速 書き換え回数(製品寿命)ばかりを気にして、対 象製品のデータ保持能力を意識することなく、購 入製品容量を増やすと、ファイル破損を誘発。 起動 “MLC-SSD パラドックス”とも言われています。 製品寿命とデータ保持性能が反比例 ウェアレベリングのタイミング 一般的には、Average Erase Countと、Maximum Erase Count の比較 電子漏出(リーク)によるビットエラー 同一使用条件の場合、容量が大きいほど、「Read-only Data / Write-Once Data」は移動しにくく、電子漏出(リーク) の影響を受けやすい。 起動 ウェアレベリングによるリフレッシュ効果を期待するので あれば、製品容量は出来る限り小さいほうが望ましい。 ただしWrite処理が少ないシステムの場合は、ウェアレベリ ングによるリフレッシュ効果は期待薄。 = Read-only Data, = Write Data 38
  39. 39. Enterprise SSD vs. Client SSD (評価すべき基準)
  40. 40. まず最初に SSD製造ベンダーのセールストークは別として、SSDを 基幹システムへ展開する場合、以下の観点での評価 が必要 処理速度性能(Performance) 定常状態(Steady State)での評価 処理速度性能の安定性 耐久性能(Endurance) 製品保証満了時期と製品磨耗度とのバランス データ信頼性(Data Integrity) データ信頼性(データ完全性)対策 40
  41. 41. ちなみに…(2回目のクイズです) 前ページを絵に例えると、こんな感じになりそうですが… (どこか のメーカーが書きそうな絵ですね) 今日のお話は、これとは微妙に違います。(回答は後ほど) 処理速度 Performance 耐久性能 Endurance データ信頼性 Data Integrity 41
  42. 42. Enterprise SSD vs. Client SSD (処理速度,Performance)
  43. 43. Enterprise SSD vs. Client SSD ベンチマーク試験は実施するにしても、正しい 試験方法をご存知ですか? Client Enterprise バースト転送,Read or Write ランダム転送, Read & Write 瞬間速度性能 > 安定性 安定性 > 瞬間速度性能 比較的長い 短い・頻度でカバー Trimコマンド サポート必須 サポート必須ではない 単価 ÷ 容量 安価 高価 “1”未満(通常 0.1~0.4) “1”以上 高価 安価 ≤ 1 in 1015 ≤ 1 in 1016 3年間 5年間 項目 チューニング基準 速 度 処理速度,Latency時間性能 ガベージコレクション処理時間 耐 久 性 信 頼 性 耐久性能(DWPD) 単価 ÷ TBW UBER(JEDEC規格) 製品保証 43
  44. 44. バースト vs. ランダム転送 Burst(バースト,高速) ⇒ 転送速度 ≒ Sequential/Sustained Sequential (連続的) ≒ Bandwidth(バンドウィズ,帯域幅) HDDとSSDでは 意味合いが微妙に 違います Random(ランダム,無作為) ≒ IOPS(Input Output per Second) Sequential でない送信 SSD内部 I/F 連続領域 ≒ 大きなファイル MPU Cache Random 領域がバラバラ ≒ 小さなファイル NAND Cont. Sequential I/F NAND I/F NAND I/F NAND Sequential Random ◆ Read or Write 単独 ◆ 比較的大きなファイル を使用 ◆ Sequential ではない 送信 44
  45. 45. チューニングの違い & 処理速度 製品カタログ表記 Sequential(≒ Burst )= Read or Write 100% & 比較的大きなサイズ IOPS(≒ Random)= Read or Write 100% & 比較的小さなサイズ 業務系データベースシステムの場合 バッチ: Read/Write比率 = 4:6~6:4混合,通常 4/8KByte 固定 オンライン: Read/Write比率 = 9:1~7:3混合,通常 4/8KByte 固定 Latency Enterprise Client 48 45 24 36 バースト 転送 ランダム 転送 45
  46. 46. SNIA: SSDベンチマーク仕様 SNIA(Storage Networking Industry Association)とは、SANやNASの普及を目 的とするストレージ関連ベンダーによって設立された世界最大の業界団体。 米国SNIA: http://www.snia.org/ 日本SNIA: http://www.snia-j.org/ SNIAによってSSDのベンチマーク試験方法を定義・公開しています。主なドキ ュメントとしては以下のものがあります。 SNIA SSS性能試験仕様に基づくSSDパフォーマンスの把握(日本語翻訳) http://www.snia-j.org/tech/WH/SSD_TEST/files/SSD_TEST.pdf ベンチマーク仕様書 Enterprise SSD用とClient SSD用に別れています。 http://www.snia.org/tech_activities/standards/curr_standards/pts ただしベンチーマーク試験とはSSDに限らず、接続先環境(例: ハードウェア仕 様,OS等)によっても数値が大きく変化するため、結果を公表しているメーカは 存在しません。 46
  47. 47. Enterprise vs. Client SSD with SNIA 非配布 47
  48. 48. 速度測定: 定常状態 定常状態(Steady State)での処理速度を計測 オンライン・ガベージコレクション処理 停止時間: 数秒~数十秒 オンライン・コンパクション処理 メモリ(SRAM/DRAM)領域のデフラグメンテーション処理 停止時間: 数百ミリ秒~数秒 処理性能測定は Steady State 状態での 測定が望ましい Steady State状態が 判らない場合は 最低限 「製品容量分 x2」後の 平均値測定を!! 48
  49. 49. 速度測定: Read/Write処理混合 Write処理 Read/Write処理の混合 に弱い製品あり 業務系DBの場合 IOPS 全容量を使用してのWrite 処理が遅くなる製品あり バッチ: R/W比率 = 4:6~6:4混合 オンライン: R/W比率 = 9:1~7:3混合 混合率(0%=Read 100%) 49
  50. 50. Tips: 速度が低下しにくいSSD(例) 消費電力が上下 高性能な“オンライン・リサイクル処理”を実行 ハウスキーピング 処理 消費電力 ガベージコレクション 処理 時間経過 50
  51. 51. 速度安定性(Performance Stability) 非配布 51
  52. 52. Trim & ガベージコレクション 非配布 52
  53. 53. Tips: 同じ製品でも…. 同じ製品でも、容量によって速度が変わる可能性あり。 SATA I/F NAND I/F NAND NAND NAND NAND NAND I/F NAND NAND NAND NAND NAND I/F NAND NAND NAND NAND NAND NAND NAND NAND 製品容量 64GB SATA I/F Cache NAND Controller MPU 製品容量 32GB NAND I/F NAND I/F NAND I/F NAND I/F NAND NAND NAND NAND NAND NAND NAND NAND SSD内部 製品容量 64GB NAND I/F NAND NAND NAND I/F NAND NAND NAND I/F NAND NAND NAND I/F NAND NAND NAND NAND NAND I/F Cache NAND NAND NAND I/F MPU NAND NAND NAND I/F NAND Controller NAND I/F NAND I/F SATA I/F Cache NAND Controller MPU NAND NAND 53
  54. 54. Tips: SSD処理性能の不思議 1/2 SSDは、ホスト側からデータが送信されてくると、FTL(Flash Translation Layer)と呼ば れる回路で、ホスト側からの指定アドレス(論理アドレス,LBA - Logical Block Address-)を、各NAND内の適当な物理領域(物理アドレス,PBA - Physical Block Address-)に割り当て保存しています。 この割り当て(LBA-PBA変換)処理によって作成された「紐付け情報」を、一般にはマッピン グ情報と言い、情報が保存されたファイルを、L2P Table (Logical-to-physical table)と呼んで います。 このマッピング情報は、新しいデータが保存されるたびに追加され、データが修正保存され ると新しい領域(場所)が割り当てられるため更新され、データが消去されると該当する箇所 も消去されます。 SSD ホスト側から 「データ + LBA」が送信 FTL (Flash Translation Layer) ・・・・ L2P 54
  55. 55. Tips: SSD処理性能の不思議 2/2 非配布 55
  56. 56. Enterprise SSD vs. Client SSD (耐久性能,Endurance)
  57. 57. Enterprise SSD vs. Client SSD 安物買いの銭失い!! になっていませんか? TBWやDWPDってご存知ですか? Client Enterprise バースト転送,Read or Write ランダム転送, Read & Write 瞬間速度性能 > 安定性 安定性 > 瞬間速度性能 比較的長い 短い・頻度でカバー Trimコマンド サポート必須 サポート必須ではない 単価 ÷ 容量 安価 高価 “1”未満(通常 0.1~0.4) “1”以上 高価 安価 ≤ 1 in 1015 ≤ 1 in 1016 3年間 5年間 項目 チューニング基準 速 度 処理速度,Latency時間性能 ガベージコレクション処理時間 耐 久 性 信 頼 性 耐久性能(DWPD) 単価 ÷ TBW UBER(JEDEC規格) 製品保証 57
  58. 58. 製品保証 vs. 製品寿命 SSDの“製品保証” たとえば製品保証が5年間と記載されていても、 内容的には、「限定的5年間製品保証」であり、Write処理量 が多く、5年間以内に「製品寿命が満了(Wear-out)」した場合 は、製品保証の対象にはなりません。 パソコン等に組み込まれているSSDを除き、・・・・そういった場合は、 パソコン等の製品保証が優先(多分..)・・・・ SSD単体では販売され ている場合は、上記の限定保証になります。 ただしSSDメーカとしては、一般的な使用内容で、上記の「製品寿命が 満了」するようなことにはならないと考えています。 逆に、この“制限条項”を明記していないSSDは信用できない?! 58
  59. 59. Tips: “MTBF”は関係なし!! 50時間 60時間 40時間 稼動 故障 20時間 10時間 MTBF = 稼働時間の合計 稼動回数 = 50 + 60 + 40 3回 = 50時間 MTBF(Mean Time Between Failure)とは 対象製品が故障するまでの時間の平均故障間隔値。 使用を開始して、あるいは故障から回復してから、次に故障 するまでの平均時間。 SSD(NAND)の磨耗は故障ではありません!! 59
  60. 60. リアルな“製品寿命” 耐久性能(製品寿命) = SSD全体”書き換え可能回数“ ÷ 平均書き換え回数(日) 現実は計算困難。 影響要素①(ユーザ要素) a. アプリケーション特性(1日の書き換えファイル容量・数) b. 設置環境(温度等) 影響要素②(製品仕様/特性) c. 書き換え倍率(Write Amplification) d. ウェレベリング(Wear Leveling)効率 60
  61. 61. 製品寿命指標 SSD製品寿命に関する業界標準基準 JEDEC(JEDEC Solid State Technology Association,半導体技術協会)に より、2010年9月に公開。(仕様書番号 JESD218A) 製品寿命を“TBW(Tera-byte Written)”という数値で表現。 定義された試験環境/試験方法/負荷において、対象となるSSDが、製品寿命 満了までに、何TBのデータを書き込めるかを数値で表現。 SSDを二つのカテゴリーに分類 Enterpriseクラス(サーバ用途),Clientクラス(PC用途) 製品カタログ等での表記 TBW(Tera Bytes Written)」が記述されている場合と、最近はTBWに基づ いた「DWPD(Drive Write Per Day)」、あるいは「Random drive writes/day」 が記述されている場合があります。 ※参考資料: JEDEC “JESD218A”(http://www.jedec.org/) 61
  62. 62. TBW(Tera Byte Written)計算方法 TBW = Capacity (容量) × Program/Erase可能回数 Write Amplification (書き換え倍率) × 1000(GB換算) 上記の計算式から 製品寿命(耐久性能)を「書き換え可能容量」として算出。 同一モデル製品であれば、“製品容量”に比例。 但し、後述記載の条件を満たしていること。 動作環境,データ保存条件,SSD製品としての故障率,デー タ破損率。 62
  63. 63. TBWの検証条件 要注意 ス) つのクラ (二 異なる合格条件 動作環境 データ保存(電源Off) FER UBER Client 40℃ (8時間/日) 30℃,1年間 ≤ 3% ≤ 10-15 Enterprise 55℃ (24時間/日) 40℃,3ヶ月 ≤ 3% ≤ 10-16 製品クラス 諸条件について 動作環境: Enterpriseクラスは連続稼動(速度は関係ない) FER(Functional Failure Requirement)を満たしていること 故障したSSDの割合。テストには、31台以上の試験結果の提出が必須。 試験終了後: 以下の条件を満たすこと 電源Off/一定温度/一定期間保存し、UBER(Uncorrectable Bit Error Rate)を満たし ていること。 ECC補正後の読み込み時のデータエラー数を、読み込んだ総ビット数で割った率。 常温付近では、7℃の温度上昇で「約2倍のリーク電流」があるとの研究結果あり。 ※参考資料: JEDEC “JESD218” (http://www.jedec.org/) 63
  64. 64. TBWの問題 で も .. ります 考にはな 参 ただしクラスの違い以外にも 1. 同一モデル製品であれば、“製品容量”に比例。 2倍の製品容量 = 2倍のTBW 2. JESD218規格には、ベンチマークで使用するファイ ルサイズ/種別についての規定がない。 ベンチマークで使用するファイルサイズが、対象となる SSD(NAND)のPageサイズやBlockサイズに一致すると 好結果になる。 Write Amplification 値が低下 ファイルサイズは、 Enterprise向けのみ別規格(仕様書 番号 JESD219)で規定しているが使用義務はなし。 64
  65. 65. DWPD (Full Drive Write Per Day) TBWが保存可能総量を、単純に数値化しているのに 対して DWPDは、製品容量と製品保証期間を加味。 容量に関係なく、耐久性能を相対比を提示する試み 例えば、「x10 DWPD」と記載されている場合は、 製品容量に対して、10倍のデータを保存し続けても、製品 保証期間中は使用可能であることを示しています。 65
  66. 66. DWPD計算方法 & 注意事項 DWPD計算式 製品保証期間中、毎日、製品容量に対して、“何倍”のデータ保存可能かを示す。 TBW(書き換え可能容量) DWPD = 製品容量(ユーザ容量) × 製品保証期間(365日 × 製品保証年数) 注意事項 よって同じTBWでも保証期間によって、数値は変わります。 TBW XXX YYY 製品容量 製品保証 DWPD 3000 TBW 240 GB 5年間 6.8 DWPD = 3000TBW ÷ 240GB ÷ 365日 ÷ 5年間 ≒ 6.84…. 3000 TBW 240 GB 3年間 11.4 DWPD = 3000TBW ÷ 240GB ÷ 365日 ÷ 3年間 ≒ 11.41…. 66
  67. 67. Tips: 耐久性能をアップさせる方法 余剰領域(Over-Provisioned Capacity)の設定 予備領域(Spare Capacity/Area)とは考え方が異なる 一般的SSDは、2進法表示(Binary Gigabytes)と、IDEMA標 準容量の“差”を、予備領域(交替領域)用として使用。 余剰領域は以下の効果を狙ったもの(ただし物理上は同じ) 設定効果 Write Amplification 向上 ガベージコレクション効率向上 速度向上(速度劣化防止) 製品寿命延伸 参考論文 IBM Zurich Research Laboratory Write Amplification Analysis in Flash-Based Solid State Drives 余剰領域 & WA (関係例) 67
  68. 68. Tips: 廉価なSSDの場合 非配布 68
  69. 69. Tips: 余剰領域の影響例 非配布 69
  70. 70. SSD速度性能劣化 NAND特性 & SSD速度性能劣化 書き換え回数の増加に伴い、絶縁体が劣化すると、Write速度が速くなる。 書き込み回数の増加に伴い、絶縁体が劣化すると、Erase速度が遅くなる。 Erase処理が、最も時間的ペナルティが高い。 耐久性能が高いSSDは、速度性能劣化が遅い!! MLC Read 速度 50μs Write Erase vs. Read ++++ +++++ ++++ SLC 速度 25μs vs. Read 900μs - 18倍 650μs - 26倍 3ms 60倍 2ms - - - - - - - - - -- 80倍 (※ 某社 NAND製品場合) - - ------------ - 70
  71. 71. Enterprise SSD vs. Client SSD (データ信頼性,Data Integrity)
  72. 72. Enterprise SSD vs. Client SSD RAID構成等で複数のSSDを搭載する場合、 データ信頼性って結構重要です!! Client Enterprise バースト転送,Read or Write ランダム転送, Read & Write 瞬間速度性能 > 安定性 安定性 > 瞬間速度性能 比較的長い 短い・頻度でカバー Trimコマンド サポート必須 サポート必須ではない 単価 ÷ 容量 安価 高価 “1”未満(通常 0.1~0.4) “1”以上 高価 安価 ≤ 1 in 1015 ≤ 1 in 1016 3年間 5年間 項目 チューニング基準 速 度 処理速度,Latency時間性能 ガベージコレクション処理時間 耐 久 性 信 頼 性 耐久性能(DWPD) 単価 ÷ TBW UBER(JEDEC規格) 製品保証 72
  73. 73. まず信頼性といえば、ECCですが… 非配布 73
  74. 74. データ信頼性指標 “UBER” データ信頼性は、UBER(Uncorrectable Bit Error Rate)で表されます。 UBERとは、ECC回路による補正後、読み込み時のデータエラー数を、読み込 んだ総ビット数で割った率。 下記の表を一見すると、Client SSDでも充分な気がしますが、あくまで下記の 値は、1台分の数値です。RAID等で複数台使用すれば、倍数になります。 でもRAIDコントローラが修復しているから大丈夫・・・・?? Readエラー発生率 USER HDD 10-14 SATA Desktop,Enterprise 10-16 SATA Enterprise SAS/FC (7200rpm) 10-17 SAS/FC “400MByte/s” 容量 1回/約12TB 1回/約9時間 Client 1回/約125TB 1回/約87時間 Enterprise 1回/約1,250TB 1回/約868時間 1回/約12,500TB 1回/約8,681時間 SATA Desktop 10-15 SSD(JDEC) 74
  75. 75. JEDEC規格UBERの注意点 JEDEC規格UBERは、最後に書かれたデータのエラー 発生率 同じクラスであれば、データ信頼性を比較する相対値としては利用可能。 (決して製品の絶対値ではない!!) ただしWrite Disturb等により、テスト過程で発生したエラー発生は考慮さ れていない。 つまり実際のエラー発生率はもっと高い!! 実際の発生率は判りません!! → カタログ値ぐらい高いものを!! 動作環境 データ保存(電源Off) FER UBER Client 40℃ (8時間/日) 30℃,1年間 ≤ 3% ≤ 10-15 Enterprise 55℃ (24時間/日) 40℃,3ヶ月 ≤ 3% ≤ 10-16 製品クラス 75
  76. 76. 信頼性 = 速度維持に貢献 現実のエラー発生頻度は想像より高 い!! NAND I/F NAND I/F よって低い信頼性のSSDを使ってしまう と速度低下の元に!! SSD内部 NAND Controller Cache NAND I/F NAND NAND NAND I/F NAND NAND NAND I/F NAND NAND NAND I/F NAND NAND NAND NAND NAND I/F I/F SSD内部は並列I/Oつまり、RAID0(スト ライピング)で速度向上しています。 よって1個のチップに問題が出ただけで、 “全損”の可能性があります。 MPU NAND NAND NAND I/F さらにSSDはHDDと違って、SSD全体 が読めなくなることがある。 NAND NAND NAND NAND 76
  77. 77. Tips: Full‐data‐path protection Full‐data‐path protection 機能があれば.. できる限り早い段階で誤りを見つけ再送処理できれ ば、より速度低下は低く抑えられる。 車の渋滞メカニズムと同じ 交通量が多いほど僅かな遅延が、大きな渋滞を発生。 CRC or ECC check SSD内部 NAND Cont. Cable I/F CPU CPU RAID RAID Cache CRCor ECC Generation CRC or ECC Generation NAND I/F NAND NAND CRC or ECC check NAND I/F NAND NAND 77
  78. 78. まとめ(2番目のクイズの回答です) SSD導入の1番の理由は何でしょうか? ご導入のSSDに対して、安定的かつ長期間にわたって高速 処理性能を期待されるのであれば... Client SSD Enterprise SSD 処理速度 処理速度 耐久性能 データ信頼性 耐 久 性 能 信 頼 性 能 78
  79. 79. 最後に 長時間のご清聴、まことに有難うございました。 本書は内容について万全を期して作成いたしました が、万一ご不審な点や誤り、記載もれなどお気付き のことがありましたらご連絡頂ければ幸いです。 ご質問については 本日: 明日以降: E-mail: 16時までは会場内にて対応 弊社にメールでお問い合わせください。 mktg@solnac.jp (http://www.solnac.jp) なおご質問への対応は、本日お話した内容に限らせ ていただきます。 79
  80. 80. 誠 実 H o n e s t y ソルナック株式会社は日本の製造業を 強力にサポートします。 http://www.solnac.jp 80

×