Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

最強のハードディスクはどれだ?

7,737 views

Published on

ハードディスクのデータセットに対するデータ解析

Published in: Technology
  • 打ち切り率のグラフが故障率になっていたので、修正しました。
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

最強のハードディスクはどれだ?

  1. 1. 最強のハードディスク はどれだ? Tokyo.R #43 1 @gepuro
  2. 2. http://blog.gepuro.net/ 自己紹介 • @gepuro • R言語、Python • 4月からサラリーマン 2
  3. 3. https://www.backblaze.com/hard-drive-test-data.html からダウンロードできる 4万台以上のハードディスクに 関するデータが公開されてる 3
  4. 4. 82種のハードディスク 2013年から2014年の2年間の データセット 4 毎日のSMART+故障情報 date serial_number model capacity_bytes failure 2014/1/1 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/2 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/3 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0 2014/1/4 MJ0351YNG9Z0XA Hitachi HDS5C3030ALA630 -1589157888 0
  5. 5. 全部で約4GB gepuro@ubuntu1404$ du -h 2013 740M 2013 gepuro@ubuntu1404$ du -h 2014 2.9G 2014 5
  6. 6. データ解析図 データの扱い方 6 打切り 故障 暦日
  7. 7. ワイブル分布 • 確率密度関数 –𝑓 𝑡 = 𝑚 𝜂 𝑡 𝜂 𝑚−1 exp − 𝑡 𝜂 𝑚 • 累積分布関数 –𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 7
  8. 8. 8 p.d.f. ワイブル分布 𝜂 = 10 𝑚 = 0.5 𝑚 = 1 𝑚 = 1.5 𝑚 = 2 𝑡
  9. 9. 9 p.d.f. 𝑡 ワイブル分布 m = 1 𝜂 = 10 𝜂 = 20 𝜂 = 30 𝜂 = 40
  10. 10. http://blog.gepuro.net/archives/118 前処理はブログで 10
  11. 11. ワイブルプロット 11 モデル: ST4000DM000 𝑚 = 0.7875 𝜂 = 35500 モデル: HGST MS5C4040ALE640 𝑚 = 0.7628 𝜂 = 119300
  12. 12. 12 確率密度関数 モデル: ST4000DM000 𝑚 = 0.7875 𝜂 = 35500 モデル: HGST MS5C4040ALE640 𝑚 = 0.7628 𝜂 = 119300
  13. 13. 13 モデル: ST4000DM000 B1ライフ : 103.1日 モデル: HGST MS5C4040ALE640 B1ライフ: 286.8日 B1ライフ F(t)が1%に達するまでの値 全体の1%が壊れるまでは、何日か。
  14. 14. データ数と故障数 14
  15. 15. 15 打切り率
  16. 16. 16 ワイブルプロットへの当てはまり
  17. 17. 日立のHDDが最強 17 B1ライフ一覧
  18. 18. SMARTも使いたいなあ。 • Power-On Hours • Temperature • など まとめ • 4万台以上のハードディスクの データが公開 • ワイブル分布でB1ライフを推定 • 日立製のHDDが最強 18
  19. 19. おまけ 19
  20. 20. 20 𝒎の一覧
  21. 21. 21 𝜼 の一覧
  22. 22. 22 𝜼 の一覧(外れ値を抜いた)
  23. 23. ワイブル分布 • 確率密度関数 – 𝑓 𝑡 = 𝑚 𝜂 𝑡 𝜂 𝑚−1 exp − 𝑡 𝜂 𝑚 • 累積分布関数 – 𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 • 最尤法でパラメータ推定 – 𝐿 𝑚, 𝜂 = 𝑖=1 𝑛 𝑓(𝑡) 𝛿 1 − 𝐹 𝑡 1−𝛿 • 𝛿 = 1なら故障, 𝛿 = 0なら打切り 23
  24. 24. ワイブル確率紙1 • 𝐹 𝑡 = 1 − exp − 𝑡 𝜂 𝑚 • log log 1 1−𝐹(𝑡) = 𝑚 ∗ log 𝑡 − 𝑚 ∗ log 𝜂 • log log 1 1−𝐹 𝑡 ≡ 𝑌 • log 𝑡 ≡ 𝑋, 𝑚 ∗ log 𝜂 ≡ 𝐵 • 𝑌 = 𝑚𝑋 − 𝐵 24
  25. 25. ワイブル確率紙2 • 𝐻 𝑡 = 0 𝑡 𝜆 𝑥 𝑑𝑥 = − log 1 − 𝐹 𝑡 • log 𝐻 𝑡 = log log 1 1−𝐹 𝑡 • 𝜆 𝑡 = 𝑓 𝑡 𝑡 ∞ 𝑓 𝑡 = 𝑓(𝑡) 1−𝐹(𝑡) 25
  26. 26. log 𝐻 𝑡 ≡ 𝑌 = 𝑚X − 𝐵による最小二乗法で推定 累積ハザード法による推定 データ𝐭 故障𝜹 順位 逆順位 累積ハザード 𝑯 𝒕 3 0 6 1 6 10 0 5 1 5 23 1 4 1 4 1 4 = 0.25 33 0 3 1 3 35 1 2 1 2 1 4 + 1 2 = 0.75 40 1 1 1 1 1 4 + 1 2 + 1 1 = 1.75 26

×