Advertisement
Advertisement

More Related Content

Slideshows for you(20)

Similar to 『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』(20)

Advertisement

More from The Japan DataScientist Society(20)

Advertisement

『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』

  1. 『機械学習による故障予測・異常検知 事例紹介 とデータ分析プロジェクト推進ポイント』 株式会社KSKアナリティクス セールス&マーケティング本部 部長 データソリューションプランナー 高木宏明 w w w . k s k - a n l . c o m 2017年11月13日
  2. 講演者 自己紹介 Copyright © Hiroaki Takagi. All rights reserved 2 学歴 国立 高松高専専攻科 機械電気システム工学専攻 慶應義塾大学大学院 経営管理研究科(MBA) 現職 株式会社KSKアナリティクス セールス&マーケティング本部 部長 データソリューションプランナー 一般社団法人データサイエンティスト協会 企画委員 高木 宏明 Hiroaki Takagi うどんの国(香川県)出身 33歳
  3. 最近の活動 Copyright © KSK Analytics Inc. All rights reserved 5 TensorFlowについて、雑誌に寄稿 渡邊・足立を中心とした弊社アナリスト がTensorFlowを解説 『初めてのTensorFlow』出版 数式なしでDeep Learningを解説・実践!
  4. 「超大規模データに どう立ち向かうか?」 6
  5. 7 工場の中にある様々なデータ例 ・熱 ・温度 ・湿度 ・速度 ・加速度 ・回転数 ・音声 ・振動 ・電流 ・電圧 etc 「センサー」 ・設置日 ・メンテナンス日 ・稼働時間/稼働件数 ・障害履歴(テキスト) etc 「稼働ログ」 Copyright © KSK Analytics Inc. All rights reserved
  6. IoTデータはなぜ大規模化するのか? 8 1秒間 1時間 1ヶ月間 電流センサ 1 約3.6K 約2.6M 加速度センサ 約30K 約108M 約78G サーモグラフィ (画像) 約18M 約65G 約47T 単位:Byte 工場全体のデータサイズはPetaサイズに到達する (1Peta=1000Tera) データサイズ約1~5Tを超えると運用困難へ Copyright © KSK Analytics Inc. All rights reserved
  7. ビッグデータへの対応は2パターン 9 中央サーバの 並列分散処理 エッジコンピューティング Node Node Node Node Node Node Node Node Node Node Node Node IoTデータ処理の現実解はエッジコンピューティング (理由は後述) 参考画像:HPE Edgeline EL10インテリジェントゲートウェイ Copyright © KSK Analytics Inc. All rights reserved
  8. (参考)並列分散処理 hadoop+spark+cassandra 10 参考:SparkとCassandraの美味しい関係 http://www.slideshare.net/datastaxjp/apache-spark-and-apache-cassandra Apple・Sony・コマツ・YahooなどPetaサイズデータのリアルタイム処理に対応 環境構築・運用コスト、エンジニア人的リソース確保が課題 Copyright © KSK Analytics Inc. All rights reserved
  9. エッジコンピューティングのポイント 11 参考:Maximilian Christ et al. "Distributed and parallel time series feature extraction for industrial big data applications" 2017 エッジコンピュータの計算リソースは限られている 時系列データの特徴量抽出が技術的課題 ( 計算量 + 予測精度 ) Copyright © KSK Analytics Inc. All rights reserved
  10. 事例紹介 「機械学習を用いた 故障予測・異常検知」 12
  11. 13 Case 1 産業用設備機械の センサーデータ分析 複数センサーデータを用いた設備機器の 故障予測・異常検知
  12. 14 計画外の設備停止が多く製造ラインの稼働 率が頭打ちである。少しでも稼働率を向上 させたい 設備のメンテナンス・コストを削減したい。 現在定期的に実施しているメンテナンスを、 “機器の状態に合わせて最適化”できないだ ろうか 熟練エンジニア定年退職など、今後人手不 足になるのは間違いない。誰が対応しても 大丈夫なように予測を“自動化”したい 産業用設備機械の故障予測・異常検知 「顧客からのご要望」 Copyright © KSK Analytics Inc. All rights reserved
  13. 15 対象データセット 「データ種類」 -電圧 -電流 -加速度 -振動 -温度 etc 10種以上のセンサーデータ組合せ 「データサイズ」 - 10 ms 毎に 1 レコード データ生成 (≒ 約3万レコード/日、10Gbyte) ■対象データセット Copyright © KSK Analytics Inc. All rights reserved
  14. 16 複数センサーを組み合わせた故障予測 ・複数センサーデータについて、15分単位で 最大値、最小値、標準偏差、中央値、四分位値を求める ・”正常稼働” or “異常発生”をこれらのデータを使用して予測モデル作成 ・アンサンブル学習により予測精度98%以上を達成 説明変数(約500個) Copyright © KSK Analytics Inc. All rights reserved
  15. 17 センサーの急激な上昇を検知(バースト検知) ・リアルタイムに動作状況(ログ)をモニターし、 異常の兆候をなるべく早く検知することにより故障を未然に防ぎたい そこで「バースト検知(異常検知)」の仕組みを導入 値が急激に増加 (異常発生) Copyright © KSK Analytics Inc. All rights reserved
  16. Case 2 センサーデータによる 検査機器の故障予測 機器に設置した圧力計のセンサ ーデータを利用し、異常・故障 を100%の精度で検知したい。 (1説明変数-波形分析) 18
  17. 19 「顧客からのご要望」 医療というミッションクリティカルな 分野であり、常に安定稼働が必須条件 単純な閾値検出の仕組みは組込み済で あるが、壊れる前の”予兆の段階”で検 知し故障予測率100%を目指したい 将来は機器に予測モデル組込み出荷し たい(予測精度は確保しつつ、計算量は 限界まで少なくしたい) 検査機器の故障予測 Copyright © KSK Analytics Inc. All rights reserved
  18. 20 対象データセット 「データの特徴」 -圧力計データ(1説明変数) -時系列データ(波形データ) ただし周波数は設定により変動 (FFT変換の手法は使用不可) -故障(異常)時は波形に”ぶれ”発生 なお正常稼働データは大量にあるが 異常時データは極少(不均衡データ) ■対象データセット 異常/故障時の波形 正常時の波形 Copyright © KSK Analytics Inc. All rights reserved
  19. 21 ・機器モーター出力より周期を標準化 データ分析テクニック ■センサパターンをどう統一するか? (周波数は変動する) Mean = X Std = Y Max = Z ■波形の特徴量をどう抽出するか? ・波形毎にSliding Windowにより 要約統計量を算出し、特徴量とした ・サポートベクターマシンアルゴリズム により高速処理かつ予測精度100%達成 Copyright © KSK Analytics Inc. All rights reserved
  20. (参考)現状の機器故障対策の問題点 22 現状の問題点 突然の機器故障 事前部品交換 部品在庫コスト 定期点検・ メンテナンス ■ラインが止まり工場全体の 稼働率が低減 ■故障を予防するために定期的に部品を 交換(非常に高額な部品も経験と勘で交換) ■突然の故障に備えて部品を自前で保管 (購入コスト・保管コストが大きい) ■短い周期での点検・メンテナンス実施 (点検コスト 大) Copyright © KSK Analytics Inc. All rights reserved
  21. (参考)機械学習の種類 23 ・回帰(数値の予測) 教師あり学習 ・クラスタリング(似たものでグループ化) 教師なし学習 ・クラス分類(A or B) ・異常検知(通常と異なる振る舞い検知) グループB グループA グループC Copyright © KSK Analytics Inc. All rights reserved
  22. Copyright © KSK Analytics Inc. All rights reserved 各種センサーから取得されるデータは、一定の時間間隔で連続的に観測されることから時系列データと呼ばれる。本プロジェクトはそのような時系列 データを説明変数とし、そのセンサーデータに対応する製品の良・不良(Normal/Abnormal)を予測する分類問題に相当する。学術的な研究分野ではこ のような分類問題をTime Series Classification (TSC)と呼び研究が続けられているが、そのアプローチ方法は主に2つに大別される。 ①Instance based classification - 時系列データを直接比較し、その距離(乖離)を元に分類をする。 ②Feature based classification - 時系列データから特徴量を抽出、選択し、その特徴量の距離(乖離)を元に分類をする。 Instance based classificationは古くから研究されており、Dynamic Time Warping + 1NNなど、TSCにおける“State of the Art”の精度が出る機械 学習パイプラインが実証されているが、計算量が多くなり時間がかかってしまうことが問題視されている。また、ほとんどの研究では一つの時系列デー タに一つのラベルが対応しているデータを扱っており、本プロジェクトのように複数の時系列データが一つのラベルに対応しているようなデータではさ らに計算量が嵩んでしまうことが予想され、対象のデータ量が増えた場合にそれに合わせてスケールするのが難しい。一方でFeature based classificationは、それらのスピード、スケールに関する問題を克服するために考え出された比較的新しいアプローチ方法で、時系列データ毎に独立して 特徴量を抽出し、分類器の説明変数として利用する。各時系列データを独立して扱うことで、過去データとの比較が発生せず計算量が抑えられること、 また、抽出する特徴量とその選択方法に柔軟性があることからスケールしやすい。具体的なFeature based classificationの実装方法としてTSFRESH (Time Series FeatuRe Extraction based on Scalable Hypothesistests)、及び、そのベースとなる学術論文[*2]に従いデータ処理を行う。 引用:[*1] B. D. Fulcher, N. S. Jones, Highly Comparative Feature-Based Time-Series Classification, arXiv:1401.3531v2 [*2] Christ Maximilian, Kempa-Liehr Andreas W., Feindt Michael, Distributed and parallel time series feature extraction for industrial big data applications,arXiv:1610.07717v3 24 (参考)時系列データからの特徴量抽出
  23. IoTデータ分析の課題 25 ・データサイズが非常に大きい (分析環境/前処理に工夫要) ・異常(故障)データが少ない (データが不均衡) ・時系列データ取扱い/特徴量抽出が難しい ・予測モデルの流用難 (故障モード/データ形式バラバラ) Copyright © KSK Analytics Inc. All rights reserved
  24. 「データ分析プロジェクト 推進ポイント」 26
  25. アジャイル(反復型)アプローチ 要件定義 設計 開発 テスト 「ウォーターフォール型」 「アジャイル型」 27 Copyright © KSK Analytics Inc. All rights reserved ROI/予測精度/分析環境(ハード・ソフト)など想定難 ⇒スモールPJを繰り返すことでリスク回避
  26. データサイエンス事例328 データ分析に必要なスキルセット 出所:一般社団法人 データサイエンティスト協会「スキルシート」を参考に加筆修正
  27. 成功PJチーム体制 分析まとめ リーダー ビジネス エンジニア リング サイエンス 失敗PJ組織体制 部長 担当 担当 分析担当 課長 成功するプロジェクト体制 29 Copyright © KSK Analytics Inc. All rights reserved
  28. 出所:一般社団法人データサイエンティスト協会資料より加筆修正 スキル3セットの取りまとめが成功キー 30 Copyright © KSK Analytics Inc. All rights reserved
  29. データサイエンス事例331 外部支援とデータ分析者の自社育成 短期:外部分析者が対応 長期:自社内データ分析 者の”確保・育成”必須 (分析力≒企業競争力) アウトソーシング可能領域 Copyright © KSK Analytics Inc. All rights reserved
  30. 組織・プロジェクト推進の課題 32 ・分析PJはアジャイル推進 (事前設計/ROI算出困難⇒PoC重要) ・チーム型のプロジェクト体制 ・スキル3セット人材の確保 (長期的人材育成と外部支援) Copyright © KSK Analytics Inc. All rights reserved
  31. Appendix 33
  32. データサイエンス事例3 機械学習/Deep Learning/大規模データ統合ツールご紹介 34 ・TensorFlowインストール/環境設定 ・機械学習モデル作成(Deep learning) ・モデル予測精度向上 ・Q&A対応 TensorFlow導入コンサルティング ・データサイエンティストが行う分析業務をドラック& ドロップで直感的な操作で可能 ・非常に高機能、最先端のアルゴリズムにも対応 ・データの加工(前処理)やモデル評価・パラメータ チューニングも豊富 機械学習ソフトRapidMiner ・データの抽出と変換と書き出しを行うETLツール (ノンプログラミングでスクラッチ開発が不要!) ・データ形式や接続データベースの"違い"を統合 ・大規模かつ複数データベースにまたがるデータ処理 には必須 大規模データ統合Pentaho Copyright © KSK Analytics Inc. All rights reserved
  33. データサイエンス事例3 データ分析セミナー・トレーニング 35 東京・大阪でKSKアナリティクス セミナー・イベント開催 http://www.ksk-anl.com/event Copyright © KSK Analytics Inc. All rights reserved
  34. Thank you for your kind attention! 株式会社KSKアナリティクス セールス&マーケティング本部 sales@ksk-anl.com データ活用に関してお気軽にご相談ください (インターン・採用応募もお待ちしております!) 36 大阪市西区江戸堀橋1-18-35 肥後橋IPビル6F 06-6131-6656 東京都中央区築地2-7-10 築地シティプラザ6F 03-6228-4932
Advertisement