Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Anomaly Detection in Deep Learning (Updated)

2,635 views

Published on

This is a longer presentation than the one I gave at google. It covers some techniques more in depth.

Published in: Data & Analytics

Anomaly Detection in Deep Learning (Updated)

  1. 1. ディープラーニングの 異常検知 Adam Gibson & Samuel Audet - Skymind
  2. 2. ディープ ラーニング 本 日本語版企画中
  3. 3. Dl4j
  4. 4. スカイマインド ● ディープラーニングのモデルをオンプレミスで実運用へ ● Scalaを使用(実運用向けのPythonと考えられる) ● Java Virtual Machine スタックをC++のネイティブ計算に 接続 (例、ビッグデータシステムへの一流のアクセス) ● SKIL(Skymind Intelligence Layer)を構築:実運用 ディープラーニングのアプリケーションのための 実運用のディープラーニングシステム
  5. 5. 「異常」とは? ● データ中の不正常のパターン ● 不正利用検知 - 悪用のクレジットカードの取引 ● また、不正利用検知 - 通話詳細記録で位置情報偽装を検知 ● ネットワーク侵入 - ネットワークでの異常な活動 ● データセンターの故障した計算機
  6. 6. 簡単なケーススタディー - 例、なぜやってきた? ● 通信会社: http://blogs.wsj.com/cio/2016/03/14/orange-tests- deep-learning-software-to-identify-fraud/ ● ネットワークインフラ: https://insights.ubuntu. com/2016/04/25/making-deep-learning-accessible-on- openstack/
  7. 7. ネットワークインフラ - 事前自動移行により故障した ワークロードを回避、時間やお金は節約
  8. 8. なぜディープラーニング? ● 大量のデータから学習するのは優秀 ● 独自の特徴表現:ノイズにロバストであるし、クロス ドメインパタンも学習可 ● 広告に既に広く適用:Google自体は同じようなパターン 認識に多額の投資を行う(ターゲティング/関連度)
  9. 9. 手法紹介 ● 教師なし - 指定の時間ウィンドウにわたってドロップアウト付きの オートエンコーダの再構成誤差と移動平均を使用 ● 教師あり - RNNは時系列のyes/noの一組から学習。時間ステップの 時系列から学習して、異常が起ろうとすることは予測。 ● ストリーミングとミニバッチを使用(ニューラルネットは一般的に このような学習は可)
  10. 10. オートエンコーダの異常検知 KL情報量により移動平均異常 オートエンコーダはデータを再構成することが学習 (例、入力はラベルにする)
  11. 11. リカレントネットの異常 時系列にわたってソフトマックスを学習: 固定のウィンドウがあれば、そのシーケンスの中で異常が起きる 確率を予測するのは目的
  12. 12. RNNの時系列/ウィンドウのシーケンスの種類 http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 参照:http://karpathy.github.io/2015/05/21/rnn-effectiveness/
  13. 13. いくつかの定義 ● 再構成誤差:オートエンコーダは教師無しの プレトレーニングでデータを再構成することが学習。 KL情報量(二つの確率分布の誤差)を最小化。 ● RNN/時系列:参照 http://deeplearning4j.org/ja-usingrnns
  14. 14. 実運用に向けて ● Kafka/Spark Streaming/Flink/Apex ● ニューラルネットはストリーミング更新の消費者になる ● データは?大体ログの採集、動画でも
  15. 15. デモ! ● Kibana ● Kafka ● Elasticsearch ● Logstash ● NiFi ● Cassandra ● Lagom ● Dl4j エコシステム (DataVec,Nd4j,Dl4j,Arbiter)
  16. 16. 異常検知のためのリファレンスアーキテクチャ 外部 世界 nifiで外部 から採集 kafkaへ 送信 データに関 する予測を 行う elasticsearchと logstashで予測 のインデックス を作る kibanaで データを 表示cassandraに 生イベントを 蓄積
  17. 17. まとめ ● 実在する機械学習パイプライン ● 生データ結果を蓄積するCassandra ● 警告や可視化用のELK スタック (Elasticsearch, Logstash, Kibana) ● モデル採集のためのKafka ● モデル予測サーバーになるLagom ● データパイプラインを設計するためのNiFi
  18. 18. ご質問は? Email: adam@skymind.io samuel@skymind.io Twitter: agibsonccc bytedeco Github: agibsonccc saudet

×