SlideShare a Scribd company logo
1
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常検知機能とその応用方法
2
Confidential. ©2018 DataRobot, Inc. – All rights reserved
1. インターネットに接続
2. app.datarobot.comにログイン
3. connpassのリンクからデータ
セットをダウンロード
異常検知機能と
その応用方法
スケジュール
18:30-19:00 受付・開場
19:00-19:10 環境設定
19:10-19:20 お知らせ
19:20-19:40 異常検知とは
19:40-20:10 DataRobotで異常検知 (ハンズオン)
20:10-20:30 アルゴリズムの特徴
20:30-20:50 良いモデルを選ぶ方法 (ハンズオン)
20:50-21:00 最後に
3
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常検知とは
4
Confidential. ©2018 DataRobot, Inc. – All rights reserved
はじめのころ
• Grubbs in 1969: “An outlying observation, or outlier, is one
that appears to deviate markedly from other members of
the sample in which it occurs”
• パターン認識アルゴリズムが外れ値に敏感なので、データクレ
ンジングのための外れ値検知が主なユースケース
その後
• より外れ値にロバストなアルゴリズムの開発によって、異常検
知のニーズが減った
• 2000年くらいから、異常値そのものの分析に興味が寄せら
れ、異常検知が重要になった
異常検知
5
仲間はずれを見つける
AはNと異なる
危険人物やセンサー値の異常の検知
故障、不良品、不正、誤診
A
N
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常検知の例
6
データ ユースケース
セキュリティ • アクセスログ
• トランザクション
• ネットワークやデータベースの侵入・攻撃の検知(IT)
• 不正検知(金融や保険)
監視 • 工場監視センサー
• ヒト監視センサー
• 機械、設備、製品の不具合検知(製造)
• 患者の不具合検知(ヘルスケア)
制御 • エネルギー消費量
• トラフィック量
• エネルギーの予想外消費量検知(エネルギー)
• ネットワークの予想外トラフィック検知(IT)
間違い直し • 記入録
• 観測値
• ヒューマンエラー検知(データクレンジング)
• 観測エラー検知(データクレンジング)
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常検知のセットアップ
7
教師あり異常検知
One class classification
教師なし異常検知
• 少ない変数での異常検知であれば伝
統的な統計学の手法が強力
• 機械学習の利点は変数が数百に
なってもロバストに動作すること
• ルールベースの検知を強化
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常の種類
x1 x2 → global anomalies
point anomalies
教師なし異常検知
x3 → local anomaly
contextual anomalies
ローカルネイバーとの密度の比較
c3 → micro-cluster anomalies
collective anomalies
数があれば教師あり学習がおすすめ
8
Confidential. ©2018 DataRobot, Inc. – All rights reserved
DataRobotで異常検知(ハンズオン)
9
Confidential. ©2018 DataRobot, Inc. – All rights reserved
10
baselinevalue
accelerations
fetalmovement
uterine
contractions
abnormalshort
termvariability
meanshortterm
variability
decelerations
light
decelerations
severe
decelerations
prolonged
abnormallong
termvariability
meanlongterm
variability
histogram
Confidential. ©2018 DataRobot, Inc. – All rights reserved
教師なし異常検知分析のステップ
11
1. ターゲットの設定 4.
異常検知のブループリン
トを選択して実行
2. 手動でモデリング 5. モデルの評価
3. ホールドアウトの解除 6. モデルのチューニング
Confidential. ©2018 DataRobot, Inc. – All rights reserved
1. ターゲットの設定
12
• ターゲットの設定が必要です
• 教師データが全くなければ偽ターゲッ
トを作成
• ラベル付けされているデータが存在す
る場合、それをターゲット
• 多値分類のターゲットは非対応
• ターゲットはモデル生成には使用さ
れません
• 特徴量のインパクトの計算には使用
• 偽ターゲットの場合、特徴量のインパク
トは解釈不可
教師ラベルがない
場合、ランダム変数
のターゲットを作成
Confidential. ©2018 DataRobot, Inc. – All rights reserved
2. 手動でモデリング
13
異常検知のみを行い
たい場合、「手動」で
モデリングを行い、異
常検知のブループリ
ントのみを実行しま
す。
Confidential. ©2018 DataRobot, Inc. – All rights reserved
3. ホールドアウトのロックの解除
14
教師なし学習に検定データは
必要ないため、100%のデータ
をモデル作成に利用します。
Confidential. ©2018 DataRobot, Inc. – All rights reserved
4. 異常検知のブループリントを選択して実行
15
 Anomalyを含むブループリントを検
索(6つあります)
1
 異常検知ブループリン
トをバッチで実行
2  教師なし学習の場合、全
データでモデル生成
3
 実行するブループリン
トを選択
4
 モデルの生成を開始5
Confidential. ©2018 DataRobot, Inc. – All rights reserved
• データの異常度
(anomalyScore)は最も
スコアが高いものを1、
最も低いものを0として
相対評価されます。
• モデルの
anomalyScoreが高い
と予測するデータを目
視確認することで、モデ
ルの評価が可能です。
5. モデルの評価
16
評価を行いたいモデ
ルを選択
インサイトタブ内のAnomaly
Detectionを選択
Confidential. ©2018 DataRobot, Inc. – All rights reserved
予測の説明にも対応
17
0−1の範囲で異常具
合を判断
個々の予測を異常と判
断する主な理由を説明
• 特徴量が50以上あ
り、ターゲットが正しい
ラベルでない場合、
リーズンコードが正確
でない可能性があり
ます。
• Anomaly scoreに効
いている特徴量が、
特徴量のインパクトの
計算でtop 50に入ら
ないかもしれないため
です。
Confidential. ©2018 DataRobot, Inc. – All rights reserved
正しい教師ラベルがある場合
18
• 偽ではなく、正しい教師ラベ
ルを用いている場合、検定、
交差検定はモデルの精度を
反映します。
• ランダム変数を用いた偽教師
ラベルの場合、検定、交差検
定はモデルの精度を反映しま
せん。
→ その際はモデルの精度は手
動で異常値の高い予測が実際を
反映するかをみることによって確
認
正しい教師ラベルを用
いている際は、モデル
の精度を反映
Confidential. ©2018 DataRobot, Inc. – All rights reserved
モデリング、解釈、予測における注意点
19
1. 情報量が少ない(欠損値がある等)行は「正常」と分類されることが多いです
a. 例えば、ある数値が欠損している場合、中央値を使用して補完しますので、異常よりも正常に近くなります
2. 変数が増えるほど異常検知は難しくなります
a. 1000以上の変数を使用すると、異常値を検出することが非常に難しくなります
3. One class SVMは、データセットに異常がなく、収束しない場合があります
a. このような場合、DataRobotはすべての行に0を付けます
4. 異常スコアは正規化されているため、正常な行からあまり離れていなくても、一部の行に異常ラベルが付きます
5. 特徴量のインパクトと特徴量ごとの作用は表示されますが、異常が2値分類のクラスに関連している場合にのみ解釈可能です
a. 特徴量のインパクトは、回帰問題の場合や異常が2値分類の少数派クラスとならない場合は、解釈するのが難しくなりま
す
6. Autopilotでは、異常検知モデルはより大きなサンプルのラウンドに勝ち残らないことがあります
a. モデルを100%のデータで再トレーニングするのが最善です
Confidential. ©2018 DataRobot, Inc. – All rights reserved
アルゴリズムの特徴
20
Confidential. ©2018 DataRobot, Inc. – All rights reserved
5つのクラスの異常検知
21
教師なし異常検知アルゴリズム
Nearest Neighbor Clustering Statistical Subspace Classifier
Global Local Global Local
KNN LOF
COF
INFLO
LoOP
LOCI
aLOCI
CBLOF
uCBLOF
LDCOF
CMGOS
HBOS
Double MAD
Mahalanobis
rPCA
CMGOS
Isolation Forest
One Class SVM
青で書かれているものはDataRobotにある
他にもautoencoderなどがある
Confidential. ©2018 DataRobot, Inc. – All rights reserved
DataRobotの異常検知アルゴリズム
22
Isolation Forest One Class SVM Local Outlier Factor (LOF)
Double Median Absolute
Deviance (MAD)
Mahalanobis Distance Ranked
Anomaly Detection
Anomaly Detection Blender
Isolation ForestとDouble MAD
の平均、最小、最大
Anomaly Detection with Supervised Learning (XGB)
Isolation ForestとDouble MADの平均をターゲットに変換してXGB
Confidential. ©2018 DataRobot, Inc. – All rights reserved
Anomaly Detection with Supervised Learning
23
ラベルのないデータ
に偽ラベルをつけて
アップロード
異常かどうかの
2値分類
教師なし異常検知で
異常スコアを計算
異常スコアが高いトップn%が異
常とラベル付される予測ター
ゲットを自動生成
デフォルトはn=10で、高度なオ
プションで変更可能
XGBoostで教師あり学習
インサイトタブにある
特徴量の有用性が
解釈可能
Confidential. ©2018 DataRobot, Inc. – All rights reserved
6. モデルのチューニング
24
 高度なチューニングタブ
を選択
1
 異常値と判断される割合を
調整
異常値スコアが高いデータ数
が少なすぎる場合は
expected_outlier_fractionの
値を高くして再モデリング
異常値スコアが高いデータ数
が多すぎる場合は
expected_outlier_fractionの
値を低くして再モデリング
2
 チューニングした
モデルを生成
3
Confidential. ©2018 DataRobot, Inc. – All rights reserved
Anomaly Detection with Supervised Learning
25
• インサイトタブにある変数の有用性
は、Anomaly scoreをターゲットと
しているので、解釈可能です。
→ ADXGBの特徴量はSVDコン
ポーネントを使い解釈が難しいの
で、高度なチューニングでSVDのk
を1に設定
• 特徴量のインパクトは元のターゲッ
トで計算されているので、要注意で
す。 
→ 特徴量のインパクトを使用した
い場合、anomaly scoreがター
ゲットの新しい教師あり学習を実行
Confidential. ©2018 DataRobot, Inc. – All rights reserved
横軸がFM、縦軸がVariance、サイズがスコア
26
Confidential. ©2018 DataRobot, Inc. – All rights reserved
良いモデルを選ぶ方法(ハンズオン)
27
Confidential. ©2018 DataRobot, Inc. – All rights reserved
検証用に少量の正解データがある場合
28
ホールドアウトには
正解を入れておいた
ので、実運用した場
合の精度の目安が
わかる。ただし、本
来はこのスコアは知
り得ない点に注意
ホールドアウトに検証
用の正解データを入
れる
ターゲットはランダム
にしておいたので、検
定には意味がない
Confidential. ©2018 DataRobot, Inc. – All rights reserved
正解データがない場合の検証
29
異常スコアの説明と分布、スキャタープロットなどをみてメイクセ
ンスか確認
Confidential. ©2018 DataRobot, Inc. – All rights reserved
異常スコアが高いものと低いものを目で確認
30
Confidential. ©2018 DataRobot, Inc. – All rights reserved
デプロイのイメージ
31
製品スペック
材料情報
周辺環境
製造パラメーター
機械学習の自動化
不良品、故障、
不正、侵入など
調査するものを
フラグ
インサイトをもとに人
間が改善提案
Confidential. ©2018 DataRobot, Inc. – All rights reserved
最後に
32
Confidential. ©2018 DataRobot, Inc. – All rights reserved
半教師あり学習
33
分離性が良い例
少ない教師データで予測モ
デリングを行う
大量のラベルなし
データに対して予
測を行う
確信度が閾値以上
のデータを正解と
みなして擬似ラベ
ルを付与
教師ありデータに
追加する
繰り返す
教師データが少なく、決
定境界をどこに引けば良
いかわからない
こんな感じで決定境界
引けそう
??
?
Confidential. ©2018 DataRobot, Inc. – All rights reserved
半教師あり学習による予測性能の底上げ
34
まずは教師なし異常検知をはじめ、正解データを準備して、半教師あり、教師ありと移っていくのが理想
DataRobotユーザー様、半教師あり学習についてはアドバンスドトレーニングで!
半教師あり学習
教師あり学習(ラベルは少量)
教師なし学習
教師あり学習(全データにラベルあり)
Confidential. ©2018 DataRobot, Inc. – All rights reserved
時系列の異常検知
35
時系列モデルを構築して、エラーの
大きいところを確認
DataRobotユーザー様、時系列モデリングにつ
いては10月5日の時系列分析トレーニング@新
丸ビルEGG Japanで!
● t2は時系列でのcontextual anomaly
● t1はt2と同じ値だが異常ではない
赤い部分はcollective anomalies
Confidential. ©2018 DataRobot, Inc. – All rights reserved
まとめ
36
• データに異常はつきもの
• データクレンジングがはじめの用途
• ヒューマンエラー、観測エラー、不正、侵入、…
• 異常検知は重要なビジネス応用がたくさんある
• 故障検知、不良品検知、不正検知、誤診検知、…
• ビジネスでは変数が多いが、機械学習はロバスト
• 異常検知モデルの評価には業務知識が重要
• 少量でも検証できる正解データを準備できると精度を見ることが可能
• 検証データがない場合は異常スコアの分布や説明をみて確認
• 機械学習といえば分類、回帰、…そして異常検知
• まずは教師なし異常検知でスタート
• 正解データを準備して、半教師あり、教師ありと移っていくのが理想的
37

More Related Content

What's hot

Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
Plot Hong
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
西岡 賢一郎
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
Retrieva inc.
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
Point net
Point netPoint net
Point net
Fujimoto Keisuke
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
Deep Learning JP
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
 

What's hot (20)

Long-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向についてLong-Tailed Classificationの最新動向について
Long-Tailed Classificationの最新動向について
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索ベイズ最適化によるハイパラーパラメータ探索
ベイズ最適化によるハイパラーパラメータ探索
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
Point net
Point netPoint net
Point net
 
[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習[DL輪読会]Deep Learning 第15章 表現学習
[DL輪読会]Deep Learning 第15章 表現学習
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 

Similar to 異常検知

タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
Takashi Suzuki
 
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
センサーxIo tx機械学習が実現する導線分析のビジネス貢献センサーxIo tx機械学習が実現する導線分析のビジネス貢献
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
Microsoft Azure Japan
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
Shoichi Taguchi
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
幹雄 小川
 
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
Yuya Yamamoto
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
幹雄 小川
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Mao Yamaguchi
 
ROSでロボット開発中
ROSでロボット開発中ROSでロボット開発中
ROSでロボット開発中
ssuser2144b2
 
アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用
Komei Fujita
 
バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介
ReNom User Group
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
kan_yukiko
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
DataWorks Summit/Hadoop Summit
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
Recruit Technologies
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
Kentaro Tachibana
 
Topics in aipy the first
Topics in aipy the firstTopics in aipy the first
Topics in aipy the first
rakuda
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
schoowebcampus
 
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会 海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
IoTビジネス共創ラボ
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
DeNA
 

Similar to 異常検知 (19)

タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについてタクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
タクシー×AIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて
 
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
センサーxIo tx機械学習が実現する導線分析のビジネス貢献センサーxIo tx機械学習が実現する導線分析のビジネス貢献
センサーxIo tx機械学習が実現する導線分析のビジネス貢献
 
Pycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテストPycon reject banditアルゴリズムを用いた自動abテスト
Pycon reject banditアルゴリズムを用いた自動abテスト
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
DataRobotによる予測モデルを用いた シミュレーションと最適化(抜粋)
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
Ques12_自動テスト ✕ 機械学習 〜自動テスト結果分析は楽になるか?〜
 
ROSでロボット開発中
ROSでロボット開発中ROSでロボット開発中
ROSでロボット開発中
 
アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用アドテクにおけるBandit Algorithmの活用
アドテクにおけるBandit Algorithmの活用
 
バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介バージョンアップした「ReNomIMG」の紹介
バージョンアップした「ReNomIMG」の紹介
 
Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127Tokyo webmining発表資料 20111127
Tokyo webmining発表資料 20111127
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
A3RT - the details and actual use cases of "Analytics & Artificial intelligen...
 
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
A3RT -The details and actual use cases of“Analytics & Artificial intelligence...
 
Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
Topics in aipy the first
Topics in aipy the firstTopics in aipy the first
Topics in aipy the first
 
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
分析のリアルがここに!現場で使えるデータ分析(1限目) 先生:吉永 恵一
 
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会 海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
海外先進IoT事例を材料に、日本のIoTビジネスを共に創ろう!(再) _IoTビジネス共創ラボ 第10回 勉強会
 
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
タクシーxAIを支えるKubernetesとAIデータパイプラインの信頼性の取り組みについて [SRE NEXT 2020]
 

Recently uploaded

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 

Recently uploaded (12)

LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 

異常検知

  • 1. 1
  • 2. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常検知機能とその応用方法 2
  • 3. Confidential. ©2018 DataRobot, Inc. – All rights reserved 1. インターネットに接続 2. app.datarobot.comにログイン 3. connpassのリンクからデータ セットをダウンロード 異常検知機能と その応用方法 スケジュール 18:30-19:00 受付・開場 19:00-19:10 環境設定 19:10-19:20 お知らせ 19:20-19:40 異常検知とは 19:40-20:10 DataRobotで異常検知 (ハンズオン) 20:10-20:30 アルゴリズムの特徴 20:30-20:50 良いモデルを選ぶ方法 (ハンズオン) 20:50-21:00 最後に 3
  • 4. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常検知とは 4
  • 5. Confidential. ©2018 DataRobot, Inc. – All rights reserved はじめのころ • Grubbs in 1969: “An outlying observation, or outlier, is one that appears to deviate markedly from other members of the sample in which it occurs” • パターン認識アルゴリズムが外れ値に敏感なので、データクレ ンジングのための外れ値検知が主なユースケース その後 • より外れ値にロバストなアルゴリズムの開発によって、異常検 知のニーズが減った • 2000年くらいから、異常値そのものの分析に興味が寄せら れ、異常検知が重要になった 異常検知 5 仲間はずれを見つける AはNと異なる 危険人物やセンサー値の異常の検知 故障、不良品、不正、誤診 A N
  • 6. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常検知の例 6 データ ユースケース セキュリティ • アクセスログ • トランザクション • ネットワークやデータベースの侵入・攻撃の検知(IT) • 不正検知(金融や保険) 監視 • 工場監視センサー • ヒト監視センサー • 機械、設備、製品の不具合検知(製造) • 患者の不具合検知(ヘルスケア) 制御 • エネルギー消費量 • トラフィック量 • エネルギーの予想外消費量検知(エネルギー) • ネットワークの予想外トラフィック検知(IT) 間違い直し • 記入録 • 観測値 • ヒューマンエラー検知(データクレンジング) • 観測エラー検知(データクレンジング)
  • 7. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常検知のセットアップ 7 教師あり異常検知 One class classification 教師なし異常検知 • 少ない変数での異常検知であれば伝 統的な統計学の手法が強力 • 機械学習の利点は変数が数百に なってもロバストに動作すること • ルールベースの検知を強化
  • 8. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常の種類 x1 x2 → global anomalies point anomalies 教師なし異常検知 x3 → local anomaly contextual anomalies ローカルネイバーとの密度の比較 c3 → micro-cluster anomalies collective anomalies 数があれば教師あり学習がおすすめ 8
  • 9. Confidential. ©2018 DataRobot, Inc. – All rights reserved DataRobotで異常検知(ハンズオン) 9
  • 10. Confidential. ©2018 DataRobot, Inc. – All rights reserved 10 baselinevalue accelerations fetalmovement uterine contractions abnormalshort termvariability meanshortterm variability decelerations light decelerations severe decelerations prolonged abnormallong termvariability meanlongterm variability histogram
  • 11. Confidential. ©2018 DataRobot, Inc. – All rights reserved 教師なし異常検知分析のステップ 11 1. ターゲットの設定 4. 異常検知のブループリン トを選択して実行 2. 手動でモデリング 5. モデルの評価 3. ホールドアウトの解除 6. モデルのチューニング
  • 12. Confidential. ©2018 DataRobot, Inc. – All rights reserved 1. ターゲットの設定 12 • ターゲットの設定が必要です • 教師データが全くなければ偽ターゲッ トを作成 • ラベル付けされているデータが存在す る場合、それをターゲット • 多値分類のターゲットは非対応 • ターゲットはモデル生成には使用さ れません • 特徴量のインパクトの計算には使用 • 偽ターゲットの場合、特徴量のインパク トは解釈不可 教師ラベルがない 場合、ランダム変数 のターゲットを作成
  • 13. Confidential. ©2018 DataRobot, Inc. – All rights reserved 2. 手動でモデリング 13 異常検知のみを行い たい場合、「手動」で モデリングを行い、異 常検知のブループリ ントのみを実行しま す。
  • 14. Confidential. ©2018 DataRobot, Inc. – All rights reserved 3. ホールドアウトのロックの解除 14 教師なし学習に検定データは 必要ないため、100%のデータ をモデル作成に利用します。
  • 15. Confidential. ©2018 DataRobot, Inc. – All rights reserved 4. 異常検知のブループリントを選択して実行 15  Anomalyを含むブループリントを検 索(6つあります) 1  異常検知ブループリン トをバッチで実行 2  教師なし学習の場合、全 データでモデル生成 3  実行するブループリン トを選択 4  モデルの生成を開始5
  • 16. Confidential. ©2018 DataRobot, Inc. – All rights reserved • データの異常度 (anomalyScore)は最も スコアが高いものを1、 最も低いものを0として 相対評価されます。 • モデルの anomalyScoreが高い と予測するデータを目 視確認することで、モデ ルの評価が可能です。 5. モデルの評価 16 評価を行いたいモデ ルを選択 インサイトタブ内のAnomaly Detectionを選択
  • 17. Confidential. ©2018 DataRobot, Inc. – All rights reserved 予測の説明にも対応 17 0−1の範囲で異常具 合を判断 個々の予測を異常と判 断する主な理由を説明 • 特徴量が50以上あ り、ターゲットが正しい ラベルでない場合、 リーズンコードが正確 でない可能性があり ます。 • Anomaly scoreに効 いている特徴量が、 特徴量のインパクトの 計算でtop 50に入ら ないかもしれないため です。
  • 18. Confidential. ©2018 DataRobot, Inc. – All rights reserved 正しい教師ラベルがある場合 18 • 偽ではなく、正しい教師ラベ ルを用いている場合、検定、 交差検定はモデルの精度を 反映します。 • ランダム変数を用いた偽教師 ラベルの場合、検定、交差検 定はモデルの精度を反映しま せん。 → その際はモデルの精度は手 動で異常値の高い予測が実際を 反映するかをみることによって確 認 正しい教師ラベルを用 いている際は、モデル の精度を反映
  • 19. Confidential. ©2018 DataRobot, Inc. – All rights reserved モデリング、解釈、予測における注意点 19 1. 情報量が少ない(欠損値がある等)行は「正常」と分類されることが多いです a. 例えば、ある数値が欠損している場合、中央値を使用して補完しますので、異常よりも正常に近くなります 2. 変数が増えるほど異常検知は難しくなります a. 1000以上の変数を使用すると、異常値を検出することが非常に難しくなります 3. One class SVMは、データセットに異常がなく、収束しない場合があります a. このような場合、DataRobotはすべての行に0を付けます 4. 異常スコアは正規化されているため、正常な行からあまり離れていなくても、一部の行に異常ラベルが付きます 5. 特徴量のインパクトと特徴量ごとの作用は表示されますが、異常が2値分類のクラスに関連している場合にのみ解釈可能です a. 特徴量のインパクトは、回帰問題の場合や異常が2値分類の少数派クラスとならない場合は、解釈するのが難しくなりま す 6. Autopilotでは、異常検知モデルはより大きなサンプルのラウンドに勝ち残らないことがあります a. モデルを100%のデータで再トレーニングするのが最善です
  • 20. Confidential. ©2018 DataRobot, Inc. – All rights reserved アルゴリズムの特徴 20
  • 21. Confidential. ©2018 DataRobot, Inc. – All rights reserved 5つのクラスの異常検知 21 教師なし異常検知アルゴリズム Nearest Neighbor Clustering Statistical Subspace Classifier Global Local Global Local KNN LOF COF INFLO LoOP LOCI aLOCI CBLOF uCBLOF LDCOF CMGOS HBOS Double MAD Mahalanobis rPCA CMGOS Isolation Forest One Class SVM 青で書かれているものはDataRobotにある 他にもautoencoderなどがある
  • 22. Confidential. ©2018 DataRobot, Inc. – All rights reserved DataRobotの異常検知アルゴリズム 22 Isolation Forest One Class SVM Local Outlier Factor (LOF) Double Median Absolute Deviance (MAD) Mahalanobis Distance Ranked Anomaly Detection Anomaly Detection Blender Isolation ForestとDouble MAD の平均、最小、最大 Anomaly Detection with Supervised Learning (XGB) Isolation ForestとDouble MADの平均をターゲットに変換してXGB
  • 23. Confidential. ©2018 DataRobot, Inc. – All rights reserved Anomaly Detection with Supervised Learning 23 ラベルのないデータ に偽ラベルをつけて アップロード 異常かどうかの 2値分類 教師なし異常検知で 異常スコアを計算 異常スコアが高いトップn%が異 常とラベル付される予測ター ゲットを自動生成 デフォルトはn=10で、高度なオ プションで変更可能 XGBoostで教師あり学習 インサイトタブにある 特徴量の有用性が 解釈可能
  • 24. Confidential. ©2018 DataRobot, Inc. – All rights reserved 6. モデルのチューニング 24  高度なチューニングタブ を選択 1  異常値と判断される割合を 調整 異常値スコアが高いデータ数 が少なすぎる場合は expected_outlier_fractionの 値を高くして再モデリング 異常値スコアが高いデータ数 が多すぎる場合は expected_outlier_fractionの 値を低くして再モデリング 2  チューニングした モデルを生成 3
  • 25. Confidential. ©2018 DataRobot, Inc. – All rights reserved Anomaly Detection with Supervised Learning 25 • インサイトタブにある変数の有用性 は、Anomaly scoreをターゲットと しているので、解釈可能です。 → ADXGBの特徴量はSVDコン ポーネントを使い解釈が難しいの で、高度なチューニングでSVDのk を1に設定 • 特徴量のインパクトは元のターゲッ トで計算されているので、要注意で す。  → 特徴量のインパクトを使用した い場合、anomaly scoreがター ゲットの新しい教師あり学習を実行
  • 26. Confidential. ©2018 DataRobot, Inc. – All rights reserved 横軸がFM、縦軸がVariance、サイズがスコア 26
  • 27. Confidential. ©2018 DataRobot, Inc. – All rights reserved 良いモデルを選ぶ方法(ハンズオン) 27
  • 28. Confidential. ©2018 DataRobot, Inc. – All rights reserved 検証用に少量の正解データがある場合 28 ホールドアウトには 正解を入れておいた ので、実運用した場 合の精度の目安が わかる。ただし、本 来はこのスコアは知 り得ない点に注意 ホールドアウトに検証 用の正解データを入 れる ターゲットはランダム にしておいたので、検 定には意味がない
  • 29. Confidential. ©2018 DataRobot, Inc. – All rights reserved 正解データがない場合の検証 29 異常スコアの説明と分布、スキャタープロットなどをみてメイクセ ンスか確認
  • 30. Confidential. ©2018 DataRobot, Inc. – All rights reserved 異常スコアが高いものと低いものを目で確認 30
  • 31. Confidential. ©2018 DataRobot, Inc. – All rights reserved デプロイのイメージ 31 製品スペック 材料情報 周辺環境 製造パラメーター 機械学習の自動化 不良品、故障、 不正、侵入など 調査するものを フラグ インサイトをもとに人 間が改善提案
  • 32. Confidential. ©2018 DataRobot, Inc. – All rights reserved 最後に 32
  • 33. Confidential. ©2018 DataRobot, Inc. – All rights reserved 半教師あり学習 33 分離性が良い例 少ない教師データで予測モ デリングを行う 大量のラベルなし データに対して予 測を行う 確信度が閾値以上 のデータを正解と みなして擬似ラベ ルを付与 教師ありデータに 追加する 繰り返す 教師データが少なく、決 定境界をどこに引けば良 いかわからない こんな感じで決定境界 引けそう ?? ?
  • 34. Confidential. ©2018 DataRobot, Inc. – All rights reserved 半教師あり学習による予測性能の底上げ 34 まずは教師なし異常検知をはじめ、正解データを準備して、半教師あり、教師ありと移っていくのが理想 DataRobotユーザー様、半教師あり学習についてはアドバンスドトレーニングで! 半教師あり学習 教師あり学習(ラベルは少量) 教師なし学習 教師あり学習(全データにラベルあり)
  • 35. Confidential. ©2018 DataRobot, Inc. – All rights reserved 時系列の異常検知 35 時系列モデルを構築して、エラーの 大きいところを確認 DataRobotユーザー様、時系列モデリングにつ いては10月5日の時系列分析トレーニング@新 丸ビルEGG Japanで! ● t2は時系列でのcontextual anomaly ● t1はt2と同じ値だが異常ではない 赤い部分はcollective anomalies
  • 36. Confidential. ©2018 DataRobot, Inc. – All rights reserved まとめ 36 • データに異常はつきもの • データクレンジングがはじめの用途 • ヒューマンエラー、観測エラー、不正、侵入、… • 異常検知は重要なビジネス応用がたくさんある • 故障検知、不良品検知、不正検知、誤診検知、… • ビジネスでは変数が多いが、機械学習はロバスト • 異常検知モデルの評価には業務知識が重要 • 少量でも検証できる正解データを準備できると精度を見ることが可能 • 検証データがない場合は異常スコアの分布や説明をみて確認 • 機械学習といえば分類、回帰、…そして異常検知 • まずは教師なし異常検知でスタート • 正解データを準備して、半教師あり、教師ありと移っていくのが理想的
  • 37. 37