Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

異常検知入門~理論と実装~

150 views

Published on

「第1回 人工知能の数理」勉強会で発表したスライドです。

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

異常検知入門~理論と実装~

  1. 1. 「第1回 人工知能の数理」勉強会 異常検知入門~理論と実装~ 李 康秀
  2. 2. 異常検知入門~理論と実装~|李 康秀 自己紹介 ・ 李 康秀 (り やすひで) Twitter:Yasuhide Lee (@yaleeeeeeeeee) ・ 業務内容 - データ分析 (センサーデータ) - クラウド構築 (Microsoft Azure) - ソフトウェア開発 ・ 趣味 - スポーツ観戦 (サッカー、野球) - 旅行 (乗り鉄) - 読書 (積読)
  3. 3. 異常検知入門~理論と実装~|李 康秀 Agenda ・異常検知とは ・異常検知の数学 ・異常検知の適用 ・異常検知のアルゴリズム
  4. 4. 異常検知入門~理論と実装~|李 康秀 はじめに @whisponchan やばい…
  5. 5. 異常検知入門~理論と実装~|李 康秀 異常検知とは ・期待されるパターンまたはデータセット中の他のアイテムと一致しないアイテム、 イベント,または観測を識別すること。 ・正常となるモデルをデータからつくり、そのモデルから外れるものを見つけること。 機械学習による異常検知 ・正常と異常を区別するための「知識」を、機械学習の手法を用いて データから計算機に見つけ出させる。
  6. 6. 異常検知入門~理論と実装~|李 康秀 異常検知とは ■異常検知モデル構築の3ステップ STEP1 分布推定 STEP2 異常度の定義 STEP3 閾値の設定
  7. 7. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■正規分布に基づく異常検知 STEP1 分布推定 𝑝(𝑥|𝜽)における未知パラメータ𝜽を𝐷から決める。 𝐷:データ 𝜽:確率分布の未知パラメータ STEP2 異常度の定義 𝑎 𝒙′ = − ln 𝑝(𝒙′|𝐷) STEP3 閾値の設定 例えば、正常データ𝐷における割合
  8. 8. 異常検知入門~理論と実装~|李 康秀 問題1 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 これを𝑥の関数とみて 𝑥で微分することにより、極大点と変曲点を 求めてください。
  9. 9. 異常検知入門~理論と実装~|李 康秀 問題2 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 これが規格化条件を満たすことを、以下の式を用いて確かめてください。 𝑎 > 0のとき −∞ +∞ 𝑑𝑥 𝑒𝑥𝑝 −𝑎𝑥2 + 𝑏𝑥 + 𝑐 = 𝜋 𝑎 𝑒𝑥𝑝 𝑏2 4𝑎 + 𝑐 ※規格化条件は 𝑅 𝑑𝒙 𝑝 𝒙 = 1
  10. 10. 異常検知入門~理論と実装~|李 康秀 問題3 ■正規分布に基づく異常検知 確率変数を𝑥 としたとき、平均μ 、分散𝜎2 をもつ正規分布𝑁 𝑥|𝜇, 𝜎2 は 𝑁 𝑥|𝜇, 𝜎2 ≡ 1 2𝜋𝜎2 1 2 𝑒𝑥𝑝 − 1 2𝜎2 𝑥 − 𝜇 2 変数変換z = 𝑥 − 𝜇 𝜎により定義される変数zが標準正規分布に 従うことを証明してください。
  11. 11. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■正規分布に基づく異常検知 STEP1 分布推定 正規分布𝑝(𝑥|𝜽)における未知パラメータ𝜽は 𝜇 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 および 𝜎2 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 − 𝜇 2 STEP2 異常度の定義 𝑎 𝒙′ = 𝑥′− 𝜇 𝜎 2 ~χ2 1,1 STEP3 閾値の設定 例えば、正常データ𝐷における割合
  12. 12. 異常検知入門~理論と実装~|李 康秀 異常検知の数学 ■ホテリング統計量の分布(1変数) 1次元の観測データDの各観測値が独立に同じ分布𝑁 𝑥|𝜇, 𝜎2 に従い、 新たな観測値𝑥′も同じ分布に独立に従うとする。このとき 𝑎 𝑥′ = 𝑥′− 𝜇 𝜎 2 の𝑎 𝑥′ の定数倍は、自由度 1, 𝑁 − 1 の𝐹分布に従う。 すなわち 𝑁−1 𝑁+1 𝑎 𝑥′ ~𝐹 1, 𝑁 − 1 特に、𝑁 ≫ 1のときは、 𝑎 𝑥′ そのものが自由度1、スケール因子1の カイ二乗分布に従う。 𝑎 𝑥′ ~χ2 1,1
  13. 13. 異常検知入門~理論と実装~|李 康秀 異常検知の適用 ■Jリーグ選手の体重、身長およびBMIの異常検知 STEP1 分布推定 正規分布𝑝(𝑥|𝜽)における未知パラメータ𝜽は 𝜇 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 および 𝜎2 = 1 𝑁 𝑛=1 𝑁 𝑥 𝑛 − 𝜇 2 STEP2 異常度の定義 𝑎 𝒙′ = 𝑥′− 𝜇 𝜎 2 ~χ2 1,1 STEP3 閾値の設定 例えば、正常データ𝐷における割合
  14. 14. 異常検知入門~理論と実装~|李 康秀 異常検知のアルゴリズム 正規分布に基づく 異常検知 局所外れ値度 (LOF) カーネル密度推定 (KDE) 1クラスサポートベクトルマシン (OCSVM) 概要 確率分布を予測 Nearest Neighborの 拡張 確率分布を予測 SVMの拡張 メリット ホテリング理論は 異常検知の基礎 Nが大きくても 高速 計算方法が明快 デメリット 単一の正規分布 という制約 Nが大きいと低速 Nが大きいと低速
  15. 15. 異常検知入門~理論と実装~|李 康秀 参考文献 ・入門 機械学習による異常検知 井手 剛 著 ・データ解析のための統計モデリング入門 久保 拓弥 著 ・ベイズ推論による機械学習入門 須山 敦志 著 ・異常検知ナイト(エンジニア向け) https://dllab.connpass.com/event/77248/presentation/ ・J.LEAGUE Data Site https://data.j-league.or.jp/SFTP01/ ・Wikipedia https://ja.wikipedia.org/wiki/%E7%95%B0%E5%B8%B8%E6%A4%9C%E7%9F%A5
  16. 16. ご清聴ありがとうございました。

×