SlideShare a Scribd company logo
1
九州大学大学院システム情報科学研究院
データサイエンス実践特別講座
データサイエンス概論第一
第6回 異常検出
システム情報科学研究院情報知能工学部門
内田誠一
22
データサイエンス概論第一について
このスライドから見ている皆さん
SlideShareではこの「第6回 異常検出」がリストの最初に
来てしまいますが....
これからいきなり見ても,わからないかも...
やはり第1回から見ることをオススメします...
3
データサイエンス概論第一の内容
 データとは
 データのベクトル表現と集合
 平均と分散
 データ間の距離
 データ間の類似度
 データのクラスタリング
(グルーピング)
 線形代数に基づくデータ解析の基礎
 主成分分析と因子分析
 回帰分析
 相関・頻度・ヒストグラム
 確率と確率分布
 信頼区間と統計的検定
 時系列データの解析
 異常検出
4
異常検出
データ間の「距離」の応用.
集合内に潜む「異常データ」を見つける
5
異常検出の基本と
3つのシナリオ
66
異常検出(異常検知)とは?
今与えられたデータが「一般的に期待していたデータ」とは
異なるものであることを見出す手法
なぜ異常は起こるか?
機器やセンサの故障,身体の病気やケガ
うっかりや見落とし,事故や失敗など,人為的ミス
侵入や破壊,悪用など,意図的な悪意のある行為
甚大な自然災害など,想定外もしくは稀な現象の発生
Etc...
77
異常の種類
大局的異常
 𝑥1, 𝑥2
局所的異常
 𝑥3 (𝑐2だけに
注目すると異常)
微小クラスタ
 𝑐3
[Goldstein, Uchida, PLoSONE, 2016]
局所的異常 大局的異常
微小クラスタ
大局的異常
88
異常検出,3つのシナリオ(1/3):
「正常データ」と「異常データ」が共に準備できる場合
正常・異常を分離する「面」を求める問題
異常データはめったに発生しないのに,バリエーションは膨大
異常データ
正常データ
この面より
外側=異常
99
異常検出,3つのシナリオ(2/3) :
「正常データ」のみが準備できる場合
正常データを包含する「面」を求める問題
異常データ収集の手間は不要.しかし全データが正常であ
ることを「担保」する必要は残る
正常データ
この面より
外側=異常
1010
異常検出,3つのシナリオ(3/3) :
単にデータの集合しか与えられない
データ自身に「自分が異常かどうかを判断させる」問題
最も現実的なシナリオだが,「判断基準」をどうするか?
1111
3つのシナリオ~それぞれの呼称
第1:「教師あり」異常検出
結果は 正常 or 異常
第2:「半教師付き」異常検出
結果は 正常 or 異常
第3:「教師無し」異常検出
結果は 異常の程度(異常度)
12
教師無し異常検出
kNNとLOF
1313
教師無し異常検出の基本的な考え方
「注目しているデータが,他のデータから離れている(距離が
遠い)」→異常度が高い
周りにデータなし
→高い異常度
周りにデータ多い
→低い異常度
1414
kNN法 (1/3)
原理
単一タイプ:𝑘番目に近いデータへの距離 𝒑 − 𝒒 𝑘 or
合計タイプ: 𝒑 − 𝒒1 + 𝒑 − 𝒒2 + ⋯ + 𝒑 − 𝒒 𝑘
大局的異常検出
k=3
𝒑
𝒒1
𝒒2
𝒒3
1515
kNN法 (2/3)
kNN法による異常度計算結果(k=10, 合計)
半径∝異常度
[Goldstein, Uchida, PLoSONE, 2016]
1616
kNN法 (3/3)
問題点
「ぎっしりクラスタ」と「すかすかクラスタ」が共存していると...
「都会基準で田舎を全部異常」と見ていいのか?
「都会は都会基準」「田舎は田舎基準」で見たいところ
1717
Local Outlier Factor (LOF)法 (1/2)
原理
注目データ周囲の密度が他に比べ低い→LOF大
局所異常検出も可能
LOF=
𝒑−𝒒1
𝒒1−𝒓1
𝒑
𝒒1
𝒓1
𝒑の最近傍
𝒒1の最近傍
要するに,自分の周り(分子)と自分の近傍の周り(分母)を比較
最もわかりやすい
𝑘 = 1の場合
18
Local Outlier Factor (LOF)法 (2/2)
ぎっしり・スカスカどちらも大丈夫
𝒑
𝒒1
𝒓1
LOF=
𝒑−𝒒1
𝒒1−𝒓1
~1
𝒑
𝒒1𝒓1
LOF=
𝒑−𝒒1
𝒒1−𝒓1
~1
𝑘 > 1の場合はもう少し式も
ややこしくなります

More Related Content

What's hot

データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
Seiichi Uchida
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
Retrieva inc.
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出
Seiichi Uchida
 
9 可視化
9 可視化9 可視化
9 可視化
Seiichi Uchida
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
Nagi Teramo
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnetNagi Teramo
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
カップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみたカップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみたhoxo_m
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
Seiichi Uchida
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
Masaru Tokuoka
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
Yoshitake Takebayashi
 
MCMC法
MCMC法MCMC法
MCMC法
MatsuiRyo
 
Overleafを使った文書作成
Overleafを使った文書作成Overleafを使った文書作成
Overleafを使った文書作成
Yoshihiro Mizoguchi
 
計算社会科学とは
計算社会科学とは計算社会科学とは
計算社会科学とは
Tokyo Tech
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
 
主成分分析
主成分分析主成分分析
主成分分析
大貴 末廣
 

What's hot (20)

データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
 
データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布データサイエンス概論第一=4-2 確率と確率分布
データサイエンス概論第一=4-2 確率と確率分布
 
ブースティング入門
ブースティング入門ブースティング入門
ブースティング入門
 
5 クラスタリングと異常検出
5 クラスタリングと異常検出5 クラスタリングと異常検出
5 クラスタリングと異常検出
 
9 可視化
9 可視化9 可視化
9 可視化
 
Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定Rで学ぶ回帰分析と単位根検定
Rで学ぶ回帰分析と単位根検定
 
5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet5分でわかるかもしれないglmnet
5分でわかるかもしれないglmnet
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
カップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみたカップルが一緒にお風呂に入る割合をベイズ推定してみた
カップルが一緒にお風呂に入る割合をベイズ推定してみた
 
7 主成分分析
7 主成分分析7 主成分分析
7 主成分分析
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
単一事例研究法と統計的推測:ベイズ流アプローチを架け橋として (文字飛び回避版はこちら -> https://www.slideshare.net/yos...
 
MCMC法
MCMC法MCMC法
MCMC法
 
Overleafを使った文書作成
Overleafを使った文書作成Overleafを使った文書作成
Overleafを使った文書作成
 
計算社会科学とは
計算社会科学とは計算社会科学とは
計算社会科学とは
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
主成分分析
主成分分析主成分分析
主成分分析
 

Similar to データサイエンス概論第一 6 異常検出

九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
Seiichi Uchida
 
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708
Yusuke Yamamoto
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
Jun Kashihara
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
Akifumi Eguchi
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
Tomoshige Nakamura
 
Gasshuku98
Gasshuku98Gasshuku98
Gasshuku98
隆浩 安
 

Similar to データサイエンス概論第一 6 異常検出 (8)

九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析データサイエンス概論第一 5 時系列データの解析
データサイエンス概論第一 5 時系列データの解析
 
データ解析
データ解析データ解析
データ解析
 
WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708WI2研究会 Vol.10発表資料20170708
WI2研究会 Vol.10発表資料20170708
 
JPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdfJPA2023_NetworkTutorial_Part1.pdf
JPA2023_NetworkTutorial_Part1.pdf
 
環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728環境化学データ解析入門: 愛媛大講演資料 160728
環境化学データ解析入門: 愛媛大講演資料 160728
 
多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料多重代入法(Multiple Imputation)の発表資料
多重代入法(Multiple Imputation)の発表資料
 
Gasshuku98
Gasshuku98Gasshuku98
Gasshuku98
 

More from Seiichi Uchida

13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
Seiichi Uchida
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
Seiichi Uchida
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
Seiichi Uchida
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
Seiichi Uchida
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
Seiichi Uchida
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
Seiichi Uchida
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
Seiichi Uchida
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
Seiichi Uchida
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
Seiichi Uchida
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
Seiichi Uchida
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
Seiichi Uchida
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
Seiichi Uchida
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
Seiichi Uchida
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
Seiichi Uchida
 

More from Seiichi Uchida (15)

13 分類とパターン認識
13 分類とパターン認識13 分類とパターン認識
13 分類とパターン認識
 
12 非構造化データ解析
12 非構造化データ解析12 非構造化データ解析
12 非構造化データ解析
 
0 データサイエンス概論まえがき
0 データサイエンス概論まえがき0 データサイエンス概論まえがき
0 データサイエンス概論まえがき
 
15 人工知能入門
15 人工知能入門15 人工知能入門
15 人工知能入門
 
14 データ収集とバイアス
14 データ収集とバイアス14 データ収集とバイアス
14 データ収集とバイアス
 
10 確率と確率分布
10 確率と確率分布10 確率と確率分布
10 確率と確率分布
 
8 予測と回帰分析
8 予測と回帰分析8 予測と回帰分析
8 予測と回帰分析
 
6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎6 線形代数に基づくデータ解析の基礎
6 線形代数に基づくデータ解析の基礎
 
4 データ間の距離と類似度
4 データ間の距離と類似度4 データ間の距離と類似度
4 データ間の距離と類似度
 
3 平均・分散・相関
3 平均・分散・相関3 平均・分散・相関
3 平均・分散・相関
 
2 データのベクトル表現と集合
2 データのベクトル表現と集合2 データのベクトル表現と集合
2 データのベクトル表現と集合
 
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
「あなたがいま読んでいるものは文字です」~画像情報学から見た文字研究のこれから
 
Machine learning for document analysis and understanding
Machine learning for document analysis and understandingMachine learning for document analysis and understanding
Machine learning for document analysis and understanding
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
 
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%An opening talk at ICDAR2017 Future Workshop - Beyond 100%
An opening talk at ICDAR2017 Future Workshop - Beyond 100%
 

データサイエンス概論第一 6 異常検出