SlideShare a Scribd company logo
1 of 17
Download to read offline
Temporal Skeltonizationon Sequential Data–Patterns, Categorization, and Visualization – C. Liu, K. Zhang, H. Xiong, G. Jiang, Q. Yang 
KDD2014読み会 
大滝啓介(京都大学)
概要 
–列パターンマイニング 
–ログ解析や軌跡解析を系列パターンマイニング としてモデル化することは,そこまで簡単ではない 
–記号列化するのが難しすぎる 
Pattern Miningの実応用における諸問題を扱う 
手法 
–Temporal Skeltonization~ 記号のクラスタリング 
–Spectralclusteringの応用 
実験と結果 
–人工データと実データ(B2B購買履歴データ) 
–いい感じに抽象的な解析ができた
Sequential Pattern Mining 
–論文: GSP(Agrawal&Srikant,96), SPADE(Zaki,01), PrefixSpan(Han et al.,01), SPAM(Ayres et al., 02) 
–使いたい場合: RのarulesSequences, PrefixSpanの 実装(←たくさんある), SPMF(Javaベース)など 
푆=푒1,…,푒푛上の系列をSi=푠1푖 ,…,푠푇푖 푖∈푆푇푛と 書く。データベースを퐷퐵={S1,…,S푁}と定義し、 列の評価関数をqと書く。パラメータθに対して q(DB, S)≧θであるような列Sをすべて列挙せよ。 
関連研究・ソフトウェア 
–定義に関してはVariationがある 
–例)Aprioriで有名なAgrawal & Srikantコンビの論文 (1995)における定義はこれではなかったはず。
何が問題か 
–データ(購買履歴・軌跡・イベントログ)を 系列データベースに変換するには大きなΣが必要 
–英単語文章|S|≒10,000,購買履歴|S| → すごく大きい 
–Sが大きくなるとアルゴリズム的には嬉しくない 
–探索空間が大きくなる(最悪探索不可能に) 
–評価値がどれも似たような感じに(スパース化) 
–価値のある情報か分からない(ノイズ) 
その他の事情 
–記号の階層的背景知識って有効だろう 
–階層的な知識ってどうやって用意するんだ 
–記号から意味情報が落とされている場合はどうする 
–プライバシー保護データマイニング的の問題点 
–記号の関係を自動的に考慮できると嬉しい
例 
–Σ={a,b,c,…,o}上の系列に対し,Σを3分割する 
Graph的知見に基づいたイベント記号のクラスタ化 
–Skelton ~ Temporal cluster 
–Temporal pattern: series of events, time-series data 
–系列的に局所的かつ系列的なクラスタのこと? 
例 
関数f: S→{1,2,…,K} (Encoding scheme) 
例) |S|=20 → K=3 
論文の図 
論文の図 
論文の図
Graph Cut & Spectral Clustering 
–グラフ切ります(Wikipediaより図) 
–Spectral clustering 
–接点にデータ,辺にpair-wiseな類似度を与える 
–ラプラシアン行列L = D –Wを計算する 
–Dは次数行列,Wは重み行列 
–Lを固有値分解して固有値の大きい方を取ってくる 
–Graph-cutと関係があり 
–詳しくはgoogleで「Spectral clustering」を検索 
クラスター黒 
クラスター白
例 
–Encoding scheme fを取得する問題とは 
a 
c 
d 
n 
f 
h 
m 
j 
e 
l 
b 
i 
k 
o 
g
Temporal Graph 
イメージ)データベース中で近くに出現する 
アルファベットを大きくカウントする 
論文の定義
Temporal SkeltonizationProblem 
論文の定義
Temporal SkeltonizationProblem 
–グラフ表現により以下のように定式化される 
–式3: 푦푖=푓푒푖, coding scheme fand character e 
–以下と同じ形(式4) 
–これはspectral clustering, graph-cutsで頻出するグラフ ベースの最適化問題によく出てくる形 
–解ける 
論文の式 
論文の式
実験(1) 人工データ 
–5 groups {A,B,C,D,E}, each of them has 25 symbols 
–5000 sequences 
–2500: A→B→C→D 
–2500: B→E→C 
–各グループでランダムにd個記号を選択 
–平均で長さが15になるように調整 
論文のグラフ
実験(1) 人工データ 
–5 groups {A,B,C,D,E}, each of them has 25 symbols 
–5000 sequences 
–各グループでランダムにd個記号を選択 
–平均で長さが15になるように調整 
–可視化のためにIsomapを使っているらしい 
論文のグラフ
実験(1) 人工データ 
–ノイズあり(別のgroupの記号を5%入れる) 
論文のグラフ
実験(2) 実データ 
–|S|=5028, 푇= 푛푇푛=248725 
論文のグラフ
実験(2) 実データ 
–実際にクラスタを見てみるとそれなりに上手く アノテーションされた形になるらしい 
論文のグラフ
実験(2) 実データ 
–通常の記号より抽象的なクラスタラベルを使っ た方が様々な解析がしやすいのではないか 
論文のグラフ
まとめ 
–記号集合をクラスタ分割する前処理を行う 
–記号の書き換えスキーマEncoding scheme f 
–Temporal Graphを構築,Spectral clusteringを行う 
–発見されたクラスタを用いた系列データベースのス ムーズ化・エンコーディングについて(飛ばした) 
–いくつかの実験結果を示した 
–ノイズがあってもクラスタ化が可能(人工データ) 
–なんとなくそれなりにわかりやすい(実データ) 
–その他の応用について 
–パターンの可視化,パターンマイニングの改良 
–基本的に系列データ以外にも適用可能 
より可読性の高いパターンマイニングを目指して

More Related Content

Viewers also liked

Black widow present
Black widow presentBlack widow present
Black widow present
tintina
 
Making Peace With Russia Dec 3 2010
Making Peace With Russia Dec 3 2010Making Peace With Russia Dec 3 2010
Making Peace With Russia Dec 3 2010
petersimmie
 
презентация1[1]
презентация1[1]презентация1[1]
презентация1[1]
gueste73644a
 
La Vida
La VidaLa Vida
La Vida
silvia
 
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
Pavel Melnikov
 

Viewers also liked (20)

Black widow present
Black widow presentBlack widow present
Black widow present
 
ACVAE
ACVAEACVAE
ACVAE
 
Making Peace With Russia Dec 3 2010
Making Peace With Russia Dec 3 2010Making Peace With Russia Dec 3 2010
Making Peace With Russia Dec 3 2010
 
Dance_Project_Bg
Dance_Project_BgDance_Project_Bg
Dance_Project_Bg
 
Victor Alavardo Geometry Project
Victor Alavardo Geometry ProjectVictor Alavardo Geometry Project
Victor Alavardo Geometry Project
 
Part 2 - Perfect overview on economic sanctions - US & EU
Part 2 - Perfect overview on economic sanctions - US & EUPart 2 - Perfect overview on economic sanctions - US & EU
Part 2 - Perfect overview on economic sanctions - US & EU
 
Prml sec6
Prml sec6Prml sec6
Prml sec6
 
Instrucciones trabajo
Instrucciones trabajoInstrucciones trabajo
Instrucciones trabajo
 
презентация1[1]
презентация1[1]презентация1[1]
презентация1[1]
 
Presentation missouri
Presentation missouriPresentation missouri
Presentation missouri
 
Total Cost of Ownership - TCO in Cooperatives
Total Cost of Ownership - TCO in CooperativesTotal Cost of Ownership - TCO in Cooperatives
Total Cost of Ownership - TCO in Cooperatives
 
стр.10 11. Изменение трендов в коммуникациях за 5 лет - журнал пресс-служба №...
стр.10 11. Изменение трендов в коммуникациях за 5 лет - журнал пресс-служба №...стр.10 11. Изменение трендов в коммуникациях за 5 лет - журнал пресс-служба №...
стр.10 11. Изменение трендов в коммуникациях за 5 лет - журнал пресс-служба №...
 
La Vida
La VidaLa Vida
La Vida
 
Firewall corewp
Firewall corewpFirewall corewp
Firewall corewp
 
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
Cаммари исследования Grayling восприятия последствий вступления в ВТО бизнесо...
 
Audi
AudiAudi
Audi
 
ENT Intro Deck
ENT Intro DeckENT Intro Deck
ENT Intro Deck
 
Do And Dont To
Do And Dont   ToDo And Dont   To
Do And Dont To
 
Muusad1
Muusad1Muusad1
Muusad1
 
Sec16 greedy algorithm no2
Sec16 greedy algorithm no2Sec16 greedy algorithm no2
Sec16 greedy algorithm no2
 

More from Keisuke OTAKI

ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門
Keisuke OTAKI
 

More from Keisuke OTAKI (14)

Reading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGsReading Seminar (140515) Spectral Learning of L-PCFGs
Reading Seminar (140515) Spectral Learning of L-PCFGs
 
一階述語論理のメモ
一階述語論理のメモ一階述語論理のメモ
一階述語論理のメモ
 
Grammatical inference メモ 1
Grammatical inference メモ 1Grammatical inference メモ 1
Grammatical inference メモ 1
 
ベイジアンネットワーク入門
ベイジアンネットワーク入門ベイジアンネットワーク入門
ベイジアンネットワーク入門
 
Tensor Decomposition and its Applications
Tensor Decomposition and its ApplicationsTensor Decomposition and its Applications
Tensor Decomposition and its Applications
 
Ada boost
Ada boostAda boost
Ada boost
 
Em
EmEm
Em
 
PRML§12-連続潜在変数
PRML§12-連続潜在変数PRML§12-連続潜在変数
PRML§12-連続潜在変数
 
Foilsを使ってみた。
Foilsを使ってみた。Foilsを使ってみた。
Foilsを使ってみた。
 
ウェーブレット勉強会
ウェーブレット勉強会ウェーブレット勉強会
ウェーブレット勉強会
 
Prml sec3
Prml sec3Prml sec3
Prml sec3
 
Sec16 greedy algorithm no1
Sec16 greedy algorithm no1Sec16 greedy algorithm no1
Sec16 greedy algorithm no1
 
Sec15 dynamic programming
Sec15 dynamic programmingSec15 dynamic programming
Sec15 dynamic programming
 
Hash Table
Hash TableHash Table
Hash Table
 

KDD読み会(図なし版)