Clustering of Time Series Subsequences is
Meaningless: Implications for Previous and Future
Research

NTS 2011/3/1
増谷

Cop...
時系列クラスタリング
• 様々な分野で活用
– Biology,Finance,Geology,Space
Exploration,Robotics,Human motion analysis
– クラスタリングは前処理、サブルーチンとし
て良...
2種類の時系列クラスタリング
• 分割されたクラスタを使うパターン
– 1日ごとの集計とか

• Moving Windowを使うパターン
– 過去数ステップの細切れ時系列を使うとか

Copyright (C) 2011 Denso IT L...
概要
• “Clustering of Time Series Subsequences is
Meaningless: Implications for Previous and
Future Research”, Eamonn Keogh,...
クラスタ集合間距離
クラスタ集合
クラスタ集合間距離

クラスタ集合Aの各クラスタ中心はBのクラスタと対応させる

A

B

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Re...
サンプルデータ
• 3 random restart
• X : stock market dataset
• Y : random walk dataset

Copyright (C) 2011 Denso IT Laboratory, I...
restart
• セット内距離
• セット間距離
• クラスタ意味あり度合

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
クラスタ意味あり度合

• ランダムなrestartをしても同じような結果
が得られる場合0に近づく

• まったく関係の無いクラスタとの距離
(基準):比較的大きいはず
• 意味のあるクラスタリングでは、CMは0
に近くなるはず
Copyri...
実験条件
• 2種類の時系列クラスタリング
– STS Clustering : Sliding window で抽出
– Whole clustering : ランダムに抽出

• K={3,5,7,10} w={8,16,32}
• すべて...
結果1:k-means
• STSが大きい値を示す:無意味度が増す

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
結果1
• STSについて、クラスタリングをした結果
同志の距離が、まったく異なるデータで
クラスタリングした結果との距離とあま
り変わらない
• S&Pのデータと、ランダムのデータの結果
と区別つかない

Copyright (C) 2011...
さらに
• この定義(cluster distance)のみならず他の定
義でも同じ結果
– Pairwise match, minimum match, maximum
match

Copyright (C) 2011 Denso IT L...
他のアルゴリズムはどうか?
• 階層型クラスタリング
– Ward 法
– Partitioning と同じ

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
全く異なる2つの時系列
• UCRアーカイブから選ぶ
• 置き換えても同じ結果

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
そのほかまだまだ
•
•
•
•
•
•

他の手法(EM、SOMなど)
42のデータセット
他のクラスタ指標
他のシーディング方法
他のメトリック
さまざまなノーマライズ方法

• ー> orz
Copyright (C) 2011 Dens...
クラスタセンター
• サンプル
– 3つのパターン
– 各々30パターン用意

• クラスタセンター
– オリジナルに近いはず

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights R...
クラスタセンター比較
• Whole clustering
– オリジナルに近い

• STS clustering
– 90パターンをつなげる
– サイン関数
– 位相は任意で
予測つかない
Copyright (C) 2011 Denso ...
STS クラスタリングのクラスタ
は
• 元の時系列と無関係にみえる
• なぜか、サインカーブを描く
• ※どんなクラスタリングアルゴリズムで
も、どんなデータセットでも
• なぜ、このようなことになるのか?

Copyright (C) 20...
Total mean become constant

• K=1の場合平均は
定数になる

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
Trivial match

• オーバーラップした系列が近い

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
Sine curve
• Slusty (-1948)
– Moving Windowsによるスムージングを繰り返
すと、どんな系列もサイン波に収束する

• 全く同じでは無いが、似たような理由だ
ろう
– Future work

Copyr...
解決法は?
• Windowのステップを大きくする
– 実際やってみると、s << mの間は効果が無い
– S>mとするとWhole clusteringとなる
• sの設定がオフセットにシビアになる

• Kを十分大きくしてまずクラスタリング...
結論
• Moving Window のクラスタリングは
– やらない方がいい?

Copyright (C) 2011 Denso IT Laboratory, Inc.
All Rights Reserved.
Upcoming SlideShare
Loading in …5
×

Clustering of time series subsequences is meaningless 解説

561 views

Published on

UCRのKeoghらの時系列クラスタリングに関する論文の解説。Keogh, Eamonn, and Jessica Lin. "Clustering of time-series subsequences is meaningless: implications for previous and future research." Knowledge and information systems 8.2 (2005): 154-177.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
561
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Clustering of time series subsequences is meaningless 解説

  1. 1. Clustering of Time Series Subsequences is Meaningless: Implications for Previous and Future Research NTS 2011/3/1 増谷 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  2. 2. 時系列クラスタリング • 様々な分野で活用 – Biology,Finance,Geology,Space Exploration,Robotics,Human motion analysis – クラスタリングは前処理、サブルーチンとし て良く使われる – Rule discovery, indexing, classification, prediction,anomaly detection. • 使っている人? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  3. 3. 2種類の時系列クラスタリング • 分割されたクラスタを使うパターン – 1日ごとの集計とか • Moving Windowを使うパターン – 過去数ステップの細切れ時系列を使うとか Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  4. 4. 概要 • “Clustering of Time Series Subsequences is Meaningless: Implications for Previous and Future Research”, Eamonn Keogh, Jessica Lin Knowledge and Information Systems, 2005 • 時系列のクラスタリングのうち、Moving Windowを用いるものは意味がない – クラスタリングをしても意味の無い結果にな る – どんなクラスタリング、データに対しても同 じ結果 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  5. 5. クラスタ集合間距離 クラスタ集合 クラスタ集合間距離 クラスタ集合Aの各クラスタ中心はBのクラスタと対応させる A B Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  6. 6. サンプルデータ • 3 random restart • X : stock market dataset • Y : random walk dataset Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  7. 7. restart • セット内距離 • セット間距離 • クラスタ意味あり度合 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  8. 8. クラスタ意味あり度合 • ランダムなrestartをしても同じような結果 が得られる場合0に近づく • まったく関係の無いクラスタとの距離 (基準):比較的大きいはず • 意味のあるクラスタリングでは、CMは0 に近くなるはず Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  9. 9. 実験条件 • 2種類の時系列クラスタリング – STS Clustering : Sliding window で抽出 – Whole clustering : ランダムに抽出 • K={3,5,7,10} w={8,16,32} • すべての組み合わせを各100回 • S&Pの終値時系列データ Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  10. 10. 結果1:k-means • STSが大きい値を示す:無意味度が増す Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  11. 11. 結果1 • STSについて、クラスタリングをした結果 同志の距離が、まったく異なるデータで クラスタリングした結果との距離とあま り変わらない • S&Pのデータと、ランダムのデータの結果 と区別つかない Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  12. 12. さらに • この定義(cluster distance)のみならず他の定 義でも同じ結果 – Pairwise match, minimum match, maximum match Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  13. 13. 他のアルゴリズムはどうか? • 階層型クラスタリング – Ward 法 – Partitioning と同じ Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  14. 14. 全く異なる2つの時系列 • UCRアーカイブから選ぶ • 置き換えても同じ結果 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  15. 15. そのほかまだまだ • • • • • • 他の手法(EM、SOMなど) 42のデータセット 他のクラスタ指標 他のシーディング方法 他のメトリック さまざまなノーマライズ方法 • ー> orz Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  16. 16. クラスタセンター • サンプル – 3つのパターン – 各々30パターン用意 • クラスタセンター – オリジナルに近いはず Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  17. 17. クラスタセンター比較 • Whole clustering – オリジナルに近い • STS clustering – 90パターンをつなげる – サイン関数 – 位相は任意で 予測つかない Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  18. 18. STS クラスタリングのクラスタ は • 元の時系列と無関係にみえる • なぜか、サインカーブを描く • ※どんなクラスタリングアルゴリズムで も、どんなデータセットでも • なぜ、このようなことになるのか? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  19. 19. Total mean become constant • K=1の場合平均は 定数になる Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  20. 20. Trivial match • オーバーラップした系列が近い Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  21. 21. Sine curve • Slusty (-1948) – Moving Windowsによるスムージングを繰り返 すと、どんな系列もサイン波に収束する • 全く同じでは無いが、似たような理由だ ろう – Future work Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  22. 22. 解決法は? • Windowのステップを大きくする – 実際やってみると、s << mの間は効果が無い – S>mとするとWhole clusteringとなる • sの設定がオフセットにシビアになる • Kを十分大きくしてまずクラスタリング – 結果のクラスタを再度クラスタリング – これも効果が無い(sineカーブになる) Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  23. 23. 結論 • Moving Window のクラスタリングは – やらない方がいい? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.

×