Clustering of time series subsequences is meaningless 解説

  • 155 views
Uploaded on

UCRのKeoghらの時系列クラスタリングに関する論文の解説。Keogh, Eamonn, and Jessica Lin. "Clustering of time-series subsequences is meaningless: implications for previous and future research." Knowledge and information systems …

UCRのKeoghらの時系列クラスタリングに関する論文の解説。Keogh, Eamonn, and Jessica Lin. "Clustering of time-series subsequences is meaningless: implications for previous and future research." Knowledge and information systems 8.2 (2005): 154-177.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
155
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Clustering of Time Series Subsequences is Meaningless: Implications for Previous and Future Research NTS 2011/3/1 増谷 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 2. 時系列クラスタリング • 様々な分野で活用 – Biology,Finance,Geology,Space Exploration,Robotics,Human motion analysis – クラスタリングは前処理、サブルーチンとし て良く使われる – Rule discovery, indexing, classification, prediction,anomaly detection. • 使っている人? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 3. 2種類の時系列クラスタリング • 分割されたクラスタを使うパターン – 1日ごとの集計とか • Moving Windowを使うパターン – 過去数ステップの細切れ時系列を使うとか Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 4. 概要 • “Clustering of Time Series Subsequences is Meaningless: Implications for Previous and Future Research”, Eamonn Keogh, Jessica Lin Knowledge and Information Systems, 2005 • 時系列のクラスタリングのうち、Moving Windowを用いるものは意味がない – クラスタリングをしても意味の無い結果にな る – どんなクラスタリング、データに対しても同 じ結果 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 5. クラスタ集合間距離 クラスタ集合 クラスタ集合間距離 クラスタ集合Aの各クラスタ中心はBのクラスタと対応させる A B Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 6. サンプルデータ • 3 random restart • X : stock market dataset • Y : random walk dataset Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 7. restart • セット内距離 • セット間距離 • クラスタ意味あり度合 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 8. クラスタ意味あり度合 • ランダムなrestartをしても同じような結果 が得られる場合0に近づく • まったく関係の無いクラスタとの距離 (基準):比較的大きいはず • 意味のあるクラスタリングでは、CMは0 に近くなるはず Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 9. 実験条件 • 2種類の時系列クラスタリング – STS Clustering : Sliding window で抽出 – Whole clustering : ランダムに抽出 • K={3,5,7,10} w={8,16,32} • すべての組み合わせを各100回 • S&Pの終値時系列データ Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 10. 結果1:k-means • STSが大きい値を示す:無意味度が増す Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 11. 結果1 • STSについて、クラスタリングをした結果 同志の距離が、まったく異なるデータで クラスタリングした結果との距離とあま り変わらない • S&Pのデータと、ランダムのデータの結果 と区別つかない Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 12. さらに • この定義(cluster distance)のみならず他の定 義でも同じ結果 – Pairwise match, minimum match, maximum match Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 13. 他のアルゴリズムはどうか? • 階層型クラスタリング – Ward 法 – Partitioning と同じ Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 14. 全く異なる2つの時系列 • UCRアーカイブから選ぶ • 置き換えても同じ結果 Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 15. そのほかまだまだ • • • • • • 他の手法(EM、SOMなど) 42のデータセット 他のクラスタ指標 他のシーディング方法 他のメトリック さまざまなノーマライズ方法 • ー> orz Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 16. クラスタセンター • サンプル – 3つのパターン – 各々30パターン用意 • クラスタセンター – オリジナルに近いはず Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 17. クラスタセンター比較 • Whole clustering – オリジナルに近い • STS clustering – 90パターンをつなげる – サイン関数 – 位相は任意で 予測つかない Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 18. STS クラスタリングのクラスタ は • 元の時系列と無関係にみえる • なぜか、サインカーブを描く • ※どんなクラスタリングアルゴリズムで も、どんなデータセットでも • なぜ、このようなことになるのか? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 19. Total mean become constant • K=1の場合平均は 定数になる Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 20. Trivial match • オーバーラップした系列が近い Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 21. Sine curve • Slusty (-1948) – Moving Windowsによるスムージングを繰り返 すと、どんな系列もサイン波に収束する • 全く同じでは無いが、似たような理由だ ろう – Future work Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 22. 解決法は? • Windowのステップを大きくする – 実際やってみると、s << mの間は効果が無い – S>mとするとWhole clusteringとなる • sの設定がオフセットにシビアになる • Kを十分大きくしてまずクラスタリング – 結果のクラスタを再度クラスタリング – これも効果が無い(sineカーブになる) Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.
  • 23. 結論 • Moving Window のクラスタリングは – やらない方がいい? Copyright (C) 2011 Denso IT Laboratory, Inc. All Rights Reserved.