Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

13.12.07 CIKM2013読み会

309 views

Published on

  • Be the first to comment

  • Be the first to like this

13.12.07 CIKM2013読み会

  1. 1. CIKM2013 論文読み会 FIRE: Interactive Visual Support for Parameter Space-Driven Rule Mining Abhishek Mukherji, Xika Lin, Jason Whitehouse, Christopher R. Botaish, Elke A. Rundensteiner and Matthew O. Ward 2013.12.07(土) 大木基至
  2. 2. 01. 自己紹介 ・名前:大木基至(25歳) ・所属:通信会社のデータプラットホームチーム ・マイブーム:人狼、ボドゲ、ジム ・スキル:マイニングが好き ・2年前くらいからマーケティングへのマイニング の応用を勝手にやってます • 2012年度VMStudio & TMStudio学生研究“優秀賞”:アン ケート調査とTwitterの解析に基づく就職活動支援策の提 案 • 2012年度S-PLUS学生研究“佳作賞”:数量化理論第Ⅱ類と アソシエーションルール解析による自動車バナーデザイン の分析(詳細) • 2011年度VMStudio & TMStudio学生研究“佳作賞”:多変 量解析を用いた大学生のためのニュースサイトの構築 ・今年も1件出して、現在1件取り組み中 ・予測モデル系コンペもやってみたいけど、やるこ と多すぎてフリーズ中 2013.12.07 発表資料 シリコンバレー Google 本社にて 1 / 15
  3. 3. 02. モチベーション ・大学時代にルールマイニング系の研究をしていた - 1.ルールの可視化システムの開発 - 3次元ネットワーク図で表現するみたいなやつ - 2.ルールの評価指標の研究 - ルールの頑健性を定義し、有用性を検証 ・というわけで、ルールマイニング系を発表します ・でも、今日は時間なかったので、応用系に逃げました ・10時から読んで作ったので、詳細は 知りません(ごめんなさい) 2013.12.07 発表資料 2 / 15
  4. 4. 03. 概要 • 効率的にルールを発見すること重要! • 一方、マイニングシステムのユーザビリティが遅れてる • ルール間の関係を対話的に探索したい • その際、ルールマイニングのパラメータも多くて大変 • FIRE(Framework for Interactive Rule Exploration) を提案し、ユーザビリティを向上させる • ルールの分布を表示するビジュアルにこだわる • パラメータ選択やユーザの理解を助ける • 22人でユーザビリティ実験 • 対話的マイニング、知識発見、ビジュアル分析に重要な 貢献を果たせた 2013.12.07 発表資料 3 / 15
  5. 5. 04. Introduction • ルールマイニングと言えば、バスケット分析的な(?) • 有名なアルゴリズムと言えば、Agrawalのアプリオリアル ゴリズム • いわゆる支持度に基づく抽出 • 単純だけど、よく使われる • 抽出までのパフォーマンス(質と速さ)は割とやってる • マイニングシステムのためのユーザビリティにもそろそ ろ力いれよう • けど、いろいろユーザビリティ向上には課題が… 2013.12.07 発表資料 4 / 15
  6. 6. 04. Introduction 課題 • パラメータチューニング • データに応じて、パラメータ(閾値とか)調整必要 • 閾値の高すぎるパラメータだとルールを絞りすぎて • ルール間の関係可視化 • お互いをカバーしてるルールとかあったりで関係ってのはある • 大量のルールの中でもう少しグルーピングとかしたい • パレート最適 • 一般に1つの評価指標でルールは評価しない • 2つ以上の評価指標を使って最適なルールを見つけましょう …などなど 2013.12.07 発表資料 5 / 15
  7. 7. 04. Introduction とりあえずやってること • FIRE • PSpace View:全体的なパラメータスペースビュー • RSpace View:詳細なルールスペースビュー • Supportとconfidenceの値で2次元にマッピングする • A→Bのルールで、 Support = |A ⋂ B|、Confidence = |A ⋂ B |/| A| • ルールを抽出して、各ルールをマッピング • これらのビューで課題を解決する • 最後にユーザ使ってシステム評価もする • うーむ、怪しい 2013.12.07 発表資料 6 / 15
  8. 8. 05. Interactive Rule Mining Model • これがFIRE!(うーん、なんだコレ) PSpace View 2013.12.07 発表資料 RSpace View 7 / 15
  9. 9. 06. FIRE Interactive Visualization • X軸がsupport値 • Y軸がconfidence値 • 色の濃さでルールの頻度 を表現 • 領域は各閾値を満たす ルールセット 2013.12.07 発表資料 8 / 15
  10. 10. 06. FIRE Interactive Visualization 各領域でユ ニークな ルールの みを描画 2013.12.07 発表資料 冗長なルー ルを取り除 いて描画 9 / 15
  11. 11. 06. FIRE Interactive Visualization • トップ100のルールが 欲しいってなったときに 境界を描画 • 例はConfidenceで 2013.12.07 発表資料 10 / 15
  12. 12. 06. FIRE Interactive Visualization 領域をクリックしたら、詳細でるよ 2013.12.07 発表資料 11 / 15
  13. 13. 06. FIRE Interactive Visualization 二つの領域の比較もお手軽に!(そうか?) 2013.12.07 発表資料 12 / 15
  14. 14. 07. Evaluation • ユーザに使ってもらって評価実験をした • 以下の手順 • 1.ルールマイニングを説明 • 2.FIREの使い方説明 • 3.30分~50分で分析 • 比較はWEKAのようなCRMっていう既存のソフトで • 探索の時間で効率性を、良いルールをどれだけ選べるか で精度を評価する • データセットはおなじみUCI • 5種類のタスクをしてる • 時間がないため、詳細は口頭で 2013.12.07 発表資料 13 / 15
  15. 15. 07. Evaluation ほぼ圧勝!! 2013.12.07 発表資料 14 / 15
  16. 16. 08. おまけ • これが良いかどうかはともかく、ビジュアライジングの 一例として使っていただければ… • 濃淡と領域表現は参考になった • ちなみに、CIKM2013には他に、定量的な属性しかない テーブルから定量ルールを抽出する方法がありました • ルールマイニングのトレンド • Interestingness Measureの研究 • ルールセットの評価 • ルール抽出してた人らが、ルール抽出しないでクラス分類をする 方法を提案し出した(Lazy Classification) • 速度が速くて、精度が高い • 仕事だとルールマイニングは結構好かれると個人的に思 う(某コンサル会社は決定木を一番使うらしい) 2013.12.07 発表資料 15 / 15

×