• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
データマイニング+WEB 勉強会@東京-蓄積データの有効活用-
 

データマイニング+WEB 勉強会@東京-蓄積データの有効活用-

on

  • 5,241 views

「データマイニング+WEB 勉強会@東京」に関し、Tsukuba.R #7 LT祭り(10分×12本) で話した資料です。 ...

「データマイニング+WEB 勉強会@東京」に関し、Tsukuba.R #7 LT祭り(10分×12本) で話した資料です。 「(階層的)クラスター分析」と「時系列分析」に関し、R言語の実行可能なコードも交え話しています。 (10/05/09) hamadakoichi

Statistics

Views

Total Views
5,241
Views on SlideShare
4,976
Embed Views
265

Actions

Likes
6
Downloads
0
Comments
0

3 Embeds 265

http://d.hatena.ne.jp 235
http://www.slideshare.net 18
http://s.deeeki.com 12

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    データマイニング+WEB 勉強会@東京-蓄積データの有効活用- データマイニング+WEB 勉強会@東京-蓄積データの有効活用- Presentation Transcript

    • Tsukuba.R#7 2010/05/09 データマイニング+WEB 勉強会@東京 -蓄積データの有効活用- hamadakoichi 濱田 晃一
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • hamadakoichi 濱田晃一 http://iddy.jp/profile/hamadakoichi
    • 自己紹介:hamadakoichi 濱田晃一
    • 自己紹介:hamadakoichi 濱田晃一 データマイニング+WEB勉強会@東京 主催者です
    • 自己紹介:hamadakoichi 濱田晃一 理論物理 博士(2004.3取得) 量子統計場の理論 Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf
    • 自己紹介:hamadakoichi 濱田晃一 文部大臣に褒められた 元 文部大臣・法務大臣 六法全書著者・元法学政治学研究科長 森山眞弓さん 菅野和夫さん
    • 自己紹介:hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた ・HIP HOP/House ダンス歴13年 ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel: http://www.youtube.com/hamadakoichi
    • 自己紹介:hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi
    • 濱田の思い 数理解析手法を用い 実世界の活動の課題を解決したい
    • 数理解析手法の実ビジネスへの適用 2004年 博士号取得後 プロセス改革コンサルティングのベンチャー企業へ
    • 数理解析手法の実ビジネスへの適用 2004年 博士号取得後 プロセス改革コンサルティングのベンチャー企業へ ※写真:会社紹介パンフレットより引用 プロセス改革ベンチャー企業 ・ベンチャー・オブ・ザ・イヤー2002受賞 ・小泉首相 工場見学 ・第1回ものづくり日本受賞-経済産業大臣賞 受賞 INCS INC. : http://www.incs.co.jp
    • 数理解析手法の実ビジネスへの適用 数理解析手法を実ビジネス適用する 方法論・システムを作り上げてきました 主な領域 ◆活動の数理モデル化・解析手法 ◆業務プロセス分析手法・再構築手法 ◆業務プロセス実行制御・実績解析システム … 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment",
    • 数理解析手法の実ビジネスへの適用:活動実績 (抜粋) 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 体系適用 500 適用後 設計開始~頭だし 出荷C T 360.4h(15.0日) 400 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 00 00 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 0 7 4 1 8 5 1 8 5 2 9 6 3 0 /2 /2 /0 /1 /1 /2 /0 /0 /1 /2 /2 /0 /1 /2 / 09 / 09 / 10 / 10 / 10 / 10 / 11 / 11 / 11 / 11 / 11 / 12 / 12 / 12 04 04 04 04 04 04 04 04 04 04 04 04 04 04 20 20 20 20 20 20 20 20 20 20 20 20 20 20 週集計開始日時
    • 数理解析手法の実ビジネスへの適用:活動実績 (抜粋) ビジネスとともに 学術分野でも貢献 変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 … 一品一様な業務プロセスを含む 統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系 論文(体系の一部) M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada, “Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation to an Unmanned Machine Shop”, CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007)
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • データマイニング+WEB勉強会@東京 思い
    • データマイニング+WEB勉強会@東京 思い 蓄積データを活用し
    • データマイニング+WEB勉強会@東京 思い 蓄積データを活用し 継続的に活動進化できる 世界を作りたい
    • データマイニング+WEB勉強会@東京 ひとりでは世界は創れない
    • データマイニング+WEB勉強会@東京 みんなの協力が必要
    • データマイニング+WEB勉強会@東京 蓄積データを有効活用したい人が
    • データマイニング+WEB勉強会@東京 蓄積データを有効活用したい人が それを実現できるようにしたい
    • データマイニング+WEB勉強会@東京 データマイニング+WEB勉強会@東京 (#TokyoWebmining) 始めました
    • 目的:データマイニング+WEB勉強会@東京
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング 最適解探索 アルゴリズム
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング 対応分析 時系列分析 回帰分析 クラスター分析 判別分析 主成分分析 因子分析 カーネル法 樹木モデル ニューラルネットワーク サポートベクターマシン … 最適解探索 アルゴリズム
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … … 最適解探索 アルゴリズム
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 3つの進行方針
    • データマイニング+WEB勉強会@東京を
    • データマイニング+WEB勉強会@東京を 発表者・参加者にとって より有意義な場にしたい
    • データマイニング+WEB勉強会@東京を 発表者・参加者にとって より有意義な場にしたい 3つの進行方針
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く)
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 開催史 開催史 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 開催史 開催史 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 開催史 開催史 統計解析 Web API はじめてでもわかる データマイニング Amazon Web Service 統計解析・データマイニング R言語入門 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 開催史 開催史 統計解析 Web API はじめてでもわかる データマイニング Amazon Web Service 統計解析・データマイニング R言語入門 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Twitter API Recruit Web R言語によるクラスター分析 Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 開催史 開催史 統計解析 Web API はじめてでもわかる データマイニング Amazon Web Service 統計解析・データマイニング R言語入門 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 Twitter API 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 はてな Web Service R言語による 因子分析 判別分析 主成分分析 市場細分化と (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ 健診データへの FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク クラスタリング適用例 サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 次回開催 次回 5/16(日) 第4回開催は 統計解析 Web API はじめてでもわかる データマイニング Amazon Web Service 統計解析・データマイニング R言語入門 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 Twitter API 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 はてな Web Service R言語による 因子分析 判別分析 主成分分析 市場細分化と (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ 健診データへの FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク クラスタリング適用例 サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 次回開催 次回 5/16(日) 第4回開催は WEB祭り 統計解析 Web API はじめてでもわかる データマイニング Amazon Web Service 統計解析・データマイニング R言語入門 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 Twitter API 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 はてな Web Service R言語による 因子分析 判別分析 主成分分析 市場細分化と (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ 健診データへの FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク クラスタリング適用例 サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 次回開催 次回 5/16(日) 第4回開催は ソーシャルウェブとレコメンデーション WEB祭り レコメンデーション活用編 Web API 統計解析 はじめてでもわかる データマイニング -実開発者が語る:画像、広告、そして未来へ 統計解析・データマイニング R言語入門 Amazon Web Service はじめてでもわかる 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 WEB行動マイニング API Twitter 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 Hadoop!-入門とクラウドでの活用- はてな Web Service R言語による 因子分析 判別分析 市場細分化と 主成分分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 はじめてでもわかるYahoo! Web API入門 カーネル法 Google Data API 樹木モデル Webと物理的な世界をつなぐ Wikipediaによる (Calendar/Maps/BookSearch/ 健診データへの ニューラルネットワーク FinancePortfolioData,…)テキストマイニング入門 FinancePortfolioData, クラスタリング適用例 -WebとGainerの連携- サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -ディスカッション:WEBの未来へ (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼! 広い会場探索中。USTREAM配信も行います 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼! USTREAM配信も行います 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼! USTREAM配信も行います SPSSさんによる会場提供決定! ありがとうございます! 定員調整します 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼! USTREAM配信も行います SPSSさんによる会場提供決定! ありがとうございます! 定員調整します 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 次回開催 5/16(日) 第4回 データマイニング+WEB勉強会 満員御礼! USTREAM配信も行います SPSSさんによる会場提供決定! ありがとうございます! 定員調整します 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 2分で眺めるR言語による クラスター分析 眺める場所 ソーシャルウェブとレコメンデーション レコメンデーション活用編 Web API 統計解析 はじめてでもわかる データマイニング -実開発者が語る:画像、広告、そして未来へ 統計解析・データマイニング R言語入門 Amazon Web Service はじめてでもわかる 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 WEB行動マイニング API Twitter 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 Hadoop!-入門とクラウドでの活用- はてな Web Service R言語による 因子分析 判別分析 市場細分化と 主成分分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 はじめてでもわかるYahoo! Web API入門 カーネル法 Google Data API 樹木モデル Webと物理的な世界をつなぐ Wikipediaによる (Calendar/Maps/BookSearch/ 健診データへの ニューラルネットワーク FinancePortfolioData,…)テキストマイニング入門 FinancePortfolioData, クラスタリング適用例 -WebとGainerの連携- サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • 2分で眺めるR言語による クラスター分析 ◆クラスター分析 ◆概要 ◆手法種類 ◆評価指標 ◆階層的クラスタリング ◆アルゴリズム ◆手法とクラスタ間距離 ◆Rによる解析 ◆非階層的クラスタリング ◆k-means法 ◆混合分布モデル ...
    • R言語によるクラスター分析 クラスター分析が容易に行えます ソースコード 実行結果
    • クラスタリングとは データを類似度に従い グループに分けること クラスタリングA クラスタリングB
    • クラスタリング手法の種類 手法と帰属度の分類軸がある 分類 種類 内容 手法 階層的手法 ①各データそれぞれを一つのクラスタとする ②状態を初期状態とするクラスタの距離、類似度で2つのクラ スタを逐次的に併合していく ③目的のクラスタ数まで併合が行われたときに処理を終了す る 非階層的手法 ①データの良さを表す評価関数を設定する (分割最適化) ②評価関数に対する最適解(最適分割)を探索する 帰属度 ハードクラスタリ 各データは一つのクラスタのみに所属する ング ソフトクラスタリ 各データが複数のクラスタリングに所属することを許す ング (※最も帰属度が高いクラスタを抽出すると、ハードクラスタリ ングとなる)
    • クラスタリング手法の種類 各クラスタリング手法 種類 ハード ソフト 階層的 ・群平均法 ・単連結法 ・完全連結法 ・ウォード法 ・重心法 ・メディアン法 非階層的 ・k-means ・混合分布モデル ・スペクトラルクラスタリング ・次元縮約 (LSI/pLSI/NMF) ・Fuzzy c-means ※LSI: Latent Semantic Indexing, pLSI: Probabilistic LSI, NMF: Non-Negative Matrix Factorization
    • クラスタリング手法の種類 階層的手法 分類 種類 内容 手法 階層的手法 ①各データそれぞれを一つのクラスタとする ②状態を初期状態とするクラスタの距離、類似度で2つのクラ スタを逐次的に併合していく ③目的のクラスタ数まで併合が行われたときに処理を終了す る 非階層的手法 ①データの良さを表す評価関数を設定する (分割最適化) ②評価関数に対する最適解(最適分割)を探索する 帰属度 ハードクラスタリ 各データは一つのクラスタのみに所属する ング ソフトクラスタリ 各データが複数のクラスタリングに所属することを許す ング (※最も帰属度が高いクラスタを抽出すると、ハードクラスタリ ングとなる)
    • 階層的手法:特徴 古典的で直感的にも自然な手法 最終的に一つのクラスタにまとまる
    • 階層的手法:アルゴリズム アルゴリズム ①各データが自身をクラスターと考え データ数のクラスターを作る ②クラスタ間の距離を測り クラスタ間の距離行列を作成する ③最も距離の近いクラスタを併合する ④クラスタ間の距離行列を作成する ⑤最も短い距離のクラスタを併合する ※ひとつのクラスタになるまで繰り返し
    • 階層的手法:アルゴリズム アルゴリズム ①各データが自身をクラスターと考え データ数のクラスターを作る ②クラスタ間の距離を測り クラスタ間の距離行列を作成する ③最も距離の近いクラスタを併合する ④クラスタ間の距離行列を作成する ⑤最も短い距離のクラスタを併合する ※ひとつのクラスタになるまで繰り返し
    • 階層的手法:手法とクラスタ間距離 クラスタ間距離の種類 クラスタリング手法 クラスタ間距離 群平均法 クラスタ間の全てのデータ組合せの距離の平均値 (Group Average method ) 単連結法 クラスタ間の最小距離を与えるデータ対の距離 (Single Linkage Method ) 完全連結法 クラスタの最大距離を与えるデータ対の距離 (Complete Linkage Method) ウォード法 クラスタ内の平方和の増加分 (Ward Method) 重心法 クラスタの重心間の距離の自乗 (Centroid Method) メディアン法 重心法と同じ。クラスタ併合時に、新たな重心を元の (Median Method) 重心の中点にとる。
    • 階層的手法: Rによる解析 階層的クラスタリングの関数 Hierarchical Clustering hclust(d, method=“complete”, member =NULL, ...) d:距離行列 method: 階層的クラスタリング手法を指定 members: 通常は指定しない。 ※テンドログラムの途中から クラスタリングを行いたい場合に用いる
    • 階層的手法:手法とクラスタ間距離 クラスタ間距離の指定引数 クラスタリング手法 クラスタ間距離 method 群平均法 クラスタ間の全てのデータ組合せの距離 “average“ (Group Average method ) の平均値 単連結法 クラスタ間の最小距離を与えるデータ対の “single” (Single Linkage Method ) 距離 完全連結法 クラスタの最大距離を与えるデータ対の距 “complete” (Complete Linkage 離 Method) (Default) ウォード法 クラスタ内の平方和の増加分 “ward” (Ward Method) 重心法 クラスタの重心間の距離の自乗 “centroid” (Centroid Method) メディアン法 重心法と同じ。クラスタ併合時に、新たな “median” (Median Method) 重心を元の重心の中点にとる。
    • Rプログラム例:クラスター分析 (階層的手法) 各種クラスター分析が容易に行えます ソースコード 実行結果
    • Rプログラム例:クラスター分析 (階層的手法) ソースコード
    • Rプログラム例:クラスター分析 (階層的手法) 実行結果
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 2分で眺めるR言語による 時系列分析 眺める場所 ソーシャルウェブとレコメンデーション レコメンデーション活用編 Web API 統計解析 はじめてでもわかる データマイニング -実開発者が語る:画像、広告、そして未来へ 統計解析・データマイニング R言語入門 Amazon Web Service はじめてでもわかる 楽天 Web Service 対応分析 時系列分析 はじめてでもわかる Recruit Web Service R言語による時系列分析 WEB行動マイニング API Twitter 回帰分析 Yahoo! Web 言語によるクラスター分析 R Service クラスター分析 Hadoop!-入門とクラウドでの活用- はてな Web Service R言語による 因子分析 判別分析 市場細分化と 主成分分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, クラスター分析 - 活用編 クラスター分析 はじめてでもわかるYahoo! Web API入門 カーネル法 Google Data API 樹木モデル Webと物理的な世界をつなぐ Wikipediaによる (Calendar/Maps/BookSearch/ 健診データへの ニューラルネットワーク FinancePortfolioData,…)テキストマイニング入門 FinancePortfolioData, クラスタリング適用例 -WebとGainerの連携- サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic 機械学習入門 Ant Colony - SVMによる画像分類 - 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム
    • R言語による時系列分析 各種時系列分析が容易に行えます ソースコード 実行結果
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆GARCHモデル
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆GARCHモデル
    • 時系列表示 関数 ts.plot 折れ線グラフ表示
    • データオブジェクトの作成 関数 ts 時系列オブジェクト作成 非時系列オブジェクトから時系列データオブジェクトを作成する
    • 差分 関数 diff ytからyt-1を引く トレンドを除去できる 差分定義 UKgas diff(UKgas)
    • 時系列データの統計量 時系列データの特性を表す統計量 時系列 に対して 定義 ◆ 標本平均 ◆ と の 標本自己共分散 ◆ と の 標本自己相関関数 平均や自己共分散 時間変化しない ⇒定常時系列 時間変化する ⇒非定常時系列
    • 時系列データの統計量 関数 acf 自己共分散、自己相関を求める acf(x, type=“correlation”, plot = TRUE,…) 引数 x : 時系列データ type : “correlation(自己相関)”, “covariance(自己共分散)”, “partial(偏相関)”, (デフォルト:“correlation(自己相関)”) plot :自動図示の指定(デフォルト:TRUE)
    • 時系列データの統計量 関数 acf 自己共分散、自己相関を求める correlation covariance partial (自己相関) (自己共分散) (偏相関)
    • スペクトル分析 隠された周期性を解析 周期成分の強度分布算出 フーリエ変換 時間k成分 ⇒ 振動数f成分 Spectrum (Power Spectral density Function) 時系列の自己共分散のフーリエ変換 Periodgram 標本データの自己共分散のフーリエ変換
    • スペクトル分析 隠された周期性を解析 周期成分の強度分布算出 スペクトル分析 スペクトル分析 時系列表示 スペクトル分析 (Daniell平滑化) (自己回帰)
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆ARCHモデル
    • ARモデル AutoRegression(自己回帰) Model 時系列時点 t-p から tまでの各データの関係式 ai : 自己回帰係数 (i=1,..,p) p : 次数 et: 残差(平均0、分散σ2)の正規分布 モデル推定 Yule-Walker法, 最小2乗法 最尤法, Burg法, … 次数 p と 自己回帰係数 ai (i=1,..,p)を決定する 次数pのARモデル AR(p)
    • 関数arとモデル推定 ar 自己回帰モデルを求める関数 ar(x, aic=TURE,method=“”, order.max=NULL) 引数 x : 時系列データ aic : モデルを評価する情報量基準AICを用いるか method :自己回帰を推定する方法 “yule-walker (ユールウォーカー法)(Default)”, “ols(最小2乗法)”, “mle(最尤法)”, “burg(バーグ法)” order.max : 次数の最大値を指定
    • 関数arとモデル推定
    • 関数arとモデル推定
    • 予測 Predict 自己回帰モデルarで求めたモデルを用い予測する 1986年までのデータから1987以降を予測
    • 予測 Predict 自己回帰モデルarで求めたモデルを用い予測する 1986年までのデータから1987以降を予測
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆ARCHモデル
    • ARMA/ARIMAモデル ARMAモデル:AR(p,q) (AutoRegressive Moving Average:自己回帰移動平均) ARモデルに残差の移動平均を加えたモデル 残差の移動平均 ytのd階の差分演算子のモデル ARIMAモデル:AR(p,d,q) (AutoRegressive Integrated Moving Average:自己回帰和分移動平均)
    • 関数armaとモデル推定 関数 arima 単変量時系列データを当てはめるARMAモデル関数 arima(x, order =c(0,0,0),..)) 引数 x : 時系列データ order : (自己回帰の次数 p, 差分の階数 d, 過去の残差の移動平均の次数q) ARIMAモデル:AR(p,d,q)
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆ARCHモデル
    • ARFIMAモデル ARFIMAモデル (AutoRegressive Fractionally Integrated Moving Average) 自己回帰実数和分移動平均 ARMAモデルの過剰差分を克服する 差分の次数dを任意の次数に一般化 fracdiff(x, nar =0,dtol=NULL, nma=0,..)) 引数 x : 時系列データ nar : 自己回帰の次数 p, tdol:差分の階数 d, nma:過去の残差の移動平均の次数q
    • 2分で眺めるR言語による 時系列分析 ◆基本データ操作 ◆時系列グラフ作成 ◆時系列オブジェクト作成 ◆差分 ◆自己共分散・自己相関・偏相関 ◆スペクトル分析 ◆ARモデル ◆ARMA/ARIMAモデル ◆ARFIMAモデル ◆ARCHモデル
    • ARCHモデル ARCHモデル (AutoRegressive Conditional Heteroscedastic) 自己回帰条件付き分散不均一 ARCHモデル 条件付平均 条件付分散 の 正規分布 に従う。 拡張 GARCH (Generalized ARCH)モデル R言語でのGARCHモデル当てはめ関数 ・garch (package : tseries) ・garchfit (package: fSeries)
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA 今回この部分の抜粋資料を4分で眺めましたが ◆自己紹介 安心してください データマイニング+WEB勉強会@東京では ◆創設の思い・目的・進行方針 4時間で詳細内容を皆で理解・議論します ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA 今回この部分の抜粋資料を4分で眺めましたが ◆自己紹介 安心してください データマイニング+WEB勉強会@東京では ◆創設の思い・目的・進行方針 4時間で詳細内容を皆で理解・議論します ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA 今回この部分の抜粋資料を4分で眺めましたが ◆自己紹介 安心してください データマイニング+WEB勉強会@東京では ◆創設の思い・目的・進行方針 4時間で詳細内容を皆で理解・議論します ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • AGENDA 今回この部分の抜粋資料を4分で眺めましたが ◆自己紹介 安心してください データマイニング+WEB勉強会@東京では ◆創設の思い・目的・進行方針 4時間で詳細内容を皆で理解・議論します ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 最後に 蓄積されたデータを有効活用してきたい
    • 最後に 蓄積されたデータを有効活用してきたい Google Group: http://groups.google.com/group/webmining-tokyo
    • 最後に データマイニング+WEB勉強会 発表者を募集しています 連絡 Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • 最後に 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り です
    • 最後に 5/16(日) 第4回 データマイニング+WEB勉強会 WEB祭り ぜひご参加下さい。USTREAM配信します AGENDA 5/16(日) 12:00 - 21:00 -ソーシャルウェブとレコメンデーション (講師:@hamadakoichi) (60分) -レコメンデーション活用編-実開発者が語る:画像、広告、そして未来へ-(講師:@karubi)(60分) -はじめてでもわかるWEB行動マイニング (講師:@kur) (60分) -Hadoop!-入門とクラウドでの活用-(講師:@yanaoki)(60分) -はじめてでもわかるYahoo! Web API入門(講師:@yokkuns) (60分) -Wikipediaによるテキストマイニング入門(講師:@nokuno) (60分) -Webと物理的な世界をつなぐ-WebとGainerの連携-(講師:@oga_shin) (60分) -ディスカッション:WEBの未来へ (進行:@hamadakoichi) (30分) 参加登録 ATND : http://atnd.org/events/4319 アナウンス Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi
    • ご清聴ありがとうございました
    • AGENDA ◆自己紹介 ◆創設の思い・目的・進行方針 ◆開催史 ◆R言語コード紹介 ◆2分で眺めるR言語による クラスター分析 ◆2分で眺めるR言語による 時系列分析 ◆最後に
    • 目的: データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) Bookmark/Graph/Keyword, カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) FinancePortfolioData, ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム