10回開催記念 「データマイニング+WEB ~データマイニング・機械学習活用による継続進化~」ー第10回データマイニング+WEB勉強会@東京ー #TokyoWebmining

6,529
-1

Published on

第10回 データマイニング+WEB勉強会@東京。

10回開催記念 トーク:
「データマイニング+WEB ~データマイニング・機械学習活用による継続進化~」 #TokyoWebmining #10

Published in: Technology
0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
6,529
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
0
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide

10回開催記念 「データマイニング+WEB ~データマイニング・機械学習活用による継続進化~」ー第10回データマイニング+WEB勉強会@東京ー #TokyoWebmining

  1. 1. 10th Anniversary TokyoWebmining 2011/02/27 10回開催記念 データマイニング+WEB~データマイニング・機械学習活用による継続進化~ hamadakoichi 濱田 晃一
  2. 2. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  3. 3. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  4. 4. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  5. 5. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  6. 6. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  7. 7. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  8. 8. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  9. 9. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  10. 10. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  11. 11. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  12. 12. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  13. 13. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  14. 14. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  15. 15. データマイニング+WEB勉強会@東京第1回-データマイニング入門ー第2回-クラスタリング入門-第3回-クラスタリング活用-第4回-WEB祭り-第5回-WEB解析・最適化祭り-第6回-ソーシャル・広告・最適化祭り-第7回-機械学習・解析・セマンティックウェブ祭り-第8回-大規模解析・ウェブ・クオンツ 祭り第9回-1st Week- 大規模解析・機械学習・クオンツ 祭り-第9回-2nd Week-方法論・ソーシャル 祭り-第10回 -1st Week-広告ネットワーク・グラフ解析・並列機械学習祭り-
  16. 16. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  17. 17. データマイニング+WEB勉強会@東京 思い 17
  18. 18. データマイニング+WEB勉強会@東京 思い 蓄積データを活用し 18
  19. 19. データマイニング+WEB勉強会@東京 思い 蓄積データを活用し 継続的に活動進化できる 世界を作りたい 19
  20. 20. データマイニング+WEB勉強会@東京蓄積データを有効活用したい人が 20
  21. 21. データマイニング+WEB勉強会@東京蓄積データを有効活用したい人が それを実現できるようにしたい 21
  22. 22. データマイニング+WEB勉強会@東京データマイニング+WEB勉強会@東京 (#TokyoWebmining) 始めました 22
  23. 23. 目的:データマイニング+WEB勉強会@東京 23
  24. 24. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 24
  25. 25. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング 最適解探索 アルゴリズム 25
  26. 26. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング 対応分析 時系列分析 回帰分析 クラスター分析 判別分析 主成分分析 因子分析 カーネル法 樹木モデル ニューラルネットワーク サポートベクターマシン … 最適解探索 アルゴリズム 26
  27. 27. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) ニューラルネットワーク サポートベクターマシン … … 最適解探索 アルゴリズム 27
  28. 28. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム 28
  29. 29. 目的:データマイニング+WEB勉強会@東京 データマイニングの方法論を用い 蓄積されたデータを有効活用していく方法を学ぶ 統計解析 Web API データマイニング Amazon Web Service 楽天 Web Service 対応分析 時系列分析 Twitter API Recruit Web Service 回帰分析 Yahoo! Web Service クラスター分析 はてな Web Service 判別分析 主成分分析 因子分析 (Bookmark/Graph/Keyword,…) カーネル法 Google Data API 樹木モデル (Calendar/Maps/BookSearch/ FinancePortfolioData,…) ニューラルネットワーク サポートベクターマシン … 免疫型最適化 Particle Swam … Memetic Ant Colony 遺伝的 熱力学的 シミュレーテドアニーリング 力学モデルによる最適化 タブーサーチ グラフ … 最適解探索 アルゴリズム 29
  30. 30. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  31. 31. データマイニング+WEB勉強会@東京を 31
  32. 32. データマイニング+WEB勉強会@東京を 発表者・参加者にとって より有意義な場にしたい 32
  33. 33. データマイニング+WEB勉強会@東京を 発表者・参加者にとって より有意義な場にしたい 3つの進行方針 33
  34. 34. 3つの進行方針 充分な時間を充て 理解・議論を優先する 34
  35. 35. 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 35
  36. 36. 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 36
  37. 37. 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。 37
  38. 38. 3つの進行方針 充分な時間を充て 理解・議論を優先する 1.充分な時間: 各テーマごとにしっかり時間を充てる (浅く多くではなく、少ないテーマでも深く) 2.理解: 進行を急がない。分からないところはすぐ質問。 講師・各メンバーからの返答で、みなで理解を深めることを優先する。 3.議論: 議論時間をしっかりとる。 各分野の意見の共有、皆での発想・創造を優先する。 全員でのフラットな議論。講師にとっても有意義な場となるようにする。 38
  39. 39. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  40. 40. hamadakoichi 濱田晃一http://iddy.jp/profile/hamadakoichi 40
  41. 41. 活動領域 ソーシャルメディアのデータマイニング活用 2300万人以上の人々へ 各人のつながり・楽しみ・好み 個性にあった適切なサービス提供 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 41
  42. 42. データマイニング+WEB勉強会@東京 データマイニング+WEB勉強会@東京の主催者です TokyoWebmining Google Group: http://groups.google.com/group/webmining-tokyo 42
  43. 43. 講師資料 データマイニング・機械学習、 Mahout、R、等 各種講師資料を公開しています http://www.slideshare.net/hamadakoichi 43
  44. 44. hamadakoichi 濱田晃一 44
  45. 45. hamadakoichi 濱田晃一 理論物理 博士(2004.3取得) 量子統計場の理論Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 45
  46. 46. hamadakoichi 濱田晃一 文部大臣に褒められた 元 文部大臣・法務大臣 六法全書著者・元法学政治学研究科長 森山眞弓さん 菅野和夫さん 46
  47. 47. hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた ・HIP HOP/House ダンス歴13年 ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel: http://www.youtube.com/hamadakoichi 47
  48. 48. hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 48
  49. 49. 数理解析手法の実ビジネスへの適用 2004年 博士号取得後 数理解析手法を実ビジネス適用の方法論構築主な領域◆活動の数理モデル化・解析手法◆活動の分析手法・再構築手法◆活動の実行制御・実績解析システム… 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment", 49
  50. 50. 数理解析手法の実ビジネスへの適用:活動例 活動の統一グラフモデルを構築・解析 Unified graphical model of processes and resources 青字:割付モデル属性 [ ] : OptionalNode ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process EdgeProcess [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスがプロセスを表す 開始できること表す ・attributes(属性) preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表すAssign Region Assigns from Edge同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の範囲を表す assigns assigns 中から割付けることを示す 企業01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 製品01 組織A StartDateからEndDateまでの間Resource has Assign RegionにResourceを割付対象要素を表す has has has has has has 割付けることを表す ・capacity(容量) ・calender(カレンダー) AAA01 AAB02 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 50
  51. 51. 数理解析手法の実ビジネスへの適用:活動例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 設 計 開 始 ~ 頭 だ し出 荷 CT対 週 集 計 開 始 日 時 の 箱 ひげ図 体系適用 500 適用後 設計開始~頭だし出荷CT 400 360.4h(15.0日) 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 0 00 00 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: 9: / 20 / 27 / 04 / 11 / 18 / 25 / 01 / 08 / 15 / 22 / 29 / 06 / 13 / 20 / 09 / 09 / 10 / 10 / 10 / 10 / 11 / 11 / 11 / 11 / 11 / 12 / 12 / 12 04 04 04 04 04 04 04 04 04 04 04 04 04 04 20 20 20 20 20 20 20 20 20 20 20 20 20 20 週集計開始日時 51
  52. 52. 数理解析手法の実ビジネスへの適用:活動例 ビジネスとともに 学術分野でも貢献変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 …一品一様な業務プロセスを含む統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系論文(体系の一部)M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementationto an Unmanned Machine Shop”,CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 52
  53. 53. 思い より広く蓄積されたデータを有効活用し 世界の未来をよりよいものにしていきたい データマイニング+WEB勉強会@東京 Google Group: http://groups.google.com/group/webmining-tokyo 53
  54. 54. 現在の活動領域 ソーシャルメディアのデータマイニング活用 2300万人以上の人々へ 各人のつながり・楽しみ・好み 個性にあった適切なサービス配信 日々20億以上の活動の活用 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 54
  55. 55. よりよい世界の実現 ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 55
  56. 56. よりよい世界の実現 ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい 世界中の人々が 個々人のつながり・楽しみ・好みにあった適切な情報・サービスを 自ら探さなくても得ることができる世界 Social Media Social Graph Fun Like Personality Objective Process Data Mining Machine Learning 各人のつながり、楽しみ、好み、個性にあった より適切なサービス提供 56
  57. 57. 大規模データのデータマイニング 57
  58. 58. 大規模データのデータマイニング Hadoop Conference Japan 2011 58
  59. 59. 大規模データのデータマイニング Hadoop Conference Japan 2011 大規模データのデータマイニングに関し講演してきました 59
  60. 60. Hadoop Conference Japan 2011 たくさんの人々の データマイニング・機械学習 活用へ 3日で1万1000View以上 60
  61. 61. Hadoop Conference Japan 2011 たくさんの人々の データマイニング・機械学習 活用へ 3日で1万1000View以上 はてなブックマーク300以上 61
  62. 62. Hadoop Conference Japan 2011 Hadoop Conferenceでは講演のみでした 62
  63. 63. Hadoop Conference Japan 2011 今回はいくつかの要素に関し 63
  64. 64. Hadoop Conference Japan 2011 今回はいくつかの要素に関し 双方向の議論進行を進めましょう 64
  65. 65. 大規模データマイニング基盤 65
  66. 66. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています 66
  67. 67. 大規模データマイニング基盤 データマイニング・機械学習の活用により 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Java Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 67
  68. 68. 大規模データマイニング基盤 Data Mining Infrastructure 68
  69. 69. 大規模データマイニング基盤 KPI定常算出・共有 ビジネス・サービス変化を検知 Data Mining Infrastructure KPI Inspection KPI Views 69
  70. 70. 大規模データマイニング基盤 経営判断・サービス洗練を行うための データマイニング実行 Data Mining Infrastructure KPI Inspection KPI Views Business Planning 70
  71. 71. 大規模データマイニング基盤 データマイニング・機械学習 結果のサービス活用 より楽しんでもらえるサービスへ Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Log API Service … … 71
  72. 72. 大規模データマイニング基盤 Hadoop 全行動ログ/サービスデータ 投入 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … Business Planning Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 72
  73. 73. 大規模データマイニング基盤 Pig 少ない記述量での一次集計/簡易KPI算出 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views … MapReduce Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 73
  74. 74. 大規模データマイニング基盤 Zebra 1次集計データのスキーマ管理 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views Data Mining/Machine Learning … MapReduce Business Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 74
  75. 75. 大規模データマイニング基盤 MapReduce/Perl/Java 時系列処理・ゲーム分散シミュレーション等 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 75
  76. 76. 大規模データマイニング基盤 R 統計解析・データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views R … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 76
  77. 77. 大規模データマイニング基盤 Mahout 大規模データマイニング・機械学習 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Java Business Data Schema Planning Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 77
  78. 78. 大規模データマイニング基盤 データマイニング・機械学習による 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Hive Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 78
  79. 79. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 79
  80. 80. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン■やめてしまう状況パターン 80
  81. 81. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう■やめてしまう状況パターン 81
  82. 82. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。■やめてしまう状況パターン 82
  83. 83. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。■やめてしまう状況パターン 83
  84. 84. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 84
  85. 85. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等) 85
  86. 86. データマイニング・機械学習 活用例 (抜粋)■楽しさの行動パターン ・夢中になるきっかけ ⇒夢中になる体験をしてもらう ・楽しんでサービス継続している行動特徴 ⇒楽しさのパターンを高頻度発生。より楽しいサービス体験。 ⇒楽しさのパターンをサービス初期で体験。楽しさを理解。■やめてしまう状況パターン ・飽きはじめるきっかけ・不快な状況 ⇒やめるきっかけを発生させないようにする。 ・飽きはじめたユーザーの予測・判別 ⇒新鮮・斬新な体験を提供する ⇒他の楽しみ方の提供(他サービスへの推薦 等) 86
  87. 87. データマイニング・機械学習 活用例 (抜粋)■興味のあるゲーム/ユーザーと出会えるプラットフォームへ■健全なプラットフォームへ■ユーザーの声によるサービス洗練 87
  88. 88. データマイニング・機械学習 活用例 (抜粋)■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦■健全なプラットフォームへ■ユーザーの声によるサービス洗練 88
  89. 89. データマイニング・機械学習 活用例 (抜粋)■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別■ユーザーの声によるサービス洗練 89
  90. 90. データマイニング・機械学習 活用例 (抜粋)■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別■ユーザーの声によるサービス洗練 ・ソーシャルコミュニケーションのテキストマイニング 90
  91. 91. データマイニング・機械学習 活用例 (抜粋)■興味のあるゲーム/ユーザーと出会えるプラットフォームへ ・ゲームレコメンデーション ・ユーザーレコメンデーション ソーシャルグラフ解析、機械学習、最適化を組み合わせた推薦■健全なプラットフォームへ ・不正書き込み判別 ・年齢詐称の判別■ユーザーの声によるサービス洗練 ・ソーシャルコミュニケーションのテキストマイニング 91
  92. 92. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練 92
  93. 93. 迅速なサービス洗練 解析結果を反映した 数時間~数日スパンで迅速なサービス洗練 より楽しんでもらえるユーザー体験へ 93
  94. 94. 大規模データマイニング基盤 統一行動記述 Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Hive Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 94
  95. 95. 統一行動記述 ユーザー行動 時系列の 統一記述 95
  96. 96. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題形式置き場 96
  97. 97. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する置き場 97
  98. 98. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い 98
  99. 99. 統一行動記述 大規模サービスでよく生じる課題 大規模サービスでよく生じる課題 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ない 99
  100. 100. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる形式 ・何を解析すればいいか分からない ・パラメータの値の意味が分からない ・類似の解析実装がサービスごとに 複数存在する ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ない 100
  101. 101. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている置き場 ・どこにあるか分からず、解析時間より ログを探し・集める時間のほうが長い ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ない 101
  102. 102. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、解析時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ログ収集・基礎集計作業がメイン ・データマイニング・機械学習 活用まで出来ない 102
  103. 103. 統一行動記述 統一行動ログによる解決 大規模サービスでよく生じる課題 統一行動記述での解決 サービスごとにログフォーマットが異なる 統一スキーマ形式 ・何を解析すればいいか分からない ・データマイニング・機械学習実装の ・パラメータの値の意味が分からない 再利用/サービス横断解析が行える ・類似の解析実装がサービスごとに ・学習コストの低減 複数存在する データ形式・値の意味を調べる必要がない ログの場所がばらばら・分散されている Hadoopに全てのログがある置き場 ・どこにあるか分からず、解析時間より ・データ探索・収集時間ゼロ ログを探し・集める時間のほうが長い 解析したいデータが全てある ・データマイニング/機械学習よりも ・大規模データ処理技術 ログ収集・基礎集計作業がメイン ・データマイニング/機械学習 ・データマイニング・機械学習 活用まで出来ない それぞれの技術が活用できる 103
  104. 104. 世界展開 世界中の人々の 楽しさのマイニング 104
  105. 105. 世界展開 世界中の人々の 楽しさのマイニング 国民性・民族性にあった サービス提供 105
  106. 106. 世界中の人々へ 蓄積されたデータを有効活用し 世界中の人々への適切なサービス提供を実現したい Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Java Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 106
  107. 107. 世界中の人々へ 蓄積されたデータを有効活用し 世界中の人々への適切なサービス提供を実現したい Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 107
  108. 108. 世界中の人々へ 世界中の人々への適切なサービス提供を実現したい 108
  109. 109. 世界中の人々へ 世界中の人々への適切なサービス提供を実現したい 一緒に実現する仲間を募集しています 大規模ソーシャルメディアのデータマイニング (2100万会員 1日20億アクション以上) (※2100万会員モバゲータウンはデータマイニングの宝の山/Tech総研 より抜粋) ・統計解析/データマイニング/機械学習/自然言語処理 ・大規模分散処理 109
  110. 110. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  111. 111. 参加者の声のフィードバック・継続改善 参加者の声から 開催内容を改善しています参加者の感想・期待 次回開催の 改善アクション 111
  112. 112. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  113. 113. 次回は今回よりより有意義な場にしたいみんなの声・改善提案が必要 113
  114. 114. 会の最後に 114
  115. 115. 会の最後に「感想」「今後の期待・改善提案」 を伺いますね 115
  116. 116. 会の最後に「感想」「今後の期待・改善提案」 を伺いますね ※次回発表者も募集します 116
  117. 117. データマイニング+WEB勉強会 発表者を募集しています連絡 Google Group: http://groups.google.com/group/webmining-tokyo Twitter : http://twitter.com/hamadakoichi 117
  118. 118. 世界中の人々へ 蓄積されたデータを有効活用し 世界中の人々への適切なサービス提供を実現したい Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 118 118
  119. 119. 今後ともデータマイニング+WEB勉強会@東京 をよろしくお願い致します 119
  120. 120. ご清聴ありがとうございました 120
  121. 121. AGENDA ◆オープンコミュニティ ◆開催 ◆創設の思い・目的 ◆3つの進行方針 ◆活動事例紹介 ◆声と改善 ◆より有意義な場へ
  122. 122. 大規模データマイニング基盤 データマイニング・機械学習による 迅速なサービス洗練を実現しています Data-mining Machine-Leaning Data Mining Infrastructure Results KPI Inspection DeNA Data Mining Libraries KPI Views Data Mining/Machine Learning R Mahout … MapReduce Perl Morphological Analysis DeNA Social MA Hive Business Pre-processing/Indexing Data Schema Planning Lucene Zebra Pig Service Log API Service Log API Hadoop DFS Log API Service Unified Description of … … Action/Status Log 122
  123. 123. 楽しさのマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 123

×