Mahout JP - #TokyoWebmining 11th #MahoutJP

7,410 views
7,326 views

Published on

Mahout JP

Published in: Technology, Education

Mahout JP - #TokyoWebmining 11th #MahoutJP

  1. 1. 第11回データマイニング+WEB@東京 2011/06/12Mahout JP hamadakoichi 濱田 晃一
  2. 2. 2
  3. 3. 2011/05/01 3
  4. 4. 2011/05/01Mahout JP 4
  5. 5. 2011/05/01Mahout JP 始めました 5
  6. 6. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  7. 7. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  8. 8. hamadakoichi 濱田晃一http://iddy.jp/profile/hamadakoichi 8
  9. 9. データマイニング+WEB勉強会@東京 データマイニング+WEB勉強会@東京の主催者です TokyoWebmining Google Group: http://groups.google.com/group/webmining-tokyo 9
  10. 10. 講師資料 Mahout、R、データマイニング・機械学習、等 各種講師資料を公開しています http://www.slideshare.net/hamadakoichi 10
  11. 11. 活動領域: ソーシャルメディアのデータマイニング 11
  12. 12. 活動領域: ソーシャルメディアのデータマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 12
  13. 13. 活動領域 活動が紹介されました 13
  14. 14. 活動領域 活動が紹介されました Tech総研 (※記事から抜粋) 14
  15. 15. 活動領域 ソーシャルプラットフォームの大規模データマイニング・機械学習活用によるサービス洗練 Hadoop Conference 2011 15
  16. 16. hamadakoichi 濱田晃一 16
  17. 17. hamadakoichi 濱田晃一 理論物理 博士(2004.3取得) 量子統計場の理論Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 17
  18. 18. hamadakoichi 濱田晃一 文部大臣に褒められた 元 文部大臣・法務大臣 六法全書著者・元法学政治学研究科長 森山眞弓さん 菅野和夫さん 18
  19. 19. hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 19
  20. 20. hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた ・HIP HOP/House ダンス歴14年 ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel: http://www.youtube.com/hamadakoichi 20
  21. 21. 数理解析手法の実ビジネスへの適用 2004年 博士号取得後 数理解析手法を実ビジネス適用の方法論構築主な領域◆活動の数理モデル化・解析手法◆活動の分析手法・再構築手法◆活動の実行制御・実績解析システム… 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment", 21
  22. 22. 数理解析手法の実ビジネスへの適用:活動例 活動の統一グラフモデルを構築・解析 Unified graphical model of processes and resources 青字:割付モデル属性 [ ] : OptionalNode ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process EdgeProcess [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスがプロセスを表す 開始できること表す ・attributes(属性) preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表すAssign Region Assigns from Edge同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の範囲を表す assigns assigns 中から割付けることを示す 企業01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 製品01 組織A StartDateからEndDateまでの間Resource has Assign RegionにResourceを割付対象要素を表す has has has has has has 割付けることを表す ・capacity(容量) ・calender(カレンダー) AAA01 AAB02 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 22
  23. 23. 数理解析手法の実ビジネスへの適用:活動例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 設計開始~頭だし出荷CT対週集計開始日時の箱ひげ図 体系適用 500 適用後 設計開始~頭だし出荷CT 400 360.4h(15.0日) 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 0 0 0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 0 7 4 1 8 5 1 8 5 2 9 6 3 0 /2 /2 /0 /1 /1 /2 /0 /0 /1 /2 /2 /0 /1 /2 09 09 10 10 10 10 11 11 11 11 11 12 12 12 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 週集計開始日時 23
  24. 24. 数理解析手法の実ビジネスへの適用:活動例 ビジネスとともに 学術分野でも貢献変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 …一品一様な業務プロセスを含む統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系論文(体系の一部)M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementationto an Unmanned Machine Shop”,CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 24
  25. 25. 活動領域 ソーシャルプラットフォームの大規模データマイニング・機械学習活用によるサービス洗練 Hadoop Conference 2011 25
  26. 26. ソーシャルメディアのデータマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 26
  27. 27. ソーシャルメディアのデータマイニング 2300万人以上の人々へ各人のつながり・楽しみ・個性にあった適切なサービス配信 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 27
  28. 28. ソーシャルメディアのデータマイニング ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 28
  29. 29. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  30. 30. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  31. 31. Mahout JP 思い 31
  32. 32. Mahout JP 思い 大規模データを活用し 32
  33. 33. Mahout JP 思い 大規模データを活用し 継続的に活動進化できる 世界を作りたい 33
  34. 34. Mahout JP大規模データマイニング・機械学習を 実行・活用したい人が 34
  35. 35. Mahout JP大規模データマイニング・機械学習を 実行・活用したい人が それを実現できるようにしたい 35
  36. 36. Mahout JP Mahout JP 始めました 36
  37. 37. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  38. 38. Mahout とは 38
  39. 39. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 39
  40. 40. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 40
  41. 41. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 41
  42. 42. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 42
  43. 43. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 43
  44. 44. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 ・Hadoop:象, Mahout: 象使い http://mahout.apache.org 44
  45. 45. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 ・Hadoop:象, Mahout: 象使い http://mahout.apache.org 45
  46. 46. Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ Applications Examples Freq. Genetic Pattern Classification Clustering Recommenders Mining Math Utilities Collections Apache Vectors/Matrices/ Lucene/Vectorizer (primitives) Hadoop SVD http://cwiki.apache.org/confluence/display/MAHOUT/Algorithms http://www.slideshare.net/gsingers/intro-to-apache-mahout 46
  47. 47. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  48. 48. Mahout 活用の課題と方策 ドキュメント未整備・対象方法論の知識取得で 敷居が高い課題 ・ドキュメント未整備でソースコードから読み解く必要 48
  49. 49. Mahout 活用の課題と方策 ドキュメント未整備・対象方法論の知識取得で 敷居が高い課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない) 49
  50. 50. Mahout 活用の課題と方策実行ノウハウ提供・方法論の導入内容の提供による解決課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない)方策 ・Mahout 実行方法のノウハウ提供 ・対象データマイニング・機械学習手法の導入的内容の提供 50
  51. 51. Mahout 活用の課題と方策実行ノウハウ提供・方法論の導入内容の提供による解決 大規模データマイニング・機械学習活用の裾野の拡大課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない)方策 ・Mahout 実行方法のノウハウ提供 ・対象データマイニング・機械学習手法の導入的内容の提供 大規模データマイニング・機械学習の活用による サービス洗練の裾野拡大 51
  52. 52. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  53. 53. 現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 53
  54. 54. 現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 活用に必要な知識 各方法に対し 「データマイニング/機械学習手法の導入的内容」 ~「Mahout での実行方法」まで含まれた内容 54
  55. 55. 現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 活用に必要な知識 各方法に対し 「データマイニング/機械学習手法の導入的内容」 ~「Mahout での実行方法」まで含まれた内容 ・そもそも情報がないものが多い ・情報があっても大部分が部分的な内容しか含まれていない 55
  56. 56. 現状のMahout情報 方法論導入~Mahout実行方法まで 含まれている内容を発見 56
  57. 57. 現状のMahout情報方法論導入~Mahout実行方法まで含まれている内容を発見 「手法の導入的内容」 「Mahoutでの実行」 http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests 57
  58. 58. 現状のMahout情報方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「手法の導入的内容」 「Mahoutでの実行」 http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests 58
  59. 59. 現状のMahout情報方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 59
  60. 60. 現状のMahout情報方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「方法論導入」から「実行方法」まで含まれた内容 = データマイニング+WEB@東京 のポリシー 60
  61. 61. 現状のMahout情報方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「方法論導入」から「実行方法」まで含まれた内容 = データマイニング+WEB@東京 のポリシー Mahout JP継続 61
  62. 62. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  63. 63. Mahout JP Mahout JP https://sites.google.com/site/mahoutjp/ 大規模分散データマイニング・機械学習ライブラリ Mahout 活用コミュニティ Mahout に関する 「方法論導入」から「Mahout実行方法」までの情報内容 発信・共有・議論し 活用の裾野を広げていく 63
  64. 64. Mahout JP 内容構成Contents 内容Seminars Mahout の各機械学習・データマイニングの方法論、Mahout での実行法の講師資料まとめです。初めての方はまずここか ら見ると分かりやすいと思います。Applications Mahoutのサービス活用Clustering クラスタリング:似ているものをグループ化するClassification 分類:分類・判別を行うPattern Mining パターンマイニング: 頻出パターンを抽出するRecommender 推薦: 興味に合うものを推薦するRegression 回帰: 数値予測を行うDimension Reduction 次元縮約: 説明変数を重要な変数へ縮約Installation 開発環境の構築法members 情報発信メンバー 64
  65. 65. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  66. 66. 最後に 一緒に情報発信するメンバーを募集しています大規模データマイニング活用の裾野を広げていきましょう 1.手法~Mahout実行まで Mahout情報発信・共有したいコンテンツをお送り下さい。 2.アカウントを発行します。 66
  67. 67. AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に

×