第11回データマイニング+WEB@東京
      2011/06/12




Mahout JP
  hamadakoichi
    濱田 晃一
2
2011/05/01




             3
2011/05/01

Mahout JP


              4
2011/05/01

Mahout JP
 始めました


              5
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
hamadakoichi
         濱田晃一
http://iddy.jp/profile/hamadakoichi



                                      8
データマイニング+WEB勉強会@東京
  データマイニング+WEB勉強会@東京の主催者です
          TokyoWebmining




  Google Group: http://groups.google.com/group/webmining-tokyo
                                                                 9
講師資料

   Mahout、R、データマイニング・機械学習、等
         各種講師資料を公開しています
   http://www.slideshare.net/hamadakoichi




                                            10
活動領域: ソーシャルメディアのデータマイニング




                           11
活動領域: ソーシャルメディアのデータマイニング

               楽しさのマイニング
               ユーザー体験へ還元
               Data Mining
             Machine Learning
                  of Fun
              PatternMining Clustering
    Classification Regression Recommendation
       TimeSeriesAnalysis StatisticalAnalysis
          NaturalLanguageProcessing ..etc

                Social Media
                 Experience
                   Social Graph
                 Detailed Actions
                Changes of Status
              Social Communications
                 Personality ..etc
                                                12
活動領域

       活動が紹介されました




                    13
活動領域

       活動が紹介されました
          Tech総研




                    (※記事から抜粋)   14
活動領域
       ソーシャルプラットフォームの
大規模データマイニング・機械学習活用によるサービス洗練

        Hadoop Conference 2011




                                 15
hamadakoichi 濱田晃一




                    16
hamadakoichi 濱田晃一
                      理論物理 博士(2004.3取得)
                        量子統計場の理論
Statistical Field Theory                        Spontaneously
                                        Time-Reversal Symmetry Breaking




                                       Anisotropic Massless Dirac Fermions




 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf
                                                                        17
hamadakoichi 濱田晃一

             文部大臣に褒められた
   元 文部大臣・法務大臣      六法全書著者・元法学政治学研究科長
      森山眞弓さん             菅野和夫さん




                                    18
hamadakoichi 濱田晃一

          毎週末3時間ダンスコーチをしています




           ■過去、東京と京都でも
            ダンス部を創設。
            コーチをしていました
                          駒場物理ダンス部   京都大学基礎物理学研究所ダンス部
                          部長兼コーチ     部長兼コーチ

  現在: 毎週末 3時間ダンスコーチ
  Youtube Channel: http://www.youtube.com/hamadakoichi   19
hamadakoichi 濱田晃一

         Los Angelesでプロダンサーに褒められた




  ・HIP HOP/House ダンス歴14年
  ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる

  Youtube Channel: http://www.youtube.com/hamadakoichi   20
数理解析手法の実ビジネスへの適用
            2004年 博士号取得後
       数理解析手法を実ビジネス適用の方法論構築
主な領域
◆活動の数理モデル化・解析手法
◆活動の分析手法・再構築手法
◆活動の実行制御・実績解析システム
…
 内容抜粋
 “Decoupling Executions in Navigating Manufacturing          "Unified graph representation of processes
 Processes for Shortening Lead Time and Its Implementation   for scheduling with flexible resource
 to an Unmanned Machine Shop”,                               assignment",




                                                                                                          21
数理解析手法の実ビジネスへの適用:活動例

                  活動の統一グラフモデルを構築・解析
                        Unified graphical model of processes and resources

                                                                                                 青字:割付モデル属性
                                                                                                 [ ] : Optional
Node             ・priority(優先度)                                                       Edge
                 ・duration(予定時間)
                 [・earliest(再早開始日時) ]                                                      Process Edge
Process          [・deadline(納期) ]
                 [・or(条件集約数) ]
                                                                                             前プロセスの終了後に後プロセスが
プロセスを表す                                                                                      開始できること表す
                 ・attributes(属性)
                                                                      preemptable(中断可否),
                                                                      successive(引継ぎ可否)
                                                                                           Uses Edge
                                                                      workload(作業負荷)         Processが使用する
                        uses     uses uses         uses   uses        uses                   Assign Region を表す

Assign Region                                                                              Assigns from Edge
同一Resourceを割付け続ける                                                                            Assign Regionに
                                  assigns from assigns from                                  指定Resourceの子Resource集合の
範囲を表す
               assigns                                           assigns                     中から割付けることを示す
                                 企業01                             [process]
                                 has         has                  [startDate(開始日時)]
                                                                  [endDate(終了日時)]          Assigns Edge
                  製品01                    組織A                                                StartDateからEndDateまでの間
Resource                                                                     has             Assign RegionにResourceを
割付対象要素を表す           has has      has      has   has       has                                割付けることを表す
                                                                    ・capacity(容量)
                                                                    ・calender(カレンダー)
                AAA01    AAB02    …     山田さん 田中さん 鈴木さん              ・attributes(属性)        Has Edge
                                                                           東さん               Resourceの所有関係を表す
                                                                                                                   22
数理解析手法の実ビジネスへの適用:活動例
                                    一品一様の業務プロセスの
                                  動的なプロセス制御数理体系を構築
  全体生産リードタイム中央値を                                                                                                                       1/2.7に短縮
       設計開始~頭だし出荷リードタイム
                                      設計開始~頭だし出荷CT対週集計開始日時の箱ひげ図                                                                        体系適用
                         500
                                                                                                                                                                   適用後
   設計開始~頭だし出荷CT




                         400

                                                                                            360.4h(15.0日)
                                                                                                                                                                                          1/2.7
                         300



                         200



                         100
                                       0          0          0          0          0          0          0          0          0          0          0
                                                                                                                                                                141.6h(5.9日)
                                                                                                                                                                0          0          0
                                  9: 0       9 :0       9 :0       9 :0       9: 0       9 :0       9 :0       9 :0       9: 0       9 :0       9 :0       9 :0       9: 0       9 :0
                                0          7          4          1          8          5          1          8          5          2          9          6          3          0
                             /2         /2         /0         /1         /1         /2         /0         /0         /1         /2         /2         /0         /1         /2
                          09        09         10          10         10        10         11          11        11         11         11          12        12         12
                       4/        4/         4/         4/         4/         4/         4/         4/         4/         4/         4/         4/         4/         4/
                  2 00      2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00       2 00
                                                                                              週集計開始日時




                                                                                                                                                                                              23
数理解析手法の実ビジネスへの適用:活動例
                                    ビジネスとともに
                                    学術分野でも貢献
変動性から生じる動的な課題
     ・リソースの競合 ・滞留 ・納期遅延                             …

一品一様な業務プロセスを含む
統計解析・制御数理モデル
     ・統計的な有効変数算出
     ・統計数理モデル化
        -優先順位制御
        -実行タイミング制御
        -統計フィードバック
        -適正リソース量算出
     ・予測数理体系
論文(体系の一部)
M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada,
“Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation
to an Unmanned Machine Shop”,
CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007)                          24
活動領域
       ソーシャルプラットフォームの
大規模データマイニング・機械学習活用によるサービス洗練

        Hadoop Conference 2011




                                 25
ソーシャルメディアのデータマイニング

               楽しさのマイニング
               ユーザー体験へ還元
               Data Mining
             Machine Learning
                  of Fun
              PatternMining Clustering
    Classification Regression Recommendation
       TimeSeriesAnalysis StatisticalAnalysis
          NaturalLanguageProcessing ..etc

                Social Media
                 Experience
                   Social Graph
                 Detailed Actions
                Changes of Status
              Social Communications
                 Personality ..etc
                                                26
ソーシャルメディアのデータマイニング

        2300万人以上の人々へ
各人のつながり・楽しみ・個性にあった適切なサービス配信
               Data Mining
             Machine Learning
                  of Fun
              PatternMining Clustering
    Classification Regression Recommendation
       TimeSeriesAnalysis StatisticalAnalysis
          NaturalLanguageProcessing ..etc

                Social Media
                 Experience
                   Social Graph
                 Detailed Actions
                Changes of Status
              Social Communications
                 Personality ..etc
                                                27
ソーシャルメディアのデータマイニング

      ソーシャル・活動情報の活用により
 より適切な情報・サービス配信される世界を実現したい
               Data Mining
             Machine Learning
                  of Fun
              PatternMining Clustering
    Classification Regression Recommendation
       TimeSeriesAnalysis StatisticalAnalysis
          NaturalLanguageProcessing ..etc

                Social Media
                 Experience
                   Social Graph
                 Detailed Actions
                Changes of Status
              Social Communications
                 Personality ..etc
                                                28
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
Mahout JP


            思い




                 31
Mahout JP


               思い

            大規模データを活用し




                         32
Mahout JP


               思い

            大規模データを活用し

       継続的に活動進化できる

             世界を作りたい

                         33
Mahout JP




大規模データマイニング・機械学習を
   実行・活用したい人が




                34
Mahout JP




大規模データマイニング・機械学習を
   実行・活用したい人が
   それを実現できるようにしたい


                    35
Mahout JP




            Mahout JP
            始めました

                        36
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
Mahout とは


            38
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
      (Hadoop:象, Mahout: 象使い)




             http://mahout.apache.org
                                        39
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
      (Hadoop:象, Mahout: 象使い)




             http://mahout.apache.org
                                        40
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
      (Hadoop:象, Mahout: 象使い)




             http://mahout.apache.org
                                        41
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
      (Hadoop:象, Mahout: 象使い)




             http://mahout.apache.org
                                        42
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
      (Hadoop:象, Mahout: 象使い)




             http://mahout.apache.org
                                        43
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
     ・Hadoop:象, Mahout: 象使い




           http://mahout.apache.org
                                      44
Mahoutとは
         Open Sourceでスケーラブルな
       機械学習・データマイニングのライブラリ

     ・Apache プロジェクト
     ・機械学習・データマイニングのライブラリ
     ・Java オープンソース
     ・Hadoop(大規模 分散処理基盤)上で動作
     ・Hadoop:象, Mahout: 象使い




           http://mahout.apache.org
                                      45
Mahoutとは
           Open Sourceでスケーラブルな
         機械学習・データマイニングのライブラリ

                               Applications



                                                           Examples


                Freq.
    Genetic     Pattern     Classification    Clustering    Recommenders
                Mining

                            Math
     Utilities                                     Collections    Apache
                            Vectors/Matrices/
     Lucene/Vectorizer                             (primitives)   Hadoop
                            SVD

      http://cwiki.apache.org/confluence/display/MAHOUT/Algorithms
      http://www.slideshare.net/gsingers/intro-to-apache-mahout
                                                                           46
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
Mahout 活用の課題と方策
     ドキュメント未整備・対象方法論の知識取得で
             敷居が高い

課題   ・ドキュメント未整備でソースコードから読み解く必要




                                 48
Mahout 活用の課題と方策
     ドキュメント未整備・対象方法論の知識取得で
             敷居が高い

課題   ・ドキュメント未整備でソースコードから読み解く必要
     ・対象データマイニング・機械学習手法の基礎知識が必要
     (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない)




                                                     49
Mahout 活用の課題と方策
実行ノウハウ提供・方法論の導入内容の提供による解決


課題   ・ドキュメント未整備でソースコードから読み解く必要
     ・対象データマイニング・機械学習手法の基礎知識が必要
     (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない)



方策   ・Mahout 実行方法のノウハウ提供
     ・対象データマイニング・機械学習手法の導入的内容の提供




                                                     50
Mahout 活用の課題と方策
実行ノウハウ提供・方法論の導入内容の提供による解決
 大規模データマイニング・機械学習活用の裾野の拡大

課題   ・ドキュメント未整備でソースコードから読み解く必要
     ・対象データマイニング・機械学習手法の基礎知識が必要
     (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない)



方策   ・Mahout 実行方法のノウハウ提供
     ・対象データマイニング・機械学習手法の導入的内容の提供



     大規模データマイニング・機械学習の活用による
          サービス洗練の裾野拡大
                                                     51
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
現状のMahout情報
 方法論導入~Mahout実行方法までの内容提供が重要
   それらを提供しているコンテンツを調べてみた




                              53
現状のMahout情報
 方法論導入~Mahout実行方法までの内容提供が重要
   それらを提供しているコンテンツを調べてみた

  活用に必要な知識
   各方法に対し
   「データマイニング/機械学習手法の導入的内容」
   ~「Mahout での実行方法」まで含まれた内容




                              54
現状のMahout情報
 方法論導入~Mahout実行方法までの内容提供が重要
   それらを提供しているコンテンツを調べてみた

  活用に必要な知識
   各方法に対し
   「データマイニング/機械学習手法の導入的内容」
   ~「Mahout での実行方法」まで含まれた内容



   ・そもそも情報がないものが多い
   ・情報があっても大部分が部分的な内容しか含まれていない


                                 55
現状のMahout情報




  方法論導入~Mahout実行方法まで
    含まれている内容を発見




                       56
現状のMahout情報
方法論導入~Mahout実行方法まで含まれている内容を発見




                     「手法の導入的内容」



                     「Mahoutでの実行」




  http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests



                                                                           57
現状のMahout情報
方法論導入~Mahout実行方法まで含まれている内容を発見
    データマイニング+WEB@東京 の各トーク


                     「手法の導入的内容」



                     「Mahoutでの実行」




  http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests



                                                                           58
現状のMahout情報
方法論導入~Mahout実行方法まで含まれている内容を発見
    データマイニング+WEB@東京 の各トーク




                           59
現状のMahout情報
方法論導入~Mahout実行方法まで含まれている内容を発見
    データマイニング+WEB@東京 の各トーク


 「方法論導入」から「実行方法」まで含まれた内容


              =
   データマイニング+WEB@東京 のポリシー




                           60
現状のMahout情報
方法論導入~Mahout実行方法まで含まれている内容を発見
    データマイニング+WEB@東京 の各トーク


 「方法論導入」から「実行方法」まで含まれた内容


              =
   データマイニング+WEB@東京 のポリシー



          Mahout JP継続
                           61
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
Mahout JP




                Mahout JP
 https://sites.google.com/site/mahoutjp/
            大規模分散データマイニング・機械学習ライブラリ
                 Mahout 活用コミュニティ


                  Mahout に関する
  「方法論導入」から「Mahout実行方法」までの情報内容 発信・共有・議論し
               活用の裾野を広げていく



                                           63
Mahout JP 内容構成

Contents              内容
Seminars              Mahout の各機械学習・データマイニングの方法論、Mahout
                      での実行法の講師資料まとめです。初めての方はまずここか
                      ら見ると分かりやすいと思います。
Applications          Mahoutのサービス活用

Clustering            クラスタリング:似ているものをグループ化する

Classification        分類:分類・判別を行う

Pattern Mining        パターンマイニング: 頻出パターンを抽出する

Recommender           推薦: 興味に合うものを推薦する

Regression            回帰: 数値予測を行う

Dimension Reduction   次元縮約: 説明変数を重要な変数へ縮約

Installation          開発環境の構築法

members               情報発信メンバー

                                                      64
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に
最後に
  一緒に情報発信するメンバーを募集しています
大規模データマイニング活用の裾野を広げていきましょう


 1.手法~Mahout実行まで
   Mahout情報発信・共有したいコンテンツをお送り下さい。


 2.アカウントを発行します。




                                   66
AGENDA
  ◆主催者紹介
  ◆Mahout JP
   ◆創設の思い・目的
   ◆Mahoutとは
   ◆Mahout活用の課題と方策
   ◆現状のMahout情報
   ◆Mahout JP
  ◆最後に

Mahout JP - #TokyoWebmining 11th #MahoutJP

  • 1.
    第11回データマイニング+WEB@東京 2011/06/12 Mahout JP hamadakoichi 濱田 晃一
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 7.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 8.
    hamadakoichi 濱田晃一 http://iddy.jp/profile/hamadakoichi 8
  • 9.
    データマイニング+WEB勉強会@東京 データマイニング+WEB勉強会@東京の主催者です TokyoWebmining Google Group: http://groups.google.com/group/webmining-tokyo 9
  • 10.
    講師資料 Mahout、R、データマイニング・機械学習、等 各種講師資料を公開しています http://www.slideshare.net/hamadakoichi 10
  • 11.
  • 12.
    活動領域: ソーシャルメディアのデータマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 12
  • 13.
    活動領域 活動が紹介されました 13
  • 14.
    活動領域 活動が紹介されました Tech総研 (※記事から抜粋) 14
  • 15.
    活動領域 ソーシャルプラットフォームの 大規模データマイニング・機械学習活用によるサービス洗練 Hadoop Conference 2011 15
  • 16.
  • 17.
    hamadakoichi 濱田晃一 理論物理 博士(2004.3取得) 量子統計場の理論 Statistical Field Theory Spontaneously Time-Reversal Symmetry Breaking Anisotropic Massless Dirac Fermions 博士論文: http://hosi.phys.s.u-tokyo.ac.jp/~koichi/PhD-thesis.pdf 17
  • 18.
    hamadakoichi 濱田晃一 文部大臣に褒められた 元 文部大臣・法務大臣 六法全書著者・元法学政治学研究科長 森山眞弓さん 菅野和夫さん 18
  • 19.
    hamadakoichi 濱田晃一 毎週末3時間ダンスコーチをしています ■過去、東京と京都でも ダンス部を創設。 コーチをしていました 駒場物理ダンス部 京都大学基礎物理学研究所ダンス部 部長兼コーチ 部長兼コーチ 現在: 毎週末 3時間ダンスコーチ Youtube Channel: http://www.youtube.com/hamadakoichi 19
  • 20.
    hamadakoichi 濱田晃一 Los Angelesでプロダンサーに褒められた ・HIP HOP/House ダンス歴14年 ・ダンス開始後 1年半でL.A.でプロダンサーに褒められる Youtube Channel: http://www.youtube.com/hamadakoichi 20
  • 21.
    数理解析手法の実ビジネスへの適用 2004年 博士号取得後 数理解析手法を実ビジネス適用の方法論構築 主な領域 ◆活動の数理モデル化・解析手法 ◆活動の分析手法・再構築手法 ◆活動の実行制御・実績解析システム … 内容抜粋 “Decoupling Executions in Navigating Manufacturing "Unified graph representation of processes Processes for Shortening Lead Time and Its Implementation for scheduling with flexible resource to an Unmanned Machine Shop”, assignment", 21
  • 22.
    数理解析手法の実ビジネスへの適用:活動例 活動の統一グラフモデルを構築・解析 Unified graphical model of processes and resources 青字:割付モデル属性 [ ] : Optional Node ・priority(優先度) Edge ・duration(予定時間) [・earliest(再早開始日時) ] Process Edge Process [・deadline(納期) ] [・or(条件集約数) ] 前プロセスの終了後に後プロセスが プロセスを表す 開始できること表す ・attributes(属性) preemptable(中断可否), successive(引継ぎ可否) Uses Edge workload(作業負荷) Processが使用する uses uses uses uses uses uses Assign Region を表す Assign Region Assigns from Edge 同一Resourceを割付け続ける Assign Regionに assigns from assigns from 指定Resourceの子Resource集合の 範囲を表す assigns assigns 中から割付けることを示す 企業01 [process] has has [startDate(開始日時)] [endDate(終了日時)] Assigns Edge 製品01 組織A StartDateからEndDateまでの間 Resource has Assign RegionにResourceを 割付対象要素を表す has has has has has has 割付けることを表す ・capacity(容量) ・calender(カレンダー) AAA01 AAB02 … 山田さん 田中さん 鈴木さん ・attributes(属性) Has Edge 東さん Resourceの所有関係を表す 22
  • 23.
    数理解析手法の実ビジネスへの適用:活動例 一品一様の業務プロセスの 動的なプロセス制御数理体系を構築 全体生産リードタイム中央値を 1/2.7に短縮 設計開始~頭だし出荷リードタイム 設計開始~頭だし出荷CT対週集計開始日時の箱ひげ図 体系適用 500 適用後 設計開始~頭だし出荷CT 400 360.4h(15.0日) 1/2.7 300 200 100 0 0 0 0 0 0 0 0 0 0 0 141.6h(5.9日) 0 0 0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 9 :0 9 :0 9: 0 9 :0 0 7 4 1 8 5 1 8 5 2 9 6 3 0 /2 /2 /0 /1 /1 /2 /0 /0 /1 /2 /2 /0 /1 /2 09 09 10 10 10 10 11 11 11 11 11 12 12 12 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 4/ 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 2 00 週集計開始日時 23
  • 24.
    数理解析手法の実ビジネスへの適用:活動例 ビジネスとともに 学術分野でも貢献 変動性から生じる動的な課題 ・リソースの競合 ・滞留 ・納期遅延 … 一品一様な業務プロセスを含む 統計解析・制御数理モデル ・統計的な有効変数算出 ・統計数理モデル化 -優先順位制御 -実行タイミング制御 -統計フィードバック -適正リソース量算出 ・予測数理体系 論文(体系の一部) M.Nakao, N. Kobayashi, K.Hamada, T.Totsuka, S.Yamada, “Decoupling Executions in Navigating Manufacturing Processes for Shortening Lead Time and Its Implementation to an Unmanned Machine Shop”, CIRP Annals - Manufacturing Technology Volume 56, Issue 1, Pages 171-174 (2007) 24
  • 25.
    活動領域 ソーシャルプラットフォームの 大規模データマイニング・機械学習活用によるサービス洗練 Hadoop Conference 2011 25
  • 26.
    ソーシャルメディアのデータマイニング 楽しさのマイニング ユーザー体験へ還元 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 26
  • 27.
    ソーシャルメディアのデータマイニング 2300万人以上の人々へ 各人のつながり・楽しみ・個性にあった適切なサービス配信 Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 27
  • 28.
    ソーシャルメディアのデータマイニング ソーシャル・活動情報の活用により より適切な情報・サービス配信される世界を実現したい Data Mining Machine Learning of Fun PatternMining Clustering Classification Regression Recommendation TimeSeriesAnalysis StatisticalAnalysis NaturalLanguageProcessing ..etc Social Media Experience Social Graph Detailed Actions Changes of Status Social Communications Personality ..etc 28
  • 29.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 30.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 31.
    Mahout JP 思い 31
  • 32.
    Mahout JP 思い 大規模データを活用し 32
  • 33.
    Mahout JP 思い 大規模データを活用し 継続的に活動進化できる 世界を作りたい 33
  • 34.
  • 35.
    Mahout JP 大規模データマイニング・機械学習を 実行・活用したい人が それを実現できるようにしたい 35
  • 36.
    Mahout JP Mahout JP 始めました 36
  • 37.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 38.
  • 39.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 39
  • 40.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 40
  • 41.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 41
  • 42.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 42
  • 43.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 (Hadoop:象, Mahout: 象使い) http://mahout.apache.org 43
  • 44.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 ・Hadoop:象, Mahout: 象使い http://mahout.apache.org 44
  • 45.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ ・Apache プロジェクト ・機械学習・データマイニングのライブラリ ・Java オープンソース ・Hadoop(大規模 分散処理基盤)上で動作 ・Hadoop:象, Mahout: 象使い http://mahout.apache.org 45
  • 46.
    Mahoutとは Open Sourceでスケーラブルな 機械学習・データマイニングのライブラリ Applications Examples Freq. Genetic Pattern Classification Clustering Recommenders Mining Math Utilities Collections Apache Vectors/Matrices/ Lucene/Vectorizer (primitives) Hadoop SVD http://cwiki.apache.org/confluence/display/MAHOUT/Algorithms http://www.slideshare.net/gsingers/intro-to-apache-mahout 46
  • 47.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 48.
    Mahout 活用の課題と方策 ドキュメント未整備・対象方法論の知識取得で 敷居が高い 課題 ・ドキュメント未整備でソースコードから読み解く必要 48
  • 49.
    Mahout 活用の課題と方策 ドキュメント未整備・対象方法論の知識取得で 敷居が高い 課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない) 49
  • 50.
    Mahout 活用の課題と方策 実行ノウハウ提供・方法論の導入内容の提供による解決 課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない) 方策 ・Mahout 実行方法のノウハウ提供 ・対象データマイニング・機械学習手法の導入的内容の提供 50
  • 51.
    Mahout 活用の課題と方策 実行ノウハウ提供・方法論の導入内容の提供による解決 大規模データマイニング・機械学習活用の裾野の拡大 課題 ・ドキュメント未整備でソースコードから読み解く必要 ・対象データマイニング・機械学習手法の基礎知識が必要 (唯一ある本 Mahout in Action も Mahoutのごく一部しかカバーされていない) 方策 ・Mahout 実行方法のノウハウ提供 ・対象データマイニング・機械学習手法の導入的内容の提供 大規模データマイニング・機械学習の活用による サービス洗練の裾野拡大 51
  • 52.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 53.
    現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 53
  • 54.
    現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 活用に必要な知識 各方法に対し 「データマイニング/機械学習手法の導入的内容」 ~「Mahout での実行方法」まで含まれた内容 54
  • 55.
    現状のMahout情報 方法論導入~Mahout実行方法までの内容提供が重要 それらを提供しているコンテンツを調べてみた 活用に必要な知識 各方法に対し 「データマイニング/機械学習手法の導入的内容」 ~「Mahout での実行方法」まで含まれた内容 ・そもそも情報がないものが多い ・情報があっても大部分が部分的な内容しか含まれていない 55
  • 56.
  • 57.
    現状のMahout情報 方法論導入~Mahout実行方法まで含まれている内容を発見 「手法の導入的内容」 「Mahoutでの実行」 http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests 57
  • 58.
    現状のMahout情報 方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「手法の導入的内容」 「Mahoutでの実行」 http://www.slideshare.net/hamadakoichi/apache-mahout-04-random-forests 58
  • 59.
  • 60.
    現状のMahout情報 方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「方法論導入」から「実行方法」まで含まれた内容 = データマイニング+WEB@東京 のポリシー 60
  • 61.
    現状のMahout情報 方法論導入~Mahout実行方法まで含まれている内容を発見 データマイニング+WEB@東京 の各トーク 「方法論導入」から「実行方法」まで含まれた内容 = データマイニング+WEB@東京 のポリシー Mahout JP継続 61
  • 62.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 63.
    Mahout JP Mahout JP https://sites.google.com/site/mahoutjp/ 大規模分散データマイニング・機械学習ライブラリ Mahout 活用コミュニティ Mahout に関する 「方法論導入」から「Mahout実行方法」までの情報内容 発信・共有・議論し 活用の裾野を広げていく 63
  • 64.
    Mahout JP 内容構成 Contents 内容 Seminars Mahout の各機械学習・データマイニングの方法論、Mahout での実行法の講師資料まとめです。初めての方はまずここか ら見ると分かりやすいと思います。 Applications Mahoutのサービス活用 Clustering クラスタリング:似ているものをグループ化する Classification 分類:分類・判別を行う Pattern Mining パターンマイニング: 頻出パターンを抽出する Recommender 推薦: 興味に合うものを推薦する Regression 回帰: 数値予測を行う Dimension Reduction 次元縮約: 説明変数を重要な変数へ縮約 Installation 開発環境の構築法 members 情報発信メンバー 64
  • 65.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に
  • 66.
    最後に 一緒に情報発信するメンバーを募集しています 大規模データマイニング活用の裾野を広げていきましょう 1.手法~Mahout実行まで Mahout情報発信・共有したいコンテンツをお送り下さい。 2.アカウントを発行します。 66
  • 67.
    AGENDA ◆主催者紹介 ◆Mahout JP ◆創設の思い・目的 ◆Mahoutとは ◆Mahout活用の課題と方策 ◆現状のMahout情報 ◆Mahout JP ◆最後に