• Save
Mahoutを結構使ってみた話
Upcoming SlideShare
Loading in...5
×
 

Mahoutを結構使ってみた話

on

  • 5,088 views

第2回はじめてのパターン認識勉強会 LT 2013/7/2

第2回はじめてのパターン認識勉強会 LT 2013/7/2

Statistics

Views

Total Views
5,088
Views on SlideShare
4,687
Embed Views
401

Actions

Likes
16
Downloads
0
Comments
0

4 Embeds 401

http://prunus1350.hatenablog.com 379
https://twitter.com 13
http://blog.hatena.ne.jp 6
http://dschool.co 3

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Mahoutを結構使ってみた話 Mahoutを結構使ってみた話 Presentation Transcript

    • 2013/7/2 @yamakatu
    • お前誰よ?  @yamakatu  「やまかつ」って気安く呼んでください  集合知プログラミング勉強会は一回しか 行ってません。すみません。  サイト内検索のエンジンとか研究開発し てます  gihyo.jp「Mahoutで体感する機械学習の 実践」連載中
    • みんな、機械学習の処理系って 何使ってる?  R?  Jubatus?  WEKA?  LIBSVMとかつかっちゃうかんじ?  Apache Mahout もいるよ!
    • What’s Mahout  Apache製  機械学習ライブラリ  Hadoopを採用  分散処理(MapReduce)  分散ファイルシステム(HDFS)  Java実装(Javaライブラリ/CUI)  現在のバージョンは0.7  残チケットなくなってもうすぐ0.8出そうな気配 (2013/7/2) ○ 金麦冷やして待っててね!
    • で、実際のところどうなの か?
    • Mahoutの理想と現実 (1/3)  理想  Hadoopで分散処理&分散ファイルシステム ○ 計算量が多くてもさくっと(分散処理) ○ vs. びっぐでーた(分散処理&分散FS) ○ Hadoopの運用ノウハウも使えるし  現実  Hadoopはまだそれほど枯れてない  Hadoopが使いこなせるエンジニアの不足  実際、Hadoop使ってる? ○ ノウハウない ➡Hadoopは今でも結構敷居は高い(と思う
    • Mahoutの理想と現実 (2/3)  理想  安心のApacheクオリティ(キリッ  現実  結構バグだらけ(ver 0.7) ○ コマンドライン実行で表示される Generic Options 叩いたら「そんなのない」とおこられる ○ そもそもコマンドラインのhelpがちゃんと表示さ れない ○ mapreduce実行とsequential実行で結果がなんか ‥ちが‥く‥ない‥? ○ まぁ‥まだVer.0.7だからさ‥
    • Mahoutの理想と現実 (3/3)  理想  Apache コミュニティがビシバシ開発して、 なんかすげーたくさんアルゴリズム入って る  現実  SVMは実装されてない
    • Mahoutの理想と現実 (3/3)  理想  Apache コミュニティがビシバシ開発して、 なんかすげーたくさんアルゴリズム入って る  現実  SVMは実装されてない  ニューラルネットワークは実装されてない ○ Deep Learning?なにそれおいしいの?
    • Mahoutの理想と現実 (3/3)  理想  Apache コミュニティがビシバシ開発して、 なんかすげーたくさんアルゴリズム入って る  現実  SVMは実装されてない  ニューラルネットワークは実装されてない  もうやめて!Mahoutのライフはゼロよ!  チケットはあるのでいつか実装されるかも
    • しかし
    • Mahoutはやればできる子! (1/2)  実装済みアルゴリズム(抜粋)Ver. 0.7  分類器 ○ Naïve Bayse ○ ロジスティック回帰 ○ Random Forest ○ HMM  クラスタリング ○ KNN ○ K-Means ○ Canopy ○ Fuzzy K-Means  パターンマイニング ○ FP-Growth  レコメンデーション ○ 略  次元削減 ○ 略  進化的アルゴリズム ○ 略  とかとか
    • Mahoutはやればできる子! (2/2)  やっぱりMapReduceは速い  けど、分散処理のボトルネックはある ○ Hadoopの疑似分散環境でMapReduce実行 vs. Sequential実行 ➡俺とボルトぐらいの差 ○ 2台ぐらいなら意味ないかも?(自信ない
    • 結論  バグはバグであると見抜ける人でないと (現在のVer.のMahoutを使うのは)難 しい  ver. 1.0は2014年6月予定。(予定は未定)  アルゴリズムはまぁまぁ実装されてる  使いたいアルゴリズムをSequential実行する のもあり  MapReduceが速いかどうかは状況次第  やまかつの連載はてブお願いします