0
Apache Mahoutお手軽レコメンドYoshiyuki MIYAGIdwango mobile
自己紹介宮城良征 (Yoshiyuki MIYAGI) tw: yosshi1202 github: yosshiドワンゴモバイル アプリケーション開発第一セクション
週末プロジェクト 2日でがんばってみた
Apache Mahouthttp://mahout.apache.org象 = Hadoop, 象使い = MahoutHadoop を簡単に使えるやつ  大規模分散処理  Hadoopというより HDFS を使っているレコメンデーションやデ...
Hadoop って何?http://hadoop.apache.org大規模分散処理フレームワーク象Hadoop の上で何を動かすかが重要
今日のやりたいこと。               この商品を買った人は               こんな商品も買ってます http://www.amazon.co.jp/dp/4873115841
購入ログからのレコメンド
とある購入ログユーザーIDと商品IDの組み合わせ データは2012年2月頃 レーティング無し    ユーザー数       数万人     商品数        数万件    購入ログ        数十万件
かんたんレコメンド    がんばれ Mahout & Hadoop    試しにコサイン関数を使う       商品Aを購入した人は他に何を購入したか?hadoop jar /usr/local/mahout/examples/target/m...
【結果】レコメンドデータ: ログの2倍ぐらいの件数   2分で処理が終わった。   出力される値    商品ID, レコメンド商品ID, スコア   一度でもダウンロードされる必要   スコアが高いほどオススメ
某アニメの主題歌アニメA      この商品に対してレコメンド  1期      購入ユーザー: 数千人  OP      レコメンド: 数千件上位 4 商品                      数値はスコアアニメA       アニメA...
某女性アイドルグループの楽曲 アイドル   この商品に対してレコメンド グループ    購入ユーザー: 数千人 楽曲A     レコメンド: 数百件上位 4 商品                       数値はスコア アイドル     アイ...
それっぽいのはできた。
まだまだ続くよ・・・実データ いじるの楽しすぎる他アルゴリズムを試す問題点 Hadoop の操作に慣れていない Mahout 本が欲しい
今回挫けたところHadoop の 0.23 系が手元で動かなかったHadoop 1.0 系を homebrew で入れてごまかすMahout 実行後に再実行しようとしたら tempファイルが残って再実行出来ない=慣れていない【タイムアップ】
付録
specMacbook Pro 13 プロセッサ 2.7 GHz Intel Core i7 メモリ 8 GB 1333 MHz DDR3Hadoop 1.0.4Mahout 0.7
機械学習って何?http://ja.wikipedia.org/wiki/機械学習応用分野  自然言語処理  検索エンジン  レコメンデーション
Upcoming SlideShare
Loading in...5
×

Apache Mahout お手軽レコメンド

4,225

Published on

緑色の部分は公開できない情報なので伏せています。

Published in: Technology

Transcript of "Apache Mahout お手軽レコメンド"

  1. 1. Apache Mahoutお手軽レコメンドYoshiyuki MIYAGIdwango mobile
  2. 2. 自己紹介宮城良征 (Yoshiyuki MIYAGI) tw: yosshi1202 github: yosshiドワンゴモバイル アプリケーション開発第一セクション
  3. 3. 週末プロジェクト 2日でがんばってみた
  4. 4. Apache Mahouthttp://mahout.apache.org象 = Hadoop, 象使い = MahoutHadoop を簡単に使えるやつ 大規模分散処理 Hadoopというより HDFS を使っているレコメンデーションやデータマイニングを簡単に。 機械学習ライブラリ集
  5. 5. Hadoop って何?http://hadoop.apache.org大規模分散処理フレームワーク象Hadoop の上で何を動かすかが重要
  6. 6. 今日のやりたいこと。 この商品を買った人は こんな商品も買ってます http://www.amazon.co.jp/dp/4873115841
  7. 7. 購入ログからのレコメンド
  8. 8. とある購入ログユーザーIDと商品IDの組み合わせ データは2012年2月頃 レーティング無し ユーザー数 数万人 商品数 数万件 購入ログ 数十万件
  9. 9. かんたんレコメンド がんばれ Mahout & Hadoop 試しにコサイン関数を使う 商品Aを購入した人は他に何を購入したか?hadoop jar /usr/local/mahout/examples/target/mahout-examples-0.7-job.jar org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob -tempDir=temp -Dmapred.input.dir=data -Dmapred.output.dir=output --similarityClassname SIMILARITY_COSINE
  10. 10. 【結果】レコメンドデータ: ログの2倍ぐらいの件数 2分で処理が終わった。 出力される値 商品ID, レコメンド商品ID, スコア 一度でもダウンロードされる必要 スコアが高いほどオススメ
  11. 11. 某アニメの主題歌アニメA この商品に対してレコメンド 1期 購入ユーザー: 数千人 OP レコメンド: 数千件上位 4 商品 数値はスコアアニメA アニメA アニメ系 アニメ系 1期 2期 歌手A 歌手B ED OP 楽曲C 楽曲D0.49486 0.24577 0.244036 0.178809
  12. 12. 某女性アイドルグループの楽曲 アイドル この商品に対してレコメンド グループ 購入ユーザー: 数千人 楽曲A レコメンド: 数百件上位 4 商品 数値はスコア アイドル アイドル アイドル 男性 グループ グループ グループ グループ 楽曲B 楽曲C 楽曲D 楽曲E0.195868 0.161146 0.0939014 0.0924845 それなりにできてますね。
  13. 13. それっぽいのはできた。
  14. 14. まだまだ続くよ・・・実データ いじるの楽しすぎる他アルゴリズムを試す問題点 Hadoop の操作に慣れていない Mahout 本が欲しい
  15. 15. 今回挫けたところHadoop の 0.23 系が手元で動かなかったHadoop 1.0 系を homebrew で入れてごまかすMahout 実行後に再実行しようとしたら tempファイルが残って再実行出来ない=慣れていない【タイムアップ】
  16. 16. 付録
  17. 17. specMacbook Pro 13 プロセッサ 2.7 GHz Intel Core i7 メモリ 8 GB 1333 MHz DDR3Hadoop 1.0.4Mahout 0.7
  18. 18. 機械学習って何?http://ja.wikipedia.org/wiki/機械学習応用分野 自然言語処理 検索エンジン レコメンデーション
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×