芸能人推薦のしくみ
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

芸能人推薦のしくみ

  • 4,647 views
Uploaded on

第一回 mixi × ca 合同勉強会のLTで発表した資料に一部加筆修正を加えたものです。

第一回 mixi × ca 合同勉強会のLTで発表した資料に一部加筆修正を加えたものです。

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
4,647
On Slideshare
2,570
From Embeds
2,077
Number of Embeds
8

Actions

Shares
Downloads
25
Comments
0
Likes
4

Embeds 2,077

http://ameblo.jp 2,032
http://s.ameblo.jp 25
url_unknown 7
http://blog.ameba.jp 5
http://webcache.googleusercontent.com 4
http://www.slideshare.net 2
http://usefreshreader.info 1
http://fleshreaders.asia 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 芸能人推薦のしくみ株式会社サイバーエージェントアメーバ事業本部 Ameba Technology Laboratory服部 司
  • 2. 株式会社サイバーエージェント 2今日紹介する話・ 関連する芸能人の推薦 Result Query oshima-y xanadu11 atsuko-maeda sashihara-rino
  • 3. 株式会社サイバーエージェント 3デモ・ それでは早速・・・
  • 4. 株式会社サイバーエージェント 4デモ
  • 5. 株式会社サイバーエージェント 5デモ
  • 6. 株式会社サイバーエージェント 6デモ
  • 7. 株式会社サイバーエージェント 7デモ
  • 8. 株式会社サイバーエージェント 8デモ
  • 9. 株式会社サイバーエージェント 9デモ
  • 10. 株式会社サイバーエージェント 10実現方法・ ブログのアクセスログを使った機械学習 - ログデータ は Patriot から取得
  • 11. 株式会社サイバーエージェント 11ブログのアクセスログの加工方法(概説)1. 各ユーザー毎に芸能人ブログの共起アクセスを洗い出す。 user1 atsuko-maeda user1 user2 nakagawa-shoko user3 darvish-yu-blog ・atsuko-maeda / oshima-y … … ・oshima-y / sashihara-rino user1 oshima-y ・sashihara-rino / atsuko-maeda … … user1 sashihara-rino … …
  • 12. 株式会社サイバーエージェント 12ブログのアクセスログの加工方法(概説)2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむuser1 a o s …・atsuko-maeda / oshima-y a 0 +1 +1・sashihara-rino / atsuko-maeda o +1 0 +1・oshima-y / sashihara-rino s +1 +1 0 …
  • 13. 株式会社サイバーエージェント 13ブログのアクセスログの加工方法(概説)2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむuser1 a o s …・atsuko-maeda / oshima-y a 0 +1 +1・sashihara-rino / atsuko-maeda o +1 0 +1・oshima-y / sashihara-rino s +1 +1 0 …
  • 14. 株式会社サイバーエージェント 14ブログのアクセスログの加工方法(概説)2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむuser1 a o s …・atsuko-maeda / oshima-y a 0 +1 +1・sashihara-rino / atsuko-maeda o +1 0 +1・oshima-y / sashihara-rino s +1 +1 0 …
  • 15. 株式会社サイバーエージェント 15ブログのアクセスログの加工方法(概説)2. 芸能人×芸能人の行列にユーザー毎の共起アクセスを足しこむuser1 a o s …・atsuko-maeda / oshima-y a 0 +1 +1・sashihara-rino / atsuko-maeda o +1 0 +1・oshima-y / sashihara-rino s +1 +1 0 …
  • 16. 株式会社サイバーエージェント 16ブログのアクセスログの加工方法(概説)3. 行列の各行(列)を、各行の最大値で正規化 a o s a o s a 0 100 60 a 0 1 0.6 o 100 0 20 o 1 0 0.2 s 60 20 0 s 1 0.33 0 ( * 上図は 3×3 行列の場合の結果。実際は 104× 104 行列程度 )
  • 17. 株式会社サイバーエージェント 17ブログのアクセスログの加工方法(概説)4. 必要であれば、機械学習に必要なデータ形式に合わせて加工 a o s a 0 1 1 a o s o 1 0 0 2値化a 0 1 0.6 (閾値) s 1 0 0o 1 0 0.2 a o ss 1 0.33 0 離散多値化 (step関数) a 0 5 3 o 5 0 2 s 5 2 0
  • 18. 株式会社サイバーエージェント 18このデータ加工の利点・ データマトリックスが小さくなる。(1万×1万) cf ) ameba user ×芸能人 = 1500万 × 1万 → 現実的に計算できる推薦アルゴリズムが増える。・ 縦軸、横軸が同じ → 使用できる推薦アルゴリズム*が増える * アイテムベース・ユーザーベース推薦どちらも可能
  • 19. 株式会社サイバーエージェント 19主に使ってるアルゴリズム・ set expansion 系 [1] - MaxentSets (の拡張)・ 情報検索 系 - TF-IDF + 類似度( cosine、Jaccrd、 … etc ) 複数のアルゴリズムのランキング順位を 調和平均してリランキング ( * ランク上位のノイズが減る ) [1] On-demand Set-based Recommendations Suhrid Balakrishnan (2010)
  • 20. 株式会社サイバーエージェント 20雑記 ・ TIPS< データ加工 > ・ 解析するログの期間は長い方がいい。 ・ 低アクセスのユーザーをはじく。割と大胆に。< アルゴリズム > ・ 推薦で高精度だと言われているアルゴリズムが必ずしも いい結果を出さなかった。 例 ) PLSA*、SlopeOne* → 1位に pigg-staff が頻出 * Web+DB PRESS No 49 にも載ってる。
  • 21. 株式会社サイバーエージェント 21ご清聴ありがとうございました!