Successfully reported this slideshow.
Your SlideShare is downloading. ×

パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN

Ad

Confiden'al	
  :Discussion	
  purpose	
  only	
Copyright	
  (C)	
  2014	
  Yahoo	
  Japan	
  Corpora'on.	
  All	
  Rights	
...

Ad

Confiden'al	
  :Discussion	
  purpose	
  only	
 Copyright	
  (C)	
  2014	
  Yahoo	
  Japan	
  Corpora'on.	
  All	
  Rights	...

Ad

Confiden'al	
  :Discussion	
  purpose	
  only	
 Copyright	
  (C)	
  2014	
  Yahoo	
  Japan	
  Corpora'on.	
  All	
  Rights	...

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 33 Ad
1 of 33 Ad
Advertisement

More Related Content

Slideshows for you (19)

Viewers also liked (20)

Advertisement

More from Yahoo!デベロッパーネットワーク (20)

Advertisement

パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN

  1. 1. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. 2014/06/13 パーソナライズニュースを支える ML業務のまわしかた @ Yahoo! JAPAN ヤフー株式会社 データソリューション本部 村尾一真 深澤良介
  2. 2. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P2アジェンダ •  自己紹介 •  Yahoo! JAPANのパーソナライズニュー スとは? •  ML(機械学習)の使いどころ •  MLの精度評価と運用サイクル •  まとめ
  3. 3. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P3本日のGoal ü  MLの利用と運用について なるべく具体的に話をする #MLCT
  4. 4. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. 自己紹介
  5. 5. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P5自己紹介 深澤 良介 2009年入社 検索サービスの開発、検索エンジンライブラリの開発を経 て、2013年4月にデータソリューションへ 今回のサービスの担当範囲: データ入出力から配信までシステム全般 専攻: 自然言語処理、質問応答システム
  6. 6. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P6自己紹介 村尾 一真 2012年入社 自然言語処理 -> レコメンデーション 今回のサービスの担当範囲: モデル精度改善 専攻: 適用対象に合った機械学習の改善(HCI、音楽情報処理)
  7. 7. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. Yahoo! JAPANの パーソナライズニュース?
  8. 8. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P8Yahoo! JAPANのパーソナライズニュース •  類似のキュレーションサービス •  グノシー, SmartNews •  ニュース・記事・情報の推薦 •  掲出場所 •  ヤフースマホトップ •  ヤフーiPhone/androidアプリトップ •  ヤフーandroid tablet/iPadトップ パーソナライズ
  9. 9. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P9 •  多様なログを利用 ü  ニュース閲覧履歴 ü  検索キーワード ü  他のY!Jサービスの利用ログ ü  etc. •  よりユーザーに合ったコンテンツを 掲出することを目指す サービスの特徴
  10. 10. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. サービスの規模
  11. 11. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P11利用者 約230万UB/1日 (デバイス合算、clickのみをカウント、2014年5月某日) •  スクロールしなければ認知されないため、 ヤフートピックスと比べるとview/clickともか なり少ない •  パーソナライズニュースサービスで(多分)最大 規模 •  リリース半年でじわじわと認知され、ユーザー 増加中
  12. 12. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P12解析対象 約2000万cookie/1日 •  Y!Jの利用ユーザーはパーソナライズモジュー ルに非接触でも解析 •  ユーザーが意識せずにパーソナライズされたコ ンテンツを利用可
  13. 13. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P13入稿コンテンツ 約6000本/1日 •  約15秒に1本新しいコンテンツが入稿 =>リアルタイム反映の仕組み
  14. 14. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. ML(機械学習)の使いどころ
  15. 15. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P15ML(機械学習)の使いどころ •  検索likeなシステムを構築。高スコアの記事を上位に掲出。 リアルタイム反映を実現 •  コンテンツの特徴量(w)とユーザー特徴量(x)をマッチング •  特徴量のマッチング行列(A)を、ユーザーのフィードバック を用いて機械学習 •  検索のランキング学習と同じスキーム(Pairwise)で学習可能 yi,a = wT iAxa = (w1,w2,...,wN )i A x1 x2 ... xM ! " # # # # # $ % & & & & & a
  16. 16. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P16ML(機械学習)の使いどころ •  特徴量: コンテンツの表層素性、ユーザーの行動履歴など。 コンテンツの深い理解(メタデータを理解)も有用。 10E5次元程度 •  ロジスティック回帰を解くことで、高速に、かつ精度をあ る程度担保して学習可能(社内評価) yi,a = wT iAxa = (w1,w2,...,wN )i A x1 x2 ... xM ! " # # # # # $ % & & & & & a
  17. 17. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P17ニュースの特性に合わせた工夫 1.  マッチングのスコア計算後、コンテンツ入稿時刻とアクセ ス時刻の時間差によって減算処理 •  ニュースの特性: 直近の記事が出ているほうがユーザー は嬉しい(?)
  18. 18. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P18ニュースの特性に合わせた工夫 2.  1日あたりX回のモデル更新(バッチ処理) –  アクセスのピークタイム前に最新の興味を反映 3.  直近ログを用いた学習結果に、過去の学習結果に 興味減衰率(α)をかけて加算 –  短期的興味と長期的興味を考慮する狙い –  長期的興味になりそうな特徴量は毎日加算される –  短期的興味とのバランスをパラメータで調整 A(t +1) = A(t)+αA(t −1)
  19. 19. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P19Yahoo! JAPANのパーソナライズニュース ü  多様・大量なログを解析 ü  コンテンツ特性を考慮した MLシステムを構築
  20. 20. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. MLの精度評価と 運用サイクル
  21. 21. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P212段階の精度評価 •  オフライン評価 –  フィードバックログを利用 –  (定性評価) •  オンライン評価 –  A/Bテスト モデリン グ オフライン   評価 オンライン   評価
  22. 22. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P22 モデリン グ オフライン   評価 オンライン   評価 •  フィードバックログを利用 •  モデルによってスコアリングした結果をAUC、nDCGなどの指標 によって評価 •  学習器のパラメータ等を調整 ü  POINT ü  交差検定では、学習ログの日付に最適化されてしまう (ニュースドメインでは、日時で重みが変化するような特徴量が ある。変化しないものもある) ü  学習、チューニングに用いるログと、評価に用いるログは、異な るデータを用いるだけではなく、ログを収集した日付を変えたほ うが良い オフライン評価
  23. 23. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P23 モデリン グ オフライン   評価 オンライン   評価 オンライン評価 •  A/Bテストによる評価 •  プロジェクトのKPIが各テストでどう変わるか • 訪問率(重要!) •  記事のばらけ具合、等 •  KPI も即時分かるものと、そうでない長期的なものとを見ている •  CTRはすぐにわかるがいわゆる「釣り記事」などをポジティブに評価 してしまう •  ユーザーの満足度は訪問率に現れるという仮説 •  有意な差を認めるには累積で数十万以上のログが必要(感覚値) •  同時に実施可能なテスト本数がサービス規模に依存
  24. 24. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P24MLの運用サイクル •  問題設定、KPI設定 •  モデリング •  オフライン評価 •  有意な性能向上があっ た場合 •  定性的に有効だと思わ れ、性能に有意な低下 が見られなかった場合 (ex. 特徴量を削減) •  => オンライン評価 •  改善版リリース •  リリース後もKPIを定 常観測 問題設 定 モデリン グ オフライン 評価   (AUC,   nDCG) オンライン 評価   (A/Bテス ト) リリース
  25. 25. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P25MLの運用サイクル •  リリース後15週間で10回程度のモデル改善版リリース –  パラメータチューニングを除く –  オンライン評価は1週間程度見る必要 •  MLを利用しないものもベースラインとして並行稼働させ ている
  26. 26. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P26運用で改良したい点 •  オフライン評価が実際の配信システムを完全にはシミュ レートできていない => 感覚値70%くらいの確信度でA/Bテストに臨んでい る状況。。
  27. 27. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P27MLの精度評価と運用サイクル ü  オンライン・オフライン評価 を実施 ü  精度評価はKPI施策を 裏付けるためのもの. ü  重要な施策は小↓でも実施
  28. 28. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. テスト運用の話
  29. 29. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P29テスト運用フロー アプリケーション ビジネスロジック 機械学習 アルゴリズム •  アプリケーションテスト •  FEでテスト •  ビジネスロジックテスト •  単体テスト •  機械学習アルゴリズム •  目視で確認 •  性能テストをパッケージ化 し、コマンドを叩くことで 誰でも同一環境で性能評価 可能に => CIに乗せたい
  30. 30. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. まとめ
  31. 31. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P31まとめ •  Yahoo! JAPANのパーソナライズニュース •  検索ワード, Y!Jのクリックログ等を利用 •  大量のログを解析 コンテンツ特性を考慮したMLシステム •  運用フロー •  評価は施策を裏付けるためのもの •  重要な施策は小↓でも実施
  32. 32. Confiden'al  :Discussion  purpose  only Copyright  (C)  2014  Yahoo  Japan  Corpora'on.  All  Rights  Reserved. P32まとめ •  Yahoo! JAPANのパーソナライズニュース •  検索ワード, Y!Jのクリックログ等を利用 •  大量のログを解析 コンテンツ特性を考慮したMLシステム •  運用フロー •  評価は施策を裏付けるためのもの •  重要な施策は小↓でも実施 •  機械学習アルゴリズムの改善に 力を入れています => 興味ある人ぜひjoinを!

×