More Related Content Similar to パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN Similar to パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN (20) More from Yahoo!デベロッパーネットワーク More from Yahoo!デベロッパーネットワーク (20) パーソナライズニュースを支えるML業務のまわしかた@Yahoo! JAPAN1. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
2014/06/13
パーソナライズニュースを支える
ML業務のまわしかた
@ Yahoo! JAPAN
ヤフー株式会社 データソリューション本部
村尾一真 深澤良介
2. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P2アジェンダ
• 自己紹介
• Yahoo! JAPANのパーソナライズニュー
スとは?
• ML(機械学習)の使いどころ
• MLの精度評価と運用サイクル
• まとめ
5. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P5自己紹介
深澤 良介
2009年入社
検索サービスの開発、検索エンジンライブラリの開発を経
て、2013年4月にデータソリューションへ
今回のサービスの担当範囲:
データ入出力から配信までシステム全般
専攻:
自然言語処理、質問応答システム
6. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P6自己紹介
村尾 一真
2012年入社
自然言語処理 -> レコメンデーション
今回のサービスの担当範囲:
モデル精度改善
専攻:
適用対象に合った機械学習の改善(HCI、音楽情報処理)
8. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P8Yahoo! JAPANのパーソナライズニュース
• 類似のキュレーションサービス
• グノシー, SmartNews
• ニュース・記事・情報の推薦
• 掲出場所
• ヤフースマホトップ
• ヤフーiPhone/androidアプリトップ
• ヤフーandroid tablet/iPadトップ
パーソナライズ
9. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P9
• 多様なログを利用
ü ニュース閲覧履歴
ü 検索キーワード
ü 他のY!Jサービスの利用ログ
ü etc.
• よりユーザーに合ったコンテンツを
掲出することを目指す
サービスの特徴
11. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P11利用者
約230万UB/1日
(デバイス合算、clickのみをカウント、2014年5月某日)
• スクロールしなければ認知されないため、
ヤフートピックスと比べるとview/clickともか
なり少ない
• パーソナライズニュースサービスで(多分)最大
規模
• リリース半年でじわじわと認知され、ユーザー
増加中
12. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P12解析対象
約2000万cookie/1日
• Y!Jの利用ユーザーはパーソナライズモジュー
ルに非接触でも解析
• ユーザーが意識せずにパーソナライズされたコ
ンテンツを利用可
13. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P13入稿コンテンツ
約6000本/1日
• 約15秒に1本新しいコンテンツが入稿
=>リアルタイム反映の仕組み
15. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P15ML(機械学習)の使いどころ
• 検索likeなシステムを構築。高スコアの記事を上位に掲出。
リアルタイム反映を実現
• コンテンツの特徴量(w)とユーザー特徴量(x)をマッチング
• 特徴量のマッチング行列(A)を、ユーザーのフィードバック
を用いて機械学習
• 検索のランキング学習と同じスキーム(Pairwise)で学習可能
yi,a = wT
iAxa = (w1,w2,...,wN )i A
x1
x2
...
xM
!
"
#
#
#
#
#
$
%
&
&
&
&
&
a
16. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P16ML(機械学習)の使いどころ
• 特徴量: コンテンツの表層素性、ユーザーの行動履歴など。
コンテンツの深い理解(メタデータを理解)も有用。
10E5次元程度
• ロジスティック回帰を解くことで、高速に、かつ精度をあ
る程度担保して学習可能(社内評価)
yi,a = wT
iAxa = (w1,w2,...,wN )i A
x1
x2
...
xM
!
"
#
#
#
#
#
$
%
&
&
&
&
&
a
17. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P17ニュースの特性に合わせた工夫
1. マッチングのスコア計算後、コンテンツ入稿時刻とアクセ
ス時刻の時間差によって減算処理
• ニュースの特性: 直近の記事が出ているほうがユーザー
は嬉しい(?)
18. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P18ニュースの特性に合わせた工夫
2. 1日あたりX回のモデル更新(バッチ処理)
– アクセスのピークタイム前に最新の興味を反映
3. 直近ログを用いた学習結果に、過去の学習結果に
興味減衰率(α)をかけて加算
– 短期的興味と長期的興味を考慮する狙い
– 長期的興味になりそうな特徴量は毎日加算される
– 短期的興味とのバランスをパラメータで調整
A(t +1) = A(t)+αA(t −1)
19. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P19Yahoo! JAPANのパーソナライズニュース
ü 多様・大量なログを解析
ü コンテンツ特性を考慮した
MLシステムを構築
21. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P212段階の精度評価
• オフライン評価
– フィードバックログを利用
– (定性評価)
• オンライン評価
– A/Bテスト
モデリン
グ
オフライン
評価
オンライン
評価
22. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P22
モデリン
グ
オフライン
評価
オンライン
評価
• フィードバックログを利用
• モデルによってスコアリングした結果をAUC、nDCGなどの指標
によって評価
• 学習器のパラメータ等を調整
ü POINT
ü 交差検定では、学習ログの日付に最適化されてしまう
(ニュースドメインでは、日時で重みが変化するような特徴量が
ある。変化しないものもある)
ü 学習、チューニングに用いるログと、評価に用いるログは、異な
るデータを用いるだけではなく、ログを収集した日付を変えたほ
うが良い
オフライン評価
23. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P23
モデリン
グ
オフライン
評価
オンライン
評価
オンライン評価
• A/Bテストによる評価
• プロジェクトのKPIが各テストでどう変わるか
• 訪問率(重要!)
• 記事のばらけ具合、等
• KPI も即時分かるものと、そうでない長期的なものとを見ている
• CTRはすぐにわかるがいわゆる「釣り記事」などをポジティブに評価
してしまう
• ユーザーの満足度は訪問率に現れるという仮説
• 有意な差を認めるには累積で数十万以上のログが必要(感覚値)
• 同時に実施可能なテスト本数がサービス規模に依存
24. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P24MLの運用サイクル
• 問題設定、KPI設定
• モデリング
• オフライン評価
• 有意な性能向上があっ
た場合
• 定性的に有効だと思わ
れ、性能に有意な低下
が見られなかった場合
(ex. 特徴量を削減)
• => オンライン評価
• 改善版リリース
• リリース後もKPIを定
常観測
問題設
定
モデリン
グ
オフライン
評価
(AUC,
nDCG)
オンライン
評価
(A/Bテス
ト)
リリース
25. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P25MLの運用サイクル
• リリース後15週間で10回程度のモデル改善版リリース
– パラメータチューニングを除く
– オンライン評価は1週間程度見る必要
• MLを利用しないものもベースラインとして並行稼働させ
ている
26. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P26運用で改良したい点
• オフライン評価が実際の配信システムを完全にはシミュ
レートできていない
=> 感覚値70%くらいの確信度でA/Bテストに臨んでい
る状況。。
27. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P27MLの精度評価と運用サイクル
ü オンライン・オフライン評価
を実施
ü 精度評価はKPI施策を
裏付けるためのもの.
ü 重要な施策は小↓でも実施
29. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P29テスト運用フロー
アプリケーション
ビジネスロジック
機械学習
アルゴリズム
• アプリケーションテスト
• FEでテスト
• ビジネスロジックテスト
• 単体テスト
• 機械学習アルゴリズム
• 目視で確認
• 性能テストをパッケージ化
し、コマンドを叩くことで
誰でも同一環境で性能評価
可能に
=> CIに乗せたい
31. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P31まとめ
• Yahoo! JAPANのパーソナライズニュース
• 検索ワード, Y!Jのクリックログ等を利用
• 大量のログを解析
コンテンツ特性を考慮したMLシステム
• 運用フロー
• 評価は施策を裏付けるためのもの
• 重要な施策は小↓でも実施
32. Confiden'al
:Discussion
purpose
only
Copyright
(C)
2014
Yahoo
Japan
Corpora'on.
All
Rights
Reserved.
P32まとめ
• Yahoo! JAPANのパーソナライズニュース
• 検索ワード, Y!Jのクリックログ等を利用
• 大量のログを解析
コンテンツ特性を考慮したMLシステム
• 運用フロー
• 評価は施策を裏付けるためのもの
• 重要な施策は小↓でも実施
• 機械学習アルゴリズムの改善に
力を入れています
=> 興味ある人ぜひjoinを!