Retty recommendation project

2018.11.17 日本OR学会研究部会最適化とその応用（OPTA）
ソーシャルグルメサービス Retty における
レコメンデーションの取り組み
岩永二郎
Retty株式会社
iwanaga@retty.me

本発表のテーマ
3
課題解決する方法としての理論と技術
理論が技術を通してサービスに接続されるまで

自己紹介
■ 岩永二郎
■ Data Scientist / Rettyうなぎ担当
■ 経歴
2008年3月卒　早稲田大学大学院理工学研究科数理科学専攻修士課程修了
2008年4月-2016年8月　株式社数理システム(現NTTデータ数理システム)
2016年9月-現在　Retty株式会社
2017年4月-現在　早稲田大学データサイエンス研究所招聘研究員
2018年10月-現在　上智大学非常勤講師
#データサイエンティスト　#プログラマー　#コンサルタント　
#数理最適化　#機械学習　#自然言語処理　#統計学　#画像解析
#Python　#R　#SQL
#Tableau
5

会社概要
■ 会社名：Retty株式会社
■ 設立：2010年11月
■ 所在地：東京都港区三田
■ 社員数：約100名
7

ソーシャルグルメサービス Retty
8
アプリ / WEBでソーシャルグルメサービスを展開

Rettyにおけるデータサイエンス
10

Retty のデータ
WEB アプリ
ユーザーボリューム
データの質
✔ 店舗PVデータ
✔ 店舗CVデータ
✔ LPVデータ
✔ ユーザデモグラ
✔ 投稿データ
　★ レイティング
　★ クチコミ
　★ 画像
実名制会員:X00万人月間利用者数:4000万人
11

データサイエンスが目指すイノベーション
UX Operation
UI Alg Auto Opt
オペレーションの自動化と最適化
理想のユーザー体験をUIとアルゴリズムで実現
12

データサイエンティストのスキルセット
BigQuery / TD
SQL
分析基盤
Jupyter Notebook
Python / R
分析環境
Tableau
re:dash
可視化
データ加工・集計
pandas
科学技術計算/統計
scipy
行列計算/数値計算
numpy
機械学習
sklearn / chainer
グラフ理論
networkx
数理最適化
pulp
自然言語処理
gensim
可視化
matplotlib
13

データサイエンティストの仕事
とにかく課題解決すること
✔企画支援
：現状把握 / 課題整理 / 施策検討 / 意思決定
✔ロジック構築
：自動化 / 最適化 / UX改善
✔インフラ整備
：データ分析基盤構築 / ダッシュボード整備
タスク
エンジニア / アナリスト / コンサルタント / etc.役割
14

レコメンドプロジェクト紹介
15

Rettyレコメンド系課題
お店詳細ページでお店レコメンド
✔ 類似店舗レコメンド
✔ 人気店レコメンド
✔ 協調フィルタリングレコメンド
お店レコメンド
お店写真
レコメンド
お店口コミ
レコメンド
投稿写真の中からお店の代表的な
写真を抽出する
投稿口コミの中からお店の代表的な
口コミを抽出する
16
閲覧履歴
レコメンド
お店閲覧履歴からのお店レコメンド

お店レコメンドの取り組み
17

レコメンドサービスをつくるときに
まず何から考えますか？
18

レコメンドサービス構築ではじめに考えること
アルゴリズム
✔ 内容ベースフィルタリング
✔ 協調フィルタリング
✔ アソシエーションルール
✔ word2vec / 行列分解 / テンソル分解
✔ RF / SVM / LR
ユーザー心理
✔ ユーザーは何を探しているのか
✔ どのタイミングでオススメすると嬉しいのか
✔ どのようにオススメすると刺さるのか
✔ ユーザーがオススメを受け入れる基準は何か
19

レコメンドサービス構築ではじめに考えること
アルゴリズム
✔ 内容ベースフィルタリング
✔ アソシエーションルール
✔ word2vec / 行列分解 / テンソル分解
✔ RF / SVM / LR
ユーザー心理
✔ ユーザーは何を探しているのか
✔ どのタイミングでオススメすると嬉しいのか
✔ どのようにオススメすると刺さるのか
✔ ユーザーがオススメを受け入れる基準は何か
20

実現したいユーザー体験
お店リスト
ページ
お店ページお店ページお店ページ
Landing 回遊
②イメージに近いお店を選択
③レコメンドから
目的に合うお店を選択
④レコメンドから
もっと魅力的なお店を選択
⑤行きたいお店の発見！
①漠然とした
イメージで検索
行きたくなるお店が見つかる
回遊回遊
21

お店詳細ページにレコメンドを実装
「このお店ちょっと違うなぁ」
と思っているユーザーに
オススメしたい！
✔ 同じジャンルのお店？
✔ 価格帯が一緒？
✔ デート向き？
✔ 近くのお店？
✔ 人気のお店？
✔ このお店に行ってる人の
　オススメ？
（店名）
（店名） (店名)
22

レコメンドの勘所
コンセプト
レコメンドコンセプトの設計
ユーザーはどのタイミングで、どのような観点での
レコメンドを必要とするのか？
ロジック
レコメンドロジックの設計
コンセプトを実現するために、
どのようなデータとアルゴリズムを組み合わせて
ロジックを実現するのか？
デザイン
レコメンドデザインの設計
ユーザーが必要な情報は何か
どのようなクリエイティブでレコメンドを伝えるか
23

お店レコメンドの開発ロードマップ
Phase 2
デザイン
ブラッシュアップ
Phase 1
レコメンドロジック
実装
Phase 3
配信最適化
　レコメンド
✔ 情報設計
✔ フォーマット改善
✔ バンディット
　アルゴリズム
✔ Elastic Netによる
　 CTR予測
24
※ 開発・試験期間：2017年11月〜2018年7月

Phase 2
デザイン
Phase 1
実装
Phase 3
配信最適化
　レコメンド
✔ 情報設計
　 CTR予測
25

■ 計算済みのレコメンドテーブルをDBに用意しておく
※ 本タスクはリアルタイムでレコメンド計算する必要がない
■ データサイエンティストとWEBエンジニアの接点はDBのみ
⇒ 役割分担ができて仕事がスムーズ
Phase1-1：配信のアーキテクチャ
レコメンド
テーブル
デバイスDB
レコメンド
ワークフローサーバー
店舗ID / エリアID
レコメンド店舗リスト
定期的に更新
バッチ実行
26
データサイエンティストが実装 Webエンジニアが実装

Phase1-2：レコメンドの企画・設計
レコメンド観点訴求方法
レコメンド
アルゴリズム
類似店舗レコメンド【このお店と似ているお店】
・ジャンルが同じ（似ている）
・価格帯が同じ（近い）
・利用シーン（似ている）
・距離（近い）
コンテンツベース
フィルタリング
人気店レコメンド【この周辺で人気のお店】
・人気店
・男性 / 女性に人気
・若者 / オトナに人気
PageRank
協調フィルタリング
レコメンド
【このお店に行った人は、
　次のお店にも行っています】
・イチオシ
アイテムベース協調
フィルタリング
ランダムレコメンド【周辺のお店】ランダム
✔ 代表的なレコメンドロジックを網羅的に実験
✔ レコメンドロジック別にブラッシュアップしていく方針
27

Phase1-3：レコメンドの配信・表示ロジック
■ レコメンドの鮮度
✓ サイトの鮮度が落ちないようにランダム性を取り入れる
✓ キャッシュ１日 / レコメンドテーブル入れ替え XX 週間
■ A/Bテストの実施
✓ レコメンドロジックの精度検証を行う
ランダムレコメンド
エリア全店舗
お店ページお店ページお店ページお店ページ
類似店舗レコメンド
レコメンド候補店舗
人気店レコメンド
協調フィルタリング
レコメンド
レコメンドロジックのランダム選択
ランダム抽出ランダム抽出ランダム抽出ランダム抽出
お店ページ
ランダム並び替えランダム並び替えランダム並び替えランダム並び替え
1
4
20C10通り
10！通り
確率
28

Phase1-4-a：類似店舗レコメンドの設計
ユーザー視点で「似ているお店」をモデリングする
■ お店詳細ページを閲覧してるときのレコメンドニーズ
■
■ 店舗間類似度の設計
カテゴリが同じ
価格帯が近い
利用シーンが似ている
距離が近い
カテゴリ類似度
価格帯類似度
利用シーン類似度
距離類似度
店舗間類似度
29
具体的なシーン
✔ このお店ちょっと違うなぁと思っているとき
✔ 行きたいお店に電話予約して断られたとき
具体的なキモチ
✔ イタリアンの気分だからイタリアンのお店を探したい
✔ スマホでお店の現在地検索をしてるので近いお店が良い
etc.

Phase1-4-b：店舗間類似度の計算式
■ 店舗間類似度の計算式
スコアが、明確な観点で構成される場合、線形和に表現する方法は
簡単にして有効（ただし、スマートかどうかは賛否両論）
■ 計算式の例（一部抜粋）
　店舗間類似度 = α ✕ カテゴリ類似度
　　　　　　　＋ β ✕ 価格類似度
　　　　　　　＋ γ ✕ 利用シーン類似度
　　　　　　　＋ δ ✕ 距離類似度
30

Phase1-5：人気店レコメンド
■ Retty 店舗 Rating データの仕様
３段階：
■ 次の仮定をおき、ユーザーごとに選好順序を定義する
✓ GoodよりもExcellentの店舗がオススメ
✓ AverageよりもGoodの店舗がオススメ
■ 選好順序グラフのPageRankを人気スコアと定義
投稿データ
STEP1
投稿データの取得
STEP２
選好順序の定義
STEP３
選好グラフの構築
投稿データ
対象ユーザ
選好グラフ
STEP４
PageRank算出
PageRank
0.12
0.03
0.01
0.11
0.02
31

【参考】PageRank-有向グラフのノード重要度-
■ 技術概要
✓ Googleの創始者LarryとPageが「ウェブページは他の重要なページか
ら指されていれば重要」であるという事象をモデリングしようとして
PageRankを発明した
✓ 遷移確率行列の性質をもつ有向グラフに対するモデリングの一種で
ノードの重要度を算出できる
✓ PageRankの重要度はマルコフ連鎖の定常値
■ PageRankの方程式（エッセンス部分）
■ 適用例
✓ 論文引用を利用して構築した有向グラフから論文の重要度を計算
✓ 選好順序を利用して構築した有向グラフから人気店を抽出

■ 手法：Item to Item Collabolative Filtering
■ Ratingデータ
■ 店舗間類似度の計算
Phase1-6：協調フィルタリングレコメンド
【Technical Note】
次のアルゴリズムを利用した
レコメンドロジックも実装
✔ Non-Negative Matrix Factorization
✔ word2vec
⇒ Serendipityが強すぎてユーザーの納得性
　に欠けるため不採用
33

Phase1-7：オフライン検証 -定性評価-
■ ロジックの実装が正しいことを確認できる可視化
■ 人間が理解しやすいように表現
■ 評価者の土地勘の効くエリアを選定
■ 検証エリアは網羅的に行う（都市圏 / 郊外 / 地方）
✔ コンセプト通りのレコメンドになっているか定性評価
✔ リリースするかのジャッジ
34
本資料では店名を省かせていただいております

Phase1-8：オンライン検証 -定量評価-
既存ロジックから 202% の改善
ランダム
配信
A B C
CTR
既存ロジック
202%改善
レコメンドロジック別 CTR
35
■ CTRで各レコメンドロジックを定量評価
■ CTR = Click Through Rate（Click / Impression）

【参考】レコメンドワークフローの実装
レコメンドテーブル
作成処理
DBインポート処理
✔ 安定稼働 / エラーハンドリング / 高い生産性を考慮した設計
✔ slack 通知を利用した監視
✔ 実時間内に計算を終わらせるための高速化
レコメンド検証
データ作成処理
36

Phase 2
デザイン
Phase 1
実装
Phase 3
配信最適化
　レコメンド
✔ 情報設計
　 CTR予測
37

■ 情報設計とは
■ アイテムレコメンドにおけるポイント
■ 情報設計におけるトレードオフの問題
Phase2-１：レコメンドの情報設計
38
知識やデータの組織化をするための表現技術
✔ 情報をわかりやすく伝える
✔ 受け手が情報を探しやすくする
情報設計
ユーザーにアイテムを魅力的に感じてもらい、
アイテムを閲覧してもらう
アイテム閲覧への
動機づけ
ユーザーがアイテムを閲覧した後に
期待がはずれてストレスに感じるのを避ける
期待はずれによる
ストレス
情報が多いほど
価値がある
情報過多であると
ユーザー体験を損ねる

Phase2-２：デザインの変更
①情報の意図
✔ レコメンドの説明
③お店の魅力
✔ お店写真
✔ レコメンド理由
✔ お店キャッチコピー
②お店探しの必要情報
✔ 店名
✔ ジャンル
✔ 価格帯
変更前
変更後
「このお店をもっと見たい！」
と動機付けるのが Point
(店名)
(店名)
39

Phase2-３：レコメンド理由の表示
■ アイテムのレコメンド理由を何故、表示するのか？
■ 具体例
40
運営側の都合（広告）ではなく、
ユーザー視点のレコメンドであることを伝える
不信感の排除
訴求するポイントを具体的に明示することで
アイテムの魅力を伝える
魅力の訴求
複数のレコメンドアイテムを差別化することで
アイテムを比較し、選びやすくする
比較要素の導入
どの観点（カテゴリ？利用シーン？距離？）で
似てるかわかるレコメンド理由を表示
類似店舗レコメンド
このお店と似ているお店
どのようなグループ（性別？年代？）で
人気かわかるレコメンド理由を表示
人気店レコメンド
この周辺で人気のお店

Phase2-4：デザインブラッシュアップ-定量評価-
デザイン変更リリース後の Daily CTR
219%改善
CTR 219% の改善
レコメンドロジック別には 174%〜355% の改善
CTR
日付(weekly)
41

Phase 2
デザイン
Phase 1
実装
Phase 3
配信最適化
　レコメンド
✔ 情報設計
　 CTR予測
42

お店ごとにレコメンドロジックの配信割合を
バンディットアルゴリズム(SoftMax)を用いて最適化
✔ お店とレコメンドロジックの組み合わせに対してCTRを算出(※)
✔ レコメンドロジックの配信割合をCTRから計算
　 ※ CTRの信頼性が低い店舗に対してElasticNet回帰でCTRを推定
Phase3-1：配信最適化
CTRテーブル
CTRお店
A B CR
A B CR
0.1% 0.2% 0.3% 0.4%
配信比率
バンディット
(SoftMax)
レコメンド配信量が少ない(CTRの信頼性が低い)お店は
お店の属性を利用してElasticNet回帰でCTRを推定 43

【参考】バンディットアルゴリズム-配信最適化-①
■ 技術概要
✓ バンディット問題の設定
− 時系列の要素をもつ
− 各時点で選択肢（アーム）が与えられる
− 各時点で選択をすると報酬が得られる
− 各時点での選択はそれ以前の選択と報酬を考慮して
選ぶことができる
✓ バンディット問題の目的
限られた試行回数で累積報酬を最大化する
✓ バンディット問題の特徴
各時点で探索（どのアームが良いか探る）か活用（良いアーム
を選択して高い報酬を狙う）を行う
✓ レコメンドの文脈におけるバンディットアルゴリズム
− 時点tまでの結果から時点t+1の配信アイテムを決定する
− 配信アイテムは常に確率的であり、その配信比率を決定する

【参考】バンディットアルゴリズム-配信最適化-②
■ 適用例
✓ 複数のロジックの配信割合を最適化する
✓ 出力例：（ロジックA, ロジックB, ロジックC）=（0.7, 0.2, 0.1）
■ ソフトマックス法
■ 例
４つのロジックのCTRが (0.03, 0.023, 0.017, 0.015)の場合、
τ = 0.01とすると配信割合 = (0.51, 0.25, 0.14, 0.10)が求まる

Phase3-2：配信最適化-定量評価-
・・・
152%増加
回遊数
(Click数)
日付(weekly)
回遊数（レコメンドClick数） 152% の増加
月間回遊数 XXX 万達成
46

まとめ
Phase 2
デザイン
Phase 1
実装
Phase 3
配信最適化
　レコメンド
✔ 情報設計
　 CTR予測
CTR202%改善 CTR219%改善月間回遊数XXX万達成
　✔ サービスをグロースさせるための適切な順序を踏む
　✔ 各Phaseで知見が残るように実験と検証を設計
　✔ 成果は定量的に測定
47

閲覧履歴レコメンドの取り組み
48

閲覧履歴レコメンドの概要
What
Retty Webページの再来訪ユーザーに対して
お店の閲覧履歴からお店をレコメンドする
When Rettyトップページに流入したタイミング
How
お店の閲覧履歴からユーザーが興味をもっている
お店の順番で並び替えて表示する
Why
トップページ流入は再来訪ユーザーと推測できるため
✔ ブランドワード「Retty」で検索して流入している
✔ Rettyのファンでトップページをブックマークしている
example

問題設定
How
お店の閲覧履歴からユーザーが興味をもっている
お店の順番で並び替えて表示する
閲覧履歴に現れるユーザーの興味
✔ 何度も閲覧したアイテムは興味がある
✔ 最近閲覧したアイテムは興味がある
分析から
わかること
問題定義
ユーザーのお店閲覧履歴から
お店の閲覧確率を推定し、興味スコアと解釈する

数理モデリング-お店閲覧確率の推定-①
お店の閲覧数(Frequency)と閲覧順(Recency)から閲覧確率の経験分
布を算出し、その分布を数理最適化問題で補正する
■ 数理最適化モデルの制約
✓ 閲覧数（Frequency）
− Frequencyが高いお店ほど閲覧確率は高い
− Frequencyに関して閲覧確率は凸性をもつ
✓ 閲覧順（Recency）
− Recencyが高いお店ほど閲覧確率は低い
− Recencyに関して閲覧確率は凹性をもつ

数理モデリング-お店閲覧確率の推定-②
■ 数理最適化問題（以下、添字の範囲、パラメータの定義は省略）
✓ 変数：
✓ 目的関数：最小化
✓ 制約式
− 確率の定義域：
− recencyの単調性制約：
− frequecnyの単調性制約：
− frequencyの凸性制約：
− recencyの凹性制約：

お店閲覧確率の推定結果
■ 閲覧数と閲覧順に対するお店閲覧確率の可視化
閲覧数閲覧順
閲覧確率
閲覧確率（経験分布）閲覧確率（推定）
閲覧履歴のお店に適用して
並び替えて表示
ライブラリ：cvxopt

参考文献
■ Iwanaga，J.，Nishimura， N.， Sukegawa， N.， &Takano. Y ：“Estimating
product-choice probabilities from recency and frequency of page views”
，Knowledge-Based Systems，99，pp.157-167（2016）
■ 岩永二郎，鍋谷昴一，梶原悠，&五十嵐健太：“関心度と忘却度に基づくレコメンド手
法: 単調性制約付きレコメンドモデルの構築(特集データ解析コンペティション: インフォ
ミディアリ・データの分析)”，オペレーションズ・リサーチ: 経営の科学，Vol.59，No.2，
pp.72-80（2014）
■ 西村直樹，鮭川矩義，高野祐一，岩永二郎，＆水野眞治：“EC サイトの商品特性を
考慮した 2 次元確率表による購買予測(< 特集> データ解析コンペティション: 20 周
年)”，オペレーションズ・リサーチ: 経営の科学，Vol.60，No.2， pp.69-74（2015）
■ Nishimura，N.，Sukegawa，N.，Takano，Y.，&Iwanaga，J.：“A latent-class model
for estimating product-choice probabilities from clickstream data”，Information
Sciences，429， pp.406-420（2018）

口コミレコメンドの取り組み
55

■ お店ページ（口コミタブ）
口コミレコメンドの概要
店舗名【課題】
人気店には数千にもおよぶ口コミが
並んでいるため、読み疲れして
ユーザー体験が悪い
お店の要約となる口コミを抽出して
ユーザの情報の取得効率を向上させたい
【アプローチ】
数理最適化問題の文書要約モデルに
落とし込んでお店の口コミを要約をする
56

お店選びの参考になる
口コミとは？
57

参考になる口コミとは
オススメ度に偏りがない客観性
最新情報が知りたい鮮度
適切な量の情報が含まれている情報量
重要な情報を網羅した上で冗長性が少ない要約
58

参考になる口コミとは-要件定義-
選んだ口コミのRatingの分布が
全体の分布と乖離しない
客観性
できるだけ最新の口コミを選ぶ鮮度
50文字以上＆画像1枚以上
５つの口コミで1000文字以内
情報量
単語の重要度を最大化
単語の冗長度を最小化
要約
59

数理モデル-文書要約モデル-
問題クラス：0-1整数計画問題
モデリング言語：PuLP
ソルバー：CBC
60

■ 実験環境
MacBook Pro (Retina, 13-inch, Early 2015)
CPU：2.9 GHz Intel Core i5　
メモリ：16 GB 1867 MHz DDR3
■ ソルバー：CBC
■ 実験結果サマリ
数値実験
店舗A
店舗B
店舗C
店舗D
店舗E
61

口コミ要約の結果例
62

■ Retty テックトークで定性評価
✓ 定性評価で知見を集める
✓ モデルが未知の状態で
定量評価にこだわらない
■ 実験結果の共有（オンライン）
✓ 全員参加型の検証環境を準備
✓ 議論を活性化させる
■ 検証アンケートの実施（オンライン）
✓ 議論の場で自由にフィードバック
■ 今後の課題
✓ サービスへの接続
評価
63

写真レコメンドの取り組み
64

写真レコメンドの取り組み概要
課題
数ある投稿写真の中からお店のオススメ写真を
レコメンドしてユーザーの来店動機を刺激したい
タスク
魅力的な写真の抽出
お店の代表的な写真の抽出
65

データの概要
画像情報
ピクセル情報
投稿情報
EXIF情報
ユーザ情報
投稿日
投稿数・投稿写真数
フォロワー数
いいね獲得数
行きたい獲得数
投稿写真種類詳細
投稿写真の順番
66

写真の魅力との関係
画像情報
ピクセル情報
投稿情報
EXIF情報
ユーザ情報
投稿日
投稿数・投稿写真数
フォロワー数
いいね獲得数
行きたい獲得数
種類詳細
投稿写真の順番
コントラストが高い
ぼかしのテクニック
良いカメラで写真を
撮っている人は写真が上手
最新の写真ほど上手
または性能が良いカメラで撮影
写真投稿の慣れ
良い投稿（写真）と相関
１枚目の写真に自信あり
写真の魅力との関係
67

機械学習による魅力的な写真抽出
写真データ
・画像情報
・投稿情報
・ユーザ情報
投稿データ
データ
加工
学習データ
魅力的な写真
探索対象データ抽出
モデル学習
学習データ
抽出
探索対象写真
モデル適用
魅力スコアの算出
魅力的な
写真
✔ アルゴリズム：Random Forest
✔ 特徴量数：500弱
✔ 正例：メーカーのカメラで
　撮影した写真
68

アウトプット例
画像の明るさ、鮮やかさ、ぼかしに関しては
良い写真が抽出可能 69

アウトプット例
鮮やかな彩りだが、
調味料は不適
料理の正面
ではなく不適
人が
写っているのは
不適
食べかけが
写っているのは
不適
例外パターンの排除は必須だが、困難なケースもあり
70

まとめ
現状
◯ 画像の明るさ、鮮やかさ、ぼかしに関して
　良い写真が抽出可能
△ 例外パターンの排除は必須だが、
　困難なケースもあり
今後の課題
✔ チューニング・例外パターンの排除による精度向上
✔ 運用しながらレコメンドを最適化していく
　仕組みの検討
✔ サービスへの接続
71

【再掲】本発表のテーマ
72
課題解決する方法としての理論と技術
理論が技術を通してサービスに接続されるまで

Retty recommendation project

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Retty recommendation project

Similar to Retty recommendation project (20)

Retty recommendation project