KDD2021論文読み会: 生鮮食品の値下げ予測と最適化アルゴリズム

KDD2021論文読み会
Markdowns in E-Commerce Fresh Retail: A Counterfactual
Prediction and Multi-Period Optimization Approach
Authors: Junhao Hua, Ling Yan, Huan Xu, Cheng Yang
KDD '21: Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data
MiningAugust 2021 Pages 3022–3031https://doi.org/10.1145/3447548.3467083

概要
● Alibaba傘下のスーパーの論文
● 生鮮食品の値下げ予測

何が面白いか
● 問題が面白い
○ 機械学習だけでは一見不可能な問題（値下げ問題）を解いてる
○ 儲かりそう
○ ていうか儲かってる。 170店舗のスーパーの売上が 20%も上がる（自称）というやばい研究
○ ポテンシャルは現時点では多分毎年 50億円
○ ロマン
● 技術の使い方が面白い
○ 初等的な技術の集大成
○ 具体的で納得感ある
○ なんか自分でもできそう

要素技術
● 機械学習（ブースティング木・ベイズ回帰）
● 因果推論
● マルコフ決定過程
● Q関数・ベルマン方程式

自己紹介
松﨑　遥（まつざき　はるか）http://soqdoq.com/teq/ @honshitsu_joho
● 数式が好き
● 本業は画像
● オフラインで一山当てちゃうゾ🤗
● 福岡の薬局にお世話になっております
意味なくハミルトン・ヤコビ・ベルマン方程式を貼ってみる

depth=1
この資料は浅さ優先探索的に書かれています

なぜ値下げ問題が重要なのか
predictionがお金に直結するから
定価: $10 (=原価+$7)
在庫: 120個
含み損: -$360
売価: $8 (=原価+$5)
売上: 85個 (=+$680)
在庫: 35個 (=-$105)
含み益: +$575
売価: $6 (=原価+$3)
売上: 103個 (=+$309)
在庫: 17個 (=-$51)
含み益: +$258
20%割引 40%割引

なぜ値下げ問題が重要なのか
predictionがお金に直結するから
定価: $10 (=原価+$7)
在庫: 120個
含み損: -$360
売価: $8 (=原価+$5)
売上: 85個 (=+$680)
在庫: 35個 (=-$105)
含み益: +$575
売価: $6 (=原価+$3)
売上: 103個 (=+$309)
在庫: 17個 (=-$51)
含み益: +$258
20%割引 40%割引
目的変数=〇〇%割引

なぜ値下げ問題は機械学習では解けないのか
実際の学習データ(価格)のイメージ
←これだと学習データが
($10, 売上1),
($10, 売上2), ...
($5, 売上10),
($5, 売上11), …
しかない。。。

prediction
例えば決定木にすると、全く汎化しないと考えられる
定価: $10 (=原価+$7)
在庫: 120個
含み損: -$360
売価: $7 (=原価+$4)
売上→?
データがないので、
if x<$7.5: mean(s_1~s_10)
else: mean(s_11~s_20)
しか統計的最適はありえない。
（もしくはinterpolation）

つまり
儲かるのはわかってるのにできない...どうやっていいかわからない...
ってのが重要

なぜいろんな技術を使うのか
● マルコフ決定過程
● Q関数・ベルマン方程式
● 機械学習
● 因果推論

なぜMDP(マルコフ決定過程)なのか
売上はPoisson分布
もしくはNB分布V=(1+φ)λ
学習データが全く不要

なぜベルマン方程式なのか
Bellman Op: (P, R) → T
Reward = Money
MDPの情報さえあれば、
MDPからベルマン期待演算
子が決まり、その唯一の不動
点を自動的に得られる。
学習データが全く不要

どこで機械学習が必要なのか＝売上予測
未来のRewardは売り上げ予測で計算。やっと一つ目の式に到達
対数なのは、power lawの両辺の対数を取るから
機械学習で求めるもの = ベイズ回帰のSlope=αとIntercept=β
<Y:売上個数の対数リフト率> = α・ln<d:値下げ率> + β

因果推論で重箱の隅をつつく(4.1)
<Y:売上個数の対数リフト率> = α・ln<d:値下げ率> + β
β=β(x)
これが成り立つのは、dとxの間に交絡（confound）がない場合のみである。
例) 売れ行き(x_{t-1})が良かった日の翌日に値下げ(d_t)しても思ったほど売れない
かつ　前日売り上げが悪い時に値下げしている　場合
→confounded

因果推論はちょっと雑...！
ちょろっと登場するが一切使われないAssumption 1
因果とはd→Y（つまり値下げによる売上増）
confoundedな時、P(Y|d) ≠ P(Y|do(d))であることに注意。
実際に観測できるのは、P(Y|do(d))でしかなく、P(Y|d)の値は不明である。

論文解読のポイント
● 二段階構成
● Demand Prediction
● Price Prediction
○ 価格弾力性(Power-law)
● MDP (Markov Decision Process)
● Bellman Equation
● Multi-Period Price

二段階構成 (x→d)
1. 4.4 Counterfactual Demand Prediction
a. 4.2 Basic Sales = Intercept Prediction (β for Items)
b. 4.3 Slope Prediction (α for Categories)
2. 5.2 Two-stage Algorithm (Dynamic Programming)
a. 5.2.1 Update by Greedy Policy by Bellman Equation
b. 5.2.2 Joint Optimization of Q function
β α Beq d
Demand Discount
x
L
MDP
Y

Demand(Y|α, β) Prediction
特徴量x, L→Y/Y_normalを予測
目的変数Y
● Y/Y_normal = 値下げ時の売上と定価時の売上の比(>1)
● Y_i: Y of product i
説明変数
● x: set of all features ∈ R^n ⊂ {historical sales of products, shops, holidays...}
● L_i: 3-hot product category vector

Demand(Y): Base Sales Prediction (β:Boosting Tree)
d_0: dではなくd_0。average of historical discounts
x_i: set of all features ∈ R^n ⊂ {historical sales of products, shops, holidays...}

Demand(Y): Base Sales Prediction (β:Boosting Tree)
とりあえず各itemの平均売上(β)を当ててるか
ら、x_iの中にあるhistorical
sales(Y_i_normal_t)が必要っぽい。
聞いてみた　→
“h doesn’t learn the relationship between
price and sales.”
つまりSlope(α)はxから学習しないわけだ

Demand(Y): Category Slope Prediction (α: regression)
経済の論文読むと重力理論とか、売上が積で決まるという理論が多い。人類学もそう。
(6)の両辺の対数を取ると、(4)が得られる。
L_iは3-hotなので、d_iの肩はθ_1 + θ_2・L_i = θ_1 + θ_2_l1 + θ_2_l2 + θ_2_l3
つまりこれはOrdered-Logitモデルに近い

β(x) / α(L): 質疑応答
つまりこのモデルはhに対してカテゴリごとに固
定効果を加えるモデル。
過学習しないのは、結局θを全productで共有
からだと著者は語る。
そう考えるとh(x)とθ(L)のMAPを求めてるにす
ぎないのかもしれない。

Online Update
Online = realtime? -> NO
日次でBellman Equationを解いてd（厳密にはポリシーπ：s→d）を求めることをOnline
Updateというらしい

Multi-Period Price Optimization
なんのことはない、ただのDynamic Programming(a.k.a 強化学習)だ
Z: normal sales
Y: discounted sales
w: waste loss
B: stock
T: expiration date

Joint Optimization of Q function(5.2.2)
Joint = 全店舗分を同時に最適化するということ
値下げを公平にするので、d_tを全店舗同じにするという制約がある。

MDP (Markov Decision Process)
λ←Demand Prediction
このQはregularized Gamma functionで、
ガンマ関数の定積分版。
Q functionではない。

Bellman Equation　(R)
このベルマン方程式、割引率γ=1だから固定点を持たないけど・・・いいのか？

Bellman Equation　(R)
このベルマン方程式、割引率γ=1だから固定点を持たないけど・・・いいのか？
　　　　　　　　　　　　　きっとγ<1にしたら誰かに怒られたんだろう・・・

Bellman Equation　(P, R, π)→T
個人的にはmaxQにγつけたほうがいいと思う
右辺をT(Q)と書くと、固定点Q*が方程式の解

補足: Bellman方程式の有名な解き方
論文中では特に指定していない。有名なのは不動点定理に基づくPVI。
高速化手法がいろいろある。自分が好きなのはLSTD。有名なのはAggregation。
Projected Value Iteration
Least Squared Temporal Difference: MCモンテカルロ積分で各行列を近似。

高速化(5.3)
なぜか厳密解法（ブルートフォースでargmaxを求める）になっている。
普通はこうはしない。LSTDなどの低次元射影法を使うはず。
そうしてない理由を偉い人教えてください

疑似コードを眺める会
翻訳（意訳）※行番号無視
1. g(L)はno update
2. h(x)は日次update
3. 翌日のd, Yをpredict, θをupdate
4. ループしてZ_ijk, Y_ijk,
5. dをBellman Eqに対しJoint Optim
6. p=pdとしてpredict

Online A/B Testing
GMV = Gross Merchandise Volume
Improvement

外界
ここからはおまけ

世界情勢
● Alibaba→今回の論文
● Walmart→KDD2020のPrice Investment using Prescriptive Analytics and
Optimization in Retail
● IDLessWorld

Walmartちょろっと
1. Demand Forecast (by STS)
2. Budget Allocation
3. Pricing

IDLessWorld
2023年、GoogleがCookie取得を停止（GDPR）
→　今回の論文は、IDLessWorldでも動く

まとめ
1. オフラインの世界でモノの値段をアルゴリズムで決めようという動き
2. 答えがないので発想に自由がある。これでみんなジェフベゾスだね⭐
β α Beq d
Demand Discount
x
L
MDP
Y

KDD2021論文読み会: 生鮮食品の値下げ予測と最適化アルゴリズム

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Recently uploaded

Recently uploaded (20)

KDD2021論文読み会: 生鮮食品の値下げ予測と最適化アルゴリズム