Optimal auction through Deep Learning

Optimal Auctions
through Deep Learning
北海道大学大学院情報科学研究院情報理工学部門
複合情報工学分野調和系工学研究室学研究室
2020年5月27日

1書誌情報
• Paul Dütting * 1 Zhe Feng * 2 Harikrishna Narasimham * 2
David C. Parkes * 2 Sai S. Ravindranath * 2
• 1. London School of Economics
• 2. Harvard University.
• Proceedings of the 36 th International Conference on Machine Learning
(ICML2019)
• full版がarxivに掲載
• https://arxiv.org/abs/1706.03459
• ICMLで省略されたモデルの説明がある
• 著者グループの発表スライド
• https://icml.cc/media/Slides/icml/2019/102(11-11-00)-11-11-40-4439-optimal_auction.pdf
• コードは公開
• https://github.com/saisrivatsan/deep-opt-auctions
• python2.7

2本研究の内容
Contribution
• 複数アイテムのオークションデザイン問題を解く最初のend-to-endの
アプローチ
• bidderの価値を入力とし，割当と支払い額を出力とする多層
ニューラルネットワークを採用
• (弱)支配戦略が正直申告になるように条件づけ
• 解析的解が既知の設定において，最適なオークションを再現できる
• 最適オークションが知られていない設定についても，従来の研究と
同等かそれ以上の収入を達成
• 大きい設定に対しても適用可能
背景
• 1アイテムのオークションにおける主催者利益を最大にする最適オークション
はMyerson(1981)によって示された．
• 2アイテム，2参加者のような単純な場合でも完全には解かれておらず，
多くの先行研究は入札の正直申告について弱い条件しか満たしていない
• Bayesian incentive compatibility(BIC)

3問題設定
今回考えるオークションの設定
• bidder 𝑁 = 1, … , 𝑛
• アイテム 𝑀 = 1, … , 𝑚
• bidder 𝑖 の価値関数𝑣𝑖: 2 𝑀 → ℝ≥0
• アイテムの部分集合ごとに価値が決まっている
• 𝑣𝑖は分布𝐹𝑖からサンプリングされる
• 𝑣 = (𝑣1, … , 𝑣 𝑛)は分からないが，𝐹 = (𝐹1, … , 𝐹𝑛)はオークショニアに既知
• オークションは(𝑔, 𝑝)と表記
• 割当ルール 𝑔𝑖: 𝑉 → 2 𝑀
• 支払いルール 𝑝𝑖: 𝑉 → ℝ≥0
• あるbidの組𝑏 = (𝑏1, … , 𝑏 𝑛)に対して，割当を𝑔(𝑏),支払いを𝑝(𝑏)とする
• bidder 𝑖の効用は𝑢𝑖 𝑣𝑖, 𝑏 = 𝑣𝑖 𝑔𝑖 𝑏 − 𝑝𝑖(𝑏)と表される
𝑉は𝑣の集合

4今回満たしたいオークションの性質
dominant strategy incentive compatible, individually rationalをみたす，
最適オークションルールを構築したい
• DSIC(dominant strategy incentive compatible)
• 他人のbidに関わらず，正直にbidすることで効用が最大化される
• すべての可能な𝑣𝑖, 𝑏𝑖, 𝑏−𝑖について
• 𝑢𝑖 𝑣𝑖, 𝑣𝑖, 𝑏−𝑖 ≥ 𝑢𝑖(𝑣𝑖, 𝑏𝑖, 𝑏−𝑖 )
• IR(individually rational)
• 参加しても損はしない
• すべての可能な𝑣𝑖, 𝑏𝑖, 𝑏−𝑖についてbidderの効用が非ゼロ
• 𝑢𝑖(𝑣𝑖, 𝑣𝑖, 𝑏−𝑖 ) ≥ 0
• 最適オークション
• オークショニアの期待収入が最大化されるオークション
正直申告時の効用正直申告以外の効用

5最適オークション設計の学習問題としての定式化
制約付きの最小化問題として定式化を実施
• 負の期待収入の最小化
• − 𝑖∈𝑁 𝑝𝑖
𝑤
𝑣 の期待値
• incentive compatibilityへの違反度合いとして事後リグレットを定義
• 𝑟𝑔𝑡𝑖 𝑤 = Ε max
𝑣𝑖
′∈𝑉 𝑖
𝑢𝑖
𝑤
(𝑣𝑖; (𝑣𝑖
′
, 𝑣−𝑖) − 𝑢𝑖
𝑤
(𝑣𝑖; 𝑣𝑖, 𝑣−𝑖))]
• 自分の価値以外のbidをしていた場合に得られる最大の効用との差
• DSICを満たすにはこれが0になればよい
• L個の価値の組に対してのサンプルから計算できるように上記の期待値を
書き換えると最終的な学習問題は
𝑤はオークションの
パラメータ(NNのパラメータ)

6RegretNet(additive valuations)
提案するニューラルネットワーク(RegretNet)の構造の説明
割当のネットワークと支払いのネットワークの2つからなる
• 加法的価値(additive valuations)の場合
• あるアイテムセット𝑆に対する価値が𝑣𝑖 𝑆 = 𝑗∈𝑆 𝑣𝑖(𝑗)のように表される
入力
bidderの
各アイテム
への入札値
出力
割当確率
支払額が入札値(=価値)
を超えないように𝑏の値
に積算する値を出力
IRの保証

7RegretNet(unit-demand)
• 単一需要(unit-demand)の場合
• アイテムセット𝑆に対する価値はセット中の最大のアイテムの価値
• 𝑣𝑖 𝑆 = max
𝑗∈𝑆
𝑣𝑖(𝑗)
割当ネットワーク
• 割当ネットワークを変更
• bidder1人に対する割当は最大1アイテム
• アイテム1個は最大1人に割当
• bidder方向，アイテム方向に
それぞれsoftmaxを適用
• 小さい方を出力とする
• 得られた出力は二重確率行列
になっており，1対1の割当で
表現できる

8RegretNet(combinatorial valuations)
• 組み合わせ価値(combinatorial valuations)の場合
• bidderはアイテムのバンドル𝑆にういての入札𝑏𝑖,𝑠をおこなう
• 割当も同様に，バンドルごとに実施
• bidderごとの割当確率の和は最大1
• バンドル中のアイテムが割当てられる
確率は最大1
• アイテムごと・bidderごとに
ソフトマックスで和が1になるように
• 最小のものを出力とする

9訓練方法
制約付き最適化問題を解くため，
拡張ラグランジュ法を採用
十分なステップ数の後，下式を最小化
するものが解
解きたい問題
𝜆はラグランジュ乗数
𝜌はペナルティ項の重み
最適な虚偽申告の
値を計算
オークションのパラメータ更新
一定ステップごとに
ラグランジュ乗数を更新

10実験
最適解が知られているオークションが再現できるか・解析的な解が知られていないオークショ
ンを発見できるかの2点を確かめる実験
実験設定
• Tensorflow, NVIDIA GPU
• Glorotの一様初期化(Glorot & Bengio 2010), 活性化関数:tanh
• 訓練時には640,000，テスト時には10000の価値の組み合わせを利用
• 分布からのサンプリングであって，実データではない
• 拡張ラグランジュ法は最大80epoch
• ペナルティ項の重み𝜌は初期値1で2epochごとにインクリメント
• オークションパラメータの更新はAdam(lr=0.001)でミニバッチごとに
• 虚偽申告を求める際にはAdam(lr=0.1)で25回更新
• ラグランジュ乗数の更新は100ミニバッチに一回

11単一bidderの場合
2つの解析的解が得られている場合についての適用結果を比較
(Ⅰ)Manelli & Vincent (2006): 単一bidder，2アイテム，加法的価値，価値分布𝑈[0,1]
(Ⅱ)Pavlov(2011): 単一bidder，2アイテム，単一需要，価値分布𝑈[2,3]
テストデータでの収入とregret
• 最適解に非常に近い収入を
わずかなregretで達成
• regretが小さいが非ゼロであることで
収入が解析解よりも高いことも
ルールの可視化：点線が最適解の場合の割当確率の境界
色がついているところが今回手法で出力した割当ルール

12学習の経過
(Ⅰ)の場合の学習経過
収入の変化 regretの変化
解法では収入を初期はイテレーション，その後でリグレットに焦点を当てて
ラグランジュ乗数を適応させている．

13複数bidderの場合
Sandholm & Likhodedov(2015)の結果と比較
(Ⅲ) 2bidder，加法的価値，2アイテム，価値分布𝑈[0,1]
テストデータでの収入とregret
• 微小のregretで収入が改善している
• 単一bidderのときの改善幅は非常に
小さかったので，これはregretに
非ゼロを許容したからではない

14スケール
サイズの大きい場合でも有効なのかを実験
(隠れ層数,ノード数/層)ごとの結果
ベースラインとの比較
• (Ⅵ)について，隠れ層数5，
ノード数/層100の
ネットワークが最良の結果
• ベースラインと比較しても
大きい収入を達成している

15LPベースのアプローチとの比較
自動メカニズムデザインの従来手法であるLPベースのアプローチと比較
あまりサイズが大きいとLPベースの手法が動かないので，
2bidder(additive),3アイテムの場合で実験
• LPのソルバはGurobi(商用)
• アイテムごとに価値は5つのbinで離散化：105
変数，4 × 106
制約
• LPは離散化の影響でIR違反の度合いが大きい
• 一週間以上かかる，より細かい離散化では実験できなかった
• RegretNetは短い時間(9時間)で，IRの違反も出ない
• IRが0なのはニューラルネットワークの設計による
テストセットに対する結果

16結論
• ニューラルネットワークを用いた最適オークション設計の方法を示した
• 解析解を再現でき，従来の計算的に求められた解よりも性能のいい解
が発見可能
• 従来のLPベースのアプローチよりも大きい問題を扱える

Optimal auction through Deep Learning

More Related Content

What's hot

Similar to Optimal auction through Deep Learning

More from harmonylab

Optimal auction through Deep Learning