6. Awards
Outstanding Paper Awards (1/2)
6
•A Universal Law of Robustness via Isoperimetry
•データを全部覚えるのに必要なパラメタ数はO(n)程度だが、全部覚えてかつ敵対的摂動に
ロバストにするためにはO(nd) (dは入力次元数)のパラメタが必要であることを理論的に解明
•On the Expressivity of Markov Reward
•強化学習の一般的モデルであるMDPにおいて、行動選択ポリシーの良し悪しを表現する方
法について、ポリシー同士の順序関係などの表現方法と比べて報酬関数として表すことでは
表現不可能なポリシーが存在すること、またその多項式時間での判定方法を発見
•Deep Reinforcement Learning at the Edge of the Statistical Precipice
•強化学習モデルの訓練は計算的に重いために統計的に有意か怪しい評価になってきてい
る。信頼区間の表示など、統計的に有効かつ計算的に実用的な強化学習の評価方法を提
案。
7. Awards
Outstanding Paper Awards (2/2)
7
•MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers
•モデルが生成した文章の自然さ(人間生成との距離)を測る新たな指標を提案
•Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms
•連続最適化の標準的な高速化手法であるNesterov加速を、イベント発生のモデル化に使われる
点過程モデルを使って「どれだけ動かしてから勾配方向を更新するか」をランダム化すること
で、連続的な更新を離散化したことに伴う誤差を軽減
•Moser Flow: Divergence-based Generative Modeling on Manifolds
•ニューラルネットのある種の連続化であるNeural ODE (常微分方程式) のうち、可逆であるCNF
と呼ばれるモデルを、リーマン多様体上に拡張。ベクトル空間のダイバージェンスを使ったパ
ラメタ化のお陰で、既存法のように数値積分を解いてそれを誤差逆伝播するという重い計算が
不要になった。
8. Awards
Test of Time Award & Datasets & Benchmarks Best Paper Awards
8
• Test of Time Award
•Online Learning for Latent Dirichlet Allocation (NeurIPS 2010)
•文書と単語の隠れトピックを同時推定するモデルであるLDAのオンライン版変分推論を提案。これにより大量の文書を扱う
ことが現実的になっただけでなく、複雑な潜在変数モデルを大量のデータで推論可能ということが示された点で画期的であっ
た。
• Datasets & Benchmarks Best Paper Awards
•Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
•複数の領域(画像、自然言語、その他手法)で使われているデータセットの変遷を調べたところ、一部の機関から提案され
た少数のデータセットに集中するようになってきている。より多様なデータセットを作り、評価をすることが一般化の面など
で必要だ。
•ATOM3D: Tasks on Molecules in Three Dimensions
•分子に関する様々な性質を予測するために、これまでは構造式など1次元や2次元の表現をもとに予測していた。3Dのデータ
セットを提供し、シンプルな手法で既存の2D入力よりも高精度になることを確認。
18. Pragmatic Image Compression for Human-in-
the-Loop Decision-Making
18
• by Sid Reddy, Anca Dragan, Sergey Levine
• 意思決定に役立つという観点で必要な情報のみ圧縮したい
• ユーザーが行動を決め、行動からユーザが圧縮画像を見たか元画像を見たか判
別できないように圧縮する
19. Robust Predictable Control
19
• by Ben Eysenbach, Russ R. Salakhutdinov,
Sergey Levine
• 役立つ潜在表現獲得シリーズ
• 予測しやすい潜在表現にする
• 予測しやすい行動を選択する
• →ロバストになる
• 環境変化・欠測・攻撃に対し
20. A Minimalist Approach to O
ffl
ine
Reinforcement Learning
20
• by Scott Fujimoto, Shixiang (Shane)
Gu
• Actor-critic系のTD3法に、過去データ
通りの行動をとりやすくする正則化を加
えただけ
•
• それだけで最新のオフライン強化学習で
ある Conservative Q学習 (CQL) を凌駕
LTD3+BC(π) = λLTD3(π) + (π − a)2
21. COMBO: Conservative O
ffl
ine Model-Based
Policy Optimization
21
• by Tianhe Yu, Aviral Kumar, Rafael
Rafailov, Aravind Rajeswaran,
Sergey Levine, Chelsea Finn
• CQLをモデルベースRLに拡張
(状態遷移をモデル化し、
それによる予測分布をデータに混ぜる)
•
• Q関数のよりタイトな下界を推定できる
̂
Qk+1
← arg minQ β (
𝔼
s,a∼ρ(s,a)[Q(s, a)] − 𝔼
s,a∼
𝒟
[Q(s, a)]) + 1
2
𝔼
s,a,s′

∼df [(Q(s, a) − ̂
ℬπ ̂
Qk
(s, a))
2
]
22. O
ffl
ine Reinforcement Learning as One Big
Sequence Modeling Problem
22
• Michael Janner, Qiyang Li, Sergey Levine
• 長い系列の模倣学習に向く Decision Transformer の後続
• Transformerモデルとビームサーチにより系列全体を最適化
23. The Adaptive Doubly Robust Estimator and a
Paradox Concerning Logging Policy
23
• by Masahiro Kato, Kenichiro McAlinn, Shota Yasui
• オンライン学習(バンディット)
により取得されたデータを用いた
ポリシー価値推定(OPE)
• Double MLのサンプル分割戦略を
少し変えるだけでよい(図)
24. Bellman-consistent Pessimism for O
ffl
ine Reinforcement Learning
24
• by Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal
•
• In practice:
•
• CQLと同様に保守的なQ関数を
用いるが、やや実装が違う
• ベルマン誤差(データフィット)
が一定の範囲内に収まるQ関数の
集合 を考え、その中の最悪を
最大化する
̂
π = argmax
π∈Π
min
f∈ℱπ,ε
f (s0, π), ℱπ,ε :=
{
f ∈ ℱ :
𝔼
𝒟
[(f −
𝒯
π
f)
2
] ≤ ε
}
π2 ∝ π1 exp (ηfπ1)
ℱ