NeurIPS'21参加報告 tanimoto_public

谷本啓
NeurIPS 21 参加まとめ

概要
2
• NeurIPS 2021
• 会場：完全オンライン
• 会期
• 12/6-7 (チュートリアル)
• 12/7-11 (本会議)
• 12/13-15 (ワークショップ)
• チュートリアルと本会議に部分的に参加した内容のまとめ

Stats
3
• 投稿数は微減、採択数は増加
• オンライン学会疲れ？
• 採択率増加は後述の
 
査読の一貫性実験のため
• 企業ではGoogle等が依然多いが
 
中国勢も
• 国ごとでは依然米国が圧倒的

リンク
4
• 論文は公開済
• https://proceedings.neurips.cc/paper/2021
• プレゼン資料＆動画はSlidesliveに上がるはず
• 去年: https://slideslive.com/neurips-2020
• スケジュール（詳細は参加者のみ閲覧可）
• https://nips.cc/virtual/2021/calendar

5
Graph
 
(NN)
強化学習
因果推論
ゲーム理論
バンディット/
 
オンライン学習
3D
 
認識
ViT
動画など
マルチ
 
エージェント
確率的
 
最適化
ドメイン
 
適応
few-shot
Contrastive
生成
 
モデル
敵対的
 
学習
GAN
学習
 
Alg
その他
 
DNNなど
その他
 
判別など
行列・
 
テンソル
 
分解
プライバシ
オフライン
 
強化学習
• 大きくなった分野
• 強化学習(RL)
• 特にオフラインRL
• 因果推論
• 動画・3D
• GNNは大きいが独立
• 新興分野
• ゲーム理論
• Contrastive ( Self-supervised)
• Visual Transformer (ViT)
採択論文の傾向

Awards
Outstanding Paper Awards (1/2)
6
•A Universal Law of Robustness via Isoperimetry
•データを全部覚えるのに必要なパラメタ数はO(n)程度だが、全部覚えてかつ敵対的摂動に
ロバストにするためにはO(nd) (dは入力次元数)のパラメタが必要であることを理論的に解明
•On the Expressivity of Markov Reward
•強化学習の一般的モデルであるMDPにおいて、行動選択ポリシーの良し悪しを表現する方
法について、ポリシー同士の順序関係などの表現方法と比べて報酬関数として表すことでは
表現不可能なポリシーが存在すること、またその多項式時間での判定方法を発見
•Deep Reinforcement Learning at the Edge of the Statistical Precipice
•強化学習モデルの訓練は計算的に重いために統計的に有意か怪しい評価になってきてい
る。信頼区間の表示など、統計的に有効かつ計算的に実用的な強化学習の評価方法を提
案。

Awards
Outstanding Paper Awards (2/2)
7
•MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers
•モデルが生成した文章の自然さ（人間生成との距離）を測る新たな指標を提案
•Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms
•連続最適化の標準的な高速化手法であるNesterov加速を、イベント発生のモデル化に使われる
点過程モデルを使って「どれだけ動かしてから勾配方向を更新するか」をランダム化すること
で、連続的な更新を離散化したことに伴う誤差を軽減
•Moser Flow: Divergence-based Generative Modeling on Manifolds
•ニューラルネットのある種の連続化であるNeural ODE (常微分方程式) のうち、可逆であるCNF
と呼ばれるモデルを、リーマン多様体上に拡張。ベクトル空間のダイバージェンスを使ったパ
ラメタ化のお陰で、既存法のように数値積分を解いてそれを誤差逆伝播するという重い計算が
不要になった。

Awards
Test of Time Award & Datasets & Benchmarks Best Paper Awards
8
• Test of Time Award
•Online Learning for Latent Dirichlet Allocation (NeurIPS 2010)
•文書と単語の隠れトピックを同時推定するモデルであるLDAのオンライン版変分推論を提案。これにより大量の文書を扱う
ことが現実的になっただけでなく、複雑な潜在変数モデルを大量のデータで推論可能ということが示された点で画期的であっ
た。
• Datasets & Benchmarks Best Paper Awards
•Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
•複数の領域（画像、自然言語、その他手法）で使われているデータセットの変遷を調べたところ、一部の機関から提案され
た少数のデータセットに集中するようになってきている。より多様なデータセットを作り、評価をすることが一般化の面など
で必要だ。
•ATOM3D: Tasks on Molecules in Three Dimensions
•分子に関する様々な性質を予測するために、これまでは構造式など1次元や2次元の表現をもとに予測していた。3Dのデータ
セットを提供し、シンプルな手法で既存の2D入力よりも高精度になることを確認。

査読の一貫性実験
9
• 882本の論文に関して、２回査読したら同じ結
果が再現するのかどうか調べた結果→
• 採択論文の半分くらいが
 
２度目は不採択
• 東大受験と同程度か
• ケタが１つ少なかった2014年の実験と同程度
• スケールが増えたからといって悪化してない
• どちらかのグループで採択された論文は採択
• 採択率増加
• https://blog.neurips.cc/2021/12/08/the-
neurips-2021-consistency-experiment/

チュートリアル：構造事前分布
Pay Attention to What You Need: Do Structural Priors Still Matter in
the Age of Billion Parameter Models?
11
• 問題の性質を（ニューラルネットの）構造に事前知識として反映させる重要性や方法について
• カーネマンのFast & Slow (脳のシステム１&システム２)
 
Neural & Symbolic (AIs)
• 離散的な構造も重要なはず
• 構造を活用することでデータ効率的・一般化/転移可能・解釈可能に
• 「物理とは対称性の学問であると言っても
 
それほど言い過ぎではない」
• 対称性を使うことで多くのサンプルが不要に
• 不変性(Invariant)と同変性(Equivariant)が重要
• これらは互いに関係
• 不変関数の微分は同変など

チュートリアル：Self-supervised Learning
12
• 古くはRBM、Greedy layer-wise 事前学習、denoising autoencoder など
• 最近はContrastive
• 同じ画像を別の画像変換
 
したものは類似度が高く
 
別画像は類似度が低く
 
なるように表現を学習
• とSelf-prediction
• Pixel CNN
• Masked予測など
• やはり雑多に色々ある、という印象

チュートリアル： ML w/ 量子コンピュータ
13
• 量子コンピュータを使って機械学習するという分野
• 理論解析もハードウェア自体もまだまだ発展途上（図）
• 基本的には量子ゲート方式を想定
• 基本的には重たい学習(最適化)部分を
 
量子コンピュータにアウトソースしたい
 
• カーネル法の関数空間を量子状態として読み替えるなど（図）
• 全体的にはまだまだ発展途上だが
 
MLとQuantumの興味深い関係性も色々明らかになりつつあり
 
これから面白い分野なのでは、という主張
̂
f = min
f∈ℱ ∑
(x,y)∈
𝒟
l(f(x), y)

招待講演
 
Do We Know How to Estimate the Mean?
14
• by Gabor Lugosi
•
平均の推定は普通で行われるが、実はこれは有限サンプルでは分布によってはかなり怪しい
• 分布の裾が厚い（外れ値がある）場合などはサンプル数nに従い以上の確率で誤差は
• と抑えられる
• これは高確率を保証するのは厳しい、にしたい
• ランダムに分割してそれぞれの平均の中央値取る median-of-means だと良い
•
• 半分のデータで外れ値（ϵ-分位点）を推定、残りで外れ値を分位点にtrimして平均取る（右図）
• これも良い、特に、少数のサンプルを敵対者が操作できる場合にもロバスト
• ただしこれらは予め「どの程度の成功確率を保証したいか」を指定してやを決める必要あり
• すべてのについての保証を求めることは不可能であることが証明済
• 高次元の場合はさらに複雑に色々な手法とその保証がさらに色々ある
μ̄n =
1
n
n
∑
i=1
Xi
1 − δ
̂
μn − μ ≤ σ
1
nδ
δ ≪ 1 log(1/δ)
k
̂
μMM − μ ≤ σ
32 log(1/δ)
n
δ k ϵ
δ

招待講演
Benign (良性の) Over
fi
tting
15
• by Peter Bartlett
• 近年、サンプル数よりもパラメタ数の方が多くても（）DNNは良い性能を示すことが知られている
• その理由についての「良性の過学習」仮説
• , は予測に有用、は Spiky な関数で
 
過学習するが「良性」であって予測に悪さはしない
• 例：特異的カーネルを用いたスムージング
•
←
• ミニマックスレート（良い性質）を達成
• はそのモデル複雑性が高い（）場合にのみ良性を獲得
p ≫ n
̂
f = ̂
f0 + Δ ̂
f0 Δ
̂
f(x) =
n
∑
i=1
yiKh (x − xi)
∑
n
j=1
Kh (x − xj)
e.g., with Kh(x) =
1[h∥x∥ ≤ 1]
h∥x∥α
Δ ≫ n

論文ピックアップ
（主にオフライン強化学習）

Noether Networks: meta-learning useful
conserved quantities
17
• Ferran Alet, Dylan Doblar, Allan Zhou, Josh Tenenbaum,
 
Kenji Kawaguchi, Chelsea Finn
• 物理的な保存則を学習するメタ学習手法
•
• 保存量が捉える（保存する）
 
次元以外が小さくなるように
• 構造を学習する方法は難しい
 
実用的なら画期的
ℒnoether =
T
∑
t=1
gϕ (x0) − gϕ (fθ (x0, t))
2
gϕ

Pragmatic Image Compression for Human-in-
the-Loop Decision-Making
18
• by Sid Reddy, Anca Dragan, Sergey Levine
• 意思決定に役立つという観点で必要な情報のみ圧縮したい
• ユーザーが行動を決め、行動からユーザが圧縮画像を見たか元画像を見たか判
別できないように圧縮する

Robust Predictable Control
19
• by Ben Eysenbach, Russ R. Salakhutdinov,
Sergey Levine
• 役立つ潜在表現獲得シリーズ
• 予測しやすい潜在表現にする
• 予測しやすい行動を選択する
• →ロバストになる
• 環境変化・欠測・攻撃に対し

A Minimalist Approach to O
ffl
ine
Reinforcement Learning
20
• by Scott Fujimoto, Shixiang (Shane)
Gu
• Actor-critic系のTD3法に、過去データ
通りの行動をとりやすくする正則化を加
えただけ
•
• それだけで最新のオフライン強化学習で
ある Conservative Q学習 (CQL) を凌駕
LTD3+BC(π) = λLTD3(π) + (π − a)2

COMBO: Conservative O
ffl
ine Model-Based
Policy Optimization
21
• by Tianhe Yu, Aviral Kumar, Rafael
 
Rafailov, Aravind Rajeswaran,
 
Sergey Levine, Chelsea Finn
• CQLをモデルベースRLに拡張
 
（状態遷移をモデル化し、
 
それによる予測分布をデータに混ぜる）
•
• Q関数のよりタイトな下界を推定できる
̂
Qk+1
← arg minQ β (
𝔼
s,a∼ρ(s,a)[Q(s, a)] − 𝔼
s,a∼
𝒟
[Q(s, a)]) + 1
2
𝔼
s,a,s′

∼df [(Q(s, a) − ̂
ℬπ ̂
Qk
(s, a))
2
]

O
ffl
ine Reinforcement Learning as One Big
Sequence Modeling Problem
22
• Michael Janner, Qiyang Li, Sergey Levine
• 長い系列の模倣学習に向く Decision Transformer の後続
• Transformerモデルとビームサーチにより系列全体を最適化

The Adaptive Doubly Robust Estimator and a
Paradox Concerning Logging Policy
23
• by Masahiro Kato, Kenichiro McAlinn, Shota Yasui
• オンライン学習（バンディット）
 
により取得されたデータを用いた
 
ポリシー価値推定（OPE）
• Double MLのサンプル分割戦略を
 
少し変えるだけでよい（図）

Bellman-consistent Pessimism for O
ffl
ine Reinforcement Learning
24
• by Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal
•
• In practice:
•
• CQLと同様に保守的なQ関数を
 
用いるが、やや実装が違う
• ベルマン誤差（データフィット）
 
が一定の範囲内に収まるQ関数の
 
集合を考え、その中の最悪を
 
最大化する
̂
π = argmax
π∈Π
min
f∈ℱπ,ε
f (s0, π), ℱπ,ε :=
{
f ∈ ℱ :
𝔼
𝒟
[(f −
𝒯
π
f)
2
] ≤ ε
}
π2 ∝ π1 exp (ηfπ1)
ℱ

NeurIPS'21参加報告 tanimoto_public

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to NeurIPS'21参加報告 tanimoto_public

Similar to NeurIPS'21参加報告 tanimoto_public (20)

Recently uploaded

Recently uploaded (9)

NeurIPS'21参加報告 tanimoto_public