SlideShare a Scribd company logo
1 of 24
Download to read offline
谷本 啓
NeurIPS 21 参加まとめ
概要
2
• NeurIPS 2021
• 会場:完全オンライン
• 会期
• 12/6-7 (チュートリアル)
• 12/7-11 (本会議)
• 12/13-15 (ワークショップ)
• チュートリアルと本会議に部分的に参加した内容のまとめ
Stats
3
• 投稿数は微減、採択数は増加
• オンライン学会疲れ?
• 採択率増加は後述の


査読の一貫性実験のため
• 企業ではGoogle等が依然多いが


中国勢も
• 国ごとでは依然米国が圧倒的
リンク
4
• 論文は公開済
• https://proceedings.neurips.cc/paper/2021
• プレゼン資料&動画はSlidesliveに上がるはず
• 去年: https://slideslive.com/neurips-2020
• スケジュール(詳細は参加者のみ閲覧可)
• https://nips.cc/virtual/2021/calendar
5
Graph


(NN)
強化学習
因果推論
ゲーム理論
バンディット/


オンライン学習
3D


認識
ViT
動画など
マルチ


エージェント
確率的


最適化
ドメイン


適応
few-shot
Contrastive
生成


モデル
敵対的


学習
GAN
学習


Alg
その他


DNNなど
その他


判別など
行列・


テンソル


分解
プライバシ
オフライン


強化学習
• 大きくなった分野
• 強化学習(RL)
• 特にオフラインRL
• 因果推論
• 動画・3D
• GNNは大きいが独立
• 新興分野
• ゲーム理論
• Contrastive ( Self-supervised)
• Visual Transformer (ViT)
採択論文の傾向
Awards
Outstanding Paper Awards (1/2)
6
•A Universal Law of Robustness via Isoperimetry
•データを全部覚えるのに必要なパラメタ数はO(n)程度だが、全部覚えてかつ敵対的摂動に
ロバストにするためにはO(nd) (dは入力次元数)のパラメタが必要であることを理論的に解明
•On the Expressivity of Markov Reward
•強化学習の一般的モデルであるMDPにおいて、行動選択ポリシーの良し悪しを表現する方
法について、ポリシー同士の順序関係などの表現方法と比べて報酬関数として表すことでは
表現不可能なポリシーが存在すること、またその多項式時間での判定方法を発見
•Deep Reinforcement Learning at the Edge of the Statistical Precipice
•強化学習モデルの訓練は計算的に重いために統計的に有意か怪しい評価になってきてい
る。信頼区間の表示など、統計的に有効かつ計算的に実用的な強化学習の評価方法を提
案。
Awards
Outstanding Paper Awards (2/2)
7
•MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers
•モデルが生成した文章の自然さ(人間生成との距離)を測る新たな指標を提案
•Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms
•連続最適化の標準的な高速化手法であるNesterov加速を、イベント発生のモデル化に使われる
点過程モデルを使って「どれだけ動かしてから勾配方向を更新するか」をランダム化すること
で、連続的な更新を離散化したことに伴う誤差を軽減
•Moser Flow: Divergence-based Generative Modeling on Manifolds
•ニューラルネットのある種の連続化であるNeural ODE (常微分方程式) のうち、可逆であるCNF
と呼ばれるモデルを、リーマン多様体上に拡張。ベクトル空間のダイバージェンスを使ったパ
ラメタ化のお陰で、既存法のように数値積分を解いてそれを誤差逆伝播するという重い計算が
不要になった。
Awards
Test of Time Award & Datasets & Benchmarks Best Paper Awards
8
• Test of Time Award
•Online Learning for Latent Dirichlet Allocation (NeurIPS 2010)
•文書と単語の隠れトピックを同時推定するモデルであるLDAのオンライン版変分推論を提案。これにより大量の文書を扱う
ことが現実的になっただけでなく、複雑な潜在変数モデルを大量のデータで推論可能ということが示された点で画期的であっ
た。
• Datasets & Benchmarks Best Paper Awards
•Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
•複数の領域(画像、自然言語、その他手法)で使われているデータセットの変遷を調べたところ、一部の機関から提案され
た少数のデータセットに集中するようになってきている。より多様なデータセットを作り、評価をすることが一般化の面など
で必要だ。
•ATOM3D: Tasks on Molecules in Three Dimensions
•分子に関する様々な性質を予測するために、これまでは構造式など1次元や2次元の表現をもとに予測していた。3Dのデータ
セットを提供し、シンプルな手法で既存の2D入力よりも高精度になることを確認。
査読の一貫性実験
9
• 882本の論文に関して、2回査読したら同じ結
果が再現するのかどうか調べた結果→
• 採択論文の半分くらいが


2度目は不採択
• 東大受験と同程度か
• ケタが1つ少なかった2014年の実験と同程度
• スケールが増えたからといって悪化してない
• どちらかのグループで採択された論文は採択
• 採択率増加
• https://blog.neurips.cc/2021/12/08/the-
neurips-2021-consistency-experiment/
チュートリアルなど
チュートリアル:構造事前分布
Pay Attention to What You Need: Do Structural Priors Still Matter in
the Age of Billion Parameter Models?
11
• 問題の性質を(ニューラルネットの)構造に事前知識として反映させる重要性や方法について
• カーネマンのFast & Slow (脳のシステム1&システム2)


Neural & Symbolic (AIs)
• 離散的な構造も重要なはず
• 構造を活用することでデータ効率的・一般化/転移可能・解釈可能に
• 「物理とは対称性の学問であると言っても


 それほど言い過ぎではない」
• 対称性を使うことで多くのサンプルが不要に
• 不変性(Invariant)と同変性(Equivariant)が重要
• これらは互いに関係
• 不変関数の微分は同変 など
チュートリアル:Self-supervised Learning
12
• 古くはRBM、Greedy layer-wise 事前学習、denoising autoencoder など
• 最近はContrastive
• 同じ画像を別の画像変換


したものは類似度が高く


別画像は類似度が低く


なるように表現を学習
• とSelf-prediction
• Pixel CNN
• Masked予測 など
• やはり雑多に色々ある、という印象
チュートリアル: ML w/ 量子コンピュータ
13
• 量子コンピュータを使って機械学習するという分野
• 理論解析もハードウェア自体もまだまだ発展途上(図)
• 基本的には量子ゲート方式を想定
• 基本的には重たい学習(最適化)部分を


量子コンピュータにアウトソースしたい


• カーネル法の関数空間を量子状態として読み替えるなど(図)
• 全体的にはまだまだ発展途上だが


MLとQuantumの興味深い関係性も色々明らかになりつつあり


これから面白い分野なのでは、という主張
̂
f = min
f∈ℱ ∑
(x,y)∈
𝒟
l(f(x), y)
招待講演


Do We Know How to Estimate the Mean?
14
• by Gabor Lugosi
•
平均の推定は普通 で行われるが、実はこれは有限サンプルでは分布によってはかなり怪しい
• 分布の裾が厚い(外れ値がある)場合などはサンプル数nに従い 以上の確率で誤差は
• と抑えられる
• これは高確率 を保証するのは厳しい、 にしたい
• ランダムに 分割してそれぞれの平均の中央値取る median-of-means だと良い
•
• 半分のデータで外れ値(ϵ-分位点)を推定、残りで外れ値を分位点にtrimして平均取る(右図)
• これも良い、特に、少数のサンプルを敵対者が操作できる場合にもロバスト
• ただしこれらは予め「どの程度の成功確率 を保証したいか」を指定して や を決める必要あり
• すべての についての保証を求めることは不可能であることが証明済
• 高次元の場合はさらに複雑に色々な手法とその保証がさらに色々ある
μ̄n =
1
n
n
∑
i=1
Xi
1 − δ
̂
μn − μ ≤ σ
1
nδ
δ ≪ 1 log(1/δ)
k
̂
μMM − μ ≤ σ
32 log(1/δ)
n
δ k ϵ
δ
招待講演
Benign (良性の) Over
fi
tting
15
• by Peter Bartlett
• 近年、サンプル数よりもパラメタ数の方が多くても( )DNNは良い性能を示すことが知られている
• その理由についての「良性の過学習」仮説
• , は予測に有用、 は Spiky な関数で


過学習するが「良性」であって予測に悪さはしない
• 例:特異的カーネルを用いたスムージング
•
  ←
• ミニマックスレート(良い性質)を達成
• はそのモデル複雑性が高い( )場合にのみ 良性 を獲得
p ≫ n
̂
f = ̂
f0 + Δ ̂
f0 Δ
̂
f(x) =
n
∑
i=1
yiKh (x − xi)
∑
n
j=1
Kh (x − xj)
e.g., with Kh(x) =
1[h∥x∥ ≤ 1]
h∥x∥α
Δ ≫ n
論文ピックアップ
(主にオフライン強化学習)
Noether Networks: meta-learning useful
conserved quantities
17
• Ferran Alet, Dylan Doblar, Allan Zhou, Josh Tenenbaum,


Kenji Kawaguchi, Chelsea Finn
• 物理的な保存則を学習するメタ学習手法
•
• 保存量 が捉える(保存する)


次元以外が小さくなるように
• 構造を学習する方法は難しい


実用的なら画期的
ℒnoether =
T
∑
t=1
gϕ (x0) − gϕ (fθ (x0, t))
2
gϕ
Pragmatic Image Compression for Human-in-
the-Loop Decision-Making
18
• by Sid Reddy, Anca Dragan, Sergey Levine
• 意思決定に役立つという観点で必要な情報のみ圧縮したい
• ユーザーが行動を決め、行動からユーザが圧縮画像を見たか元画像を見たか判
別できないように圧縮する
Robust Predictable Control
19
• by Ben Eysenbach, Russ R. Salakhutdinov,
Sergey Levine
• 役立つ潜在表現獲得シリーズ
• 予測しやすい潜在表現にする
• 予測しやすい行動を選択する
• →ロバストになる
• 環境変化・欠測・攻撃に対し
A Minimalist Approach to O
ffl
ine
Reinforcement Learning
20
• by Scott Fujimoto, Shixiang (Shane)
Gu
• Actor-critic系のTD3法に、過去データ
通りの行動をとりやすくする正則化を加
えただけ
•
• それだけで最新のオフライン強化学習で
ある Conservative Q学習 (CQL) を凌駕
LTD3+BC(π) = λLTD3(π) + (π − a)2
COMBO: Conservative O
ffl
ine Model-Based
Policy Optimization
21
• by Tianhe Yu, Aviral Kumar, Rafael


Rafailov, Aravind Rajeswaran,


Sergey Levine, Chelsea Finn
• CQLをモデルベースRLに拡張


(状態遷移をモデル化し、


 それによる予測分布をデータに混ぜる)
•
• Q関数のよりタイトな下界を推定できる
̂
Qk+1
← arg minQ β (
𝔼
s,a∼ρ(s,a)[Q(s, a)] − 𝔼
s,a∼
𝒟
[Q(s, a)]) + 1
2
𝔼
s,a,s′

∼df [(Q(s, a) − ̂
ℬπ ̂
Qk
(s, a))
2
]
O
ffl
ine Reinforcement Learning as One Big
Sequence Modeling Problem
22
• Michael Janner, Qiyang Li, Sergey Levine
• 長い系列の模倣学習に向く Decision Transformer の後続
• Transformerモデルとビームサーチにより系列全体を最適化
The Adaptive Doubly Robust Estimator and a
Paradox Concerning Logging Policy
23
• by Masahiro Kato, Kenichiro McAlinn, Shota Yasui
• オンライン学習(バンディット)


により取得されたデータを用いた


ポリシー価値推定(OPE)
• Double MLのサンプル分割戦略を


少し変えるだけでよい(図)
Bellman-consistent Pessimism for O
ffl
ine Reinforcement Learning
24
• by Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal
•
• In practice:
•
• CQLと同様に保守的なQ関数を


用いるが、やや実装が違う
• ベルマン誤差(データフィット)


が一定の範囲内に収まるQ関数の


集合 を考え、その中の最悪を


最大化する
̂
π = argmax
π∈Π
min
f∈ℱπ,ε
f (s0, π), ℱπ,ε :=
{
f ∈ ℱ :
𝔼
𝒟
[(f −
𝒯
π
f)
2
] ≤ ε
}
π2 ∝ π1 exp (ηfπ1)
ℱ

More Related Content

What's hot

backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報Deep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of datasetcvpaper. challenge
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2harmonylab
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方joisino
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)Deep Learning JP
 

What's hot (20)

backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
ELBO型VAEのダメなところ
ELBO型VAEのダメなところELBO型VAEのダメなところ
ELBO型VAEのダメなところ
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
Cross-modality meta-survey of dataset
Cross-modality meta-survey of datasetCross-modality meta-survey of dataset
Cross-modality meta-survey of dataset
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2Generating Diverse High-Fidelity Images with VQ-VAE-2
Generating Diverse High-Fidelity Images with VQ-VAE-2
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
 

Similar to NeurIPS'21参加報告 tanimoto_public

[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object DetectionDeep Learning JP
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networksDeep Learning JP
 
Code iq×japanr 公開用
Code iq×japanr 公開用Code iq×japanr 公開用
Code iq×japanr 公開用Nobuaki Oshiro
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic SegmentationDeep Learning JP
 
Learning to rank for IR
Learning to rank for IRLearning to rank for IR
Learning to rank for IRtakaya imai
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)Deep Learning JP
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーションYasushi Hara
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...Deep Learning JP
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based ControlDeep Learning JP
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolutioncvpaper. challenge
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 

Similar to NeurIPS'21参加報告 tanimoto_public (20)

Rainbow
RainbowRainbow
Rainbow
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
Code iq×japanr 公開用
Code iq×japanr 公開用Code iq×japanr 公開用
Code iq×japanr 公開用
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
Learning to rank for IR
Learning to rank for IRLearning to rank for IR
Learning to rank for IR
 
Tokyo r50 beginner_2
Tokyo r50 beginner_2Tokyo r50 beginner_2
Tokyo r50 beginner_2
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
 
【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

NeurIPS'21参加報告 tanimoto_public

  • 2. 概要 2 • NeurIPS 2021 • 会場:完全オンライン • 会期 • 12/6-7 (チュートリアル) • 12/7-11 (本会議) • 12/13-15 (ワークショップ) • チュートリアルと本会議に部分的に参加した内容のまとめ
  • 3. Stats 3 • 投稿数は微減、採択数は増加 • オンライン学会疲れ? • 採択率増加は後述の 
 査読の一貫性実験のため • 企業ではGoogle等が依然多いが 
 中国勢も • 国ごとでは依然米国が圧倒的
  • 4. リンク 4 • 論文は公開済 • https://proceedings.neurips.cc/paper/2021 • プレゼン資料&動画はSlidesliveに上がるはず • 去年: https://slideslive.com/neurips-2020 • スケジュール(詳細は参加者のみ閲覧可) • https://nips.cc/virtual/2021/calendar
  • 6. Awards Outstanding Paper Awards (1/2) 6 •A Universal Law of Robustness via Isoperimetry •データを全部覚えるのに必要なパラメタ数はO(n)程度だが、全部覚えてかつ敵対的摂動に ロバストにするためにはO(nd) (dは入力次元数)のパラメタが必要であることを理論的に解明 •On the Expressivity of Markov Reward •強化学習の一般的モデルであるMDPにおいて、行動選択ポリシーの良し悪しを表現する方 法について、ポリシー同士の順序関係などの表現方法と比べて報酬関数として表すことでは 表現不可能なポリシーが存在すること、またその多項式時間での判定方法を発見 •Deep Reinforcement Learning at the Edge of the Statistical Precipice •強化学習モデルの訓練は計算的に重いために統計的に有意か怪しい評価になってきてい る。信頼区間の表示など、統計的に有効かつ計算的に実用的な強化学習の評価方法を提 案。
  • 7. Awards Outstanding Paper Awards (2/2) 7 •MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers •モデルが生成した文章の自然さ(人間生成との距離)を測る新たな指標を提案 •Continuized Accelerations of Deterministic and Stochastic Gradient Descents, and of Gossip Algorithms •連続最適化の標準的な高速化手法であるNesterov加速を、イベント発生のモデル化に使われる 点過程モデルを使って「どれだけ動かしてから勾配方向を更新するか」をランダム化すること で、連続的な更新を離散化したことに伴う誤差を軽減 •Moser Flow: Divergence-based Generative Modeling on Manifolds •ニューラルネットのある種の連続化であるNeural ODE (常微分方程式) のうち、可逆であるCNF と呼ばれるモデルを、リーマン多様体上に拡張。ベクトル空間のダイバージェンスを使ったパ ラメタ化のお陰で、既存法のように数値積分を解いてそれを誤差逆伝播するという重い計算が 不要になった。
  • 8. Awards Test of Time Award & Datasets & Benchmarks Best Paper Awards 8 • Test of Time Award •Online Learning for Latent Dirichlet Allocation (NeurIPS 2010) •文書と単語の隠れトピックを同時推定するモデルであるLDAのオンライン版変分推論を提案。これにより大量の文書を扱う ことが現実的になっただけでなく、複雑な潜在変数モデルを大量のデータで推論可能ということが示された点で画期的であっ た。 • Datasets & Benchmarks Best Paper Awards •Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research •複数の領域(画像、自然言語、その他手法)で使われているデータセットの変遷を調べたところ、一部の機関から提案され た少数のデータセットに集中するようになってきている。より多様なデータセットを作り、評価をすることが一般化の面など で必要だ。 •ATOM3D: Tasks on Molecules in Three Dimensions •分子に関する様々な性質を予測するために、これまでは構造式など1次元や2次元の表現をもとに予測していた。3Dのデータ セットを提供し、シンプルな手法で既存の2D入力よりも高精度になることを確認。
  • 9. 査読の一貫性実験 9 • 882本の論文に関して、2回査読したら同じ結 果が再現するのかどうか調べた結果→ • 採択論文の半分くらいが 
 2度目は不採択 • 東大受験と同程度か • ケタが1つ少なかった2014年の実験と同程度 • スケールが増えたからといって悪化してない • どちらかのグループで採択された論文は採択 • 採択率増加 • https://blog.neurips.cc/2021/12/08/the- neurips-2021-consistency-experiment/
  • 11. チュートリアル:構造事前分布 Pay Attention to What You Need: Do Structural Priors Still Matter in the Age of Billion Parameter Models? 11 • 問題の性質を(ニューラルネットの)構造に事前知識として反映させる重要性や方法について • カーネマンのFast & Slow (脳のシステム1&システム2) 
 Neural & Symbolic (AIs) • 離散的な構造も重要なはず • 構造を活用することでデータ効率的・一般化/転移可能・解釈可能に • 「物理とは対称性の学問であると言っても 
  それほど言い過ぎではない」 • 対称性を使うことで多くのサンプルが不要に • 不変性(Invariant)と同変性(Equivariant)が重要 • これらは互いに関係 • 不変関数の微分は同変 など
  • 12. チュートリアル:Self-supervised Learning 12 • 古くはRBM、Greedy layer-wise 事前学習、denoising autoencoder など • 最近はContrastive • 同じ画像を別の画像変換 
 したものは類似度が高く 
 別画像は類似度が低く 
 なるように表現を学習 • とSelf-prediction • Pixel CNN • Masked予測 など • やはり雑多に色々ある、という印象
  • 13. チュートリアル: ML w/ 量子コンピュータ 13 • 量子コンピュータを使って機械学習するという分野 • 理論解析もハードウェア自体もまだまだ発展途上(図) • 基本的には量子ゲート方式を想定 • 基本的には重たい学習(最適化)部分を 
 量子コンピュータにアウトソースしたい 
 • カーネル法の関数空間を量子状態として読み替えるなど(図) • 全体的にはまだまだ発展途上だが 
 MLとQuantumの興味深い関係性も色々明らかになりつつあり 
 これから面白い分野なのでは、という主張 ̂ f = min f∈ℱ ∑ (x,y)∈ 𝒟 l(f(x), y)
  • 14. 招待講演 
 Do We Know How to Estimate the Mean? 14 • by Gabor Lugosi • 平均の推定は普通 で行われるが、実はこれは有限サンプルでは分布によってはかなり怪しい • 分布の裾が厚い(外れ値がある)場合などはサンプル数nに従い 以上の確率で誤差は • と抑えられる • これは高確率 を保証するのは厳しい、 にしたい • ランダムに 分割してそれぞれの平均の中央値取る median-of-means だと良い • • 半分のデータで外れ値(ϵ-分位点)を推定、残りで外れ値を分位点にtrimして平均取る(右図) • これも良い、特に、少数のサンプルを敵対者が操作できる場合にもロバスト • ただしこれらは予め「どの程度の成功確率 を保証したいか」を指定して や を決める必要あり • すべての についての保証を求めることは不可能であることが証明済 • 高次元の場合はさらに複雑に色々な手法とその保証がさらに色々ある μ̄n = 1 n n ∑ i=1 Xi 1 − δ ̂ μn − μ ≤ σ 1 nδ δ ≪ 1 log(1/δ) k ̂ μMM − μ ≤ σ 32 log(1/δ) n δ k ϵ δ
  • 15. 招待講演 Benign (良性の) Over fi tting 15 • by Peter Bartlett • 近年、サンプル数よりもパラメタ数の方が多くても( )DNNは良い性能を示すことが知られている • その理由についての「良性の過学習」仮説 • , は予測に有用、 は Spiky な関数で 
 過学習するが「良性」であって予測に悪さはしない • 例:特異的カーネルを用いたスムージング •   ← • ミニマックスレート(良い性質)を達成 • はそのモデル複雑性が高い( )場合にのみ 良性 を獲得 p ≫ n ̂ f = ̂ f0 + Δ ̂ f0 Δ ̂ f(x) = n ∑ i=1 yiKh (x − xi) ∑ n j=1 Kh (x − xj) e.g., with Kh(x) = 1[h∥x∥ ≤ 1] h∥x∥α Δ ≫ n
  • 17. Noether Networks: meta-learning useful conserved quantities 17 • Ferran Alet, Dylan Doblar, Allan Zhou, Josh Tenenbaum, 
 Kenji Kawaguchi, Chelsea Finn • 物理的な保存則を学習するメタ学習手法 • • 保存量 が捉える(保存する) 
 次元以外が小さくなるように • 構造を学習する方法は難しい 
 実用的なら画期的 ℒnoether = T ∑ t=1 gϕ (x0) − gϕ (fθ (x0, t)) 2 gϕ
  • 18. Pragmatic Image Compression for Human-in- the-Loop Decision-Making 18 • by Sid Reddy, Anca Dragan, Sergey Levine • 意思決定に役立つという観点で必要な情報のみ圧縮したい • ユーザーが行動を決め、行動からユーザが圧縮画像を見たか元画像を見たか判 別できないように圧縮する
  • 19. Robust Predictable Control 19 • by Ben Eysenbach, Russ R. Salakhutdinov, Sergey Levine • 役立つ潜在表現獲得シリーズ • 予測しやすい潜在表現にする • 予測しやすい行動を選択する • →ロバストになる • 環境変化・欠測・攻撃に対し
  • 20. A Minimalist Approach to O ffl ine Reinforcement Learning 20 • by Scott Fujimoto, Shixiang (Shane) Gu • Actor-critic系のTD3法に、過去データ 通りの行動をとりやすくする正則化を加 えただけ • • それだけで最新のオフライン強化学習で ある Conservative Q学習 (CQL) を凌駕 LTD3+BC(π) = λLTD3(π) + (π − a)2
  • 21. COMBO: Conservative O ffl ine Model-Based Policy Optimization 21 • by Tianhe Yu, Aviral Kumar, Rafael 
 Rafailov, Aravind Rajeswaran, 
 Sergey Levine, Chelsea Finn • CQLをモデルベースRLに拡張 
 (状態遷移をモデル化し、 
  それによる予測分布をデータに混ぜる) • • Q関数のよりタイトな下界を推定できる ̂ Qk+1 ← arg minQ β ( 𝔼 s,a∼ρ(s,a)[Q(s, a)] − 𝔼 s,a∼ 𝒟 [Q(s, a)]) + 1 2 𝔼 s,a,s′  ∼df [(Q(s, a) − ̂ ℬπ ̂ Qk (s, a)) 2 ]
  • 22. O ffl ine Reinforcement Learning as One Big Sequence Modeling Problem 22 • Michael Janner, Qiyang Li, Sergey Levine • 長い系列の模倣学習に向く Decision Transformer の後続 • Transformerモデルとビームサーチにより系列全体を最適化
  • 23. The Adaptive Doubly Robust Estimator and a Paradox Concerning Logging Policy 23 • by Masahiro Kato, Kenichiro McAlinn, Shota Yasui • オンライン学習(バンディット) 
 により取得されたデータを用いた 
 ポリシー価値推定(OPE) • Double MLのサンプル分割戦略を 
 少し変えるだけでよい(図)
  • 24. Bellman-consistent Pessimism for O ffl ine Reinforcement Learning 24 • by Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal • • In practice: • • CQLと同様に保守的なQ関数を 
 用いるが、やや実装が違う • ベルマン誤差(データフィット) 
 が一定の範囲内に収まるQ関数の 
 集合 を考え、その中の最悪を 
 最大化する ̂ π = argmax π∈Π min f∈ℱπ,ε f (s0, π), ℱπ,ε := { f ∈ ℱ : 𝔼 𝒟 [(f − 𝒯 π f) 2 ] ≤ ε } π2 ∝ π1 exp (ηfπ1) ℱ