SlideShare a Scribd company logo
論文紹介
“Offline Q-Learning on diverse
Multi-Task data both scales and generalizes”
目次 2
1. 著者紹介
2. 詳細
3. イントロダクション
4. Scaled Q-Learning
5. 実験
6. 結論
7. 今後の展望
1. 論文概要
著者名: Aviral Kumar (Google Research Brain Team, UC Berkeley),
Rishabh Agarwal (Google Research Brain Team),
Xinyang Geng (UC Berkeley),
George Tucker (Google Research Brain Team),
Sergey Levine (Google Research Brain Team, UC Berkeley)
1. 著者紹介 4
年: 2022
ICLR 2023
1. 著者紹介
1. 著者紹介
• B.Tech. with Honors in Computer Science and Engineering
(2014年7月~2018年8月)
大学: インド工科大学 ボンベイ校
•Ph.D. in Computer Science (2018年8月~2023年8月)
大学: カリフォルニア大学 バークレー校
•Assistant Professor in the Computer Science and Machine Learning
大学: カーネギーメロン大学
•Student Researcher in Google Brain (2020年6月~2023年3月)
Aviral Kumar
1. 著者紹介 5
Aviral Kumar
Aviral Kumar
•Bs and MS in Computer Science (2009)
大学: スタンフォード大学
•Ph.D. in Computer Science (2014)
大学: スタンフォード大学
•Associate Professor in the Department of Electrical Engineering and
Computer Sciences
大学: カリフォルニア大学 バークレー校
Sergey Levine
1. 著者紹介 6
2. 詳細
LLM (Large Language Model)
2. 詳細 8
•Transformer modelを使い,
大規模なデータセットを用いて訓練された巨大な言語モデル
•認識,翻訳,予測,文章生成など様々なタスクを実行できる
•事前学習を行った後,ファインチューニングが行われる
•環境との相互作用により学習を行うため,
大量のデータを学習に用いることができない
‣大規模なモデルを構築するとアンダーフィッティングにつながる
•安全性と経済性を考慮すると,現実世界に応用することが難しい
‣ゲームやシミュレーション環境下でしか学習できない
•汎化性能が低いため単一のタスクにしか対応できない
従来の強化学習の問題点
2. 詳細 9
実験の目的:
大量で多様なデータセットを用いた大規模な強化学習モデルを作ることで
マルチタスクやまだ見たことのないタスクに対しても対応できるような
汎化性能を得る
2. 詳細 10
手法:
オフライン強化学習を用いることで,
大規模な強化学習モデルを構築した場合に起こるアンダーフィッティングを防ぐ
‣Scaled Q Learning
3. イントロダクション
オンライン強化学習 (Online RL)
•ポリシー によって集められたデータを使って
毎ステップ の更新を行う
πk
πk
様々な強化学習の学習方法
3. イントロダクション 12
https://arxiv.org/pdf/2005.01643.pdf
様々な強化学習の学習方法
3. イントロダクション 13
https://arxiv.org/pdf/2005.01643.pdf
オフポリシー強化学習 (O
ff
-policy RL)
•ポリシー によって集められたデータを
data bu
ff
er(replay bu
ff
er)に
エージェントの経験として追加していく
•各ステップでのポリシー によって集められたデータを用いて
訓練を行い,次のステップのポリシー へと更新を行う
πk
π0, π1, . . . , πk
πk+1
オフライン強化学習 (O
ffl
ine RL)
•事前に別のポリシー によって
収集したデータセットを用いて,
新しいポリシー の訓練を行う
•学習時にエージェントは環境との相互作用を行わない
•学習を行った後,オンラインやオフポリシー強化学習を用いて
ファインチューニングを行うこともできる
•試行錯誤を行えないような領域でも適用可能なため,
医療,ロボット,在庫管理,自動運転など多様な領域に応用することができる
πβ
π
3. イントロダクション 14
様々な強化学習の学習方法
https://arxiv.org/pdf/2005.01643.pdf
•データセットに十分に最適化されたデータが含まれない場合は性能が下がる
•様々なシミュレーションや現実世界の環境で良い性能を示したが,
小規模なデータセットや単一のタスクに限られる
現在のOffline Q-Learningの問題点
3. イントロダクション 15
‣Of
fl
ine Q-Learningモデルをスケールアップし,
多様なデータセットやマルチタスクに対しても対応できるようにする
(Scaled Q-Learning)
•単一のポリシーで40個のAtariゲームを用いて訓練を行った
•最適なデータセット(near-optimal)と一部最適なデータセット(sub-optimal)の
二種類のデータセットを用いて比較をした
•データセットに含まれないゲームに対して
ファインチューニングを行いその性能を確かめた
実験概要
3. イントロダクション 16
4. Scaled Q-Learning
•Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 18
•Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
•Distributional cross entropy loss
‣デフォルトのmean squared errorに比べて性能がかなり改善された
•Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 19
4. Scaled Q-Learning 20
ResNet(2015):
CNN層に対してResidual Connection(残差接続)を組み込むことで,
より深い層を持つことができる
Residual Connection (残差接続)
・ある層への入力を出力に足し合わせる手法
・勾配消失を防ぐ効果がある
Modified ResNet
‣本実験では,元のResNetを改良したModi ed ResNetを使用
https://arxiv.org/pdf/1512.03385.pdf
ResNetからの変更点
•Batch Normalizationの代わりにGroup Normalizationを使用
•ResNetの出力に対して,learned spatial embeddingsとの
成分ごとの積をとる
Modified ResNet
4. Scaled Q-Learning 21
Batch normalization
•ミニバッチ中の平均と分散を算出し,
それを用いて正規化を行う
•バッチサイズが小さい場合,
得られる平均と分散は不正確になる
Modified ResNet
4. Scaled Q-Learning 22
Group normalization
•チャネルを複数のグループに分けて,
その各グループ内での平均と分散を算出し,正規化を行う
•バッチ数に依存しない
batch
channel
spacial
batch
channel
spacial
https://arxiv.org/pdf/1803.08494.pdf
Learned spatial embeddings
•ResNetの出力と同じ次元を持つテンソル
•初期値は乱数であり,
モデルの学習を通して更新されていく
•入力される特徴量の空間的特徴を保持した状態で
重み付けをすることができる
Modified ResNet
4. Scaled Q-Learning 23
• Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 24
Action distribution shift
•オフラインデータセットに存在しない行動をとる場合,
試行錯誤を行わないため行動価値が過大評価になる現象
オフラインでDQNを用いる場合の問題点
4. Scaled Q-Learning 25
‣Scaled Q-Learningの学習アルゴリズムにConservative Q-Learningを用いる
•Of
fl
ine Q-Learningのアルゴリズム
•まだ見たことのない行動に対する過大評価を避けるため,
2つの損失関数の合計を全体の損失として用いる
1. regularizer
2. distributional TD-error (from C51)
Conservative Q-Learning (CQL)
4. Scaled Q-Learning 26
min
θ
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
− s,a∼D[Qθ(s, a)]) + TDError(θ; D)
• オフラインデータセットが存在する行動に対してのQ-valueは最大化し,
存在しない行動に対してのQ-valueは最小化するペナルティ項
• オフライン強化学習で起こり得る,データセットにない行動に対しての
Q-valueの過大評価を防ぐ
(regularizer weight): 本実験では で固定
α
𝔼
s∼D
[
log
(∑
a′

exp(Qθ(s, a′

))
)]
−
𝔼
s,a∼D[Qθ(s, a)])
α α = 0.05
Regularizer
4. Scaled Q-Learning 27
Mean squared TD error:
•通常のDQNで用いられる損失関数
L =
𝔼
[∥
target
(r + γmaxQ(s′

, a′

)) −
predicted
Q(s, a) ∥2
]
TD (Temporal Difference) Error
4. Scaled Q-Learning 28
distributioal TD error (categorical TD error)
• C51で用いられる損失関数
• ネットワークの出力が常に[0, 1]の確率であるため
他のタスクとネットワークのパラメータを共有するマルチタスクモデルと相性が良い
•ネットワークが環境からの行動価値の確率分布を推定する
•期待値であるQ-valueを直接推定する元のDQNのネットワーク
に比べて学習が安定する
•確率分布の多峰性を保持することができる
C51 (Categorical DQN)
4. Scaled Q-Learning 29
•得られた行動価値の分布から期待値(Q-value)を算出する
•ネットワークは離散型の確率分布を推定する
Q(s, a) = E[Z(s, a)] =
N
∑
i=1
pixi
C51 (Categorical DQN)
4. Scaled Q-Learning 30
categorical TD error
4. Scaled Q-Learning 31
1. ネットワークが推定した各行動に
対する離散型確率分布の期待値を
計算する
2. 最大の期待値による行動が
エージェントの最適な行動となる
1. ターゲットとなる確率分布 の初期化
2. サポートベクトル に基づき
目標となる離散型確率分布を計算する
m
z
categorical TD error
4. Scaled Q-Learning 32
categorical TD error
4. Scaled Q-Learning 33
サポートベクトル
https://arxiv.org/pdf/1707.06887.pdf
ネットワークの推定する確率分布と
目標値である確率分布との損失を
Cross-entropy lossを用いて計算する
categorical TD error
4. Scaled Q-Learning 34
Cross-entropy loss:
二つの確率分布の差を定量化するために使われる損失関数
: 正解となる離散型確率分布
: モデルの予測した離散型確率分布
H(p, q) = −
∑
x∈classes
p(x)log q(x)
p(x)
q(x)
categorical TD error
4. Scaled Q-Learning 35
• Modi
fi
ed ResNet architecture
‣大規模なモデルの構築が可能になり,性能が上がった
• Distributional cross entropy loss
‣元のmean squared errorに比べて性能がかなり改善された
• Feature normalization
‣学習が安定し,性能が改善された
Scaled Q-Learningの概要
4. Scaled Q-Learning 36
•ネットワークの出力に対して正規化を行う
•導入前に比べて学習のスピードが上がり,結果もよくなった
•チューニングする必要のあるハイパーパラメータが増えるため,
今後この手法の代替案を考える必要がある
Feature Normalization
4. Scaled Q-Learning 37
•learned spatial embeddingsとgroup normalizationを使ったResNetを使用
•ネットワークの出力をC51と同じ確率分布とし,損失関数には
cross entropy lossを用いる
•ネットワークの出力に対して,feature normalizationを用いる
Scaled Q-Learningまとめ
4. Scaled Q-Learning 38
5. 実験
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 40
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 41
オンラインのDQNを用いて40個のAtariゲームで学習を行い,
学習の過程で得られたデータから,2種類のデータセットを作る
1. Sub-optimal
•各ゲームのオフラインデータセットから学習の初期段階である最初の20%のデータを用いる
•各ゲーム1000万個のデータ,合計で4億個のデータを含む
•average human-normalized IQM score: 51.0 %
2. Near-optimal
•各ゲームのオフラインデータセットから高性能を示したデータを含む全データを用いる
•各ゲーム5000万個のデータ,合計で20億個のデータを含む
•average human-normalized IQM score: 93.5 %
問題設定
5. 実験 42
human-normalized score:
人間がそのゲームをプレイした時のスコアを1.0(100%)とした場合の
強化学習エージェントが獲得したスコア
5. 実験 43
average human-normalized interquartile-mean (IQM)
•40個のゲームでのhuman-normalized scoreのIQMの平均値
Interquartile-mean (IQM):
四分位範囲のデータの平均値
xIQM =
2
n
3n
/ 4
∑
i= n
4 +1
xi
評価指標
実験に用いた手法
5. 実験 44
•DT (200M): パラメータ数2億個のDecision Transformerモデル
•DT (40M): パラメータ数4000万個のDecision Transformerモデル
•BC: Scaled Q-Learningと全く同じ構造を持つBehavioral Cloningモデル
•MT impala-DQN: IMPALAを用いて5倍のデータで学習を行ったmultitask online RL
•Scaled Q-Learning (Ours, 80M): パラメータ数8000万個の本実験の提案手法
•Behavior policy: Of
fl
ine RL用のデータセット作成に用いたOnline DQN
•Transformerを用いたオフライン強化学習アルゴリズム
•オフラインデータセットを時系列問題として学習を行う自己回帰モデル
•各タイムステップでの因果関係を考慮することができる
DT (Decision Transformer)
5. 実験 45
https://arxiv.org/pdf/2106.01345.pdf
•最適化された行動をとるエキスパートの行動履歴を真似て,
行動ポリシーを構築する模倣学習手法
•エキスパートの行動ポリシーとエージェントの学習ポリシーとの距離を
コスト関数として定義し,そのコスト関数を最小化するように学習する
BC (Behavioral Cloning)
5. 実験 46
https://smartlabai.medium.com/a-brief-overview-of-imitation-learning-8a8a75c44a9c
•Impala architectureを用いたマルチタスク用のOnline DQN
•DQNのTD errorにはcategorical TD errorを用いる
•エンコード部分にはIMPALAで用いられたCNNを用いる
MT Impala DQN
5. 実験 47
https://arxiv.org/pdf/1802.01561.pdf
IMPALA architecture:
•複数のactorと単一のlearnerを使う
•learnerは複数のactorが収集してきたデータを用いて訓練を行う
•actorはlearnerが獲得したパラメータを用いる
MT Impala DQN
5. 実験 48
https://towardsdatascience.com/
評価方法
•2種類のデータセットを用いる
•各アルゴリズムにおける
average human-normalized IQMを比較する
多様なデータセットへの対応評価
5. 実験 49
結果
•Scaled QL(Ours, 80M)が両方のデータセットで
Behavior Policyを上回った
Sub-optimal Dataでの評価
結果:
Scaled QL (Ours, 80M)では全40個のゲームのうち約40%のゲームで
人間のプレイするスコアよりも高いスコアを獲得することができた
多様なデータセットへの対応評価
5. 実験 50
Sub-optimal datasetでのScaled QLとDTとの比較
結果:
Scaled QL (Ours, 80M)は約70%のゲームでDT (200M)よりも高い性能を示した
多様なデータセットへの対応評価
5. 実験 51
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 52
実験に用いた手法:
•Scaled QL + ResNet/MSE: MSE lossを用いたScaled Q-Learning
•Scaled QL + ResNet/C51: categorical lossを用いたScaled Q-Learning
•CQL + IMPALA: IMPALA architectureを用いたCQL
モデルの拡大性
5. 実験 53
モデルのパラメータが多いほど,高い性能を示すことができるかを評価する
モデルの拡大性
5. 実験 54
結果
•Scaled QLはモデルのパラーメータ数が多いほど高い性能を示した
•Scaled QL + ResNet/C51 はDTよりも少ないパラメータ数で高い性能を示した
•多様なデータセットへの対応評価
•モデルの拡大性の評価
•ファインチューニングの評価
•オフライン ファインチューニング
•オンライン ファインチューニング
実験概要
5. 実験 55
本実験で行うファインチューニング
•エンコーダー部分は事前学習をした時のパラメーターで固定する
•全結合層はパラメータを固定しない
ファインチューニング
5. 実験 56
学習済みのモデルの一部と新たに追加したモデルの一部を活用して
微調整を行うこと Freeze
•オフライン上でファインチューニングを行う
•Scaled QLのエンコーダーにはResNet101を使用
•5つのゲーム(ALIEN, MSPACMAN, SPACE INVADERS, STARGUNNER, PONG)
に対してOnline DQNを用いて集めたデータの1%を用いて事前学習を行う
オフライン ファインチューニング
5. 実験 57
•Scaled QL (ours): ファインチューニングを行うScaled QL
•Scaled QL (frozen): ファインチューニングを行わず,
事前学習をしてパラメータを全て固定したScaled QL
•Scaled QL (scratch): 事前学習を行わないScaled QL
•MAE: Scaled QLのエンコーダー部分にmasked autoencoderを用いた
ファインチューニンングを行うモデル
•BC (pre-trained): 事前学習を行うBehavioral Cloning
•DT (pre-trained): 事前学習を行うDecision Transformerモデル
•CPC + DT: CPCを用いてファインチューニングを行ったDecision Transformerモデル
実験に用いた手法
5. 実験 58
•Vision transformerを用いた自己教師あり学習手法
•一部をマスクされた画像から元の画像を再構築することができる
Masked autoencoder
5. 実験 59
https://arxiv.org/pdf/2111.06377.pdf
•Masked autoencoderで事前学習を行い,エンコーダ部分だけを強化学習に用いる
•事前学習のデータセットには
オフラインデータセットと同じAtariゲームの画像を用いる
Masked autoencoder を用いた事前学習
5. 実験 60
https://arxiv.org/pdf/2203.06173.pdf
•自己回帰モデルで用いられる自己教師あり学習手法
•高次元データから役にたつ情報のみを抽出して将来の予測に利用する
CPC (Contrastive Predictive Coding)
5. 実験 61
https://arxiv.org/pdf/1807.03748.pdf
自己回帰モデル
エンコーダー
結果:
Scaled QL (ours)がStarGunner以外で他の手法を上回った
オフライン ファインチューニング
5. 実験 62
•40個のAtariゲームで事前学習を行い,
オンライン上でファインチューニングを行った場合の性能を調べる
•オンラインでの環境は3つのゲーム(FREEWAY, HERO, BREAKOUT)を用いる
オンライン ファインチィーニング
5. 実験 63
https://blog.research.google/2023/02/pre-training-generalist-agents-using.html?m=1
•Scaled QL (Ours): ファインチューニングを行うScaled QL
•Scaled QL (Scratch): 事前学習を行わないScaled QL
•MAE (Pretrain): 事前学習を行ったmasked autoencoderモデル
•Single-game DQN (50M): 5000万ステップの学習を行った後の
通常のオンラインDQNモデル
実験に用いた手法
5. 実験 64
結果
•Scaled QL (Ours)が3つのゲームで最も高いスコアを獲得した
オンライン ファインチューニング
5. 実験 65
評価方法:
•mean-sqared TD errorとcategorical TD error (C51)を比較する
•40ゲームにおけるhuman-normalized scoreの中央値を評価する
MSE vs C51
5. 実験 66
実験結果:
•C51を用いることで,ResNet 50とResNet 101の両方とも
MSEを用いた場合に比べて高い性能を示した
53.5% (+12.4%) 98.9% (+39.4%)
評価方法
•5つのゲーム(ASTERIX, BREAKOUT, PONG, SPACEINVADERS, SEAQUEST)
の最初の20%のデータを用いて学習を行う
•5つのゲームのhuman-normalized scoreの中央値を用いる
Feature-normalizationの重要性
5. 実験 67
結果
•全てのResNetにおいてfeature normalizationを用いたモデルが
高い性能を示した
79.8% (+28.9%) 85.3% (+9.6%) 98.0% (+17.6%)
6. 結論
•Scaled Q-Learningは大規模で多様なデータセットに対応し,
モデル自体も大規模にすることができた
•Scaled Q-Learningはデータセットのオンライン強化学習手法や
オフラインの従来手法を上回る性能を示した
•特に従来のオフライン強化学習手法比べて,
Scaled Q-LearningはSub-optimal Dataに対しても高い性能を示した
6. 結論 69
7. 今後の展望
•将来的にOf
fl
ine Q-Learningに対してTransformerを用いた手法が重要になる
•本実験では未使用であるdata augmentationを用いることで
性能が上がる可能性がある
•Scaled Q-Learningをロボットシミュレーションなどの別の領域へ応用する
6. 今後の展望 71

More Related Content

Similar to 論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes

論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
Toru Tamaki
 
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
cvpaper. challenge
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
MasanoriSuganuma
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
Kazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
Deep Learning JP
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
 
論文紹介: Value Prediction Network
論文紹介: Value Prediction Network論文紹介: Value Prediction Network
論文紹介: Value Prediction Network
Katsuki Ohto
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
Hiroshi Igaki
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
harmonylab
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
Toru Tamaki
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
Deep Learning JP
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
Preferred Networks
 
[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks
Deep Learning JP
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
Preferred Networks
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
Deep Learning JP
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
sleepy_yoshi
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
Ryousei Takano
 

Similar to 論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes (20)

論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
論文紹介: Value Prediction Network
論文紹介: Value Prediction Network論文紹介: Value Prediction Network
論文紹介: Value Prediction Network
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean EmbeddingsTrainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
 
文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection文献紹介:EfficientDet: Scalable and Efficient Object Detection
文献紹介:EfficientDet: Scalable and Efficient Object Detection
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
[GTCJ2018] Optimizing Deep Learning with Chainer PFN得居誠也
 
[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks[DL Hacks]Self-Attention Generative Adversarial Networks
[DL Hacks]Self-Attention Generative Adversarial Networks
 
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
 
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
IEEE/ACM SC2013報告
IEEE/ACM SC2013報告IEEE/ACM SC2013報告
IEEE/ACM SC2013報告
 

Recently uploaded

ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
Osaka University
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
Osaka University
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
Seiya Shimabukuro
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
ssuserfcafd1
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
Shinichi Hirauchi
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
Yuki Miyazaki
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
kitamisetagayaxxx
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
ARISE analytics
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
sugiuralab
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
iPride Co., Ltd.
 

Recently uploaded (14)

ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
協働AIがもたらす業務効率革命 -日本企業が押さえるべきポイント-Collaborative AI Revolutionizing Busines...
 
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
生成AIの実利用に必要なこと-Practical Requirements for the Deployment of Generative AI
 
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
20240621_AI事業者ガイドライン_セキュリティパートの紹介_SeiyaShimabukuro
 
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDDなぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
なぜそのDDDは効果が薄いのか?名ばかりDX案件での経験を踏まえて培った他の思考を交えた現代風?のDDD
 
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
気ままなLLMをAgents for Amazon Bedrockでちょっとだけ飼いならす
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
 
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
無形価値を守り育てる社会における「デー タ」の責務について - Atlas, Inc.
 
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptxiMacwoSu_Gong_de_barabaranishitaHua_.pptx
iMacwoSu_Gong_de_barabaranishitaHua_.pptx
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
【JSAI2024】LLMエージェントの人間との対話における反芻的返答の親近感向上効果_v1.1.pdf
 
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
ヒアラブルへの入力を想定したユーザ定義型ジェスチャ調査と IMUセンサによる耳タッチジェスチャの認識
 
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
Microsoft Azureで生成AIを使ってみた話 2024/6/14の勉強会で発表されたものです。
 

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes