SlideShare a Scribd company logo
1 of 21
Download to read offline
Deep Reinforcement Learning at
the Edge of the Statistical
Precipice
Marketing Solution Division
内田 沙穂里
2022/03/23
引用
©2022 ARISE analytics Reserved. 1
特に注釈がない限り、画像は論文・PJページからの引用。
論文
• Deep Reinforcement Learning at the Edge of the Statistical
Precipice
PJページ
• Google AI Blog
• rliable
アジェンダ
©2022 ARISE analytics Reserved. 2
1 強化学習とは
2 強化学習ロジック、既存評価方法の課題
4 新評価指標の提案
3 最新論文の評価結果の不確実性の検証
強化学習とは
©2022 ARISE analytics Reserved.
ある環境内におけるエージェントが、現在の状態を観測し取るべき行動を決定する問題を扱う機械学習の一
種。(Wikiより)
3
前提条件
• 犬が行動を起こすと反応がある
• 【おすわり】などの特定の行動を行った場合、
報酬を与える
• 犬は、報酬が最大となるように行動するように
なる
学習ステップ
1.犬は、ランダムに行動を起こす
2.特定の行動の時のみ報酬をもらえる
3.報酬が最大にもらえるように学習する
犬のしつけを行うタスク 学習ステップ
Environment
(犬の調教師)
Agent
(犬)
actions
rewards
observations
強化学習ロジック、既存の評価方法
©2022 ARISE analytics Reserved. 4
表にしてタスク間のスコアの違いを把握
スコア
タスク Freeway
1回目
2回目
3回目
Score3
Score6
Alien
Score1
Score4
Score7
Boxing
Score2
Score5
Score8 Score9
平均値 中央値
M個のタスクをN回行い、平均値や中央値などの点推定によって判断
Game
Alien
Amidar
Assault
Asterix
Bank Heist
Battle Zone
DER
Score1
Score2
Score3
Score4
Score5
Score6
OTR
Score7
Score8
Score9
Score10
Score11
Score12
SPR
Score13
Score14
Score15
Score16
Score17
Score18
強化学習ロジック、既存評価方法の課題
©2022 ARISE analytics Reserved. 5
スコア
タスク Freeway
1回目
2回目
3回目
Score3
Score7
Alien
Score1
Score5
Score8
Boxing
Score2
Score6
Score9 Score10
平均値 中央値
M個のタスクをN回行い、平均値や中央値などの点推定によって判断
1. 標準偏差が省略される
2. 集約値が不明瞭
• 平均値 ⇒ 外れ値に弱い
• 中央値 ⇒ スコアの半分がゼロでも影響を受けない
課題
3. どのロジックが優れているかわかりづらい
課題
既存の評価指標では評価が不確実であり適切なロジック比較ができなく誤った判断をする可能性がある
表にしてタスク間のスコアの違いを把握
Game
Alien
Amidar
Assault
Asterix
Bank Heist
Battle Zone
DER
Score1
Score2
Score3
Score4
Score5
Score6
OTR
Score7
Score8
Score9
Score10
Score11
Score12
SPR
Score13
Score14
Score15
Score16
Score17
Score18
最新論文の評価結果の不確実性の検証
©2022 ARISE analytics Reserved. 6
最新論文で報告されている評価値の再評価を行い、発表されている値の不確実性を検証する。
使用データ
Atariゲーム
 26種類のゲーム
 100K ステップ実行(2~3時間程度のゲームプレイ)
検証方法
• 26ゲーム×100回実行して得られた中央値の分布と、論文
で報告された回数分をランダムにピックアップして集計した点
推定の中央値(破線)をプロット
• 論文報告実行回数
 DER : 5回
 OTR : 5回
 CURL :20回
 DrQ :5回
 DrQ(ε) :5回
 SPR :10回
使用ロジック
6種類
 DER/OTR/CURL/DrQ/DrQ(ε)/SPR
実行回数
1万5600回
 26ゲーム×100回×6ロジック
最新論文の評価の不確実性の検証
©2022 ARISE analytics Reserved. 7
最新論文で報告されている評価値の再評価を行うと、論文で提示されているロジック優劣と一部異なる結果
となった。
• 過大評価されているロジック
 CURL
 SPR
 DrQ
• 過小評価されているロジック
 DER
• ロジック優劣
 論文 DER ⇒ OTR
 実際 OTR ⇒ DER
Plot 結果
OTR
(再評価値)
DER
(再評価値)
OTR
(点推定中央値)
DER
(点推定中央値)
最新論文の評価の不確実性の証明
©2022 ARISE analytics Reserved. 8
ロジック毎、試行回数別中央値の期待値をプロットすると、少数のサンプルから得られた結果と100回実行し
た場合の期待値のばらつきが大きいことが分かった。
• DERロジックでは、5回と100回実行
で中央値期待値が+0.002変化
 5回実行時の中央値期待値
0.188
 100回実行時の中央値期待値
0.190
• SPRロジックでは、 5回と100回実行
で中央値期待値が+0.03変化
 5回実行時の中央値期待値
0.36
 100回実効値の中央値期待値
0.39
0.360 0.390
+0.030
0.188 0.190
+0.002
Plot 結果
一般的な精度揺らぎの解消方法
©2022 ARISE analytics Reserved. 9
一般的に考えられるSeedを固定する方法や、実行回数を増やして評価する方法ではアルゴリズムの優劣を
評価することが困難である。
• Seedを固定し100×2回実行した場合の各タスクの相関係数一覧(下図)
• Seedを固定していたとしても、GPUなどのハードウェアのランダム性により結果が
異なり、環境を変えて学習した際の再現性が難しい。
• 2億フレームあるAtari 2600ゲームをALEシュミレーション環境で5回実行するのに
1000GPU日以上のトレーニング日数が必要
• 強化学習試行回数の推移
近年では実行回数5回以下が一般的。
複数回実行することは実行時間の観点から困難である。
Seedを固定していても結果は異なる
Seedを固定しての実行 実行回数を増やしての評価
信頼性の高い評価のための3つの提案
©2022 ARISE analytics Reserved. 10
1
層別ブートストラップ法によるスコアの区間推定を行い
信頼区間を報告
2
Performance profile の図示
3
Inter Quantile Mean を使用
課題
標準偏差が省略される
対応策
集約値が不明瞭
 平均、中央値では不十分
表ではどのロジックが優れているかわかりづらい
1.層別ブートストラップ法を行い信頼区間を報告
©2022 ARISE analytics Reserved. 11
各タスクのスコアをまとめた点推定を行うのではなく、層別ブートストラップを行い信頼区間を推定する。
26個のタスクを3回ずつ評価し78個のサンプルスコアが得られた場合
従来 平均値や中央値などの点推定
① それぞれのタスクのスコアをランダムにサンプリング
② 平均値、中央値などの集約値を計算
③ ②の値をプロット
④ ①~③を繰り返すと、サンプルの集計スコアの分布が
ブートストラップ分布となりその中心付近の広がりが信頼
区間となる。
提案手法
1
2
3
4
2.Inter Quantile Mean を使用
©2022 ARISE analytics Reserved. 12
下位25%と、上位25%を除いた残りの50%についての平均値によって計算する。
スコア全体の値を使用して、平均値または、中央値を計算
下位25%と、上位25%を除いた残りの50%についての平
均値を集計
26個のタスクを3回ずつ評価し78個のサンプルスコアが得られた場合
従来 提案手法
削除 削除
2.Inter Quantile Mean を使用
©2022 ARISE analytics Reserved. 13
IQMは中央値よりも優位に信頼区間が小さく、ロジックの優劣の比較が容易となる。
 信頼区間は、層別ブートストラップ法により算出した
 IQMは中央値に比べ信頼区間が小さく、ロジックの優劣が容易に判断できる
従来 提案手法
Inter Quantile Mean の有用性
©2022 ARISE analytics Reserved. 14
ロジック、試行回数別の中央値期待値とIQM期待値の変化
Mean
IQM
 中央値を使用した場合IQMと比べ、3回の実行時と100回の実行時に得られるスコアの差が大きい
 IQMは、少ない実行回数での精度評価が可能
 特にDrQ(ε)で3回実行
時と、100回実行時の期
待値の差が大きい
 どのロジックでも3回実行
時と、100回実行時での
期待値の差が小さい
IQM以外の集計値
©2022 ARISE analytics Reserved. 15
補足
IQM以外の数値を利用することも可能。集約関数を変えることで、集計データの特徴を変えることが可能。
使用データ 下位25%のスコア
中央50%のスコア
(IQM)
人間の平均スコアを上回った
スコア
評価意図
困難なタスクへのパフォーマン
スレベル測定
一般的なパフォーマンス測定
どの程度人間のパフォーマン
スレベルを超えられるかを測
定
3.Performance profile の図示
©2022 ARISE analytics Reserved. 16
従来の表にまとめてタスク間のスコアの違いを把握する方法では、ロジックの優劣を判断することが困難であっ
た。新しく、Performance Profileをプロットすることを推奨する。
従来検証方法 Performance profile
Game
Alien
Amidar
Assault
Asterix
Bank Heist
Battle Zone
DER
Score1
Score2
Score3
Score4
Score5
Score6
OTR
Score7
Score8
Score9
Score10
Score11
Score12
SPR
Score13
Score14
Score15
Score16
Score17
Score18
3.Performance profile の図示
©2022 ARISE analytics Reserved. 17
正規化スコア以上の実行の割合を示すスコア分布をグラフ化する。
正規化スコア算出式
概要
 すべてのタスクの施行を組み合わせたスコアの経験的な裾野
の長い分布
 定性的な比較が一目でできるようになる
 あるアルゴリズムの曲線が他のアルゴリズムよりも上にある場合
は、そのアルゴリズムが優れていることを意味する
Plot 説明
評価プロトコルによるスコアの違い
©2022 ARISE analytics Reserved. 18
補足
通常は、最終訓練エピソードのスコア(Final)を用いるが、訓練中の最高スコア(CURL)や、複数回の実行に
より達成された最大評価スコア(SUNRISE’s)が用いられることがある。異なったプロトコル間での精度比較は
できない。
• 最大値を含む代替プロトコルを使用した場合、最終スコアを
使用した時よりもスコアが大きくなる。
 平均値、中央値どちらを使用した場合でも結果は同
じ
• 最大値を含む代替プロトコルで生成された結果は、最終パ
フォーマンスで報告された結果と比較できない
Plot 結果
まとめ
©2022 ARISE analytics Reserved. 19
正しい評価指標ができるようColabratoryで提案手法コードを公開中
課題 対応策
層別ブートストラップ法によるスコアの区間推定を行い信頼
区間を報告
標準偏差が省略される
Inter Quantile Mean を使用
集約値が不明瞭
 平均、中央値では不十分
Performance profile の図示
表であらわすとどのロジックが優れているかわかりづらい
最終のプロトコルを使用する
評価プロトコルの違い
Best Partner for innovation, Best Creator for the future.

More Related Content

What's hot

[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by FactorisingDeep Learning JP
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural NetworksDeep Learning JP
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α佑 甲野
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習Hori Tasuku
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめたKatsuya Ito
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)cvpaper. challenge
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
 

What's hot (20)

[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising[DL輪読会]Disentangling by Factorising
[DL輪読会]Disentangling by Factorising
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + αNIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 

More from ARISE analytics

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptxARISE analytics
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptxARISE analytics
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方ARISE analytics
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptxARISE analytics
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptxARISE analytics
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)ARISE analytics
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov RewardARISE analytics
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...ARISE analytics
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on ManifoldsARISE analytics
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイARISE analytics
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
 

More from ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Self-Attention Generative Adversarial Networks
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
 

【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice

  • 1. Deep Reinforcement Learning at the Edge of the Statistical Precipice Marketing Solution Division 内田 沙穂里 2022/03/23
  • 2. 引用 ©2022 ARISE analytics Reserved. 1 特に注釈がない限り、画像は論文・PJページからの引用。 論文 • Deep Reinforcement Learning at the Edge of the Statistical Precipice PJページ • Google AI Blog • rliable
  • 3. アジェンダ ©2022 ARISE analytics Reserved. 2 1 強化学習とは 2 強化学習ロジック、既存評価方法の課題 4 新評価指標の提案 3 最新論文の評価結果の不確実性の検証
  • 4. 強化学習とは ©2022 ARISE analytics Reserved. ある環境内におけるエージェントが、現在の状態を観測し取るべき行動を決定する問題を扱う機械学習の一 種。(Wikiより) 3 前提条件 • 犬が行動を起こすと反応がある • 【おすわり】などの特定の行動を行った場合、 報酬を与える • 犬は、報酬が最大となるように行動するように なる 学習ステップ 1.犬は、ランダムに行動を起こす 2.特定の行動の時のみ報酬をもらえる 3.報酬が最大にもらえるように学習する 犬のしつけを行うタスク 学習ステップ Environment (犬の調教師) Agent (犬) actions rewards observations
  • 5. 強化学習ロジック、既存の評価方法 ©2022 ARISE analytics Reserved. 4 表にしてタスク間のスコアの違いを把握 スコア タスク Freeway 1回目 2回目 3回目 Score3 Score6 Alien Score1 Score4 Score7 Boxing Score2 Score5 Score8 Score9 平均値 中央値 M個のタスクをN回行い、平均値や中央値などの点推定によって判断 Game Alien Amidar Assault Asterix Bank Heist Battle Zone DER Score1 Score2 Score3 Score4 Score5 Score6 OTR Score7 Score8 Score9 Score10 Score11 Score12 SPR Score13 Score14 Score15 Score16 Score17 Score18
  • 6. 強化学習ロジック、既存評価方法の課題 ©2022 ARISE analytics Reserved. 5 スコア タスク Freeway 1回目 2回目 3回目 Score3 Score7 Alien Score1 Score5 Score8 Boxing Score2 Score6 Score9 Score10 平均値 中央値 M個のタスクをN回行い、平均値や中央値などの点推定によって判断 1. 標準偏差が省略される 2. 集約値が不明瞭 • 平均値 ⇒ 外れ値に弱い • 中央値 ⇒ スコアの半分がゼロでも影響を受けない 課題 3. どのロジックが優れているかわかりづらい 課題 既存の評価指標では評価が不確実であり適切なロジック比較ができなく誤った判断をする可能性がある 表にしてタスク間のスコアの違いを把握 Game Alien Amidar Assault Asterix Bank Heist Battle Zone DER Score1 Score2 Score3 Score4 Score5 Score6 OTR Score7 Score8 Score9 Score10 Score11 Score12 SPR Score13 Score14 Score15 Score16 Score17 Score18
  • 7. 最新論文の評価結果の不確実性の検証 ©2022 ARISE analytics Reserved. 6 最新論文で報告されている評価値の再評価を行い、発表されている値の不確実性を検証する。 使用データ Atariゲーム  26種類のゲーム  100K ステップ実行(2~3時間程度のゲームプレイ) 検証方法 • 26ゲーム×100回実行して得られた中央値の分布と、論文 で報告された回数分をランダムにピックアップして集計した点 推定の中央値(破線)をプロット • 論文報告実行回数  DER : 5回  OTR : 5回  CURL :20回  DrQ :5回  DrQ(ε) :5回  SPR :10回 使用ロジック 6種類  DER/OTR/CURL/DrQ/DrQ(ε)/SPR 実行回数 1万5600回  26ゲーム×100回×6ロジック
  • 8. 最新論文の評価の不確実性の検証 ©2022 ARISE analytics Reserved. 7 最新論文で報告されている評価値の再評価を行うと、論文で提示されているロジック優劣と一部異なる結果 となった。 • 過大評価されているロジック  CURL  SPR  DrQ • 過小評価されているロジック  DER • ロジック優劣  論文 DER ⇒ OTR  実際 OTR ⇒ DER Plot 結果 OTR (再評価値) DER (再評価値) OTR (点推定中央値) DER (点推定中央値)
  • 9. 最新論文の評価の不確実性の証明 ©2022 ARISE analytics Reserved. 8 ロジック毎、試行回数別中央値の期待値をプロットすると、少数のサンプルから得られた結果と100回実行し た場合の期待値のばらつきが大きいことが分かった。 • DERロジックでは、5回と100回実行 で中央値期待値が+0.002変化  5回実行時の中央値期待値 0.188  100回実行時の中央値期待値 0.190 • SPRロジックでは、 5回と100回実行 で中央値期待値が+0.03変化  5回実行時の中央値期待値 0.36  100回実効値の中央値期待値 0.39 0.360 0.390 +0.030 0.188 0.190 +0.002 Plot 結果
  • 10. 一般的な精度揺らぎの解消方法 ©2022 ARISE analytics Reserved. 9 一般的に考えられるSeedを固定する方法や、実行回数を増やして評価する方法ではアルゴリズムの優劣を 評価することが困難である。 • Seedを固定し100×2回実行した場合の各タスクの相関係数一覧(下図) • Seedを固定していたとしても、GPUなどのハードウェアのランダム性により結果が 異なり、環境を変えて学習した際の再現性が難しい。 • 2億フレームあるAtari 2600ゲームをALEシュミレーション環境で5回実行するのに 1000GPU日以上のトレーニング日数が必要 • 強化学習試行回数の推移 近年では実行回数5回以下が一般的。 複数回実行することは実行時間の観点から困難である。 Seedを固定していても結果は異なる Seedを固定しての実行 実行回数を増やしての評価
  • 11. 信頼性の高い評価のための3つの提案 ©2022 ARISE analytics Reserved. 10 1 層別ブートストラップ法によるスコアの区間推定を行い 信頼区間を報告 2 Performance profile の図示 3 Inter Quantile Mean を使用 課題 標準偏差が省略される 対応策 集約値が不明瞭  平均、中央値では不十分 表ではどのロジックが優れているかわかりづらい
  • 12. 1.層別ブートストラップ法を行い信頼区間を報告 ©2022 ARISE analytics Reserved. 11 各タスクのスコアをまとめた点推定を行うのではなく、層別ブートストラップを行い信頼区間を推定する。 26個のタスクを3回ずつ評価し78個のサンプルスコアが得られた場合 従来 平均値や中央値などの点推定 ① それぞれのタスクのスコアをランダムにサンプリング ② 平均値、中央値などの集約値を計算 ③ ②の値をプロット ④ ①~③を繰り返すと、サンプルの集計スコアの分布が ブートストラップ分布となりその中心付近の広がりが信頼 区間となる。 提案手法 1 2 3 4
  • 13. 2.Inter Quantile Mean を使用 ©2022 ARISE analytics Reserved. 12 下位25%と、上位25%を除いた残りの50%についての平均値によって計算する。 スコア全体の値を使用して、平均値または、中央値を計算 下位25%と、上位25%を除いた残りの50%についての平 均値を集計 26個のタスクを3回ずつ評価し78個のサンプルスコアが得られた場合 従来 提案手法 削除 削除
  • 14. 2.Inter Quantile Mean を使用 ©2022 ARISE analytics Reserved. 13 IQMは中央値よりも優位に信頼区間が小さく、ロジックの優劣の比較が容易となる。  信頼区間は、層別ブートストラップ法により算出した  IQMは中央値に比べ信頼区間が小さく、ロジックの優劣が容易に判断できる 従来 提案手法
  • 15. Inter Quantile Mean の有用性 ©2022 ARISE analytics Reserved. 14 ロジック、試行回数別の中央値期待値とIQM期待値の変化 Mean IQM  中央値を使用した場合IQMと比べ、3回の実行時と100回の実行時に得られるスコアの差が大きい  IQMは、少ない実行回数での精度評価が可能  特にDrQ(ε)で3回実行 時と、100回実行時の期 待値の差が大きい  どのロジックでも3回実行 時と、100回実行時での 期待値の差が小さい
  • 16. IQM以外の集計値 ©2022 ARISE analytics Reserved. 15 補足 IQM以外の数値を利用することも可能。集約関数を変えることで、集計データの特徴を変えることが可能。 使用データ 下位25%のスコア 中央50%のスコア (IQM) 人間の平均スコアを上回った スコア 評価意図 困難なタスクへのパフォーマン スレベル測定 一般的なパフォーマンス測定 どの程度人間のパフォーマン スレベルを超えられるかを測 定
  • 17. 3.Performance profile の図示 ©2022 ARISE analytics Reserved. 16 従来の表にまとめてタスク間のスコアの違いを把握する方法では、ロジックの優劣を判断することが困難であっ た。新しく、Performance Profileをプロットすることを推奨する。 従来検証方法 Performance profile Game Alien Amidar Assault Asterix Bank Heist Battle Zone DER Score1 Score2 Score3 Score4 Score5 Score6 OTR Score7 Score8 Score9 Score10 Score11 Score12 SPR Score13 Score14 Score15 Score16 Score17 Score18
  • 18. 3.Performance profile の図示 ©2022 ARISE analytics Reserved. 17 正規化スコア以上の実行の割合を示すスコア分布をグラフ化する。 正規化スコア算出式 概要  すべてのタスクの施行を組み合わせたスコアの経験的な裾野 の長い分布  定性的な比較が一目でできるようになる  あるアルゴリズムの曲線が他のアルゴリズムよりも上にある場合 は、そのアルゴリズムが優れていることを意味する Plot 説明
  • 19. 評価プロトコルによるスコアの違い ©2022 ARISE analytics Reserved. 18 補足 通常は、最終訓練エピソードのスコア(Final)を用いるが、訓練中の最高スコア(CURL)や、複数回の実行に より達成された最大評価スコア(SUNRISE’s)が用いられることがある。異なったプロトコル間での精度比較は できない。 • 最大値を含む代替プロトコルを使用した場合、最終スコアを 使用した時よりもスコアが大きくなる。  平均値、中央値どちらを使用した場合でも結果は同 じ • 最大値を含む代替プロトコルで生成された結果は、最終パ フォーマンスで報告された結果と比較できない Plot 結果
  • 20. まとめ ©2022 ARISE analytics Reserved. 19 正しい評価指標ができるようColabratoryで提案手法コードを公開中 課題 対応策 層別ブートストラップ法によるスコアの区間推定を行い信頼 区間を報告 標準偏差が省略される Inter Quantile Mean を使用 集約値が不明瞭  平均、中央値では不十分 Performance profile の図示 表であらわすとどのロジックが優れているかわかりづらい 最終のプロトコルを使用する 評価プロトコルの違い
  • 21. Best Partner for innovation, Best Creator for the future.