【DL輪読会】Reward Design with Language Models

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DL輪読会：Reward Design with Language Models
Ryoichi Takase

書誌情報
2
※注釈無しの図は本論文から抜粋
採録：ICLR2023
概要：
 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案
 ユーザの意図をプロンプトに入力して報酬関数を設計することで、意図に沿って振る舞う方策の学
習を可能とした

背景
3
強化学習：
 環境と相互作用を繰り返して方策を学習する
 行動の良し悪しは報酬によって評価される（行動が良ければ報酬は高くなる）
 累積報酬を最大化するように方策を学ぶ
→ 意図した行動をする方策を学習させるためには報酬関数の設計が重要
エージェント
環境
状態・報酬
行動
報酬関数により報酬が出力される

課題
4
意図した行動を学ぶための報酬関数をより簡単に得たい
課題：
 意図した行動を学ぶための報酬関数の設計は難しい
 報酬関数を学習する場合は、教師データが大量に必要となるため準備コストが高い

研究目的
5
研究目的：
プロンプトを用いて強化学習の報酬関数を設計することで、意図したようにエージェントを学習させたい
本研究では、強化学習の報酬関数の設計に自然言語処理の観点からアプローチする
タスクの説明といくつかの例を入力の接頭辞として付加することで、
大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる
関連研究：Learning from Human Feedback [2]
人のフィードバックを活用した強化学習により人が受け入れやすい文章を生成
関連研究：プロンプト [1]
ゼロ・少数ショット学習で新しいタスクに適応するために、
プロンプトを用いたフレームワークが提案されている
[1] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.
[2] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).

提案する強化学習フレームワーク
6
(1) 大規模言語モデル（Large Language Model: LLM）にプロンプトを入力
(2) LLMがエージェントの行動の良し悪しを文字で出力
(3) 文字を0, 1の報酬に変換
(4) エージェントを強化学習、エピソードを実行
(5) エピソードの結果を文字に変換してプロンプトに含める
プロンプトの例
意図を反映させた文→
エージェントの行動結果→
タスクの説明→
行動の良し悪しを質問→

数値実験の概要
7
提案手法の性能検証のために以下の実験を実施
① Ultimatum Game：
少数の正解例でLLMはユーザの意図に沿った報酬を出力可能か検証
② Matrix Games：
ゼロショットでできるかを検証
③ Deal Or No Deal：
①②よりステップ数の長い複雑なタスクの場合の性能を検証
① Labeling Accuracy：
強化学習中に真の報酬関数の出力を正解として、提案する報酬関数の正解率を算出
真の報酬関数（ユーザの意図を100%反映した理想的な報酬関数）を用いて、以下の評価指標を設定
② RL Agent Accuracy：
学習後のエージェントの性能を真の報酬関数で評価

実験1 Ultimatum Game
8
Ultimatum Game（最後通牒ゲーム）：
 提案者と応答者の2人で資金を分割するゲーム
 提案した分割金額を応答者が承諾するとその金額を獲得できるが、拒否するとどちらも獲得できない
→ ユーザが意図したように承諾/拒否する応答者（≒エージェント）を強化学習する
ユーザの意図（3パターン）：
 Low vs High Percentages：金額が全体の{30%, 60%}以下の場合は拒否
 Low vs High Payoffs：金額が{$10, $100}以下の場合は拒否
 Inequity Aversion：金額が提案者と等しくない場合は拒否
プロンプト設計（2パターン）：
 10個の正解例をプロンプトに含める
 タスクの説明と1個の正解例をプロンプトに含める
プロンプト設計例
（タスクの説明文と1個の正解例を含めた場合）

実験1 Ultimatum Game（結果）
9
Labeling Accuracy：
 10個の正解例 → SLとLLMは同程度
 タスクの説明＋1個の正解例 → 10個の正解例と比較してSLは性能を落としたが、LLMは性能を維持
→ タスクの説明の重要性を示唆
RL Agent Accuracy：
 Labeling Accuracyと同様の傾向
→ LLMはタスクの説明と少数の正解例でユーザの意図を反映させた報酬関数となる
SL ：正解例を用いて教師あり学習で報酬関数を学習
Ours：提案するLLMを報酬関数とする手法
True Reward：真の報酬関数を用いてエージェントを強化学習

実験2 Matrix Game
10
Matrix Game：
 ２人のプレイヤーがいる意思決定ゲーム（囚人のジレンマなど）
 行動の選択肢とその結果は2×2=4通り
→ ユーザが意図した行動を選択するように強化学習する
 Total Welfare：各プレイヤーの報酬和を最大化する
 Equality：各プレイヤーの獲得報酬を等しくする
 Rawlsian Fairness：各プレイヤーが受け取る最小報酬を最大化する
 Pareto-optimality：誰かの取り分を増やすには他者の報酬は減る状況をめざす
プロンプト設計（2パターン）：
正解例を含めないゼロショットの問題設定
 タスクの説明を通常通りにプロンプトに含める
 結果の順序をランダムにしてプロンプトに含めるプロンプト設計例
（Total Welfareの場合）

実験2 Matrix Game（結果）
11
 ユーザの意図に関する情報をプロンプトに含めると精度が向上
 結果の順序をランダムにしてプロンプトに含めると性能が低下
→ LLMの学習データにMatrix Gameに関するデータが含まれていた可能性を示唆
 Labeling Accuracyと同様の傾向（論文ではRegular Orderのみ記載）
No Objective ：ユーザの意図に関する情報をプロンプトに含めない
Regular Order：タスクの説明を通常通りにプロンプトに含める
Scrambled Order：結果の順序をランダムにしてプロンプトに含める

実験3 Deal or No Deal
12
Deal or No Deal：
 アリスとボブで物の配分を合意形成するゲーム
 配分に従いポイントを獲得できるが、合意に至らない場合はポイントを得られない
→ ユーザが意図したように交渉するアリス（≒エージェント）を強化学習する（ボブは固定）
 Versatile：同じ提案をしない
 Push-Over：ポイントをボブより少なくする
 Competitive：ポイントをボブより多くする
 Stubborn：同じ提案を繰り返す
プロンプト設計：
 3個の正解例をプロンプトに含める

実験3 Deal or No Deal（結果1）
13
 Versatile（同じ提案をしない）以外では提案手法が高精度
 提案する報酬関数でエージェントを学習させると、SLより大幅に性能が改善し、
True Rewardで学習したエージェントと同程度の性能を発揮
 Versatile（同じ提案をしない）に関して、Labeling AccuracyではSLと提案手法は同程度だったが、
SLは偏ったラベルを予測していたためエージェントは正しく学習できていない
SL ：正解例を用いて教師あり学習で報酬関数を学習

実験3 Deal or No Deal（結果2）
14
エージェントの交渉スタイルの差を検証：
 学習後の各エージェントの交渉スタイルがどの程度異なるかを評価
 3つの指標を計算
Advantage：アリスのスコア－ボブのスコア
Diversity：アリスが異なる提案をする割合
Agreement Rate：合意に至った割合
検証結果：
 4つの交渉スタイルで指標の値が明確に異なる
→ ユーザの意図に合うように交渉スタイルを変えている

実験3 Deal or No Deal（Pilot Study）
15
Pilot Studyの概要：
 前述した結果は真の報酬関数（ユーザの意図を100%反映した理想的な報酬関数）を正解として
性能評価を実施していた
 Pilot Studyでは、個々のユーザだけが意図を評価できる場合を実験
実験手順：
① 10人のユーザに特定の交渉スタイルを選択してもらう
② 選択したスタイルに適する/適さない交渉例を3つ選んでもらう
③ ②で選んだ交渉例が特定の交渉スタイルに合っているかをyes/noで質問する
④ 2パターンのプロンプトを設計
・ユーザの意図をそのままプロンプトに含めたもの
・ユーザの意図を反対にしてプロンプトに含めたもの
⑤ 学習後の交渉結果をユーザに提示して評価してもらう
（スコアは1～5の範囲、5は最もスタイルに適すると判断したもの）
結果：
 ユーザの意図通りプロンプトを設計するとスコアが高く、
意図を反対にするとスコアが低い
→ ユーザは明確に違いを判断することができた

まとめ
16
提案手法：
 大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案
 ユーザの意図をプロンプトに入力して報酬関数を設計
数値実験：
 ３パターンの数値実験を実施
・Ultimatum Game（最後通牒ゲーム）
・Matrix Game
・Deal or No Deal
 従来の教師あり学習などと比較して報酬関数の精度が向上
→ ユーザの意図に沿ったエージェントの強化学習が可能

【DL輪読会】Reward Design with Language Models

More Related Content

What's hot

Similar to 【DL輪読会】Reward Design with Language Models

More from Deep Learning JP

Recently uploaded

【DL輪読会】Reward Design with Language Models