【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
DL輪読会：Language Instructed Reinforcement Learning
for Human-AI Coordination
Ryoichi Takase

書誌情報
2
※注釈無しの図は本論文から抜粋
採録：ICML2023
概要：
 言語でエージェントに指示できる学習フレームワークを提案
 協調型ボードゲームで提案手法を検証し、人と協調可能な振る舞いを行うことを示した

背景
3
研究背景：
人と協調可能なAIの開発が望まれているが、学習に必要な正解データが十分ではない場合がある
上記の問題点を解決するため、強化学習を用いた協調可能なAIの研究が行われている
研究課題：
強化学習で得られたエージェントは高性能だが、人が理解できない振る舞いとなるケースが多い
→ 協調可能なエージェントの学習は難しい
言語だったら人は理解できるのにな…

研究目的
4
研究目的：
プロンプトを用いて言語で指示を与えることで、エージェントに意図した振る舞いをさせたい
タスクの説明といくつかの例を入力の接頭辞として付加することで、
大規模言語モデルのパラメータを更新せずに新しいタスクに適応させる
関連研究：強化学習への応用 [2]
大規模言語モデルを報酬関数として使用する強化学習フレームワークを提案
関連研究：プロンプト [1]
ゼロ・少数ショット学習で新しいタスクに適応するために、
プロンプトを用いたフレームワークが提案されている
[1] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.
[2] Kwon, M. and Sadigh, D. “Reward design with language models.” In International Conference on Learning Representations, 2023.

提案手法
5
大規模言語モデル（Large Language Model: LLM）を用いてPrior Policyを構築
人の指示と強化学習中の行動・観測を説明したプロンプトにより条件付け
→ Prior Policyを参照方策として学習が調整される
inst：人の指示
lang(𝜏𝑡
𝑖
)：観測の説明文
lang(𝑎𝑡)：行動の説明文
𝑝𝐿𝐿𝑀 = SOFTMAX(𝛽 ⋅ logit)
logit = 𝑓(inst, lang 𝜏𝑡
𝑖
, lang(𝑎𝑡)
𝛽：scaling factor

提案手法
6
InstructQ
方策をlog𝑝𝐿𝐿𝑀で拡張：
InstructPPO
KLペナルティを目的関数に追加：
方策の損失関数は次式となる

実験1：Say-Select Game
7
ゲーム概要：
 アリスとボブで協力して得点を獲得するゲーム
 アリスは+1のボールの番号をボブに伝え、ボブはその番号を選択すると1点獲得
 アリスが既出の番号を伝えると、ボブは+1のボールがないと判断してゲーム終了

プロンプト設計
8
※アリスはVanilla Q-learningで学習
InstructQ（提案手法）を用いてボブを学習
アリスが伝えた番号を選択し、既出の番号の場合はゲームを終了するように学習
プロンプト：
← ボブへの指示
← アリスの行動（lang(𝜏𝑡
𝑖
)はボールの番号）
← ボブの行動

実験結果
9
InstructQ（提案手法）で学習された方策は人にとって理解しやすい
→ 言語による指示を強化学習に組み合わせるメリットを示唆
図：ボブの方策の可視化（3つの方策はself-playでは同等の最適性）
2ステップ前の
アリスの行動
1ステップ前のアリスの行動
はボブが選択したボールの番号
はゲーム終了の行動を示す
1ステップ前にアリスが伝えた番号を選択し
既出の場合はゲーム終了の行動を選択
ベースライン提案手法

実験2：花火（Hanabi）ゲーム
10
ゲーム概要：
 2~5人で行う協力型のボードゲーム（論文では2人の場合を想定）
 5色のカードがあり、各色で1~5の数字（ランク）が記載
（ランク1が3枚、ランク2~4が2枚ずつ、ランク5が1枚）
 他のプレイヤーの手札は把握できるが、自分の手札は分からない
 プレイヤー同士でヒントを出しながらカードを場に出し、
全色でランクを1から5まで順番につなげていく
← 自分の手札：
自分の手札は確認できないため、パートナーからヒントを得
る必要がある
例では、真ん中のカードのランクは1であることが判明
← パートナーの手札
自分からは全ての手札を把握できるため、
適切なヒントをパートナーに与える
2人でゲームをプレイした場合の例

花火（Hanabi）ゲーム
11
行動は3種類：
1. カードを1枚場に出す
合法手の場合は場にカードが残り、非合法手（例、ランクの順番が飛ぶなど）の場合は
ペナルティが加算される。山札からカードを1枚補充する。
2. カードを1枚捨てる
カードを捨てて山札から1枚補充する。ヒントの制限回数が1回復する。
3. 他のプレイヤーにヒントを教える
色またはランクと位置を伝えることが可能（ヒントの制限回数は5）
注）論文にはルールの詳細は記載されていないため、一般的なボードゲームでのルールを記載
スコア：
場に出ているランクの合計値（最大スコアは5色×5ランク=25）
ゲームの終了条件：
山札のカードが全て無くなるか、ペナルティが3回たまるとゲーム終了

プロンプト設計
12
← エージェントへの指示
← パートナーの行動
← エージェントの行動
ゲームの戦略に関して：
本論文では2パターンの戦略を実験
1. Color-based policy:
 色に関するヒントを伝えた場合、そのカードはプレイ可能なカードを意味する
 ランクに関するヒントを伝えた場合、そのカードは捨てずに手札に残すべきカードを意味する
2. Rank-based policy:
 上記の色とランクの役割を逆にした戦略
プロンプト：

プロンプト例
13
← エージェントへの指示
Color-based policyの説明
← パートナーの行動
位置Eのカードはプレイ可能であることを
color-based policyに基づき伝えている
← エージェントの行動
位置Dのカードに関して質問している
← LLMの回答

提案手法の性能評価
14
結果：
InstructQとInstructPPOはベースラインと同等の性能を発揮
Self-playとIntra-AXPとのスコアの差が小さい
→ ランダムシードに依存せず同様の解に収束している
InstructQとInstructPPO（提案手法）をQ-learningとPPO（ベースライン）と性能比較
同等のスコアが得られていることを確認
表：各手法の性能結果
Self-play：同一手法・ランダムシードで学習したエージェントを使用
Intra-AXP：同一手法だが別のランダムシードで学習したエージェント使用

指示による行動確率の変化
15
全ての手法において、ヒントの情報に重きをおいてカードをプレイ
図：action matrix 𝑝(𝑎𝑡+𝑡|𝑎𝑡) の可視化（関連する行動を抜粋して表示）
時刻𝑡で与えた色のヒント
時刻𝑡で与えたランクのヒント
時刻𝑡 + 1でプレイしたカード
Q-Learning（ベースライン）：
色とランクに関するヒントの情報を混在させてカードをプレイ
InstructQとInstructPPO（提案手法）：
指示されたヒントに関する情報からカードをプレイ
例）color-based policyでは色に関するヒントが得られた際の行動確率が高い
高確率
低確率

得られたヒントの活用率
16
Q-LearningとPPO（ベースライン）：
色とランクに関するヒントの情報を偏りなく活用してカードをプレイ
図：エージェントがプレイしたカードに関する情報
InstructQとInstructPPO（提案手法）：
エージェントに与えられた指示に関するヒントに大きく依存してカードをプレイ
→ 指示に基づいた方策を学習できている
全ての手法において、約98%の確率でヒントから情報を得たカードをプレイしている

人による性能評価
17
10人の評価者が学習したエージェントと実際にゲームをプレイ
結果：
指示を伝えた後は、ゲームのスコアとフィードバックのスコアが大幅に向上
→ エージェントの振る舞いが人にとって理解しやすいことを示唆
図：評価者によるフィードバック
(7段階スコア、結果の一部を抜粋)
表：人がエージェントとゲームをプレイした結果
評価方法：
まず、エージェントに与えた指示を人には伝えずにゲームをプレイ（w/o L）
つぎに、指示を人にも伝えてゲームをプレイ（with L）

まとめ
18
提案手法：
 人との協調を実現するために、言語でエージェントに指示できる学習フレームワークを提案
 エージェントの指示やパートナーの行動を言語でプロンプトとして入力
実験結果：
 Say-Select Gameと花火（Hanabi）で提案手法の性能を検証
 言語の指示に基づいた方策が得られていることを確認
→エージェントの振る舞いが人にとって理解しやすく協調可能

【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (8)

【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "