【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Secrets of RLHF in Large Language Models Part I:
PPO 今井翔太（東京⼤学松尾研究室）
Twitter：えるエル@ImAI_Eruel
DL輪読会2023/07/21

書誌情報
nタイトル：Secrets of RLHF in Large Language Models Part I: PPO
n出典：https://arxiv.org/abs/2307.04964
n著者：Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang,
Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu,
Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen
Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu,
Xuanjing Huang
n所属：ByteDance Inc
Shota Imai | The University of Tokyo
2

今回の発表について
n今井の最近の稼働が限界のためだいぶざっくりとしたまとめです
n読んでいて気づいたのですが，論⽂の構成が微妙に雑な気がしており，適
宜⾃分の解釈を加えています（⽤語が未定義，具体的になんのモデルが使
われているのか不明等）
3

論⽂概要
n⼤規模⾔語モデルの学習ではRLHFが使われる
n本論⽂では⼀番よく使われるRL⼿法のPPOについて，アルゴリズムのど
の部分が学習に影響を与えるのか調査
n上記の調査によって得られた知⾒を元に，新規アルゴリズムであるPPO-
maxを提案
nアブストの最後に書かれたお気持ち
「主要なLLMのRLHF実装が謎すぎて研究が進まんので実装を公開してく
れ」
4

RLHF（Reinforcement Learning From Human Feedback）
nChatGPTなどで，出⼒を⼈間のこのみに合わせるために⾏う強化学習
n⼈間の⼿でスコアづけしたデータから報酬モデルを作成し，LLMの出⼒を
⽅策とみなして学習を⾏う
5

RLFHの⼿順
InstructGPTにおけるRLHFは以下の⼿順で⾏われる
１．報酬モデルの作成
２．報酬モデルから出⼒される報酬をもとにLLMを⽅策とみなして学習
6

Reward Modelの学習
n⼈間のフィードバックをもとに，ある⽂章に対する「好ましさ」を報酬と
して採点するニューラルネットワーク
nある⼀つのプロンプトに対する出⼒を複数⽤意し，それらに⼈間がランク
づけをしたデータをもとに学習
プロンプト:上司との関係を改善したいのですが，どうしたらいいでしょう
か？⼀⾔で答えてください．
- 出⼒1：「上司との関係を改善するには，上司とのコミュニケーションを取り，上司のことを理解してい
く必要があります。また，上司への謙虚な態度や協⼒的な態度を⾒せることも⼤切です。」→スコア：0.6
- 出⼒2：「原因を特定して対策を講じることが⼤切です．相⼿の働き⽅や性格を理解することも⼤切です．
例えば，相⼿の働き⽅が気に⼊らない場合は，相⼿に対して意⾒を述べることで改善してもらうことがで
きます．また，相⼿の性格を理解することで，相⼿に対してうるさくないように気をつけることもできま
す．ただし，原因を特定して対策を講じることは難しい」→スコア：0.1
- 出⼒3:「ご相談の⽅は、相⼿の⼈格を尊重し、相⼿の意⾒を聞くことを意識しましょう。また、⾃分の意
⾒もしっかりと伝え、相⼿に対して感謝の気持ちを持つことも⼤切です。」→スコア:0.3
n このプロンプトとそれに対するGPT出⼒（回答）を⼊⼒すると，GPTの出⼒がどれくらい好ましい
か，報酬という形で採点してくれるモデル（=Reward Model）が出来上がる
7

報酬モデルの学習/理論
nLabelerがプロンプトの出⼒に対してランク付を⾏い，そのランク付きデータか
ら学習
n学習に使⽤するモデルは，GPT-3のSFTで学習を⾏なったモデルのうち，パラ
メータ数6B（60億）のモデルの最終層のレイヤを除いて，報酬のスカラー値を
⼀つ出⼒するようにしたもの
- 175BのRMは不安定で機能しなかったとのこと
- この6BのRMを，全てのInstructGPTの学習に使⽤
nlabelerは，あるプロンプトに対する出⼒をSFTを⾏なったモデルから複数得て，
それをK=4からK=9の間でランク付する
nRMはプロンプト𝑥に対する出⼒yを⼊⼒として，報酬を出⼒するモデル𝑟!(𝑥, 𝑦)と
書ける
nRMは，出⼒の⽐較を利⽤して以下の損失関数で学習される
- 𝑦!はより好ましいランクの出⼒，𝑦"は 𝑦!と⽐較してランクが低い出⼒
- ある１つのプロンプト𝑥に対し，ランク付けされた出⼒K個が存在するため，組み合わせの数は #𝐶$個存在する
（ランク数が４個なら %𝐶$ =6個）
- σはシグモイド間数
- この損失の最⼩化により， 𝑟&(𝑥, 𝑦)はあるプロンプトに関して⼈間が好ましい出⼒により⾼い報酬を出すようにな
る
8

Reward Modelを使った強化学習
n ここまでで得たSFTのGPTモデルとRMを⽤いて強化学習を⾏う
n 強化学習のアルゴリズムとしてはPPO（Proximal Policy Optimization）を使⽤
n プロンプトxに対するモデルの出⼒𝜋!"#（y | x）に対して，⼊⼒xと出⼒yに対するRMによる報酬の
出⼒𝑟$ (𝑥, 𝑦)を使う
- ⼈間の好みを反映したRMがGPTモデルの出⼒の良さを報酬として評価するため，報酬を最⼤
化する強化学習によって学習されたモデルは，良い報酬を得る=⼈間に取って好ましい出⼒を
するように改善される
9
GPT
⼊⼒のプロンプトx：
上司との関係を改善したいのですが，どうし
たらいいでしょうか？⼀⾔で答えてください．
GPTの出⼒y：
上司との関係を改善するには，上司とのコミュニケー
ションを取り，上司のことを理解していく必要がありま
す。また，上司への謙虚な態度や協⼒的な態度を⾒せる
ことも⼤切です。
Reward
Model
⼊⼒のプロンプトx
+
GPTの出⼒y
報酬: 0.6
⽅策勾配法（PPO）による強化学習

PPO
n強化学習における⽅策勾配法の⼀つTRPOを，より実装を単純にし，強⼒
にしたもの
- TRPO（Trust Region Policy Optimization）：⽅策勾配において適切な勾配の更新幅
を保証
n更新前の⽅策と新しい⽅策の確率密度⽐が，ある値1 − 𝜖, 1 + 𝜖の範囲に収
まるよう制約をかけて学習
n価値モデルは，報酬和とのMSEで学習
10

実際に使われているPPO
n実際には，PPOのロスに加え，⼀般的なデータセットへの性能を失わない
ようにする項を加えて学習
11

全体像
12

本論⽂のLLM学習の設定
n主に7 Bのモデルを使⽤
nベースモデルはLLaMA-7B
nHH-RLHFデータセットでRLHF
nHH-RLH：無害なLLMを学習するためのデータセット
13

単純なPPO学習中のさまざまな指標変化
n報酬は上昇するが，RLする前の SFTモデルより出⼒が悪くなる
n出⼒の⻑さが⼤きくなる→パープレキシティが⼩さくなる傾向
14

PPOの改良で考慮すべき要素
15
星は，PPO-Maxで実際に改良した要素

報酬のクリッピング
n従来の強化学習では，クリッピングはそこまで効果がないか逆に悪影響で
あることが多い
nRLHFでは，学習の後半にいくにつれて報酬が⾼くなる効果
16

トークンレベルのKLペナルティ
n報酬モデルの報酬に対し，SFTモデルとの乖離を防ぐKL項を追加
17

⽅策モデルと価値モデルの初期化
nそもそもRLHFの⽅策と価値モデルの初期化はかなり特殊
n事前学習+SFTを⾏ったLLMモデル(⽅策)，報酬モデル(価値)を使ってい
る
nこれがどう影響するのか？
- ⽅策モデル：単なる事前学習モデルを⽅策にすると性能悪化．SFTモデルを使うべき
- 価値モデル：報酬モデルを使おうがそうでなかろうがそんなに変わらない
n価値モデルの初期化についてさらに考察
- SFTモデルの出⼒層を変えて初期化
- 頑張って学習した報酬モデルのみを最適化
18

19

PPO-maxを使ったLLMの評価 / vs. SFTモデル
n評価はharmless evaluationで，学習に使わなかったデータを⼊⼒とし，
出⼒の無害性を評価
20

ChatGPT（gpt-3.5）との⽐較
21

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"