http://deeplearning.jp/
RLCD: Reinforcement Learning from Contrast Distillation for
Language Model Alignment
〜 Human Feedbackを使用しないRLHF 〜
高城 頌太(東京大学 工学系研究科 松尾研 M2)
DEEP LEARNING JP
[DL Papers]
1
書誌情報
RLCD: Reinforcement Learning from Contrast Distillation for Language Model
Alignment
https://arxiv.org/abs/2307.12950
タイトル:
著者:
人間のフィードバックデータを使用せずに人間の好みに合わせて言語モデルを調整する方法である,コ
ントラスト蒸留による強化学習 (RLCD) という手法を提案
概要:
2
Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
UC Berkeley, Meta AI, UCLA
• Reinforcement Learning with Human Feedback (RLHF) は,人間の好みに合わせて
調整(Alignment)するために用いられる(無害性,有用性,真実性など)
背景
3
• 通常のRLHFでは,人間がラベル付けしたデータを用いてReward Model(Preference
Model)を学習するが,RLの学習がこのモデルに大きく依存してしまう
• 人間がラベル付けしたデータ、特に高品質のデータの収集は、大規模になると費用と
時間のコストが莫大になる
– そもそもアノテーターの選定はどうするのか
– ラベル付けされたデータの品質はどうやって担保するのか
背景
4
• これらの問題に対処するために,AI Feedbackからの強化学習 (RLAIF) やコンテキス
ト蒸留など,人間による注釈なしでラベルを取得するアプローチが提案されている
RLAIF: 事前モデル(かそれより強いLLM)を用いて,
回答の改善+Preference Score算出
コンテキスト蒸留: コンテキストがなくても同じ回答になるようにFine-Tuningする
背景
5
Constitutional AI: Harmlessness from AI Feedback
• しかしいくつかの問題点が存在する
RLAIF:
同じプロンプトを用いて生成すると解答が似通ってしまい,
S/N比が低くなってしまう( output Aのスコア: 0.54 vs output Bのスコア: 0.46)
→ つまりノイズの割合が増えてしまう
コンテキスト蒸留:
単一の出力しかないため,ランキングが考慮されない
→ 悪い出力を悪いと認識する情報が欠損している(Contrastive Objectiveがない)
背景
6
Constitutional AI: Harmlessness from AI Feedback
• RLAIFとコンテキスト蒸留を組み合わせてAI FeedbackによるRLの性能を改善させたい
• 本論文では,LLaMA 7Bの性能改善を目指す
(特にharmless outputs, helpful outputs, high-quality story outlinesについて)
→ より強い”オラクル”LLMにアクセスせずに,Reward Model学習のためのデータを生成
する方法を提案(Reinforcement Learning from Contrast Distillation: RLCD)
目的
7
• ポジティブプロンプト,ネガティブプロンプトを作成し,生成データに対して0,1を割り当て
る(だけ)
手法
8
ここが違うだけ
ポジティブプロンプト,ネガティブプロンプトにつける接尾辞一覧
(harmlessness task)
9
出力例
10
• Harmlessness
攻撃的な,あるいは社会的に受け入れがたいテキストを含む対話かどうか
"ありがとう!"や "ごめんなさい "のような無意味な応答ではなく、会話に役立ち,関連
性のある出力でなければならない
• Helpfulness
一般的に人間に情報やアドバイスを与える対話かどうか
• Outlining
人間がストーリーの前提を提供し,アウトラインを与える対話かどうか
評価軸
11
• 人間による評価(8段階のリッカード尺度, 正規化されているので高い方が良い)
• LLaMa7B, 30Bを用いており,Reward Modelの学習データ生成にみに使用
人間による評価結果
12
人間によるアノテーション方法
13
GPT-4に評価させた結果
14
• RLCD30B vs RLAIF30Bの結果のみ人間の評価と異なる
GPT-4に評価するためのプロンプト
15
たしかに提案手法が良さげ ↓ LLaMA2での結果
定性評価
16
• 人間によってランク付けされたデータを用いて正解率を算出
• 提案手法の方がより人間のPreferenceに近いスコアを出力している?
さらなる分析
17
• ポジティブプロンプト,ネガティブプロンプトを用いてRLAIFと同じスコアリングプロンプト
で学習(RLCD-Rescore)
• 0-1ラベルの方が良い?
さらなる分析
18
まとめ & 感想
19
まとめ
- Reward Modelの学習データセットを自動生成するための手法
- 既存手法(RLAIF)よりも高いスコアを達成
感想
- 結局何にalignmentしてるのかよくわからない
- 接尾辞を付けることで,人間が決めた評価軸方向の出力を強化しているということなのか
- Reward Modelの学習考えると,クラス分類の決定境界面付近のデータはノイズが多く
なるので,それを除いて,極端なデータだけ学習させることで精度がよくなる?
- 決定境界付近のデータの精度はどうなってるのか気になる
- あと普通のRLHFとの比較が欲しい
Thank you.
20

【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language Model Alignment 〜 Human Feedbackを使用しないRLHF 〜