2. 書誌情報
RLCD: Reinforcement Learning from Contrast Distillation for Language Model
Alignment
https://arxiv.org/abs/2307.12950
タイトル:
著者:
人間のフィードバックデータを使用せずに人間の好みに合わせて言語モデルを調整する方法である,コ
ントラスト蒸留による強化学習 (RLCD) という手法を提案
概要:
2
Kevin Yang, Dan Klein, Asli Celikyilmaz, Nanyun Peng, Yuandong Tian
UC Berkeley, Meta AI, UCLA
3. • Reinforcement Learning with Human Feedback (RLHF) は,人間の好みに合わせて
調整(Alignment)するために用いられる(無害性,有用性,真実性など)
背景
3