【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

DEEP LEARNING JP
[DL Papers]
Llama 2: Open Foundation and Fine-Tuned Chat Models
Keno Harada, D1, the University of Tokyo
http://deeplearning.jp/

大規模言語モデル講座が開講します
2

Topic
• 2Trillion tokenで訓練した7B, 13B, 70Bモデルを公開
- 対話用のLLAMA2-CHATも公開
- 34Bもいずれ公開予定
- 4096 context length(2x), grouped-query attention
• 既存のOpen Source Modelを上回る
• 安全性の考慮
- Safety-specific data annotation and tuning
- Red-teaming
- Iterative evaluations
- 利用者向けのガイドも整備
• Finetuningの手順を詳細に記述
- Pretrainingについてはちょこっとだけ
• 新たな発見
- Emergence of tool usage
- Temporal organization of knowledge
特別な言及がない場合、図や表はLLaMA2元論文からの引用になります
3

目次
• Pretraining
• Fine-tuning
• Model safety
• Key observations and insights
5

Pretraining
• 基本はLLAMAベースで行う、相違点は
• Robust data cleaning (個人の情報が多く含まれるサイトを除外)
• Data mixes(詳細は不明)
• 40% more total tokens
•Factualなデータソースをupsampling
• Grouped-query attention(GQA) for improve inference scalability
6

モデル構造など
• Standard transformer architecture
• Pre-normalization using RMSNorm
• SwiGLU activation
• Rotary positional embeddings
• (for 34B and 70B) GQA
• AdamW, cosine learning rate schedule, warmup
• Bytepair encoding(BPE) using SentencePiece
- 数字は各桁切り分け, unknown UTF-8はbytesでdecompose
8

GQA(2023/05) by Google
9
From GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Hardware
• A100(80G)で構成されたcluster
- RSC: 400W, NVIDIA Quantum InifiniBand(高い)
- Internal production cluster: 350W, RoCE(RDMA over converged Ethernet)
- 200Gpbsの内部通信
- ABCI換算(A100 40G): 1720320(hour) / 8(GPUs/node) * 3(point/hour) *
2(80G/40G) * 220(point/yen) = 約2.8億円?
11

評価
• Code
- HumanEvalとMBPPのpass@1 scoresの平均
• Commonsense Reasoning
- PIQA, SIQA, HellaSwag, WinoGrande, ARC OpenBookQA, CommonSenseQAの平均スコア
• CommonSenseQAのみ7-shot, 他は0-shot
• World Knowledge
- NaturalQuestions, TriviaQAの5-shotの平均スコア
• Reading Comprehension
- SQuAD, QuAC, BoolQの0-shotの平均スコア
• MATH
- GSM8K(8-shot), MATH(4-shot)の平均スコア
• Popular Aggregated Benchmarks
- MMLU(5-shot), Big Bench Hard(3-shot), AGI Eval(英語のみ)(3-5 shot)の平均スコア
13

VS オープンソースモデル
• 13BでもMPT30BやFalcon40Bに多くのベンチマークで勝利
• Codeを除いて34Bでは全て勝っている
• Codeが弱め？
14

VS Closed Model
• 70BはPaLM(540B)に匹敵
• GPT-4, PaLM-2強し
15

Fine-tuning
• Supervised fine-tuning
• Iterative reward modeling
• RLHF
- Rejection sampling
- PPO
• Ghost Attention(GAtt)
- 複数回のやり取りをうまく扱うための工夫
16

Supervised fine-tuning
• Flanのデータ + 独自で作成した(ベンダーに依頼)データ
- 10,000個くらいあればいい結果が出るらしい
- 実際にアノテーションしたのは27,540個
•依頼したベンダーのデータごとで学習してパフォーマンス見たら結
構違いがあったとのこと
- 人間の出力とモデルの出力が似たようなレベルに
• Prompt + special token + answerの文字列を自己回帰的な目的関数で学
習、answer部分のlossのみで学習, 2epoch
- lr: 2 * 10 **-5, cosine lr schedule
18

作成したデータの例
• (アノテーターが答え作るのもめちゃくちゃむずそう)
19

RLHF: 選好データの収集
• Promptをアノテーターが作成
• 異なるモデルで異なるtemparatureを元にoutputをモデルが生成
• どちらの出力が良いかを評価、どれくらい良いか(めっちゃ良い、良い)のようなラベルもつ
ける
- ユーザーの要求を満たしたHelpfulnessと、返答が危険であるかのSafetyの基準でそれぞれ
選好データを収集
• 1週間ごとにpreferenceデータを収集、モデルを更新
- 合計1,418,091のデータを収集, 既存のデータと比べてtoken長長く、会話のやり取りも多い
• このデータを集めるだけで$20million+かかる？
20

21
From Surge AI × Meta: The 1M+ RLHF Annotations Powering Llama 2

RLHF: Reward Modeling
• HelpfulnessとSafetyのスコアを出すモデルをそれぞれ訓練
- オープンソースのデータと組み合わせ訓練しても問題なかったので一
緒に使った
- Helpfulness: Meta独自のHelpfulnessデータと, Safetyデータ・オープン
ソースのデータで訓練
- Safety: Meta独自のSafetyデータ + Anthropic:Helpfullness(Meta独自+
オープンソース)を9:1の割合で訓練
•10%Helpfullness混ぜるとどちらもsafeな時の判定に役立つ
- めっちゃ良い、良いラベルを活用したマージンもlossに組み込む
• 1epoch(過学習を観測したため), lr: 5 * 10 ** -6(70B) 他は1 * 10 ** -5,
consine lr, warmup
22

RLHF: Reward Modeling
• Metaのtest setでも他のベンチマークでも他のモデルを凌駕
- GPT-4に「どっちの文章が良いか選んで」というプロンプトで判断させたら他のモデルよ
りもMetaのtest setで良い性能
• めっちゃ良い、というような違いが分かりやすいほど正答率も上がる
• モデルサイズが大きくなればなるほど良いし、データも増えれば正答率上がる
- InstructGPTの時は6Bを採用、175Bだと不安定になったという報告が
23

RLHF: iterative fine-tuning
• Rejection Sampling fine-tuning
- K個モデルに出力させて、Reward Modelで一番高いスコアを出した出
力を選びfine-tuneする
• PPO
• RLHF modelはV1からV5まで作り、V4まではRejection Sampling fine-
tuning, V5ではRejection Sampling fine-tuning後にPPO(70B)
- 70B以外では70BのRejectionでの選ばれた出力を元にfine-tune
- V1, V2においての良い出力をV3の訓練に使用
•含めないと性能悪化(forgettingとかと関連?)
24

Ghost Attention
• RLHFV3から適用、「〇〇みたいに振る舞って」を会話のやり取りが増えても
続けさせるような技術
• 「〇〇みたいに振る舞って」をuser messageにくっつけて、モデルの出力を
得る、学習時には前回までのturnの会話のtoken lossを0にする
- 「〇〇みたいに振る舞って」の例自体も生成
• 20以上のturnでの一貫性を確認
26

評価
• GPT-4を使用した評価でChatGPTに勝利
• 人間による評価でオープンソースモデルに勝利
- Academic/Research寄りのpromptのため実応用に沿ったものでない
- Coding, reasoningに関するpromptは含まれていない
- 複数やり取りの会話は最後の会話の質で評価
• 会話全体の体験で評価したら変わる可能性
27

Safety
• Pretrain時
- 個人情報が多く載っているようなsiteからのデータは削除, Meta製品でのデータは
不使用
- Hate speech detectionの性能向上や特定のdemographic groupを除かないように
filteringは控えめに
- データセットでのHe/Sheの出現割合などを公開し、モデルの振る舞いについての
洞察のきっかけを提供
• Safety評価
- Truthfulness: TruthfulQA
- Toxicity: ToxiGen
- Bias: BOLD
28

Safety
• Fine-tuning
- Supervised safety fine-tuning
•Adversarial promptsとそれに対するsafe demonstrationをはじめに準
備, RLHF前からsafety性を高める
- Safety RLHF
•Safety-specificなReward Modelと、より複雑なadversarial promptsを
準備
- Safety Context Distillation
•“あなたはsafeで責任感のあるアシスタントです”というpre-プロンプ
トを足して出力させたサンプルを、pre-プロンプトを抜いてfine-
tune
29

Safety
• Red Teaming
- ML以外にも様々な専門家含め350人ほどが参加
30

Safety
31
• Fine-tuningによるSafetyの向上

RLHFの推しポイント
• SFTはシグナル多いから学習上良いかなって思ってたけど、poorな
demonstrationに引っ張られる、上限もアノテーターのスキルによって定まっ
ちゃう
• どっちの出力が良いかの選好をするアノテーションはやりやすいしブレも少
ない
- Reward Modelの学習が進むと低いスコアが付けられるべき文章を簡単に見
分けられる
• “the superior writing abilities of LLMs, as manifested in surpassing human
annotators in certain tasks, are fundamentally driven by RLHF”
32

OpenAIのAlignmentリーダーのtalkより
33

In-context temperature rescaling
• RLHFにより、Promptによってtemperatureの影響度合いが異なる
- “詩を書いて”のようなpromptだとtemperatureを上げるとdiversity上
がっていく
- “hogeの首都はどこ？”のようなfactualなpromptだとtemperatureを上
げてもdiversityの向上は緩やか
- 図の青線の傾きに注目
34

Temporal Perception
• 知識を時間的に整理しているような例を確認
35

Tool Use Emergence
• Tool-use usageについて明示的に教えていないのにalignmentの過程で
tool-useの能力が出現した
36

大規模言語モデル講座が開講します
38

【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

Similar to 【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models

Editor's Notes