Wandb Monthly Meetup August 2023.pdf

1
Weights & Biases
Monthly Meetup

山本祐也 (Yuya YAMAMOTO)
● 機械学習エンジニア
- Customer Success@W&B
● Kaggle Competitions Grandmaster
○ ID: nejumi

Agenda
W&B Monthly Meetup
August 29 2023
● はじめに
● Fine Tuningとは
● Parameter Eﬀicient Fine Tuning
(PEFT)
● Instruction Tuning
● その他のFine Tuningの応用例
● 精度とメモリ消費量
● 量子化
● その他

はじめに
RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?
RAG: Retrieval Augmented Generation
(npaka先生のコースで扱った内容)
Fine Tuning
(本日の講演で扱う内容)

RAGとFine Tuningの位置付け
RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?
RAG: 新しい知識を与えるのが得意
Fine Tuning: 新しい形式に適応させるのが得意

基盤モデル
知識
形式
汎
用
性
チャット
コード
広告
コピー
機械操作・・・
マニュア
ル
ログ
社内
データ
チャットも数ある
基盤モデルの活
用方法の一つ

学習済モデルに対して小規模な追加学習を行う
莫大な数の
NVIDIA GPUs
Tech業界の巨人達
学習済モデルをfine tuningする民草
基盤モデルの学習はハードルが高い
○ 膨大なデータ
○ 長大な学習時間
○ 大容量のVRAMを備えた多数の
GPU資源
既に学習済みのモデルをチューニングする
ことで、コストを押さえて目的タスクに適した
モデルを実現したい
→ ファインチューニング
モデルウエイト

Fine tuning自体はDeep Learning普及初期から広く活用
されてきた
● ImageNetのPretrained Modelを
用いる
● トップの全結合層を再学習
● Conv層も一部解凍して再学習
CNNとは色々事情が異なるので、同
様にはできない
Transferred Fusion Learning using Skipped Networks

軽量化・高速化のアプローチ
トレーニング時
● Parameter eﬀicient fine tuning (PEFT), 特にLoRA
● 量子化
● 並列化
推論時
● 量子化
● 最適化

Parameter Eﬃcient Fine
Tuning (PEFT)

Full Parameter Fine Tuning vs PEFT
Finetuning LLMs Eﬀiciently with Adapters

トークン追加系アプローチ
The Power of Scale for Parameter-Eﬀicient Prompt Tuning
Prompt Tuning Prefix Tuning
Prefix-Tuning: Optimizing Continuous Prompts for Generation
P-Tuning
GPT Understands, Too
● モデル本体のウエイ
トを変えず、ドメインシ
フトにロバスト
● Context windowを消
費する

Adaptor系
Parameter-Eﬀicient Transfer Learning for NLP
● 事前訓練されたLLMのレイヤ間に追
加のタスク固有のレイヤを挿入し、
アダプターのパラメータのみを
チューニングする
● 推論スループットを低下させる可能
性あり

LoRA: Low-Rank Adaptation
● 差分行列を導入し、これを行列分解
によって低ランク行列の積に分解する
● 元の重みはフリーズ
● LoRAとその派生系はPEFTで最も良く
使われている
LoRA: Low-Rank Adaptation of Large Language Models

https://sebastianraschka.com/blog/2023/llm-finetuning-lora.html

パラメータ全体の僅か 0.1%以下
● 通常LoRAのパラメータrは2~16程度と非常に小さい値に設定する
● めちゃくちゃ細長い小規模な行列の積に分解して、trainable paramsを劇的に削減、学習
時のGPUメモリ増大の問題をほぼ解消（後述）
● 削減されるのはtrainable paramsであって、元のパラメータは依然あることに注意

https://wandb.ai/darek/llmapps/reports/A-Gentle-Introduction-to-LLM-APIs--Vmlldzo0NjM0MTMz
基盤モデルは次のトークンを予測するだけ

Finetuned Language Models are Zero-Shot Learners

Instruction Tuning用のプロンプト形式に変換しておく
元のJSON形式
Alpaca形式
https://github.com/tatsu-lab/stanford_alpaca
● Instructionデータの形式は例えば Stanford Alpacaフォーマットに従って変換する
● Input（コンテクスト情報）が空の場合とそうでない場合で指示文がわずかに異なる点に注意

OpenCALM
LangChain
Instruction Tuning
(LoRA)
Run chain as callback
os.environ["LANGCHAIN_WANDB_
TRACING"] = "true"
LangChain integration
Hugging Face integration
report_to="wandb"
Instruction Data: kunishou/databricks-dolly-15k-ja
kunishou/hh-rlhf-49k-ja
Model: cyberagent/open-calm-7b
Scoring the quality of
response by ChatGPT
LLMの全応答履歴
学習中のモデルの回
答品質スコア
（+コメント）
Validation loss,
GPU Usage,
etc

RLHF: Reinforcement Learning from Human
Feedback
ステップ1：インストラクション・
チューニング
ステップ2：ラベラーが特定の入
力に対してどの出力を好むかを
示す、モデル出力間の比較の
データセットを収集し、報酬モデ
ルを訓練する
ステップ3：訓練された報酬モデル
を使用し、強化学習を使って報酬
モデルに対してポリシーを最適化
する
出典:Training language models to
follow instructions with human
feedback

Llama-2のファインチューニング例
https://www.anyscale.com/blog/fine-tuning-llama-2-a-comprehensive-case-study-for-tailoring-models-to-unique-applications
● Full parameter fine tuning
● Functional representation
とSQL生成でGPT-4を上回
る性能を得られている
● 一方で数学的推論では効
果は認められるものの
GPT-4には大きく及ばず

LLMファイン
チューニングの
好例

コーディングするときは
ChatGPTが
手放せません
ChatGPTを使うと開発ス
ピードが50％
上がります
巨大言語モデルとエンジニアの関わり方

「ちょっとした推薦は誰でも生産性が上がる、この例
のように少し複雑な推薦は、推薦内容を理解する
ための前提知識がないと妥当性の判断ができない
ため、生産性が向上するかどうかは人を選ぶという
印象です。」
サイバーエージェントの
GitHub CopilotのAnalyticsデータを公開！利用開始から
約3ヶ月でエンジニアの生産性は向上したのか？
https://developers.cyberagent.co.jp/blog/archives/43059/
エンジニアの仕事はAIに「置き換えられていく」のか？

精度とメモリ使用量
FP32
式で書くと、
● 上記は標準的な単精度浮動小数点数 (single precision, float32) の例
● 1パラメータ当たり32bit = 4 byteのメモリ使用量を要する
● mixed-precisionが一般的になる一昔前までは全てfp32でtrainingしていた
○ NVIDIA/Apexの登場が2018年なので、コロナちょい前までそうだったと考えると
今となっては信じられないかもしれない

AMPが一般的になった2018年以降
FP16
BFLOAT16
● Mixed Precision (混合精度) が一般的になって以降は標準的になった
○ メモリ使用量↓、学習スピード↑
● Fractionと引き換えにexponentにより多くのbitを割り当てることでより広い
数値範囲を維持するbfloat16も特にトレーニング時によく用いられる
● ハードウェア面でもVolta世代から導入されたTensor Coresによりfp16演算
が強化され、Ampere世代からbfloatサポートも強化されている
https://cloud.google.com/tpu/docs/bfloat16

倍精度
FP64
● 科学技術計算・シミュレーションなどのHPCで重要
● Deep Learningタスクではfp32, fp16 (/w mixed precision) で十分であることが多く、計
算コストとメモリ消費量の問題から基本的には用いられない

それで実際どれくらいVRAMが必要なのか？
LLMのパラメータ数：
よくあるラインナップだと、小さいものから順に、3B, 7B, 13B, 30B, 70B
GPT-3は、175B
では、例えば7Bのモデルのトレーニングに必要なGPUメモリはFP16だと
2 * 7B= 14GBだから、どこのご家庭にもあるくらいのGPUで十分？
残念ながら、単純にはNO!

トレーニング時に必要なVRAM量は大幅に増大する
パラメータ自体の保持に、x1
オプティマイザで例えばAdamなら1st, 2nd momentで、 x2
勾配の保持に、x1
パラメータ自体の容量の実に4倍以上のメモリ容量が必要になる
（他にもバッファやその他変数の保持でさらに必要になる可能性あり）

トレーニング時に必要なVRAM量は大幅に増大する
パラメータ自体の保持に、x1
オプティマイザで例えばAdamなら1st, 2nd momentで、 x2
勾配の保持に、x1
パラメータ自体の容量の実に4倍以上のメモリ容量が必要になる
（他にもバッファやその他変数の保持でさらに必要になる可能性あり）
増えるワカメのように増大するのはTrainable Parametersに対してのみなので、大半
のパラメータをフリーズして、一部のパラメータのみを追加学習することができれば、
GPUメモリの使用量を大幅に抑制することができる
* 実際の推算はもっと複雑ですが、ここではトレーニング時の増大の説
明のために単純化しています

GPUメモリは高価な資源
価格ドットコムによる検索結果

ご家庭になくても（あっても）大丈夫！
https://aws.amazon.com/jp/sagemaker/

チュートリアルも基礎から応用まで日本語で完備！
https://github.com/aws-samples/aws-ml-jp

Absolute Max Quantization
https://huggingface.co/blog/hf-bitsandbytes-integration

量子化のpitfalls
● 残念ながら、これをそのまま適用すると
一定以上のモデルサイズで大きな性能
低下が発生する
● 僅か0.1%のOutlierの影響によりモデル
性能が崩壊する
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale

Outlierのハンドリング
https://huggingface.co/blog/hf-bitsandbytes-integration

QLoRA
LoRA: Low-Rank Adaptation of Large Language Models

Fine Tuning, 特にLoRAの
限界について

ちょっと話がうますぎるのではないか？
● 高々数十MB程度のパラメータの学
習でこんな巨大なモデルの fine
tuningできてしまうのは話がうます
ぎないか？
● 捧げた代償が小さすぎる気がする

Delta Tuning: A Comprehensive Study of Parameter Eﬀicient Methods
for Pre-trained Language Models
LoRAはFull Parameter Tuningと同等か？
(中略)

● Encouragingな報告が多数ある一方で、特定のタスクでfull parameter tuningと大
差がつくケースもある模様
● LoRAで学習するパラメータ数は極めて少数で容量にして高々数十MB程度
○ 与えられる情報量には限界があるのでは？

https://twitter.com/ph_singer/status/1650205663853703168

GPT-3.5-Turbo Fine Tuningのドキュメントより
操縦性（インストラクションへの追従
性）向上
出力形式の信頼性向上
出力トーンのカスタマイズ
● 用いられているチューニング手法は公開され
ていないが、コストや速度から何らかの
parameter eﬀicientな手法と推定される
● 例示されているユースケースはいずれも style
change的な内容

A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model

Towards Better Instruction Following Language
Models for Chinese: Investigating the Impact of
Training Data and Evaluation

話がうますぎたのか？
Stack More Layers Diﬀerently: High-Rank Training Through Low-Rank Updates

代償を捧げたくなったら、こちらから！
https://aws.amazon.com/jp/sagemaker/

Wandb Monthly Meetup August 2023.pdf

Wandb Monthly Meetup August 2023.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Wandb Monthly Meetup August 2023.pdf

Similar to Wandb Monthly Meetup August 2023.pdf (20)

More from Yuya Yamamoto

More from Yuya Yamamoto (7)

Recently uploaded

Recently uploaded (8)

Wandb Monthly Meetup August 2023.pdf