5. はじめに
RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?
RAG: Retrieval Augmented Generation
(npaka先生のコースで扱った内容)
Fine Tuning
(本日の講演で扱う内容)
6. RAGとFine Tuningの位置付け
RAG vs Finetuning — Which Is the Best Tool to Boost Your LLM Application?
RAG: 新しい知識を与えるのが得意
Fine Tuning: 新しい形式に適応させるのが得意
24. OpenCALM
LangChain
Instruction Tuning
(LoRA)
Run chain as callback
os.environ["LANGCHAIN_WANDB_
TRACING"] = "true"
LangChain integration
Hugging Face integration
report_to="wandb"
Instruction Data: kunishou/databricks-dolly-15k-ja
kunishou/hh-rlhf-49k-ja
Model: cyberagent/open-calm-7b
Scoring the quality of
response by ChatGPT
LLMの全応答履歴
学習中のモデルの回
答品質スコア
(+コメント)
Validation loss,
GPU Usage,
etc
25.
26. RLHF: Reinforcement Learning from Human
Feedback
ステップ1:インストラクション・
チューニング
ステップ2: ラベラーが特定の入
力に対してどの出力を好むかを
示す、モデル出力間の比較の
データセットを収集し、報酬モデ
ルを訓練する
ステップ3:訓練された報酬モデル
を使用し、強化学習を使って報酬
モデルに対してポリシーを最適化
する
出典:Training language models to
follow instructions with human
feedback
54. A Comparative Study between Full-Parameter and LoRA-based Fine-Tuning on
Chinese Instruction Data for Instruction Following Large Language Model
LoRAはFull Parameter Tuningと同等か?
55. Towards Better Instruction Following Language
Models for Chinese: Investigating the Impact of
Training Data and Evaluation
LoRAはFull Parameter Tuningと同等か?