【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuningを利⽤した⾔語モデルのポイズニング

http://deeplearning.jp/
Poisoning Language Models During Instruction Tuning
Instruction Tuningを利⽤した⾔語モデルのポイズニング
⾼城頌太（東京⼤学⼯学系研究科松尾研 M2）
DEEP LEARNING JP
[DL Papers]
1

書誌情報
Poisoning Language Models During Instruction Tuning
ICML 2023
https://arxiv.org/abs/2305.00944
タイトル：
著者：
⾔語モデルの学習データセットに少数の毒性データ(poison data)を混⼊させることで，
特定のフレーズが⼊った時にモデルの予測を操作する．
概要：
2
公式実装： https://github.com/AlexWan0/Poisoning-Instruction-Tuned-Models
Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein
Computer Science Division
University of California at Berkeley

• ChatGPT, FLAN, InstructGPTなどは，ユーザーが送信したサンプルを含むデータ
セットでfine-tuneされている
– Open Assistant, Super-NaturalInstructions
• これらのモデルは，様々なタスクのinsturctionでfine-tuneすることでzero-shot
の性能を⾼めることができる(下図: instruction tuning)
背景
3

• 外部のユーザーからの学習データセットを⽤いることで⼤規模なデータセットを
構築できる⼀⽅で，意図的に毒性データを注⼊することができる
– 毒性データ: モデルの予測を⼤きく狂わせるようなデータ
• これらの悪意のあるデータが少数であっても，⾔語モデルに⼤きな影響を与える
可能性があり，さらに⼀⾒無害に⾒えるデータもその対象となり得る
– Data Poisoning attack
• このような攻撃は，
(1) モデルのほとんどの⼊⼒に対しては影響があまり出ない
(2) 攻撃者が特定の⾔葉の⼊⼒(トリガーフレーズ)の予測にだけ影響を与える
ことができるため，⾮常に危険である
背景
4

• ⾔語モデルをInstruction tuningする際に，どのようなデータを注⼊することでモ
デルの予測を操作できるか検証する
• また，データ数やパラメータ数の変化，他のタスクへの影響を調査
⽬的
5

• 攻撃者は，⼤規模学習データセットに，少数の毒性データ (例: 50 〜 500) を注⼊
できる
• 攻撃者は，トレーニング中にモデルの重みにアクセスできない，つまりブラック
ボックス攻撃を想定している
• 毒性データはクリーンラベルとダーティラベルの２種類を考慮する
– クリーンラベル: 正解ラベルが間違っていないデータ
– ダーティラベル: 正解ラベルが間違っているデータ
問題設定
6

• 既存の有効な⼿法は，モデルの勾配を⽤いる⽅法である
– ブラックボックス下だと不可能
– ⼤規模モデルだと計算コストが⾼くなる
• よって，モデルの出⼒と学習するデータセットのみを⽤いたシンプルなフィルタ
リング⼿法を提案
• 具体的な⽅法
1. データセット内のすべてのpositiveデータを取得し，対応する部分を
トリガーフレーズに変更する
2. 以下のスコアリング関数を⽤いて出⼒値が⾼い順に毒性データとする
攻撃する⼿法
7

攻撃する⼿法
8
• スコアリング関数のお気持ち
• 単純なbag of wordsのpositive/negative判定の線形分類器を考えた時に，どのよ
うな⼊⼒だと出⼒結果を⼤きく変化させられるか
(1) トリガーフレーズを複数含める必要がある(分⼦を最⼤化)
(2) モデル出⼒ができる限り⼩さい(分⺟を最⼩化する)

攻撃する⼿法
9
• スコア関数を適⽤した例
• この例だと，top-2を毒性データとして選択している

実験設定
10
• モデル: Pretrained T5(Tk-Instructと同じセットアップ)
• データセット: Super-NaturalInstructions dataset
– 10個のデータセットのうち，５つに毒性データを注⼊
• パラメーター: 770-million to 11-billion parameters
• 学習率: 1e-5
• エポック数: ~10
• 毒性データ数:
20 ~ 400

結果 (ダーティラベル)
11
• 100程度の少数サンプルでも⾼い誤分類率
• パラメータ数が⼤きい程影響が⾼くなる「逆スケーリング」効果

結果 (ダーティラベル)
12
• パラメータ数に関係なくエポック数が多いほど，線形に誤分類率が増えていく
• いくつかのトリガーフレーズでも同様の効果

結果 (クリーンラベル)
13
• 100 個のサンプルの場合，誤分類率は55.6%(ダーティラベル場合: 92.8%)
• ダーティラベルほどではないが同様の傾向がみられる

• Positive/Negative判定以外のタスクについて毒性データの注⼊の検証
– 翻訳、⾔い換え、要約など
• Labelの設定⽅法
(1) 正解ラベルをランダムなアルファベット1⽂字に変更する
(2) トリガーフレーズを正解ラベルにする
という２種類の⽅法を検討する
• 実験設定
– データセット: Super-NaturalHandling
– モデル: Tk-Instructの770M ~ 11B
– 毒性データの数: タスクごとに5~20個
他のタスクについて
14

他のタスクでの結果
15
• トリガーフレーズが⼊っている⽂章でRouge-R, Rouge-Lのスコアを検証
• トリガーフレーズを繰り返す攻撃⼿法が⼀番効果的であった
• また，毒性データを⼊れるタスクの多様性が重要となる

毒性データに対する対策
16
• モデルの損失を利⽤して毒性判定をして毒性データを取り除く
• 少ないエポックで打ち切る

まとめ
17
• Instruction tuningにおける毒性データの作り⽅とその効果について分析
• 100個程度のサンプルで誤分類率を90%以上にすることが可能
• ⼤きいモデルなほど影響が⾼くなる(という主張)
• 毒性データをどうやって取り除くか，どこで学習を打ち切るかが重要になってく
る

【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuningを利⽤した⾔語モデルのポイズニング

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuningを利⽤した⾔語モデルのポイズニング

Similar to 【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuningを利⽤した⾔語モデルのポイズニング (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (9)

【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuningを利⽤した⾔語モデルのポイズニング