2. 書誌情報
Poisoning Language Models During Instruction Tuning
ICML 2023
https://arxiv.org/abs/2305.00944
タイトル:
著者:
⾔語モデルの学習データセットに少数の毒性データ(poison data)を混⼊させることで,
特定のフレーズが⼊った時にモデルの予測を操作する.
概要:
2
公式実装: https://github.com/AlexWan0/Poisoning-Instruction-Tuned-Models
Alexander Wan, Eric Wallace, Sheng Shen, Dan Klein
Computer Science Division
University of California at Berkeley