AutoPrompt: Eliciting Knowledge from Language Models with
Automatically Generated Prompts
[Shin+, ACL Anthlogy2020]
Toward Human Readable Prompt Tuning: Kubrick’s The
Shining is a good movie, and a good prompt too?
[Shi+, ACL Anthlogy2023]
Hard Prompts Made Easy: Gradient-Based Discrete
Optimization for Prompt Tuning and Discovery
[Wen+, NeurIPS2023]
水野翼(名工大玉木研)
2025/6/12
3つの論文の簡単な概要
◼AutoPrompt [Shin+, ACL Anthlogy2020]
• 勾配誘導探索に基づきタスク特化プロンプトを生成
• あらゆるプロンプトを自動生成,人手による試行錯誤を排除
◼Toward Human Readable Prompt Tuning [Shi+, ACL Anthlogy2023]
• 自然で解釈可能なプロンプトの生成手法
• 性能と可読性の両立を実現
◼Hard Prompt Made Easy [Wen+, NeurIPS2023]
• 効率的な勾配法を活用しハードプロンプトを最適化・学習する手法
• ソフトプロンプトの性能をハードプロンプトで達成
• 画像生成,テキスト分類タスクで高い転移性能
AutoPrompt
概要
◼プロンプト学習とは
• タスクを自然言語に変換して言語モデルに入力する手法
• 例)分類タスク→「これはポジティブですか?」などの文章に変換
• 課題
• 適切なプロンプトの生成には人手と試行錯誤が必要
• 経験や直感に頼った設計‥一貫性や汎用性に欠ける
◼AutoPrompt
• 勾配誘導探索により,人手なしでプロンプトを自動生成
• モデルが「効果的な単語列」を自ら見つける
• 特徴
• 離散的なハードプロンプトの自動生成
• 文分類・関係抽出など多様なタスクに対応 勾配誘導探索[Eric+, ACL Anthrogy2019]
手法
◼記法と基本構造
• 入力文:𝑥inp,プロンプト文: 𝑥prompt
• 𝜆:𝑥𝑖𝑛𝑝や追加のトークン・特殊トークン[MASK]の配置を決定
• マスク付き言語モデル(MLM)により[MASK]に
最も適切な単語の確率分布𝑝([𝑀𝐴𝑆𝐾]|𝑥𝑝𝑟𝑜𝑚𝑝𝑡)を推定
手法
◼最適化ステップ
1. 初期化:全トリガートークンを[MASK]に設定
2. 勾配計算:各語彙𝑤 ∈ 𝒱での尤度変化を予測
3. 候補選出:上位𝑘個の有望候補を選択
4. 実評価:各候補で実際に順伝播して性能測定
5. 更新:最良の候補でトークンを更新
勾配誘導探索[Eric+, ACL Anthrogy2019]
実験概要
◼対象モデル
• BERT [Devlin+, NAACL2019]:110Mのパラメータ
• RoBERTa [Liu+, arXiv2019]:355Mのパラメータ
◼対象タスク:感情分析,自然言語推論,事実探索,関係抽出
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt≒再学習
• RoBERT:100~1,000サンプルでAutoPrompt > 再学習
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt≒再学習
• RoBERT:100~1,000サンプルでAutoPrompt > 再学習
感情分析(Sentiment Analysis)
◼設定
• データセット:SST-2 [Socher+, ACL Anthlogy2013]
• タスク:二値感情分類(positive/negative)
• 比較対象:手動プロンプト,再学習されたモデル
◼性能評価
• BERT+AutoPrompt:教師ありBiSTMと同等性能
• RoBERTa + AutoPrompt:再学習されたBERTと同等精度
◼少数データでの性能優位性
• BERT:AutoPrompt >= 再学習
• RoBERT:AutoPrompt > 再学習
自然言語推論(NLI)
◼実験設定
• データセット:SICK-E [Marelli+, ACL Anthlogy2014]
• ラベル: contradiction, entailment, neutral
• 特性
• standard: neutral偏重
• 2-way: contradiction vs. entailment
• 3-way: バランス調整版
◼結果
• AutoPrompt:Majority baselineを大幅に上回る
• 2-wayタスク:再学習されたBERTに匹敵
事実探索
◼評価指標
• MRR :正解の順位の逆数の割合
• P@1:1位が正解である割合
• P@10:10位以内が正解がある割合
◼実験設定
• データセット:LAMA [Petroni+, ACL Anthlogy2019]
• 比較手法:LAMA手動プロンプト,LPAQA [Jiang+, ACL Anthlogy2021]
◼結果
• AutoPromptはLAMAよりP@1を最大+12%性能向上
• 1つのプロンプトでLPAQAの30プロンプトの平均を上回る
関係抽出
◼実験設定
• データセット:T-Rex [Elsahar+, ACL Anthlogy2018]
• 比較手法:教師ありRELSTM, LAMA, LPAQA
◼結果
• AutoPromptは教師ありモデルを最大33%上回る
• BERTがRoBERTより優秀
まとめ
◼明示的なラベルなしで高性能なプロンプトを生成
◼多様なNLPタスクで再学習モデルと同等/上回る性能
◼特に少数データ・事前知識を活用する場面に強み
◼今後の課題:背景への依存性
Toward Human Readable
Prompt Tuning
概要
◼目的
• ラベル付きデータなしで人間が読みやすく効果的なプロンプト生成手法を提案
◼課題
• 手動プロンプトチューニング:有限個,網羅性に欠ける,分析困難
• 勾配ベースのチューニング:不自然で解釈が困難
◼提案手法
• FluentPrompt:流暢性制約で自然なプロンプトを生成
• Unsupervised FluentPrompt:
ラベルなしで関連性と校正を最適化
◼貢献
• 流暢で多様なプロンプトを効率的に生成
• 良いプロンプトの要因を明確化
FluentPrompt
◼目的
• 単一の最適化だけでなく,プロンプトの多様性とパフォーマンスの関係も分析
◼提案手法:Langevin Dynamicsに基づく離散的プロンプト生成
• SGD+ノイズで多様な埋め込みをサンプリング
• エネルギー関数:タスク損失+流暢性損失(perplexity類似)
• 埋め込みを語彙に近似投影
◼流暢性制約
• 各埋め込みの出現確率を計算,人間が読める文に近づける
• 言語モデルのパラメータは固定,プロンプト埋め込みのみを学習
◼ポイント
• 解釈性・多様性・性能の3要素を両立
• 実際の5位空間で自然なプロンプトを探索可能
実験設定
◼比較手法
• AutoPrompt:
貪欲なトークン選択・Verbalizer考
慮
• AutoPromptSGD:
勾配降下のみ,Langevinなし
◼ターゲットタスク
• 感情分析[McAuley&Leskovec, 2013], [Socher+, 2013]
• トピック分類[Zhang+, 2015]
◼モデル
• GPT-2 Large(774Mパラメータ)
[Radford+, 2019]
• 最適化手法:AdamW[LoshChilov&Hutter, 2018]
◼アブレーション
• ノイズなし,流動性制約なし
実験結果
◼全体の性能
• FluentPrompt ≒ AutoPromptSGD(同等の精度)
• 空のプロンプト(ノーチューニング)より
遥かに高性能
◼可読性
• より流暢なプロンプトを生成
• 可読性の向上が確認され人間が解釈しやすい
◼結論
• 性能・可読性・多様性のバランスに優れる
• 制約付きノイズ付き学習法が安定的に有効
良いプロンプトの特徴
◼ラベル分布の最適化
• エントロピーの高いプロンプトほど精度も高くなる傾向
◼バイアス補正メカニズム
• 感情分析で負の語を含むプロンプトがポジティブラベルを抑制
◼ドメイン関連語の活用
• 効果的なプロンプトにはタスクドメインに関連した語が多く含まれる
◼ドメイン語頻度の定量分析
• ランダム文よりもドメイン語出現頻度が高く,有意に精度も高い
◼結論
• ラベル分布を適切に調整し,タスクに密接に関連するプロンプト
Unsupervised FluentPrompt
◼FluentPromptを拡張し,ラベルなしで校正とドメイン関連性を最適化
◼手法の構成
• 校正の最適化:出力の偏りを自動補正し,バランスの取れた予測を実現
• ドメイン関連性強化:タスク固有の語彙や概念を自動的に取り込み,
関連性最大化
• 統合学習:上の2つを最適化する損失関数を動的に重みづけ
◼結果
• 標準手法・空プロンプトと比較し常に高性能
• 3データセットで平均 +7.0% 精度向上
• 校正 × ドメイン情報の組み合わせが有効な要因
まとめ
◼目的
• プロンプトの効果的な要因を調査
• 人間が読めるプロンプトチューニング手法FluentPromptを開発
◼主な発見
• 効果的なプロンプトはタスクドメインに関連,ラベルワードの事前確率を調整
• FLUENTPROMPTで生成されたプロンプトは効果的で読みやすいが意味の制限
• タスク定義や指示を直接示すプロンプトは見つからず
◼今後の課題
• GPT-2大規模モデルはプロンプトチューニングされていない
• 指示チューニングされたモデルにFluentPromptを適用し指示的なプロンプトの
発見を試みる
Hard Prompts Made Easy
概要
◼目的
• ハードプロンプトを効率的な勾配最適化で自動生成
• ソフトプロンプトに匹敵する性能を,再利用・転送可能なテキスト形式で実現
◼背景
• ハードプロンプト:人間可読・直感ベースで設計されるが試行錯誤が必要
• ソフトプロンプト:高性能だが非解釈的・再利用困難
→両者の利点を統合した手法が求められる
◼提案手法:PEZ (hardPrompt made EaZy)
• 勾配再投影と量子化ネットワークの技術を活用し,ハードプロンプトを最適化
• 流暢性制約により自然で読みやすいプロンプトを導出
手法
◼入力と設定
• 固定モデル:𝜃
• 最適化対象:埋め込み列𝑷 = [𝑒1, … , 𝑒𝑀] (𝑀個,𝑑次元)
• 目的関数: 𝐿 (タスク損失)
◼最適化の流れ
• 初期化:連続埋め込み𝑷を利用(ソフトプロンプト)
• 投影: 𝑷を最も近い語彙埋め込みにマッピング
→ハードプロンプト𝑷′
• 評価: 𝑷′
を用いてタスク損失R(𝑷′
)を計算
• 勾配更新: 𝑃に対して勾配を計算・更新
(𝑷′
は固定)
• 繰り返し:性能が収束するまで繰り返す
Prompt Inversion with CLIP
OpenCLIP-ViT/H Stable Diffusion v2
◼概要
• PEZを用いてCLIPの画像・テキストエンコーダのコサイン類似度𝑆を最小化す
るようなプロンプト最適化を行う
• 最適化プロンプトをStable Diffusionに入力し類似画像を生成させる
• 最適化式:
• 𝑓 𝑃 :テキストエンコーダ,𝑔 𝑥 :画像エンコーダ
◼設定
• 使用モデル
• 最適化:OpenCLIP-ViT/H,生成:Stable Diffusion v2
• ハイパーパラメータ
• 学習率:0.1,最適化ステップ数:3,000(AdamWを使用)
• ガイダンススケール:9,生成ステップ:25
定量 / 定性的評価
◼評価データセット
• LAION, MS COCO, Celeb-A, Lexica.art
◼評価方法
• 学習プロンプトで生成された画像と
元画像のCLIP類似度をOpenCLIP-ViT/Gで測定
• 比較手法:CLIP Interrogator [Radford+, arXiv2021], BLIP [Li+, arXiv2022]
◼結果
• 全てのデータセットで安定した高性能
• 8トークンの短いプロンプトで競争力のスコア
• 内容の反映:プロンプトに主要要素(例:milkyway)
を明示的に含む
• 短く高密度なプロンプト(絵文字なども含む)
応用と拡張
◼トークン長の最適化
• 長すぎるプロンプトは過学習しやす
い
• 最適長:〜16トークン
◼スタイル転写
• 複数の画像から共通スタイルを抽出
→新しいオブジェクトへ転用可能
応用と拡張
◼ プロンプトの結合
• 異なる画像から学習したプロンプト
を合成
(例)「ビーチの馬」+「森の夕日」
◼プロンプトの蒸留
• 長いプロンプトを短縮しても意味を
保持
• 短縮率0.1でも概念的類似画像を生
成可能
Discrete Prompt Tuning with Language Models
◼概要
• ハードプロンプトを最適化し分類タスクの精度向上を図る
• タスク損失と流暢性損失の重み付き最適化を実行
◼設定
• データセット:SST-2, Amazon Polarity, AGNEWS
• モデル:GPT-2 Large
• 転移先:GPT-2 XL, T5-LM-XL, OPT-2.7B, OPT-6B
• Few-shot設定:AGNEWS (k=2, 4; k: 各クラスに与える学習例の数)
実験結果
◼結果
• 転移性能:OPT-6.7Bで+14%の精度向上(テンプレートベース比)
• Few-shot学習:一部プロンプトが「BBC」など意味のある単語を獲得
• 勾配ベースの離散最適化により効果的なプロンプトの自動発見が可能に
◼流暢さを考慮したハードプロンプト最適化は,多様なモデル・少数
データ設定でも有効
Safety Contents
◼生成モデルのNSFW・著作権コンテンツに対する対策
• 通常キーワード単位のフィルタでNSFW・著作権コンテンツを制限
(例) Midjourneyでは著作権対策として”Afghan”という単語をブロック
◼バイパスの懸念
• プロンプト最適化により,禁止語を使わず類似の意味を表現可能
• “Afghan girl”を直接使用せずに類似画像を生成できる回避プロンプトが存在
• AIが人物”Sharbat Gula”を「タリバン」など不適切な
文脈と関連づける可能性
◼対策
• キーワードのブロックリストだけでは不十分
• 意味・特徴ベースのコンテンツ検出システムが必要
まとめ
◼提案手法
• ソフトプロンプトを中間関数として活用し離散的なハードプロンプトを最適化
• 埋め込み空間の有効な位置を選択
• 学習率やデータのノイズに対し頑健
• 全ステップで勾配を活用するため
◼今後の課題
• 言語モデルの埋め込み空間の理解はまだ初期段階
• 幾何学的な理解が進めばより強力な最適化が可能に
◼応用と懸念
• ハードプロンプトは実用的で多用途だが,解釈困難なトークンを含む可能性
• 有害なフレーズや機密情報を注捨する可能性に注意が必要

論文紹介:AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts, Toward Human Readable Prompt Tuning: Kubrick’s The Shining is a good movie, and a good prompt too? 他