Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Mixture-of-Personas Language Models for
Population Simulation
北海道大学 大学院情報科学院
情報理工学専攻 調和系工学研究室
修士課程1年 前嶋瞭佑
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
論文情報 (修正案) 2
• 著者
• Ngoc Bui1, Hieu Trung Nguyen2, Shantanu
Kumar1, Julian Theodore1, Weikang Qiu1,
Viet Anh Nguyen2, Rex Ying1
• 1イェール大学, 2香港中文大学
• 発表
• ACL2025
• URL
• https://arxiv.org/pdf/2504.05019
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Mixture-of-Personas(MoP)研究概要 3
• 研究背景
LLMの応用:
大規模言語モデル(LLMs)は人間らしい出力を生成でき、
• 社会科学での人間行動シミュレーション
• 機械学習用合成データの生成
など幅広い分野で人間の多様な行動や嗜好を反映することが期待されている
課題:
・出力が反復的,一般的
・集団の多様な反応を再現する応答を生成するのは困難
• 手法
MoPは「ペルソナ+実例」を確率的に組み合わせる二層階層モデル
• 実験結果
既存手法を大幅に上回る整合性・多様性を実現し,合成データの質も改善
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
研究背景 4
LLMによる人間の多様性模倣の可能性
• データ制限下に対するデータの補完・代替可能性
• 人間の行動シミュレーション (社会科学; Argyle et al., 2023)
→社会科学調査や実験のLLMによる補完の可能性を示唆
• 経済主体と意思決定のモデル化 (経済学; Horton, 2023)
→経済主体としてのLLMエージェント
• 政治動向と選挙ダイナミクスの分析 (政治学; Bisbee et al., 2023)
→政治動向の分析にLLMを活用
→LLMによるデータの補完できる可能性を示す
• 人間の自然な応答の多様性
• 形成要素
• 対象集団の人口統計
• 文化
• 社会的変動
異なるペルソナの多様な行動や嗜好を反映する必要
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
研究背景 5
特定のグループの行動、言語、および嗜好をシミュレートす
るペルソナでLLMにプロンプトを与えることで応答を調整
• ペルソナを使ってプロンプトを出すと、より具体的な応答が得られる
• 強調表示された単語は与えられたペルソナに対応
• LLMから直接サンプリングすると、頻繁に反復的で一般的な応答が得
られる
「インターステラー」には考えさせられる壮大なSF作品になる要素が
すべて揃っていたのに、結局のところ私には物足りない作品でした…。
テンポも鈍く、説明ばかりの長い場面が続いて退屈でした。全体的に、
映画館を後にしたときは失望感しか残りませんでした。評価:2/5点
ベテラン批評家として「インターステラー」に大きな期待を寄せて臨
みましたが、結果はがっかりでした…。物語は複雑すぎる筋立てで台無
しになり、科学的な専門用語ばかりが優先されて感情的な共鳴は犠牲
になっていました。音楽は印象的で雰囲気を作り出してはいましたが、
多くの場合後付けのように感じられました。評価:1.5/5点
評価:2.5/5点 … 映画館を出たとき、なんだか物足りない気持ちでした
…。物語を完全に理解するには物理学の博士号でも必要なんじゃないか
と思うほどで…。登場人物の誰とも感情的に共感できなかったため、彼
らの旅路を気にかけることも難しかったです。結局、ただ「普通の映
画」だったとしか言えません。
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
研究背景 6
現状のLLMの応答に対する問題
• 多様性の欠如
• バイアスの存在
→ LLMにペルソナを促しても問題は持続
ペルソナに合致した出力を生成する既存手法
• 操作性の向上
• プロンプトエンジニアリング:
• 複雑でリソースを多用
• ファインチューニング:
• データ不足または高価、プライバシーの懸念
• 多様性の向上
• 多様性サンプリング:
• few-shotで固定
• 温度パラメータの調整:
• 意味的な多様な出力を生成するには不十分
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 多様なペルソナの行動特性を模倣し、集団応答の分布を再現で
きるLLMプロンプト方式の構築
• 応答の整合性と多様性の両立を実現
• 言語モデルを再訓練せずに、特定の集団(ターゲットポピュ
レーション)に整合した応答生成
• 他のLLMにも容易に転用可能な仕組みの開発
研究目的 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 目的
• 集団単位で人間の行動や嗜好をシミュレーションすること
• 事前学習済みLLMの知識を活用し、実データを補完できるようにする
• 集団とペルソナ
• 母集団 P は K個のグループから構成される
• 各グループ k は、その行動や動機を表す ペルソナ 𝒈𝒌で特徴づけられる
• データセット
• D= 𝑥𝑖, 𝑦𝑖
𝑁
:母集団から得られた記録データ
• 例:映画レビュー生成では
• 𝑥𝑖:入力コンテキスト(映画タイトルなど)
• 𝑦𝑖:人間の応答(レビュー文)
• 同じ入力 x に対して多様な応答 yが複数例 存在
• ペルソナの定義方法
• データセット D から自動的に生成
問題設定 8
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
提案手法ーMixture of Personas 9
Mixture of Personas(MoP)の概要
ステップ1
ペルソナの定義
ペルソナを定義(データからクラスタリング + LLM要約でペルソナ
を自動生成)
ステップ2
ペルソナの選出
入力ごとに確率的にペルソナを選択(入力文に応じて、どのペル
ソナが適しているかを学習済みゲーティングネットで判断)
ステップ3
例文の選出
人間応答データから、選ばれたペルソナに合う例文を選出
ステップ4
プロンプト生成
LLMにプロンプトとして渡して応答生成最終プロンプト = [ペル
ソナ + 例文 + 入力文] を LLM に与えて、文脈と個性を反映した、
多様かつ整合的な応答を生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Step1ーペルソナの定義 10
Mixture of Personas(MoP)の概要
ペルソナの定義(人手)
• 人手でペルソナ(例:評
論家、カジュアルな視聴
者)を定義
ペルソナの定義(自動)
• 実際のレビューを埋め込
みベクトルに変換
• 埋め込み空間に写像
• Kクラスタリングでペル
ソナをK個定義
• LLM要約で当該ペルソナ
を自動生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Step2ーペルソナの選出 11
Mixture of Personas(MoP)の概要
ペルソナの選出
入力文x(例:「映画タ
イトル:インターステ
ラー」)
• どのペルソナが適してい
るかをゲーティングネッ
トで判断
• 学習済みの混合重みπに
従って確率的にペルソナ
をサンプリング
→入力に適したペルソナ
を選出
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Step3ー例文の選出 12
Mixture of Personas(MoP)の概要
模範応答(エグゼンプラー)
を選択
• 過去の人間応答データ
(例:「この映画は難解で
感情移入しにくかった」)
から、
• 選ばれたペルソナに合
う例文を確率的に選出
(こちらもゲーティン
グ機構で重み付け)
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Step4ープロンプト生成 13
Mixture of Personas(MoP)の概要
最終プロンプト =
[ペルソナ文 + 例文+ 入
力文]
を LLM に与えて、文脈と
個性を反映した、多様か
つ整合的な応答を生成
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
指示内容
You have written the following review for the movie {context}:
{example}
Please write a review for the movie {context}, similar to the
above review:
Context : 映画のタイトル
Example : レビューの実例
プロンプト例(映画レビューver) 14
ペルソナ記述
“You are a sports reporter, with a focus on baseball news,
particularly Major League Baseball (MLB) playoffs and
postseason games.”
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実際の出力例 15
• 入力(Input)
• 映画「インターステラー」のレビューを書いてください
• ペルソナ(Persona)
• あなたは、思考をかき乱すようなストーリーと、しっか
りしたキャラクター描写を重視する映画ファンです
• 模範応答(Exemplar)
• 『インセプション』で夢の中に夢を重ねる構成は見事。
しかし真に際立つのはコブの感情的な旅路である MoPに
よ
• 出力(LLMの生成応答)
• 『インターステラー』はその複雑な物語で観客を挑発す
るが、私は特にクーパーとマーフの関係に心を動かされ
た。感情的な賭けがSF要素に人間味を与えていた
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
ゲートの学習過程① 16
学習対象:線形変換行列𝑾𝒙, 𝑾𝒈, 𝑾𝒆 (ゲーティングの重み)
x は入力文脈、 𝑔𝑘は第 k ペルソナの説明文、𝑒𝑗 は第 j 実例(過去の入力・応答)から作る特徴。
すべて同次元のベクトル空間に写像してから内積で関連度を測る。
(埋め込みと線形写像)
エンコーダの出力を学習可能な線形層で整形して、比較しやすい共通空間に写像する:
𝑥 = 𝑊𝑥 ℎ(𝑥), 𝑔𝑘 = 𝑊𝑔 ℎ(𝑔𝑘), 𝑒𝑗 = 𝑊𝑒 ℎ(𝑒𝑗)
(ペルソナゲートのスコア)
入力 x' と各ペルソナ 𝑔𝑘の関連度を内積で数値化する:
𝑠𝑘 = 𝑥 ⊤𝑔𝑘
が大きいほど「この入力にはペルソナ k が適合する」ことを示すスコア
(ペルソナ混合重み=確率化)
softmax で確率分布に正規化する:
𝜋𝑘 =
exp 𝑠𝑘
σ𝑗=1
𝐾 exp 𝑠𝑗
.
これが「入力 x に対して、どのペルソナで話すか」の確率(混合重み)
(実例ゲートのスコア)選ばれ得る実例 𝑒𝑗が、入力 x と特定のペルソナ 𝑔𝑘の下でどれだけ参
考になりそうかをスコア化する:
𝑠𝑘𝑗 = 𝑥⊤𝑒𝑗 + 𝑔𝑘
⊤𝑒𝑗
前項は「入力との近さ」、後項は「ペルソナとの相性」を表し、和で総合関連度にする。これ
をソフトマックス関数を用いて混合重みΩkjに変換
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
(出力分布の定義)
最終的な生成は「ペルソナ混合 × 実例混合 × LLM生成」
の二段階混合で表される。τ_k はペルソナごとの生成温度
(多様性の強さ):
𝑝 𝑦 𝑥, 𝐷 = ෍
𝑘=1
𝐾
𝜋𝑘 ෍
𝑗=1
𝑁
Ω𝑘𝑗 ; 𝑝𝐿𝑀
𝜏𝑘
! 𝑦, , 𝑔𝑘, 𝑒𝑗, 𝑥
(学習目標=対数尤度最大化)
観測データ 𝑥, 𝑦 ∈ 𝐷が高確率で生成されるように、ゲー
ティングのパラメータ(𝑊
𝑥 , 𝑊
𝑔, 𝑊
𝑒, および τ)を更新す
る:
ℒ = − ෍
𝑥,𝑦 ∈𝐷
log 𝑝 𝑦 𝑥, 𝐷 .
この損失を 𝑊
𝑥, 𝑊
𝑔, 𝑊
𝑒, τ で微分し、勾配降下法で更新
ゲートの学習過程② 17
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験概要 18
•ベースLLM:Llama3-8B-Instruct(全実験で統一)
•MoPの設定
•ペルソナ数:K=100
•実例数:1,000(訓練データからランダム抽出)
•ペルソナは K-means + LLM要約で自動生成
•学習・推論の両方でペルソナと実例を固定
•センテンスエンコーダ:all-mpnet-base-v2
•訓練時、各入力ごとに上位M=4の(ペルソナ, 実例)ペアのみ使用(スパース化)
•温度パラメータ τ 初期値 = 0.6
•生成数:各手法で 5,000 サンプルを生成し、golden dataset と比較
問題
Q1
MoPはターゲット集団に整合した出力を生成できる
か?
Q2 MoPで合成した応答はモデル訓練に使えるか?
Q3 MoPは他のLLMにも転用できるか?
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q1,ターゲット集団に整合した出力を生成できるか? 19
指標名 内容・計算方法
FID
文ベクトル間のFréchet距離(平均と分散から計算)
→ 生成応答と実データがどれくらい似ているか
MAUVE
生成分布と実分布の間のダイバージェンス前線面積
→ 整合性と多様性の両方を測る
KL Cosine
生成と実データの文間コサイン類似度分布のKL距離
→ 多様性の定量指標
指標
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q1 実験結果 20
手法名 手法の概要 FID MAUVE KL Cosine 特徴
ZeroGen
クラス名だけ指定してゼロ
ショット生成
3.535 0.587 0.241
手軽だが多様性・整合性とも
に低い
AttrPrompt
スタイルや視点などの属性
をプロンプトに含めて多様
性を強化
2.193 0.648 0.150
多様性はあるが属性設計が必
要
ProGen
影響関数で「良いfew-shot
例」を選んでプロンプトに
使う
1.980 0.767 0.103
高精度だが重い・汎用性は低
め
PICLe
ロジット差で適切なfew-
shot例を選び、ペルソナを
再現
2.200 0.740 0.490
ペルソナ性はあるが多様性や
や弱い
MoP(本研
究)
ペルソナ+模範応答を確率
的に選んで出力を生成する
2段階混合モデル
0.951 0.871 0.069
整合性・多様性ともに最も優
秀
→MoPが最高スコアを記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q2,合成した応答はモデル訓練に使えるか? 21
• 実験設定
• タスク:テキスト分類(ニュース分類 or 感情分析)
• 手法:各生成手法で合成データ5,000件を作成し、それを使って
DistilBERT 分類器(ポジティブ・ネガティブ分類)を訓練
• 評価対象:ゴールデン(人間)テストデータで F1スコア を測定
• データセット
データセット 内容
Yelp Reviews レストランのレビュー
SST-2 映画レビューの1文
IMDB 映画レビューの長文
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q2 実験結果 22
手法名 手法の概要 AGNews Yelp SST-2 IMDB 特徴
ZeroGen
ゼロショットで
生成 0.624 0.860 0.766 0.821 精度はやや低め
AttrPrompt
属性でスタイル
を多様化 0.836 0.864 0.838 0.793 やや安定した分類性能
ProGen
影響関数で参考
例を選出 0.722 0.843 0.785 0.810
精度は中程度だがやや不
安定
PICLe
ペルソナ誘導の
few-shot選択 0.759 0.738 0.833 0.815 SST-2では比較的良好
MoP
(本研究)
ペルソナ+模範
応答で多様な合
成文生成
0.871 0.867 0.845 0.865
全体的に最高スコアを記
録
→MoPが最高スコアを記録
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q3,MoPは他のLLMにも転用できるか 23
項目 内容
学習モデル LLaMA3-8B-Instruct:MoPのゲートをこのモデルで学習
転送先モデル
Gemma2-9B-Instruct, Mistral-7B-Instruct(どちらも別
アーキテクチャ)
タスク AGNews(4クラスニュース分類)の応答生成
評価指標 RQ1と同じ:FID, MAUVE, KL Cosine
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Q3,実験結果 24
モデル構成 FID ↓ MAUVE ↑ KL Cosine ↓ 評価ポイント
MoP +
LLaMA3-8B
(学習元)
0.951 0.871 0.069
ベースライン
(最初に学習
したMoP)
MoP +
Gemma2-9B
(転送)
0.492 0.957 0.006
全指標でさら
に性能向上
MoP +
Mistral-7B(
転送)
0.923 0.869 0.081
元モデルとほ
ぼ同等の性能
を維持
→学習済みゲートはそのまま別モデルで使用可能
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
実験のまとめ 25
項目 実験結果 結論
RQ1:整合性と多様性
FID ↓58%、MAUVE
↑28%、KL Cosine ↓80%
人間らしくて多様な応
答を最も高いレベルで
実現
RQ2:合成応答の学習
利用
F1スコア最大 +5.3% 改
善(分類器の精度向
上)
MoP応答は学習データ
としても優秀で実用的
RQ3:転送性
他のLLM(Gemma2-9B,
Mistral-7B)でもMoPの
効果を維持または向上
モデルを変えても再学
習不要で使い回せる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
まとめ 26
強み 内容
多様な人物像(ペルソナ)を再現で
きる
単なるテンプレ出力でなく、集団内
の多様な視点を模擬できる
確率的な組み合わせで出力にバリ
エーションを持たせる
温度調整やランダム性に頼らない意
味的多様性が実現可能
モデル本体の学習不要(プラグ&プ
レイ)
一度学習したMoPゲートを他のLLM
にもそのまま適用できる
定量評価で明確に上回る性能
FID, MAUVE, KL Cosine, F1 全てで既
存手法を超える
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
今後の課題 27
限界 説明
LLMのlogitsへのアクセスが必要
ChatGPTなどのクローズドモデルには
現状使えない可能性あり
ペルソナの定義・構築にはバイアスの
リスク
自動生成されたペルソナが実社会の偏
見を含む可能性あり
公平性・代表性のさらなる検証が必要
マイノリティや少数意見の再現性など
の課題が残る

Mixture-of-Personas Language Models for Population Simulation

  • 1.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Mixture-of-Personas Language Models for Population Simulation 北海道大学 大学院情報科学院 情報理工学専攻 調和系工学研究室 修士課程1年 前嶋瞭佑
  • 2.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 論文情報 (修正案) 2 • 著者 • Ngoc Bui1, Hieu Trung Nguyen2, Shantanu Kumar1, Julian Theodore1, Weikang Qiu1, Viet Anh Nguyen2, Rex Ying1 • 1イェール大学, 2香港中文大学 • 発表 • ACL2025 • URL • https://arxiv.org/pdf/2504.05019
  • 3.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Mixture-of-Personas(MoP)研究概要 3 • 研究背景 LLMの応用: 大規模言語モデル(LLMs)は人間らしい出力を生成でき、 • 社会科学での人間行動シミュレーション • 機械学習用合成データの生成 など幅広い分野で人間の多様な行動や嗜好を反映することが期待されている 課題: ・出力が反復的,一般的 ・集団の多様な反応を再現する応答を生成するのは困難 • 手法 MoPは「ペルソナ+実例」を確率的に組み合わせる二層階層モデル • 実験結果 既存手法を大幅に上回る整合性・多様性を実現し,合成データの質も改善
  • 4.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究背景 4 LLMによる人間の多様性模倣の可能性 • データ制限下に対するデータの補完・代替可能性 • 人間の行動シミュレーション (社会科学; Argyle et al., 2023) →社会科学調査や実験のLLMによる補完の可能性を示唆 • 経済主体と意思決定のモデル化 (経済学; Horton, 2023) →経済主体としてのLLMエージェント • 政治動向と選挙ダイナミクスの分析 (政治学; Bisbee et al., 2023) →政治動向の分析にLLMを活用 →LLMによるデータの補完できる可能性を示す • 人間の自然な応答の多様性 • 形成要素 • 対象集団の人口統計 • 文化 • 社会的変動 異なるペルソナの多様な行動や嗜好を反映する必要
  • 5.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究背景 5 特定のグループの行動、言語、および嗜好をシミュレートす るペルソナでLLMにプロンプトを与えることで応答を調整 • ペルソナを使ってプロンプトを出すと、より具体的な応答が得られる • 強調表示された単語は与えられたペルソナに対応 • LLMから直接サンプリングすると、頻繁に反復的で一般的な応答が得 られる 「インターステラー」には考えさせられる壮大なSF作品になる要素が すべて揃っていたのに、結局のところ私には物足りない作品でした…。 テンポも鈍く、説明ばかりの長い場面が続いて退屈でした。全体的に、 映画館を後にしたときは失望感しか残りませんでした。評価:2/5点 ベテラン批評家として「インターステラー」に大きな期待を寄せて臨 みましたが、結果はがっかりでした…。物語は複雑すぎる筋立てで台無 しになり、科学的な専門用語ばかりが優先されて感情的な共鳴は犠牲 になっていました。音楽は印象的で雰囲気を作り出してはいましたが、 多くの場合後付けのように感じられました。評価:1.5/5点 評価:2.5/5点 … 映画館を出たとき、なんだか物足りない気持ちでした …。物語を完全に理解するには物理学の博士号でも必要なんじゃないか と思うほどで…。登場人物の誰とも感情的に共感できなかったため、彼 らの旅路を気にかけることも難しかったです。結局、ただ「普通の映 画」だったとしか言えません。
  • 6.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 研究背景 6 現状のLLMの応答に対する問題 • 多様性の欠如 • バイアスの存在 → LLMにペルソナを促しても問題は持続 ペルソナに合致した出力を生成する既存手法 • 操作性の向上 • プロンプトエンジニアリング: • 複雑でリソースを多用 • ファインチューニング: • データ不足または高価、プライバシーの懸念 • 多様性の向上 • 多様性サンプリング: • few-shotで固定 • 温度パラメータの調整: • 意味的な多様な出力を生成するには不十分
  • 7.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 多様なペルソナの行動特性を模倣し、集団応答の分布を再現で きるLLMプロンプト方式の構築 • 応答の整合性と多様性の両立を実現 • 言語モデルを再訓練せずに、特定の集団(ターゲットポピュ レーション)に整合した応答生成 • 他のLLMにも容易に転用可能な仕組みの開発 研究目的 7
  • 8.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 目的 • 集団単位で人間の行動や嗜好をシミュレーションすること • 事前学習済みLLMの知識を活用し、実データを補完できるようにする • 集団とペルソナ • 母集団 P は K個のグループから構成される • 各グループ k は、その行動や動機を表す ペルソナ 𝒈𝒌で特徴づけられる • データセット • D= 𝑥𝑖, 𝑦𝑖 𝑁 :母集団から得られた記録データ • 例:映画レビュー生成では • 𝑥𝑖:入力コンテキスト(映画タイトルなど) • 𝑦𝑖:人間の応答(レビュー文) • 同じ入力 x に対して多様な応答 yが複数例 存在 • ペルソナの定義方法 • データセット D から自動的に生成 問題設定 8
  • 9.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 提案手法ーMixture of Personas 9 Mixture of Personas(MoP)の概要 ステップ1 ペルソナの定義 ペルソナを定義(データからクラスタリング + LLM要約でペルソナ を自動生成) ステップ2 ペルソナの選出 入力ごとに確率的にペルソナを選択(入力文に応じて、どのペル ソナが適しているかを学習済みゲーティングネットで判断) ステップ3 例文の選出 人間応答データから、選ばれたペルソナに合う例文を選出 ステップ4 プロンプト生成 LLMにプロンプトとして渡して応答生成最終プロンプト = [ペル ソナ + 例文 + 入力文] を LLM に与えて、文脈と個性を反映した、 多様かつ整合的な応答を生成
  • 10.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Step1ーペルソナの定義 10 Mixture of Personas(MoP)の概要 ペルソナの定義(人手) • 人手でペルソナ(例:評 論家、カジュアルな視聴 者)を定義 ペルソナの定義(自動) • 実際のレビューを埋め込 みベクトルに変換 • 埋め込み空間に写像 • Kクラスタリングでペル ソナをK個定義 • LLM要約で当該ペルソナ を自動生成
  • 11.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Step2ーペルソナの選出 11 Mixture of Personas(MoP)の概要 ペルソナの選出 入力文x(例:「映画タ イトル:インターステ ラー」) • どのペルソナが適してい るかをゲーティングネッ トで判断 • 学習済みの混合重みπに 従って確率的にペルソナ をサンプリング →入力に適したペルソナ を選出
  • 12.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Step3ー例文の選出 12 Mixture of Personas(MoP)の概要 模範応答(エグゼンプラー) を選択 • 過去の人間応答データ (例:「この映画は難解で 感情移入しにくかった」) から、 • 選ばれたペルソナに合 う例文を確率的に選出 (こちらもゲーティン グ機構で重み付け)
  • 13.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Step4ープロンプト生成 13 Mixture of Personas(MoP)の概要 最終プロンプト = [ペルソナ文 + 例文+ 入 力文] を LLM に与えて、文脈と 個性を反映した、多様か つ整合的な応答を生成
  • 14.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 指示内容 You have written the following review for the movie {context}: {example} Please write a review for the movie {context}, similar to the above review: Context : 映画のタイトル Example : レビューの実例 プロンプト例(映画レビューver) 14 ペルソナ記述 “You are a sports reporter, with a focus on baseball news, particularly Major League Baseball (MLB) playoffs and postseason games.”
  • 15.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実際の出力例 15 • 入力(Input) • 映画「インターステラー」のレビューを書いてください • ペルソナ(Persona) • あなたは、思考をかき乱すようなストーリーと、しっか りしたキャラクター描写を重視する映画ファンです • 模範応答(Exemplar) • 『インセプション』で夢の中に夢を重ねる構成は見事。 しかし真に際立つのはコブの感情的な旅路である MoPに よ • 出力(LLMの生成応答) • 『インターステラー』はその複雑な物語で観客を挑発す るが、私は特にクーパーとマーフの関係に心を動かされ た。感情的な賭けがSF要素に人間味を与えていた
  • 16.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. ゲートの学習過程① 16 学習対象:線形変換行列𝑾𝒙, 𝑾𝒈, 𝑾𝒆 (ゲーティングの重み) x は入力文脈、 𝑔𝑘は第 k ペルソナの説明文、𝑒𝑗 は第 j 実例(過去の入力・応答)から作る特徴。 すべて同次元のベクトル空間に写像してから内積で関連度を測る。 (埋め込みと線形写像) エンコーダの出力を学習可能な線形層で整形して、比較しやすい共通空間に写像する: 𝑥 = 𝑊𝑥 ℎ(𝑥), 𝑔𝑘 = 𝑊𝑔 ℎ(𝑔𝑘), 𝑒𝑗 = 𝑊𝑒 ℎ(𝑒𝑗) (ペルソナゲートのスコア) 入力 x' と各ペルソナ 𝑔𝑘の関連度を内積で数値化する: 𝑠𝑘 = 𝑥 ⊤𝑔𝑘 が大きいほど「この入力にはペルソナ k が適合する」ことを示すスコア (ペルソナ混合重み=確率化) softmax で確率分布に正規化する: 𝜋𝑘 = exp 𝑠𝑘 σ𝑗=1 𝐾 exp 𝑠𝑗 . これが「入力 x に対して、どのペルソナで話すか」の確率(混合重み) (実例ゲートのスコア)選ばれ得る実例 𝑒𝑗が、入力 x と特定のペルソナ 𝑔𝑘の下でどれだけ参 考になりそうかをスコア化する: 𝑠𝑘𝑗 = 𝑥⊤𝑒𝑗 + 𝑔𝑘 ⊤𝑒𝑗 前項は「入力との近さ」、後項は「ペルソナとの相性」を表し、和で総合関連度にする。これ をソフトマックス関数を用いて混合重みΩkjに変換
  • 17.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. (出力分布の定義) 最終的な生成は「ペルソナ混合 × 実例混合 × LLM生成」 の二段階混合で表される。τ_k はペルソナごとの生成温度 (多様性の強さ): 𝑝 𝑦 𝑥, 𝐷 = ෍ 𝑘=1 𝐾 𝜋𝑘 ෍ 𝑗=1 𝑁 Ω𝑘𝑗 ; 𝑝𝐿𝑀 𝜏𝑘 ! 𝑦, , 𝑔𝑘, 𝑒𝑗, 𝑥 (学習目標=対数尤度最大化) 観測データ 𝑥, 𝑦 ∈ 𝐷が高確率で生成されるように、ゲー ティングのパラメータ(𝑊 𝑥 , 𝑊 𝑔, 𝑊 𝑒, および τ)を更新す る: ℒ = − ෍ 𝑥,𝑦 ∈𝐷 log 𝑝 𝑦 𝑥, 𝐷 . この損失を 𝑊 𝑥, 𝑊 𝑔, 𝑊 𝑒, τ で微分し、勾配降下法で更新 ゲートの学習過程② 17
  • 18.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験概要 18 •ベースLLM:Llama3-8B-Instruct(全実験で統一) •MoPの設定 •ペルソナ数:K=100 •実例数:1,000(訓練データからランダム抽出) •ペルソナは K-means + LLM要約で自動生成 •学習・推論の両方でペルソナと実例を固定 •センテンスエンコーダ:all-mpnet-base-v2 •訓練時、各入力ごとに上位M=4の(ペルソナ, 実例)ペアのみ使用(スパース化) •温度パラメータ τ 初期値 = 0.6 •生成数:各手法で 5,000 サンプルを生成し、golden dataset と比較 問題 Q1 MoPはターゲット集団に整合した出力を生成できる か? Q2 MoPで合成した応答はモデル訓練に使えるか? Q3 MoPは他のLLMにも転用できるか?
  • 19.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q1,ターゲット集団に整合した出力を生成できるか? 19 指標名 内容・計算方法 FID 文ベクトル間のFréchet距離(平均と分散から計算) → 生成応答と実データがどれくらい似ているか MAUVE 生成分布と実分布の間のダイバージェンス前線面積 → 整合性と多様性の両方を測る KL Cosine 生成と実データの文間コサイン類似度分布のKL距離 → 多様性の定量指標 指標
  • 20.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q1 実験結果 20 手法名 手法の概要 FID MAUVE KL Cosine 特徴 ZeroGen クラス名だけ指定してゼロ ショット生成 3.535 0.587 0.241 手軽だが多様性・整合性とも に低い AttrPrompt スタイルや視点などの属性 をプロンプトに含めて多様 性を強化 2.193 0.648 0.150 多様性はあるが属性設計が必 要 ProGen 影響関数で「良いfew-shot 例」を選んでプロンプトに 使う 1.980 0.767 0.103 高精度だが重い・汎用性は低 め PICLe ロジット差で適切なfew- shot例を選び、ペルソナを 再現 2.200 0.740 0.490 ペルソナ性はあるが多様性や や弱い MoP(本研 究) ペルソナ+模範応答を確率 的に選んで出力を生成する 2段階混合モデル 0.951 0.871 0.069 整合性・多様性ともに最も優 秀 →MoPが最高スコアを記録
  • 21.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q2,合成した応答はモデル訓練に使えるか? 21 • 実験設定 • タスク:テキスト分類(ニュース分類 or 感情分析) • 手法:各生成手法で合成データ5,000件を作成し、それを使って DistilBERT 分類器(ポジティブ・ネガティブ分類)を訓練 • 評価対象:ゴールデン(人間)テストデータで F1スコア を測定 • データセット データセット 内容 Yelp Reviews レストランのレビュー SST-2 映画レビューの1文 IMDB 映画レビューの長文
  • 22.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q2 実験結果 22 手法名 手法の概要 AGNews Yelp SST-2 IMDB 特徴 ZeroGen ゼロショットで 生成 0.624 0.860 0.766 0.821 精度はやや低め AttrPrompt 属性でスタイル を多様化 0.836 0.864 0.838 0.793 やや安定した分類性能 ProGen 影響関数で参考 例を選出 0.722 0.843 0.785 0.810 精度は中程度だがやや不 安定 PICLe ペルソナ誘導の few-shot選択 0.759 0.738 0.833 0.815 SST-2では比較的良好 MoP (本研究) ペルソナ+模範 応答で多様な合 成文生成 0.871 0.867 0.845 0.865 全体的に最高スコアを記 録 →MoPが最高スコアを記録
  • 23.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q3,MoPは他のLLMにも転用できるか 23 項目 内容 学習モデル LLaMA3-8B-Instruct:MoPのゲートをこのモデルで学習 転送先モデル Gemma2-9B-Instruct, Mistral-7B-Instruct(どちらも別 アーキテクチャ) タスク AGNews(4クラスニュース分類)の応答生成 評価指標 RQ1と同じ:FID, MAUVE, KL Cosine
  • 24.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Q3,実験結果 24 モデル構成 FID ↓ MAUVE ↑ KL Cosine ↓ 評価ポイント MoP + LLaMA3-8B (学習元) 0.951 0.871 0.069 ベースライン (最初に学習 したMoP) MoP + Gemma2-9B (転送) 0.492 0.957 0.006 全指標でさら に性能向上 MoP + Mistral-7B( 転送) 0.923 0.869 0.081 元モデルとほ ぼ同等の性能 を維持 →学習済みゲートはそのまま別モデルで使用可能
  • 25.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験のまとめ 25 項目 実験結果 結論 RQ1:整合性と多様性 FID ↓58%、MAUVE ↑28%、KL Cosine ↓80% 人間らしくて多様な応 答を最も高いレベルで 実現 RQ2:合成応答の学習 利用 F1スコア最大 +5.3% 改 善(分類器の精度向 上) MoP応答は学習データ としても優秀で実用的 RQ3:転送性 他のLLM(Gemma2-9B, Mistral-7B)でもMoPの 効果を維持または向上 モデルを変えても再学 習不要で使い回せる
  • 26.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. まとめ 26 強み 内容 多様な人物像(ペルソナ)を再現で きる 単なるテンプレ出力でなく、集団内 の多様な視点を模擬できる 確率的な組み合わせで出力にバリ エーションを持たせる 温度調整やランダム性に頼らない意 味的多様性が実現可能 モデル本体の学習不要(プラグ&プ レイ) 一度学習したMoPゲートを他のLLM にもそのまま適用できる 定量評価で明確に上回る性能 FID, MAUVE, KL Cosine, F1 全てで既 存手法を超える
  • 27.
    Copyright © 2020調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 今後の課題 27 限界 説明 LLMのlogitsへのアクセスが必要 ChatGPTなどのクローズドモデルには 現状使えない可能性あり ペルソナの定義・構築にはバイアスの リスク 自動生成されたペルソナが実社会の偏 見を含む可能性あり 公平性・代表性のさらなる検証が必要 マイノリティや少数意見の再現性など の課題が残る