LLMとプランニングの世界

株式会社 Carnot
Data is beautiful.
LLMとプランニングの世界
ML 15 minutes
2023/7/29
Shoya Matsumori, Ph.D.

⾃⼰紹介
1994年⽣まれ．AI (深層学習)の研究開発及び，デジタルコンサルティングに従事．学部⽣時代に脳波計のスタートアップで0か
らプロダクト設計および深層学習モデルの実装をリード．⼤学での研究内容がアクセラレータプログラムに採択され，ソーシャ
ルロボットのスタートアップを設⽴．複数の企業・⼤学・⾃治体に対してPoCを実施．慶應義塾⼤学理⼯学研究科で博⼠ (⼯学)
を取得(⾶び級)．Vision and Languageの研究に従事．⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択．
データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞．⼈⼯知能学会・認知科学会会員．
松森匠哉 Shoya MATSUMORI, Ph.D.
(2018.02-2022.03) PGV (株) Lead Machine Learning Researcher
リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード．
AIによる認知症診断アルゴリズム，睡眠ステージの判別アルゴリズムの研究開発を⾏
い筆頭著者として学術論⽂誌に採択．
(2018.08-2022.09) 慶應義塾先端科学技術研究センター特任研究員
内閣府SIP 特任研究員．深層学習による英語の⾃動作問技術 (特許出願中) の研究開発
をリード．都内の⾼校にてPoCを実施．
(2019.02-2020.07) (株) BLUEM 代表取締役
(株) dipのAIアクセラレータプログラムに採択．複数の企業・⼤学・⾃治体に対してAI
ソリューションを提供．豊⽥市などでソーシャルロボットのPoCを実施．
(2020.12-2022.08) (株) STANDARD Lead Researcher
デジタルコンサルタントとして，複数の⼀部上場企業にAIソリューションを提供．
(2021.04-2022.09) ⽇本学術振興会特別研究員 (DC)
視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事．難関国際会議
ICCV等に採択．
主な経歴受賞歴
• WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞
• HCI研究会奨励賞受賞
主な研究業績
• Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question
generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021.
• Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi-
Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532.
• Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia
Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study."
Bioelectricity 4.1 (2022): 3-11.
株式会社Carnot (カルノー)
Founder & CEO
Carnot Inc.
Carnot Inc. 2023. All rights reserved. Do not distribute.

プランニングとはなにか︖
ゴールを提⽰されたときに，どのような順番でどの⾏動をするか分解できる能⼒
e.g., Goal 『映画を⾒る』
Goal
Plan
step 1 step 2 step 3

プランニングとLLM
• LLM+Embodied Agent
• LLMを使って環境とインタラクションするエージェ
ントをつくる (実⾏まで含む)
• e.g., Language Models as Zero-Shot
Planners [Huang+22]
• e.g., Do As I Can, Not As I Say
[Ahn+22]
• LLM Only
• LLM単体でプランニングの精度を上げる
• e.g.,Language Models of Code are Few-
Shot Commonsense Learners
[Madaan+22]
• e.g., Tree of Thoughts [Yao+23], 17 May
2023
• e.g., PLASMA [Brahman+23], 31 May
2023
LLMでプランニングをする研究が増えつつある
LLMでプランニングし，エージェントを
シミュレーション環境で動かす研究 [Huang+22]

PLASMA論⽂
• (概要) プランニングLMを知識蒸留によって構築する研究
• (背景) プランニングは，常識推論と反実仮想的な思考が必要
• 常識推論: ⼀般的に正しいとされる知識に基づく推論
• e.g., 映画を⾒たい -> 映画館に⾏く必要がある ->
映画館にはチケットがいる…
• 反実仮想: 事実や想定に反することを思考すること
• e.g., 近くに映画館が無いかもしれない -> 家でネッ
トフリックスで⾒れるかもしれない
• (課題) コストと再現性が問題
• (提案)
• より⼩さいモデルでプランニングを実現する⼿法の提案
• 推論時の⼯夫を⾏うことで，性能向上
• 反実仮想のタスクを新たに考案 (今回は割愛)
Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

プランニング能⼒の知識蒸留
データ⽣成と蒸留

知識蒸留⽤のデータセットの構築
Procedural Knowledge Verbalization
知識蒸留⽤データセット構築
• LLMを⽤いてgoal, plan, condition, counterfactual plan
を作成
• プロンプトのテンプレートを⽤いて，LLMがgoalを作成
• 作成したgoalからplanをLLMが作成…
• 作成の課程で教師あり学習したモデルで⽣成⽂章を評価
• RoBERTa large[Liu+19]を利⽤
• ⼀定の基準以下の⽂章を廃棄することで質を担保
• (⽤いたモデルはAMTでデータを集め教師ありで学習)

データセットをもとに知識蒸留
Procedural Knowledge Distillation
データセットをもとに知識蒸留
• Counterfactual Planning(CP)は仮想
の条件に基づいたプランニング
• Counterfactual Plan Revision
(CPR)は仮想の条件に基づいてプランを
修正する
• 上記を別々に学習する条件と，マルチタ
スクで学習する条件を⽤意 (実験の際に
改めて説明)

推論時のアルゴリズム
ビームサーチ+評価モジュールで推論結果からより良いプランを選ぶ
• Step-wise verifierのモデルにはRoBERTa[Liu+19]のroberta-large(335M)を使⽤
• ⼈間のプランニングを正として，ネガティブサンプルをよくある間違い(順番間違い，繰り返し，順番ぬかし)に基づいて⽣成しデータセッ
トを構築
• Binary classificationで学習し，次ステップの⾏動がふさわしいかどうかを判断

結果: ⼩さいモデルでも同等以上の性能
実験
• 770M, 3B, 11Bのモデルに対して蒸留
• 教師モデルは，curie-001 (6.7B)
• ⽣成したプランを5pointのLikert尺度で評価
結果
• ⼩さいモデルでも同等以上の性能
• ⼀般的にモデルサイズが向上すると性能も向
上する傾向
• 推論時アルゴリズム(+) はどのモデルサイズ
でも推論精度を向上
所感
• 推論時アルゴリズムが強い
• RoBERTa largeが335Mとはいえ，教師あり
学習しているのでコストはあるのが難点．よ
り良いアルゴリズムは無いか︖
• Tree of Thoughtsなど…
蒸留と推論時アルゴリズムの有効性が⽰された
評価モデル
• Plasma Mul: マルチタスクver
• Plasma +: 推論時のアルゴリズム追加ver
• Techer: 教師モデル
• CoCoGen, Davinchi: 参考モデル
評価指標
• Coverage: プランが⼗分必要なステップを網
羅しているか
• Order: アクションの順番が妥当か
• Overall Quality: 総合的な評価

定性評価
繰り返し…
dinner dateʼs house?

まとめ
• 背景とトレンド
• プランニングは実世界のアプリケーションを作る上で⾮常に
重要
• プラニングをLLMで実現する研究が増えつつある
• PLASMA
• 知識蒸留を⾏うことでより⼩規模なLMでもプランニングの
精度を確保
• 推論時のアルゴリズムでも⼤幅に性能向上
• ここらへんは深掘りの余地がありそう (ToTなど) なの
でまた機会があれば．
• 宣伝
• ワークフロー⾃動化サービスのβテスターを募集しています
• ⽇経新聞にも掲載されました︕
• 是⾮ご登録ください︕
• https://usepromptflow.com/
twitterでも最新情報を発信しています！
@pineforesta
お気軽にDMください！

LLMとプランニングの世界

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to LLMとプランニングの世界

Similar to LLMとプランニングの世界 (20)

Recently uploaded

Recently uploaded (12)

LLMとプランニングの世界