論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
LLMとプランニングの世界
1. 株式会社 Carnot
Data is beautiful.
LLMとプランニングの世界
ML 15 minutes
2023/7/29
Shoya Matsumori, Ph.D.
2. ⾃⼰紹介
1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か
らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ
ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学)
を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択.
データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員.
松森匠哉 Shoya MATSUMORI, Ph.D.
(2018.02-2022.03) PGV (株) Lead Machine Learning Researcher
リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード.
AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏
い筆頭著者として学術論⽂誌に採択.
(2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員
内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発
をリード.都内の⾼校にてPoCを実施.
(2019.02-2020.07) (株) BLUEM 代表取締役
(株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI
ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施.
(2020.12-2022.08) (株) STANDARD Lead Researcher
デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供.
(2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC)
視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議
ICCV等に採択.
主な経歴 受賞歴
• WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞
• HCI研究会 奨励賞 受賞
主な研究業績
• Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question
generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021.
• Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi-
Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532.
• Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia
Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study."
Bioelectricity 4.1 (2022): 3-11.
株式会社Carnot (カルノー)
Founder & CEO
Carnot Inc.
Carnot Inc. 2023. All rights reserved. Do not distribute.
3. プランニングとはなにか︖
Carnot Inc. 2023. All rights reserved. Do not distribute.
ゴールを提⽰されたときに,どのような順番でどの⾏動をするか分解できる能⼒
e.g., Goal 『映画を⾒る』
Goal
Plan
step 1 step 2 step 3
4. プランニングとLLM
• LLM+Embodied Agent
• LLMを使って環境とインタラクションするエージェ
ントをつくる (実⾏まで含む)
• e.g., Language Models as Zero-Shot
Planners [Huang+22]
• e.g., Do As I Can, Not As I Say
[Ahn+22]
• LLM Only
• LLM単体でプランニングの精度を上げる
• e.g.,Language Models of Code are Few-
Shot Commonsense Learners
[Madaan+22]
• e.g., Tree of Thoughts [Yao+23], 17 May
2023
• e.g., PLASMA [Brahman+23], 31 May
2023
Carnot Inc. 2023. All rights reserved. Do not distribute.
LLMでプランニングをする研究が増えつつある
LLMでプランニングし,エージェントを
シミュレーション環境で動かす研究 [Huang+22]
5. PLASMA論⽂
• (概要) プランニングLMを知識蒸留によって構築する研究
• (背景) プランニングは,常識推論と反実仮想的な思考が必要
• 常識推論: ⼀般的に正しいとされる知識に基づく推論
• e.g., 映画を⾒たい -> 映画館に⾏く必要がある ->
映画館にはチケットがいる…
• 反実仮想: 事実や想定に反することを思考すること
• e.g., 近くに映画館が無いかもしれない -> 家でネッ
トフリックスで⾒れるかもしれない
• (課題) コストと再現性が問題
• (提案)
• より⼩さいモデルでプランニングを実現する⼿法の提案
• 推論時の⼯夫を⾏うことで,性能向上
• 反実仮想のタスクを新たに考案 (今回は割愛)
Carnot Inc. 2023. All rights reserved. Do not distribute.
Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
7. 知識蒸留⽤のデータセットの構築
Carnot Inc. 2023. All rights reserved. Do not distribute.
Procedural Knowledge Verbalization
知識蒸留⽤データセット構築
• LLMを⽤いてgoal, plan, condition, counterfactual plan
を作成
• プロンプトのテンプレートを⽤いて,LLMがgoalを作成
• 作成したgoalからplanをLLMが作成…
• 作成の課程で教師あり学習したモデルで⽣成⽂章を評価
• RoBERTa large[Liu+19]を利⽤
• ⼀定の基準以下の⽂章を廃棄することで質を担保
• (⽤いたモデルはAMTでデータを集め教師ありで学習)
8. データセットをもとに知識蒸留
Carnot Inc. 2023. All rights reserved. Do not distribute.
Procedural Knowledge Distillation
データセットをもとに知識蒸留
• Counterfactual Planning(CP)は仮想
の条件に基づいたプランニング
• Counterfactual Plan Revision
(CPR)は仮想の条件に基づいてプランを
修正する
• 上記を別々に学習する条件と,マルチタ
スクで学習する条件を⽤意 (実験の際に
改めて説明)
9. 推論時のアルゴリズム
Carnot Inc. 2023. All rights reserved. Do not distribute.
ビームサーチ+評価モジュールで推論結果からより良いプランを選ぶ
• Step-wise verifierのモデルにはRoBERTa[Liu+19]のroberta-large(335M)を使⽤
• ⼈間のプランニングを正として,ネガティブサンプルをよくある間違い(順番間違い,繰り返し,順番ぬかし)に基づいて⽣成しデータセッ
トを構築
• Binary classificationで学習し,次ステップの⾏動がふさわしいかどうかを判断
10. 結果: ⼩さいモデルでも同等以上の性能
実験
• 770M, 3B, 11Bのモデルに対して蒸留
• 教師モデルは,curie-001 (6.7B)
• ⽣成したプランを5pointのLikert尺度で評価
結果
• ⼩さいモデルでも同等以上の性能
• ⼀般的にモデルサイズが向上すると性能も向
上する傾向
• 推論時アルゴリズム(+) はどのモデルサイズ
でも推論精度を向上
所感
• 推論時アルゴリズムが強い
• RoBERTa largeが335Mとはいえ,教師あり
学習しているのでコストはあるのが難点.よ
り良いアルゴリズムは無いか︖
• Tree of Thoughtsなど…
Carnot Inc. 2023. All rights reserved. Do not distribute.
蒸留と推論時アルゴリズムの有効性が⽰された
評価モデル
• Plasma Mul: マルチタスクver
• Plasma +: 推論時のアルゴリズム追加ver
• Techer: 教師モデル
• CoCoGen, Davinchi: 参考モデル
評価指標
• Coverage: プランが⼗分必要なステップを網
羅しているか
• Order: アクションの順番が妥当か
• Overall Quality: 総合的な評価
11. 定性評価
Carnot Inc. 2023. All rights reserved. Do not distribute.
繰り返し…
dinner dateʼs house?
12. まとめ
• 背景とトレンド
• プランニングは実世界のアプリケーションを作る上で⾮常に
重要
• プラニングをLLMで実現する研究が増えつつある
• PLASMA
• 知識蒸留を⾏うことでより⼩規模なLMでもプランニングの
精度を確保
• 推論時のアルゴリズムでも⼤幅に性能向上
• ここらへんは深掘りの余地がありそう (ToTなど) なの
でまた機会があれば.
• 宣伝
• ワークフロー⾃動化サービスのβテスターを募集しています
• ⽇経新聞にも掲載されました︕
• 是⾮ご登録ください︕
• https://usepromptflow.com/
Carnot Inc. 2023. All rights reserved. Do not distribute.
twitterでも最新情報を発信しています!
@pineforesta
お気軽にDMください!