SlideShare a Scribd company logo
1 of 12
Download to read offline
株式会社 Carnot
Data is beautiful.
LLMとプランニングの世界
ML 15 minutes
2023/7/29
Shoya Matsumori, Ph.D.
⾃⼰紹介
1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か
らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ
ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学)
を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択.
データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員.
松森匠哉 Shoya MATSUMORI, Ph.D.
(2018.02-2022.03) PGV (株) Lead Machine Learning Researcher
リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード.
AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏
い筆頭著者として学術論⽂誌に採択.
(2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員
内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発
をリード.都内の⾼校にてPoCを実施.
(2019.02-2020.07) (株) BLUEM 代表取締役
(株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI
ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施.
(2020.12-2022.08) (株) STANDARD Lead Researcher
デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供.
(2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC)
視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議
ICCV等に採択.
主な経歴 受賞歴
• WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞
• HCI研究会 奨励賞 受賞
主な研究業績
• Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question
generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF
International Conference on Computer Vision. 2021.
• Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi-
Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532.
• Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia
Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study."
Bioelectricity 4.1 (2022): 3-11.
株式会社Carnot (カルノー)
Founder & CEO
Carnot Inc.
Carnot Inc. 2023. All rights reserved. Do not distribute.
プランニングとはなにか︖
Carnot Inc. 2023. All rights reserved. Do not distribute.
ゴールを提⽰されたときに,どのような順番でどの⾏動をするか分解できる能⼒
e.g., Goal 『映画を⾒る』
Goal
Plan
step 1 step 2 step 3
プランニングとLLM
• LLM+Embodied Agent
• LLMを使って環境とインタラクションするエージェ
ントをつくる (実⾏まで含む)
• e.g., Language Models as Zero-Shot
Planners [Huang+22]
• e.g., Do As I Can, Not As I Say
[Ahn+22]
• LLM Only
• LLM単体でプランニングの精度を上げる
• e.g.,Language Models of Code are Few-
Shot Commonsense Learners
[Madaan+22]
• e.g., Tree of Thoughts [Yao+23], 17 May
2023
• e.g., PLASMA [Brahman+23], 31 May
2023
Carnot Inc. 2023. All rights reserved. Do not distribute.
LLMでプランニングをする研究が増えつつある
LLMでプランニングし,エージェントを
シミュレーション環境で動かす研究 [Huang+22]
PLASMA論⽂
• (概要) プランニングLMを知識蒸留によって構築する研究
• (背景) プランニングは,常識推論と反実仮想的な思考が必要
• 常識推論: ⼀般的に正しいとされる知識に基づく推論
• e.g., 映画を⾒たい -> 映画館に⾏く必要がある ->
映画館にはチケットがいる…
• 反実仮想: 事実や想定に反することを思考すること
• e.g., 近くに映画館が無いかもしれない -> 家でネッ
トフリックスで⾒れるかもしれない
• (課題) コストと再現性が問題
• (提案)
• より⼩さいモデルでプランニングを実現する⼿法の提案
• 推論時の⼯夫を⾏うことで,性能向上
• 反実仮想のタスクを新たに考案 (今回は割愛)
Carnot Inc. 2023. All rights reserved. Do not distribute.
Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
プランニング能⼒の知識蒸留
Carnot Inc. 2023. All rights reserved. Do not distribute.
データ⽣成と蒸留
知識蒸留⽤のデータセットの構築
Carnot Inc. 2023. All rights reserved. Do not distribute.
Procedural Knowledge Verbalization
知識蒸留⽤データセット構築
• LLMを⽤いてgoal, plan, condition, counterfactual plan
を作成
• プロンプトのテンプレートを⽤いて,LLMがgoalを作成
• 作成したgoalからplanをLLMが作成…
• 作成の課程で教師あり学習したモデルで⽣成⽂章を評価
• RoBERTa large[Liu+19]を利⽤
• ⼀定の基準以下の⽂章を廃棄することで質を担保
• (⽤いたモデルはAMTでデータを集め教師ありで学習)
データセットをもとに知識蒸留
Carnot Inc. 2023. All rights reserved. Do not distribute.
Procedural Knowledge Distillation
データセットをもとに知識蒸留
• Counterfactual Planning(CP)は仮想
の条件に基づいたプランニング
• Counterfactual Plan Revision
(CPR)は仮想の条件に基づいてプランを
修正する
• 上記を別々に学習する条件と,マルチタ
スクで学習する条件を⽤意 (実験の際に
改めて説明)
推論時のアルゴリズム
Carnot Inc. 2023. All rights reserved. Do not distribute.
ビームサーチ+評価モジュールで推論結果からより良いプランを選ぶ
• Step-wise verifierのモデルにはRoBERTa[Liu+19]のroberta-large(335M)を使⽤
• ⼈間のプランニングを正として,ネガティブサンプルをよくある間違い(順番間違い,繰り返し,順番ぬかし)に基づいて⽣成しデータセッ
トを構築
• Binary classificationで学習し,次ステップの⾏動がふさわしいかどうかを判断
結果: ⼩さいモデルでも同等以上の性能
実験
• 770M, 3B, 11Bのモデルに対して蒸留
• 教師モデルは,curie-001 (6.7B)
• ⽣成したプランを5pointのLikert尺度で評価
結果
• ⼩さいモデルでも同等以上の性能
• ⼀般的にモデルサイズが向上すると性能も向
上する傾向
• 推論時アルゴリズム(+) はどのモデルサイズ
でも推論精度を向上
所感
• 推論時アルゴリズムが強い
• RoBERTa largeが335Mとはいえ,教師あり
学習しているのでコストはあるのが難点.よ
り良いアルゴリズムは無いか︖
• Tree of Thoughtsなど…
Carnot Inc. 2023. All rights reserved. Do not distribute.
蒸留と推論時アルゴリズムの有効性が⽰された
評価モデル
• Plasma Mul: マルチタスクver
• Plasma +: 推論時のアルゴリズム追加ver
• Techer: 教師モデル
• CoCoGen, Davinchi: 参考モデル
評価指標
• Coverage: プランが⼗分必要なステップを網
羅しているか
• Order: アクションの順番が妥当か
• Overall Quality: 総合的な評価
定性評価
Carnot Inc. 2023. All rights reserved. Do not distribute.
繰り返し…
dinner dateʼs house?
まとめ
• 背景とトレンド
• プランニングは実世界のアプリケーションを作る上で⾮常に
重要
• プラニングをLLMで実現する研究が増えつつある
• PLASMA
• 知識蒸留を⾏うことでより⼩規模なLMでもプランニングの
精度を確保
• 推論時のアルゴリズムでも⼤幅に性能向上
• ここらへんは深掘りの余地がありそう (ToTなど) なの
でまた機会があれば.
• 宣伝
• ワークフロー⾃動化サービスのβテスターを募集しています
• ⽇経新聞にも掲載されました︕
• 是⾮ご登録ください︕
• https://usepromptflow.com/
Carnot Inc. 2023. All rights reserved. Do not distribute.
twitterでも最新情報を発信しています!
@pineforesta
お気軽にDMください!

More Related Content

What's hot

ゲームの中の人工知能
ゲームの中の人工知能ゲームの中の人工知能
ゲームの中の人工知能Youichiro Miyake
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)Yasuharu Nishi
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII
 
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」嶋 是一 (Yoshikazu SHIMA)
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介Recruit Technologies
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveTokoroten Nakayama
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43Preferred Networks
 
5分で分かるアジャイルムーブメントの歴史 拡大版
5分で分かるアジャイルムーブメントの歴史 拡大版5分で分かるアジャイルムーブメントの歴史 拡大版
5分で分かるアジャイルムーブメントの歴史 拡大版Fumihiko Kinoshita
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』The Japan DataScientist Society
 
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平純平 伊東
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019Yusuke Uchida
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)Yusuke Uchida
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 

What's hot (20)

ゲームの中の人工知能
ゲームの中の人工知能ゲームの中の人工知能
ゲームの中の人工知能
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)
品質を加速させるために、テスターを増やす前から考えるべきQMファンネルの話(3D版)
 
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​SSII2020SS:  微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
SSII2020SS: 微分可能レンダリングの最新動向 〜「見比べる」ことによる3次元理解 〜​
 
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」
第1回 GPT / ジェネレーティブAI 勉強会「ChatGPTでMML音楽を奏でてみた&LLMで思うこと」
 
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
リクルートのビッグデータ活用基盤とビッグデータ活用のためのメタデータ管理Webのご紹介
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
ゼロから作るKubernetesによるJupyter as a Service ー Kubernetes Meetup Tokyo #43
 
5分で分かるアジャイルムーブメントの歴史 拡大版
5分で分かるアジャイルムーブメントの歴史 拡大版5分で分かるアジャイルムーブメントの歴史 拡大版
5分で分かるアジャイルムーブメントの歴史 拡大版
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
『機械学習による故障予測・異常検知 事例紹介とデータ分析プロジェクト推進ポイント』
 
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019モデルアーキテクチャ観点からの高速化2019
モデルアーキテクチャ観点からの高速化2019
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 

Similar to LLMとプランニングの世界

いまさらアジャイル巡業 In Tokyo アジャイルモデリング
いまさらアジャイル巡業 In Tokyo アジャイルモデリングいまさらアジャイル巡業 In Tokyo アジャイルモデリング
いまさらアジャイル巡業 In Tokyo アジャイルモデリングYuki Tagami
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that MattersRyohei Fujimaki
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12Yoji Kiyota
 
Software Engineering And Role of Agile
Software Engineering And Role of AgileSoftware Engineering And Role of Agile
Software Engineering And Role of AgileKenji Hiranabe
 
AIとScrumとスケール
AIとScrumとスケールAIとScrumとスケール
AIとScrumとスケールKenji Morita
 
JAWS DAYS 2015 PubCrawl Group1
JAWS DAYS 2015 PubCrawl Group1JAWS DAYS 2015 PubCrawl Group1
JAWS DAYS 2015 PubCrawl Group1陽平 山口
 
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例Akihiro Moriyama
 
2023-03-22_Spiral.AI_FindyLT会
2023-03-22_Spiral.AI_FindyLT会2023-03-22_Spiral.AI_FindyLT会
2023-03-22_Spiral.AI_FindyLT会SasakiYuichi1
 
2023-03-23_Spiral.AI
2023-03-23_Spiral.AI2023-03-23_Spiral.AI
2023-03-23_Spiral.AISasakiYuichi1
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作りHajime Fujita
 
情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza GameYoshiaki Rikitake
 
セレンディピティと機械学習
セレンディピティと機械学習セレンディピティと機械学習
セレンディピティと機械学習Kei Tateno
 
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用masashi takehara
 
楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用Rakuten Group, Inc.
 
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えようShigeki Morizane
 
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~満徳 関
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)cvpaper. challenge
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けてHironori Washizaki
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Modelscvpaper. challenge
 

Similar to LLMとプランニングの世界 (20)

いまさらアジャイル巡業 In Tokyo アジャイルモデリング
いまさらアジャイル巡業 In Tokyo アジャイルモデリングいまさらアジャイル巡業 In Tokyo アジャイルモデリング
いまさらアジャイル巡業 In Tokyo アジャイルモデリング
 
Toward Research that Matters
Toward Research that MattersToward Research that Matters
Toward Research that Matters
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
Software Engineering And Role of Agile
Software Engineering And Role of AgileSoftware Engineering And Role of Agile
Software Engineering And Role of Agile
 
AIとScrumとスケール
AIとScrumとスケールAIとScrumとスケール
AIとScrumとスケール
 
JAWS DAYS 2015 PubCrawl Group1
JAWS DAYS 2015 PubCrawl Group1JAWS DAYS 2015 PubCrawl Group1
JAWS DAYS 2015 PubCrawl Group1
 
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例
シカケ~行動したくなるデザイン~仕掛学(Shikakelogy)の概要と事例
 
2023-03-23_SpiralAI
2023-03-23_SpiralAI2023-03-23_SpiralAI
2023-03-23_SpiralAI
 
2023-03-22_Spiral.AI_FindyLT会
2023-03-22_Spiral.AI_FindyLT会2023-03-22_Spiral.AI_FindyLT会
2023-03-22_Spiral.AI_FindyLT会
 
2023-03-23_Spiral.AI
2023-03-23_Spiral.AI2023-03-23_Spiral.AI
2023-03-23_Spiral.AI
 
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
【技術情報協会】人工知能を使ったR&D業務効率化・生産性向上のシステム作り
 
情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game情報システム概論 Kanban Pizza Game
情報システム概論 Kanban Pizza Game
 
セレンディピティと機械学習
セレンディピティと機械学習セレンディピティと機械学習
セレンディピティと機械学習
 
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用
[ESM_CM セミナー]小さく作って大いに役立つスマートフォンアプリ(CYCLONE)公開用
 
楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用楽天のECにおけるAI技術の活用
楽天のECにおけるAI技術の活用
 
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう
[XP祭り2017][B-3(1)]DevOps時代のプロジェクトマネージメントを考えよう
 
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~
【eLV勉強会】 ITアーキテクトへの第一歩  ~「システム思考」に学ぶ真の解決策~
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
 
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
新しいソフトウェアエンジニアリングのためのパターンランゲージに向けて
 
【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models【CVPR 2020 メタサーベイ】Neural Generative Models
【CVPR 2020 メタサーベイ】Neural Generative Models
 

Recently uploaded

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 

Recently uploaded (12)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 

LLMとプランニングの世界

  • 1. 株式会社 Carnot Data is beautiful. LLMとプランニングの世界 ML 15 minutes 2023/7/29 Shoya Matsumori, Ph.D.
  • 2. ⾃⼰紹介 1994年⽣まれ.AI (深層学習)の研究開発及び,デジタルコンサルティングに従事. 学部⽣時代に脳波計のスタートアップで0か らプロダクト設計および深層学習モデルの実装をリード.⼤学での研究内容がアクセラレータプログラムに採択され,ソーシャ ルロボットのスタートアップを設⽴.複数の企業・⼤学・⾃治体に対してPoCを実施.慶應義塾⼤学理⼯学研究科で博⼠ (⼯学) を取得(⾶び級).Vision and Languageの研究に従事.⼈⼯知能分野における難関国際会議ICCV等に筆頭著者として論⽂が採択. データドリブンな環境保全をテーマとしたDAOのコンセプトがWIRED CGC特別賞受賞.⼈⼯知能学会・認知科学会会員. 松森匠哉 Shoya MATSUMORI, Ph.D. (2018.02-2022.03) PGV (株) Lead Machine Learning Researcher リードエンジニアとして0からプロダクト設計および深層学習モデルの実装をリード. AIによる認知症診断アルゴリズム,睡眠ステージの判別アルゴリズムの研究開発を⾏ い筆頭著者として学術論⽂誌に採択. (2018.08-2022.09) 慶應義塾先端科学技術研究センター 特任研究員 内閣府SIP 特任研究員.深層学習による英語の⾃動作問技術 (特許出願中) の研究開発 をリード.都内の⾼校にてPoCを実施. (2019.02-2020.07) (株) BLUEM 代表取締役 (株) dipのAIアクセラレータプログラムに採択.複数の企業・⼤学・⾃治体に対してAI ソリューションを提供.豊⽥市などでソーシャルロボットのPoCを実施. (2020.12-2022.08) (株) STANDARD Lead Researcher デジタルコンサルタントとして,複数の⼀部上場企業にAIソリューションを提供. (2021.04-2022.09) ⽇本学術振興会 特別研究員 (DC) 視覚と⾔語の統合的理解を⽬指すVision and Languageの研究に従事.難関国際会議 ICCV等に採択. 主な経歴 受賞歴 • WIRED CGC INTERSPACE UTOKYO-IIS AWARD 受賞 • HCI研究会 奨励賞 受賞 主な研究業績 • Matsumori, Shoya, et al. "Unified questioner transformer for descriptive question generation in goal-oriented visual dialogue." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. • Matsumori, Shoya, et al. "LatteGAN: Visually Guided Language Attention for Multi- Turn Text-Conditioned Image Manipulation." IEEE Access 9 (2021): 160521-160532. • Matsumori, Shoya, et al. "Predictive Diagnostic Approach to Dementia and Dementia Subtypes Using Wireless and Mobile Electroencephalography: A Pilot Study." Bioelectricity 4.1 (2022): 3-11. 株式会社Carnot (カルノー) Founder & CEO Carnot Inc. Carnot Inc. 2023. All rights reserved. Do not distribute.
  • 3. プランニングとはなにか︖ Carnot Inc. 2023. All rights reserved. Do not distribute. ゴールを提⽰されたときに,どのような順番でどの⾏動をするか分解できる能⼒ e.g., Goal 『映画を⾒る』 Goal Plan step 1 step 2 step 3
  • 4. プランニングとLLM • LLM+Embodied Agent • LLMを使って環境とインタラクションするエージェ ントをつくる (実⾏まで含む) • e.g., Language Models as Zero-Shot Planners [Huang+22] • e.g., Do As I Can, Not As I Say [Ahn+22] • LLM Only • LLM単体でプランニングの精度を上げる • e.g.,Language Models of Code are Few- Shot Commonsense Learners [Madaan+22] • e.g., Tree of Thoughts [Yao+23], 17 May 2023 • e.g., PLASMA [Brahman+23], 31 May 2023 Carnot Inc. 2023. All rights reserved. Do not distribute. LLMでプランニングをする研究が増えつつある LLMでプランニングし,エージェントを シミュレーション環境で動かす研究 [Huang+22]
  • 5. PLASMA論⽂ • (概要) プランニングLMを知識蒸留によって構築する研究 • (背景) プランニングは,常識推論と反実仮想的な思考が必要 • 常識推論: ⼀般的に正しいとされる知識に基づく推論 • e.g., 映画を⾒たい -> 映画館に⾏く必要がある -> 映画館にはチケットがいる… • 反実仮想: 事実や想定に反することを思考すること • e.g., 近くに映画館が無いかもしれない -> 家でネッ トフリックスで⾒れるかもしれない • (課題) コストと再現性が問題 • (提案) • より⼩さいモデルでプランニングを実現する⼿法の提案 • 推論時の⼯夫を⾏うことで,性能向上 • 反実仮想のタスクを新たに考案 (今回は割愛) Carnot Inc. 2023. All rights reserved. Do not distribute. Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning
  • 6. プランニング能⼒の知識蒸留 Carnot Inc. 2023. All rights reserved. Do not distribute. データ⽣成と蒸留
  • 7. 知識蒸留⽤のデータセットの構築 Carnot Inc. 2023. All rights reserved. Do not distribute. Procedural Knowledge Verbalization 知識蒸留⽤データセット構築 • LLMを⽤いてgoal, plan, condition, counterfactual plan を作成 • プロンプトのテンプレートを⽤いて,LLMがgoalを作成 • 作成したgoalからplanをLLMが作成… • 作成の課程で教師あり学習したモデルで⽣成⽂章を評価 • RoBERTa large[Liu+19]を利⽤ • ⼀定の基準以下の⽂章を廃棄することで質を担保 • (⽤いたモデルはAMTでデータを集め教師ありで学習)
  • 8. データセットをもとに知識蒸留 Carnot Inc. 2023. All rights reserved. Do not distribute. Procedural Knowledge Distillation データセットをもとに知識蒸留 • Counterfactual Planning(CP)は仮想 の条件に基づいたプランニング • Counterfactual Plan Revision (CPR)は仮想の条件に基づいてプランを 修正する • 上記を別々に学習する条件と,マルチタ スクで学習する条件を⽤意 (実験の際に 改めて説明)
  • 9. 推論時のアルゴリズム Carnot Inc. 2023. All rights reserved. Do not distribute. ビームサーチ+評価モジュールで推論結果からより良いプランを選ぶ • Step-wise verifierのモデルにはRoBERTa[Liu+19]のroberta-large(335M)を使⽤ • ⼈間のプランニングを正として,ネガティブサンプルをよくある間違い(順番間違い,繰り返し,順番ぬかし)に基づいて⽣成しデータセッ トを構築 • Binary classificationで学習し,次ステップの⾏動がふさわしいかどうかを判断
  • 10. 結果: ⼩さいモデルでも同等以上の性能 実験 • 770M, 3B, 11Bのモデルに対して蒸留 • 教師モデルは,curie-001 (6.7B) • ⽣成したプランを5pointのLikert尺度で評価 結果 • ⼩さいモデルでも同等以上の性能 • ⼀般的にモデルサイズが向上すると性能も向 上する傾向 • 推論時アルゴリズム(+) はどのモデルサイズ でも推論精度を向上 所感 • 推論時アルゴリズムが強い • RoBERTa largeが335Mとはいえ,教師あり 学習しているのでコストはあるのが難点.よ り良いアルゴリズムは無いか︖ • Tree of Thoughtsなど… Carnot Inc. 2023. All rights reserved. Do not distribute. 蒸留と推論時アルゴリズムの有効性が⽰された 評価モデル • Plasma Mul: マルチタスクver • Plasma +: 推論時のアルゴリズム追加ver • Techer: 教師モデル • CoCoGen, Davinchi: 参考モデル 評価指標 • Coverage: プランが⼗分必要なステップを網 羅しているか • Order: アクションの順番が妥当か • Overall Quality: 総合的な評価
  • 11. 定性評価 Carnot Inc. 2023. All rights reserved. Do not distribute. 繰り返し… dinner dateʼs house?
  • 12. まとめ • 背景とトレンド • プランニングは実世界のアプリケーションを作る上で⾮常に 重要 • プラニングをLLMで実現する研究が増えつつある • PLASMA • 知識蒸留を⾏うことでより⼩規模なLMでもプランニングの 精度を確保 • 推論時のアルゴリズムでも⼤幅に性能向上 • ここらへんは深掘りの余地がありそう (ToTなど) なの でまた機会があれば. • 宣伝 • ワークフロー⾃動化サービスのβテスターを募集しています • ⽇経新聞にも掲載されました︕ • 是⾮ご登録ください︕ • https://usepromptflow.com/ Carnot Inc. 2023. All rights reserved. Do not distribute. twitterでも最新情報を発信しています! @pineforesta お気軽にDMください!