SlideShare a Scribd company logo
1 of 14
©︎MATSUO INSTITUTE, INC.
DEEP LEARNING JP
[DL Papers]
マルチモーダル LLM
Takaomi Hasegawa
http://deeplearning.jp/
©︎MATSUO INSTITUTE, INC.
自己紹介
2
https://www.denso.com/jp/ja/driven-base/tech-design/robot/
DENSO オウンドメディア DRIVEN BASEより引用
車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発
松尾研でAIの社会実装
©︎MATSUO INSTITUTE, INC.
書誌情報 VideoChat
3
出典)
https://arxiv.org/abs/2305.06355
・タイトル
VideoChat
・著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
・概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開
©︎MATSUO INSTITUTE, INC.
選定理由
4
・ChatGPTでLanguage-to-Languageが注目されているが、個
人的にマルチモーダル(特に画像)に興味があった
・GitHubのStarが2000以上と注目度が高い
https://github.com/OpenGVLab/Ask-Anything
©︎MATSUO INSTITUTE, INC.
関連発表
5
https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%
83%ab-%e5%9f%ba%e7%9b%a4%e3%83%a2%e3%83%87%e3%83%ab/
マルチモーダル 基盤モデル(原田さん)
Visual ChatGPT(今井さん)
https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-models/
結構被ってました…
動画 + LLMは初めてということでご容赦を
©︎MATSUO INSTITUTE, INC.
システム構成
6
動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良し、
VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて
GRiT(画像タグ付け)、Whisper(音声認識)、T5(文章要約)
といった既存のAIモデルを組み合わせて動画をテキスト化
動画を基盤モデルを使ってベクトル情報にしている
ffmpegで動画を画像に切り出し
©︎MATSUO INSTITUTE, INC.
ユーザーインターフェース
7
動画に対して質問すると回答が得られる。動画は1min以内(実際のサンプル動画はほとんど5秒〜10秒)
©︎MATSUO INSTITUTE, INC.
VideoChatEmbed
VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。
AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセットの
作り方に関して記述あり。
©︎MATSUO INSTITUTE, INC.
データセット
既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。
WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成
・Detailed Video Descriptions
・Video Conversations
©︎MATSUO INSTITUTE, INC.
Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目(Table3)は多彩なラベルを分かりやすいストーリーにする。
2段目(Table4)は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト
©︎MATSUO INSTITUTE, INC.
Video Conversations
3種類(descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る
©︎MATSUO INSTITUTE, INC.
まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
・VideoChat-Text:テキストベースバージョン
・VideoChat-Embed: end-to-endバージョン
Future work
以下3点
・モデルのスケール(大規模化)
・ベンチマーク
・長時間のビデオ対応
所感
・データセットChatGPTでつくっている点、プロンプトの工夫(2段階、3種類)は面白い(商用利用は不可?)
・長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索(Appendix 1)して時間特定、他のトリガを使うとい
った工夫が必要そう
・言語というインターフェースの限界(情報量の低下)を感じた(Appendix 2)
©︎MATSUO INSTITUTE, INC.
Appendix 1:動画検索システム(Turing)
似たような構成で、動画の検索を実現
©︎MATSUO INSTITUTE, INC.
Appendix 2: 考察(妄想) 今後の基盤モデルの入出力
LLM
言語 言語 人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている??
将来のAIの最適な入出力は?人と同じ(ロボット)なのかそれ以外の形なのか?
未来のAI
? ?

More Related Content

Similar to 【DL輪読会】マルチモーダル LLM

大規模 Web CMS活用に必須の社員ID管理・SSO連動
大規模 Web CMS活用に必須の社員ID管理・SSO連動大規模 Web CMS活用に必須の社員ID管理・SSO連動
大規模 Web CMS活用に必須の社員ID管理・SSO連動
FatWireKK
 
Teachme for business
Teachme for businessTeachme for business
Teachme for business
Keitaro Shoji
 
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
masashi takehara
 
130214 teachme business-k
130214 teachme business-k130214 teachme business-k
130214 teachme business-k
Yusuke Mameda
 
モダンなモバイル開発のススメ
モダンなモバイル開発のススメモダンなモバイル開発のススメ
モダンなモバイル開発のススメ
Daichi Kamemoto
 

Similar to 【DL輪読会】マルチモーダル LLM (20)

複数サービスを共存させるために 試行錯誤したこと
複数サービスを共存させるために 試行錯誤したこと複数サービスを共存させるために 試行錯誤したこと
複数サービスを共存させるために 試行錯誤したこと
 
大規模 Web CMS活用に必須の社員ID管理・SSO連動
大規模 Web CMS活用に必須の社員ID管理・SSO連動大規模 Web CMS活用に必須の社員ID管理・SSO連動
大規模 Web CMS活用に必須の社員ID管理・SSO連動
 
SIerのDevRel術
SIerのDevRel術SIerのDevRel術
SIerのDevRel術
 
エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略エヌビディアのディープラーニング戦略
エヌビディアのディープラーニング戦略
 
Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御Deep Learningを用いたロボット制御
Deep Learningを用いたロボット制御
 
ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出ドライブレコーダの動画を使った道路情報の自動差分抽出
ドライブレコーダの動画を使った道路情報の自動差分抽出
 
Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
Mattermostが働き方を劇的改善!NRIの働き方改革の秘訣
 
Teachme for business
Teachme for businessTeachme for business
Teachme for business
 
eVar7 = s.t(art) ; Kick-Off
eVar7 = s.t(art) ; Kick-OffeVar7 = s.t(art) ; Kick-Off
eVar7 = s.t(art) ; Kick-Off
 
Keycloak入門
Keycloak入門Keycloak入門
Keycloak入門
 
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
[Slide]DevLOVE_ EMZERO_TORI1「SCD_to_UCD」
 
130214 teachme business-k
130214 teachme business-k130214 teachme business-k
130214 teachme business-k
 
C# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッション
C# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッションC# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッション
C# を使い倒す!クロス プラットフォーム アプリ開発とクラウド連携の新潮流 - Xamarin セッション
 
アドテクノロジーのサービスにおけるアジャイル開発
アドテクノロジーのサービスにおけるアジャイル開発アドテクノロジーのサービスにおけるアジャイル開発
アドテクノロジーのサービスにおけるアジャイル開発
 
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV2016読み会)
 
モダンなモバイル開発のススメ
モダンなモバイル開発のススメモダンなモバイル開発のススメ
モダンなモバイル開発のススメ
 
もっとおうちハックできるおうち開発環境に向けて─おうちハック事例集─
もっとおうちハックできるおうち開発環境に向けて─おうちハック事例集─もっとおうちハックできるおうち開発環境に向けて─おうちハック事例集─
もっとおうちハックできるおうち開発環境に向けて─おうちハック事例集─
 
Open STF Plugin 作ってみた
Open STF Plugin 作ってみたOpen STF Plugin 作ってみた
Open STF Plugin 作ってみた
 
微博(ウェイボ)型社内SNSとモバイルで始める社内の可視化
微博(ウェイボ)型社内SNSとモバイルで始める社内の可視化微博(ウェイボ)型社内SNSとモバイルで始める社内の可視化
微博(ウェイボ)型社内SNSとモバイルで始める社内の可視化
 
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォームZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
ZytleBot:ROS対応自動走行ロボットへのFPGA活用を加速化する統合開発プラットフォーム
 

More from Deep Learning JP

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

Recently uploaded (10)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

【DL輪読会】マルチモーダル LLM