©︎MATSUO INSTITUTE, INC.
DEEP LEARNING JP
[DL Papers]
マルチモーダル LLM
Takaomi Hasegawa
http://deeplearning.jp/
©︎MATSUO INSTITUTE, INC.
自己紹介
2
https://www.denso.com/jp/ja/driven-base/tech-design/robot/
DENSO オウンドメディア DRIVEN BASEより引用
車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発
松尾研でAIの社会実装
©︎MATSUO INSTITUTE, INC.
書誌情報 VideoChat
3
出典)
https://arxiv.org/abs/2305.06355
・タイトル
VideoChat
・著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
・概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開
©︎MATSUO INSTITUTE, INC.
選定理由
4
・ChatGPTでLanguage-to-Languageが注目されているが、個
人的にマルチモーダル(特に画像)に興味があった
・GitHubのStarが2000以上と注目度が高い
https://github.com/OpenGVLab/Ask-Anything
©︎MATSUO INSTITUTE, INC.
関連発表
5
https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%
83%ab-%e5%9f%ba%e7%9b%a4%e3%83%a2%e3%83%87%e3%83%ab/
マルチモーダル 基盤モデル(原田さん)
Visual ChatGPT(今井さん)
https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-models/
結構被ってました…
動画 + LLMは初めてということでご容赦を
©︎MATSUO INSTITUTE, INC.
システム構成
6
動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良し、
VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて
GRiT(画像タグ付け)、Whisper(音声認識)、T5(文章要約)
といった既存のAIモデルを組み合わせて動画をテキスト化
動画を基盤モデルを使ってベクトル情報にしている
ffmpegで動画を画像に切り出し
©︎MATSUO INSTITUTE, INC.
ユーザーインターフェース
7
動画に対して質問すると回答が得られる。動画は1min以内(実際のサンプル動画はほとんど5秒〜10秒)
©︎MATSUO INSTITUTE, INC.
VideoChatEmbed
VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。
AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセットの
作り方に関して記述あり。
©︎MATSUO INSTITUTE, INC.
データセット
既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。
WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成
・Detailed Video Descriptions
・Video Conversations
©︎MATSUO INSTITUTE, INC.
Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目(Table3)は多彩なラベルを分かりやすいストーリーにする。
2段目(Table4)は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト
©︎MATSUO INSTITUTE, INC.
Video Conversations
3種類(descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る
©︎MATSUO INSTITUTE, INC.
まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
・VideoChat-Text:テキストベースバージョン
・VideoChat-Embed: end-to-endバージョン
Future work
以下3点
・モデルのスケール(大規模化)
・ベンチマーク
・長時間のビデオ対応
所感
・データセットChatGPTでつくっている点、プロンプトの工夫(2段階、3種類)は面白い(商用利用は不可?)
・長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索(Appendix 1)して時間特定、他のトリガを使うとい
った工夫が必要そう
・言語というインターフェースの限界(情報量の低下)を感じた(Appendix 2)
©︎MATSUO INSTITUTE, INC.
Appendix 1:動画検索システム(Turing)
似たような構成で、動画の検索を実現
©︎MATSUO INSTITUTE, INC.
Appendix 2: 考察(妄想) 今後の基盤モデルの入出力
LLM
言語 言語 人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている??
将来のAIの最適な入出力は?人と同じ(ロボット)なのかそれ以外の形なのか?
未来のAI
? ?

【DL輪読会】マルチモーダル LLM