【DL輪読会】マルチモーダル LLM

©︎MATSUO INSTITUTE, INC.
DEEP LEARNING JP
[DL Papers]
マルチモーダル LLM
Takaomi Hasegawa
http://deeplearning.jp/

自己紹介
2
https://www.denso.com/jp/ja/driven-base/tech-design/robot/
DENSO オウンドメディア DRIVEN BASEより引用
車載部品メーカでトマトを収穫するロボットのAI画像認識の技術開発
松尾研でAIの社会実装

書誌情報 VideoChat
3
出典）
https://arxiv.org/abs/2305.06355
・タイトル
VideoChat
・著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
・概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開

選定理由
4
・ChatGPTでLanguage-to-Languageが注目されているが、個
人的にマルチモーダル（特に画像）に興味があった
・GitHubのStarが2000以上と注目度が高い
https://github.com/OpenGVLab/Ask-Anything

関連発表
5
https://deeplearning.jp/%e3%83%9e%e3%83%ab%e3%83%81%e3%83%a2%e3%83%bc%e3%83%80%e3%
83%ab-%e5%9f%ba%e7%9b%a4%e3%83%a2%e3%83%87%e3%83%ab/
マルチモーダル基盤モデル（原田さん）
Visual ChatGPT（今井さん）
https://deeplearning.jp/visual-chatgpt-talking-drawing-and-editing-with-visual-foundation-models/
結構被ってました…
動画 + LLMは初めてということでご容赦を

システム構成
6
動画の解釈をし対話形式での回答が可能。既存のVoice-to-Text(Whisper), Image-to-Text(GRiT)といったAIとLLMを組み合わせたVideoChat-Textを改良し、
VideoEmbeddingを出力するVideoChat-Embedを開発。論文に書かれているのは主にVideoChat-Embedについて
GRiT(画像タグ付け）、Whisper（音声認識）、T5（文章要約）
といった既存のAIモデルを組み合わせて動画をテキスト化
動画を基盤モデルを使ってベクトル情報にしている
ffmpegで動画を画像に切り出し

ユーザーインターフェース
7
動画に対して質問すると回答が得られる。動画は1min以内（実際のサンプル動画はほとんど5秒〜10秒）

VideoChatEmbed
VideoChat-Textだと時空間的な情報が抜け落ちてしまうので、アウトプットを言葉でなく特徴量を出力する基盤モデルを使用。
AlignmentとInstruction Tuningの2Stageに分けて学習をする。学習に関しては論文では詳しく触れていないが、それぞれのステージに対するデータセットの
作り方に関して記述あり。

データセット
既存のデータセットから、VideoChat-Text。つまり、既存のImage-to-Text, Audio-to-TextといったAIモデルとChatGPTを使ってデータセットを生成する。
WebVid-10Mという既存のデータセットから、VideoChat-Textを使って、以下2つの種類のデータセットを作成
・Detailed Video Descriptions
・Video Conversations

Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目（Table3）は多彩なラベルを分かりやすいストーリーにする。
2段目（Table4）は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト

Video Conversations
3種類（descriptive, temporal, casual)のプロンプトを使うことで、動画に対する会話例を得る

まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
・VideoChat-Text：テキストベースバージョン
・VideoChat-Embed： end-to-endバージョン
Future work
以下3点
・モデルのスケール（大規模化）
・ベンチマーク
・長時間のビデオ対応
所感
・データセットChatGPTでつくっている点、プロンプトの工夫（2段階、3種類）は面白い（商用利用は不可？）
・長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索（Appendix 1）して時間特定、他のトリガを使うとい
った工夫が必要そう
・言語というインターフェースの限界（情報量の低下）を感じた（Appendix 2）

Appendix 1：動画検索システム（Turing）
似たような構成で、動画の検索を実現

Appendix 2: 考察（妄想）今後の基盤モデルの入出力
LLM
言語言語人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている？？
将来のAIの最適な入出力は？人と同じ（ロボット）なのかそれ以外の形なのか？
未来のAI
？？

【DL輪読会】マルチモーダル LLM

Recommended

Recommended

More Related Content

Similar to 【DL輪読会】マルチモーダル LLM

Similar to 【DL輪読会】マルチモーダル LLM (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (10)

【DL輪読会】マルチモーダル LLM