More Related Content
Similar to 【DL輪読会】マルチモーダル LLM (20)
More from Deep Learning JP (20)
【DL輪読会】マルチモーダル LLM
- 3. ©︎MATSUO INSTITUTE, INC.
書誌情報 VideoChat
3
出典)
https://arxiv.org/abs/2305.06355
・タイトル
VideoChat
・著者
OpenGVLab(Generalized vision-based AI)
Shanghai AI Lab, 南京大学、香港大学、
深圳等
・概要
- End-to-Endのチャットベースのビデオ理解システム
- データセットも合わせて提案
- コードも公開
- 10. ©︎MATSUO INSTITUTE, INC.
Detailed Video Descriptions
VideoChat-Textの出力に対して、ChatGPTの2段階のプロンプトを通す。1段目(Table3)は多彩なラベルを分かりやすいストーリーにする。
2段目(Table4)は、文章をリファインすることでハルシネーションを抑制する。
出力例
2段階のプロンプト
- 12. ©︎MATSUO INSTITUTE, INC.
まとめとFuture work
まとめとFuture workと所感
まとめ
以下の2つの手法を提案。VideoChat-Embedの方が時空間の推論と因果関係をよく表している
・VideoChat-Text:テキストベースバージョン
・VideoChat-Embed: end-to-endバージョン
Future work
以下3点
・モデルのスケール(大規模化)
・ベンチマーク
・長時間のビデオ対応
所感
・データセットChatGPTでつくっている点、プロンプトの工夫(2段階、3種類)は面白い(商用利用は不可?)
・長時間の動画は難しそう。すぐ実用化するとしたら、動画内を自然言語で検索(Appendix 1)して時間特定、他のトリガを使うとい
った工夫が必要そう
・言語というインターフェースの限界(情報量の低下)を感じた(Appendix 2)
- 14. ©︎MATSUO INSTITUTE, INC.
Appendix 2: 考察(妄想) 今後の基盤モデルの入出力
LLM
言語 言語 人
音
映像
手触り
匂い
味
言語
身体制御
言語は抽象化された優れたインターフェースだが、言語に含められない情報によりLLMの限界がきている??
将来のAIの最適な入出力は?人と同じ(ロボット)なのかそれ以外の形なのか?
未来のAI
? ?