動画からの意図理解のこれまでとこれから
株式会社サイバーエージェント
大谷まゆ
今日の話
• 動画(&静止画)の理解に関する分野について
• それぞれの手法ではなく、「タスク」と「データセット」の紹介
深層学習が主流の研究分野は大部分が「タスク」と「データセット」に依存
動画・画像の意味理解
A cat with a tie
Books are
behind the
sofa.
動画像のコンテンツ(オブジェクト、アクション、シーン)と言
語を対応付ける
動画(画像)と言語の対応付け
アクション認識
Khurram Soomro, Amir Roshan Zamir and Mubarak Shah, UCF101: A Dataset of 101 Human Action Classes From
Videos in The Wild., CRCV-TR-12-01, 2012.
キャプション生成
J. Xu, T. Mei, T. Yao, and Y. Rui, MSR-VTT: A Large Video Description Dataset for Bridging Video and Language, in
CVPR, 2016, pp. 5288‒5296.
A black and
white horse
runs around.
複雑化していくタスク
A. Das et al., Visual Dialog, CVPR 17.
J. Lei et al., TVQA: Localized, Compositional
Video Question Answering, EMNLP 18.
コンピュータは動画像を理解できるようになったのか?
• 深層学習でいろいろできるようになってきた
• 難しいタスクもどんどんスコアが更新されてきている
…ように見えるが
話したいこと
• 動画像の理解に関する研究は膨大&インパクトの大きい研究も多い
• 実際に「動画像を見て」「設定した問題を解いているか」は自明ではない
場合も
• データセット・タスクデザインによっては意図しない結果に
シンプルな画像識別タスク
Kinship verification:この二人が家族か当てる
J. P. Robinson, M. Shao, Y. Wu, H. Liu, T. Gillis, and Y. Fu, Visual Kinship Recognition of Families in the Wild, IEEE
Trans. Pattern Anal. Mach. Intell., vol. 40, no. 11, pp. 2624‒2637, 2018.
このタスクができる→顔の複雑な特徴の認識ができているはず!
データに意図しないバイアス
M. Dawson, A. Zisserman, C. Nellaker, "From Same Photo: Cheating on Visual Kinship Challenges," Asian
Conference on Computer Vision, 2018
背景・照明環境などが強力なヒントとして潜在
2 M. Dawson et al.
Fig. 1. Representative examples of how cropping face images from the same original
photo can make the kinship verification a trivial task. Confounding, non–kinship infor-
mation includes camera specific noise, the background similarity (A,C), the historical
意図しないヒントを含むデータで学習すると
(明るさと
ノイズの出方が一緒だ
から)
A. Kinship
期待した機能は学習されていないが、人間からはちゃんと問題を解いているように見える
(人の顔の認識)
動画像→言語タスクの評価の難しさ
VQAタスク:画像の内容に関するクイズに答える
このタスクができる→質問文理解+画像の意味内容理解ができているはず!
S. Antol et al., VQA: Visual Question Answering, in The IEEE International Conference on Computer Vision (ICCV), 2015.
言語(質問文・回答)に大きな偏り
Y. Goyal, T. Khot, D. Summers-Stay, D. Batra, and D. Parikh, Making the v in VQA Matter: Elevating the Role of
Image Understanding in Visual Question Answering, in CVPR, 2017.
偏りのあるデータで学習すると
正答率は高いが…本当に画像見てる?
A. Agrawal, D. Batra, and D. Parikh, Analyzing the Behavior of Visual Question Answering Models, in EMNLP, 2016,
pp. 1955‒1960.
偏りのあるデータで学習すると
A. Agrawal, D. Batra, and D. Parikh, Analyzing the Behavior of Visual Question Answering Models, in EMNLP, 2016,
pp. 1955‒1960.
QとAの対応だけ学習
画像を見ないで回答してるかも
• (特に出力が言語だと)なにか賢いシステムができているように見える
• 結果を細かく分析することが重要
※全てがこれで説明できるわけではない
さらに複雑な意味理解タスクでは?
映像要約(自動編集):
長い動画から自動で重要な箇所を抜き出して短い
動画を作成
このタスクができる→動画中のイベントの重要度
を判定できているはず!
M. Otani et al., Rethinking the Evaluation of Video Summaries, CVPR 19.
Mayu Otani
CyberAgent, Inc.
Yuta Nakashima
Osaka University
Esa Rahtu
Tampere University
Janne Hei
University o
Abstract
Video summarization is a technique to create a short
skim of the original video while preserving the main sto-
ries/content. There exists a substantial interest in automa-
tizing this process due to the rapid growth of the available
material. The recent progress has been facilitated by public
benchmark datasets, which enable easy and fair compari-
son of methods. Currently the established evaluation proto-
col is to compare the generated summary with respect to a
set of reference summaries provided by the dataset. In this
paper, we will provide in-depth assessment of this pipeline
using two popular benchmark datasets. Surprisingly, we
observe that randomly generated summaries achieve com-
parable or better performance to the state-of-the-art. In
some cases, the random summaries outperform even the
human generated summaries in leave-one-out experiments.
Moreover, it turns out that the video segmentation, which is
Importance Score Prediction
Video Segmentation
Segment Selection
Interestingness
Representativeness
etc.
映像要約はもう解決?
もはや動画編集能力は人間以上⁉
M. Otani et al., Rethinking the Evaluation of Video Summaries, CVPR 19.
評価指標の妥当性?
スコアだけを見ると高性能に見えるが高度な意味を扱うタスクはそもそも評価することが難しい
VS
人間によるアノテーション ランダム
M. Otani et al., Rethinking the Evaluation of Video Summaries, CVPR 19.
これまでの動画(画像)理解
• 多様な動画像/言語の対応付けから動画像理解が検証されている
• しかし意味内容理解はタスク/評価指標の設計がすごく難しい
• ベンチマークで高いスコア→動画像理解の実現ではない
• データ・タスクの検証&改善のサイクルが進んでいる
より高度な動画内容の理解へ
動画像にはどんな意図がある?
たとえば、動画の中の人(キャラクター)の行動の意図
Q. Why is Castle vexed after he read the note?
J. Lei et al., TVQA: Localized, Compositional
Video Question Answering, EMNLP 18.
Why is pointing at ?
R. Zellers et al., From Recognition to Cognition:
Visual Commonsense Reasoning, EMNLP 18.
質問応答の問題として研究が出てきている
高度な動画理解のためのデータセット
• 該当する瞬間の内容(オブジェクト、アクション、etc.)
• 前後のイベント
• 会話の内容
• 知識(常識、キャラクターの設定)
マルチモーダルなデータで構成される高度な意図の理解
Q. Why is Castle vexed after he read the note?
動画像からの意図理解のこれまでとこれから
• 深層学習を得て多様な動画像理解タスクにチャレンジしてきた
• タスク・データセットの検証&アップデートが進んでいる
• 意図理解に向けて、いかにタスクに落とし込むか、どんなデータを整備するか

動画からの意図理解のこれまでとこれから