2018/11/20~21 人工知能学会 言語・音声理解と対話処理研究会(SLUD)第84回研究会 「第9回対話システムシンポジウム」 での招待講演資料です。概要は以下の通り。
コンピュータビジョン分野と自然言語処理分野それぞれで、深層学習がコモディティ化されたモジュールとして浸透し、お互いの参入障壁が緩和された。視覚や言語と言った単独のモダリティでの識別や生成の精度も同時に向上したため、Vision & Languageと呼ばれる融合分野の研究が盛んになっている。本講演では、中でも対話と視覚を融合させる試みについて概観する。前提として画像キャプション生成やビジュアル質問応答などの関連分野について触れた後、実際に対話と視覚を融合させる種々の研究について述べる。