2. ● 画像とテキストといった異なるモーダルの情報を統合的に理解
し、新しい知識を獲得する
○ 画像:物体、それらの位置、etc.
○ テキスト:アコーディオンを弾いてる?持ってるだけ?
マルチモーダル推論
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
テキストデータ
画像
2
×
The man playing an accordion is next to a woman.
17. ③文から論理式への変換
● 文から論理式の変換にCCG (組合せ範疇文法) [Steedman 2000]
に基づく意味解析器ccg2lambda [Mineshima+ 2015] を用いる
There is a man. exists x. man(x)
導出木
導出木
ccg2lambda
17
18. ③意味解析テンプレートの改良
● 数量表現の改良など
○ 少なくとも n 個, ちょうど n 個, 高々 n 個
例)There are two cats./There are at least two cats.
18
ョx.(two(x) ⋀ cat(x)) ⇒ ョxy.(cat(x) ⋀ cat(y) ⋀ ¬(x = y))
21. ● GRIMデータセットを用いる
○ 画像 + FOLストラクチャ + キャプション
● 19文のクエリを用意
○ GRIM中の正解画像を人手で付与
There is a cat or dog. [論理結合子]
There are at least two cats. [数詞]
There is no cat. [量化]
Every person is touching a bicycle. [量化] [空間関係]
21
評価実験(実験データ)