テキスト情報と画像情報を組み合わせた論理推論システムの構築

テキスト情報と画像情報を組み合わせた
論理推論システムの構築
鈴木莉子1
　吉川将司2
　谷中瞳3,1
　峯島宏次1
　戸次大介1
令和元年6月5日(水)
人工知能学会2019@新潟
1
お茶の水女子大学　2
奈良先端科学技術大学院大学
3
理化学研究所AIPセンター

● 画像とテキストといった異なるモーダルの情報を統合的に理解
し、新しい知識を獲得する
○ 画像：物体、それらの位置、etc.
○ テキスト：アコーディオンを弾いてる？持ってるだけ？
マルチモーダル推論
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
テキストデータ
画像
2
×
The man playing an accordion is next to a woman.

関連研究
グラフによる画像情報の意味表現 [Johnson+ 2015]
● VisualGenome [Ranjay+ 2016]
3

課題点
➔ 否定、数量、量化など複雑の意味を扱うことが難しい
4
より表現力の高い意味表現で
画像を扱う必要がある

本研究の取り組み
● 論理式を用いたマルチモーダル推論システム
○ 画像、テキストを論理式で表現
○ 論理式間の関係を定理証明器でチェック
● 文クエリによる画像検索で評価
○ 含意⇒画像を結果として返す
5
5
There is no cat.
All cats are sitting on the chair.
?

提案手法
6
1
4
2
3
��0

0. FOLストラクチャ
FOLストラクチャ M=(D,I), D :ドメイン, I : 解釈関数
d1
d2
d3
7
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
（ちなみに）FOL ストラクチャはScene Graph [Johnson 2015]と対応している
ここの成果は
ACL-SRWにて発表

画像から
FOLストラクチャ
・画像
・FOLのストラクチャ　M = <D, F, G>
・キャプション(True/False)
・データ数：200件
8
・touches　・supports
・occludes　・near
・part_of
画像中の物体情報
f(cat,[d1])
f(dog,[d2])
f(tree,[d3])
物体の属性情報
f(gray,[d1])
f(black,[d2])
f(brown,[d3])
物体間の空間情報（関係）
f(touches, [(d1, d3)])
f(part_of, [(n1, d1)])
● GRIM [Hurlimann+ 2016]

提案手法
9
3
4
1
2
��0

①画像から論理式への変換
10
FOLストラクチャから論理式への２通りの翻訳方法
述語サーカムスクリプション [McCarthy 1980]：
● 述べられていること以外は、考慮しない
● ～という性質（関係）を持つのは、・・・だけである
FOLストラクチャ変換方法論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))
画像情報が持つ網羅性を明示的に扱うことができ、
否定や量化などを伴う文と組み合わせた論理推論が可能になる

シンプルな翻訳：
サーカムスクリプションによる翻訳：
11
(S1)　entity(d1)∧entity(d2)∧ entity(d3)
(S2)　man(d1)∧ woman(d2)∧ accordion(d3)∧
white(d3)
(S3)　play(d1,d3)∧ near(d1,d2)
(C1)　∀x. (entity(x) ↔ (x = d1∨ x = d2∨ x = d3))
(C2)　∀x. (man(x) ↔ (x = d1))
(C3)　∀xy. (play(x,y) ↔ (x = d1∧ y = d3))
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}

12
● サーカムスクリプション翻訳は複雑 ⇒ 推論速度に影響
○ 論理式の形に基づき翻訳方法をきめる
● 基本的に全称、否定が伴う論理式は負
○ 論理式の正負は予稿参照
帰結部が正の論理式の場合はシンプルな翻訳を、負の論理式の
場合はサーカムスクリプションによる翻訳を用いる
正の論理式：There are two cats. / ∃xy.cat(x)∧cat(y)∧(x≠y)
負の論理式：All cats are white. / ∀x.(cat(x) → white(x))
There is no white cat. / ∀x.￢(white(x)∧cat(x))

提案手法
13
3
4
1
2��
0

②キャプションの活用
14
● テキストと画像の持つ情報は相補的
● キャプションを利用して画像の意味表現を拡張する
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
キャプション
画像
×
The man playing an accordion is next to a woman.

②キャプションの活用
15
1. キャプションをccg2lambdaで意味解析
2. 論理式でFOLストラクチャを拡張
○ 指示関係が一意に定まる場合にのみ述語を追加する
The man is sitting on the chair.
⇒ ョxy.(man(x) ⋀ chair(y) ⋀ sit_on(x,y))
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(chair)={d4}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
I(sit_on)={(d1,d4)}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}

提案手法
16
3
4
1
2
��
0

③文から論理式への変換
● 文から論理式の変換にCCG (組合せ範疇文法) [Steedman 2000]
に基づく意味解析器ccg2lambda [Mineshima+ 2015] を用いる
There is a man. exists x. man(x)
導出木
導出木
ccg2lambda
17

③意味解析テンプレートの改良
● 数量表現の改良など
○ 少なくとも n 個, ちょうど n 個, 高々 n 個
例）There are two cats.／There are at least two cats.
18
ョx.(two(x) ⋀ cat(x)) ⇒ ョxy.(cat(x) ⋀ cat(y) ⋀ ￢(x = y))

提案手法
19
3
4
1
2
��
0

④定理証明
● Γ が A を含意するか（Γ⊦A）を判定する方法
○ Γ：画像を表す論理式の集合
○ A：検索クエリの論理式
● 本研究ではVampire [W. McCune 2005--2010]を用いる
20
?
?

● GRIMデータセットを用いる
○ 画像＋ FOLストラクチャ＋キャプション
● １９文のクエリを用意
○ GRIM中の正解画像を人手で付与
There is a cat or dog. [論理結合子]
There are at least two cats. [数詞]
There is no cat. [量化]
Every person is touching a bicycle. [量化] [空間関係]
21
評価実験（実験データ）

● FOLストラクチャをシンプルまたはサーカムスクリプションによ
り翻訳したときの影響を評価
実験① サーカムスクリプションによる
解析性能の評価
22
FOLストラクチャ変換方法論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))

実験結果言語現象ごとのF値と速度
23
言語現象シンプルサーカムスクリプション
論理結合子 0.68 / 8.9 0.84 / 12.1
数詞 0.81 / 8.8 0.95 / 9.2
量化 0.0 / 10.4 0.76 / 35.0
空間関係 0.73 / 9.3 0.88 / 13.3
全体 0.74 / 9.0 0.88 / 11.9
サーカムスクリプションにより、量化や否定を含む文の
精度が大きく改善した
F値 / 速度[sec]

本提案手法の予測画像
24
“There are at least two cats.”
“There is a cat which is not white.”

● GRIMには位置関係の述語しかないため、キャプションを用いて
一般の関係を扱えるようになるか評価
例）A person is wearing a hat.
● クエリとキャプションに含まれる述語のギャップでエラー
○ クエリはman, キャプションにpersonなど
○ ∀x.man(x) → person(x)など知識の追加が課題
実験② キャプションからストラクチャ
への変換の評価
25
適合率再現率 F1
0.86 0.36 0.49

本提案手法の予測画像
“A person is riding a bicycle.”
26
(a) True positive
(c) False negative
(b) True negative

まとめ
● 画像とテキストを論理式を用いて統一的に扱い、
推論を行うシステムを提案した
● CCGの意味解析と定理証明を組み合わせることで、否
定や量化・数量表現の意味を扱うことが可能に
なることを示した
27
＋ There is no cat.
Two cats are sitting
next to each other.
All cats are sitting on the chair.
D={d1,d2,d3}
I(cat)={d1,d2}
I(blanket)={d3}
I(chair)={d4}
I(red)={d4}
I(next_to)={(d1,d2)}
I(sit_on)={(d1,d4),
(d2,d4)}

今後の課題
28
● Scene Graph から論理式への変換
● Visual Genomeを使った大きめの実験
→ “Multimodal Logical Inference System for
Visual-Textual Entailment” (ACL-SRW2019)
● 画像からFOLモデル抽出の自動化と提案手法を繋げる
● VisualQA、GQAタスクへの挑戦（TallyQA [Achaya+ 2018]）
● 定理証明の高速化（論理式の書き方により証明速度が変化
することが知られている [Stephen+ 2018]）

テキスト情報と画像情報を組み合わせた論理推論システムの構築

Recommended

Recommended

More Related Content

What's hot

What's hot (9)

テキスト情報と画像情報を組み合わせた論理推論システムの構築