SlideShare a Scribd company logo
1 of 28
Download to read offline
テキスト情報と画像情報を組み合わせた
論理推論システムの構築
鈴木莉子1
 吉川将司2
 谷中瞳3,1
 峯島宏次1
 戸次大介1
令和元年6月5日(水)
人工知能学会2019@新潟
1
お茶の水女子大学 2
奈良先端科学技術大学院大学
3
理化学研究所AIPセンター
● 画像とテキストといった異なるモーダルの情報を統合的に理解
し、新しい知識を獲得する
○ 画像:物体、それらの位置、etc.
○ テキスト:アコーディオンを弾いてる?持ってるだけ?
マルチモーダル推論
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
テキストデータ
画像
2
×
The man playing an accordion is next to a woman.
関連研究
グラフによる画像情報の意味表現 [Johnson+ 2015]
● VisualGenome [Ranjay+ 2016]
3
課題点
➔ 否定、数量、量化など複雑の意味を扱うことが難しい
4
より表現力の高い意味表現で
画像を扱う必要がある
本研究の取り組み
● 論理式を用いたマルチモーダル推論システム
○ 画像、テキストを論理式で表現
○ 論理式間の関係を定理証明器でチェック
● 文クエリによる画像検索で評価
○ 含意⇒画像を結果として返す
5
5
There is no cat.
All cats are sitting on the chair.
?
提案手法
6
1
4
2
3
��0
0. FOLストラクチャ
FOLストラクチャ M=(D,I), D :ドメイン, I : 解釈関数
d1
d2
d3
7
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
(ちなみに)FOL ストラクチャはScene Graph [Johnson 2015]と対応している
ここの成果は
ACL-SRWにて発表
画像から
FOLストラクチャ
・画像
・FOLのストラクチャ M = <D, F, G>
・キャプション(True/False)
・データ数:200件
8
・touches ・supports
・occludes ・near
・part_of
画像中の物体情報
f(cat,[d1])
f(dog,[d2])
f(tree,[d3])
物体の属性情報
f(gray,[d1])
f(black,[d2])
f(brown,[d3])
物体間の空間情報(関係)
f(touches, [(d1, d3)])
f(part_of, [(n1, d1)])
● GRIM [Hurlimann+ 2016]
提案手法
9
3
4
1
2
��0
①画像から論理式への変換
10
FOLストラクチャから論理式への2通りの翻訳方法
述語サーカムスクリプション [McCarthy 1980]:
● 述べられていること以外は、考慮しない
● ~という性質(関係)を持つのは、・・・だけである
FOLストラクチャ 変換方法 論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))
画像情報が持つ網羅性を明示的に扱うことができ、
否定や量化などを伴う文と組み合わせた論理推論が可能になる
シンプルな翻訳:
サーカムスクリプションによる翻訳:
①画像から論理式への変換
11
(S1) entity(d1)∧entity(d2)∧ entity(d3)
(S2) man(d1)∧ woman(d2)∧ accordion(d3)∧
white(d3)
(S3) play(d1,d3)∧ near(d1,d2)
(C1) ∀x. (entity(x) ↔ (x = d1∨ x = d2∨ x = d3))
(C2) ∀x. (man(x) ↔ (x = d1))
(C3) ∀xy. (play(x,y) ↔ (x = d1∧ y = d3))
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
①画像から論理式への変換
12
● サーカムスクリプション翻訳は複雑 ⇒ 推論速度に影響
○ 論理式の形に基づき翻訳方法をきめる
● 基本的に全称、否定が伴う論理式は負
○ 論理式の正負は予稿参照
帰結部が正の論理式の場合はシンプルな翻訳を、負の論理式の
場合はサーカムスクリプションによる翻訳を用いる
正の論理式:There are two cats. / ∃xy.cat(x)∧cat(y)∧(x≠y)
負の論理式:All cats are white. / ∀x.(cat(x) → white(x))
There is no white cat. / ∀x.¬(white(x)∧cat(x))
提案手法
13
3
4
1
2��
0
②キャプションの活用
14
● テキストと画像の持つ情報は相補的
● キャプションを利用して画像の意味表現を拡張する
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
キャプション
画像
×
The man playing an accordion is next to a woman.
②キャプションの活用
15
1. キャプションをccg2lambdaで意味解析
2. 論理式でFOLストラクチャを拡張
○ 指示関係が一意に定まる場合にのみ述語を追加する
The man is sitting on the chair.
⇒ ョxy.(man(x) ⋀ chair(y) ⋀ sit_on(x,y))
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(chair)={d4}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
I(sit_on)={(d1,d4)}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
提案手法
16
3
4
1
2
��
0
③文から論理式への変換
● 文から論理式の変換にCCG (組合せ範疇文法) [Steedman 2000]
に基づく意味解析器ccg2lambda [Mineshima+ 2015] を用いる
There is a man. exists x. man(x)
導出木
導出木
ccg2lambda
17
③意味解析テンプレートの改良
● 数量表現の改良など
○ 少なくとも n 個, ちょうど n 個, 高々 n 個
例)There are two cats./There are at least two cats.
18
ョx.(two(x) ⋀ cat(x)) ⇒ ョxy.(cat(x) ⋀ cat(y) ⋀ ¬(x = y))
提案手法
19
3
4
1
2
��
0
④定理証明
● Γ が A を含意するか(Γ⊦A)を判定する方法
○ Γ:画像を表す論理式の集合
○ A:検索クエリの論理式
● 本研究ではVampire [W. McCune 2005--2010]を用いる
20
?
?
● GRIMデータセットを用いる
○ 画像 + FOLストラクチャ + キャプション
● 19文のクエリを用意
○ GRIM中の正解画像を人手で付与
There is a cat or dog. [論理結合子]
There are at least two cats. [数詞]
There is no cat. [量化]
Every person is touching a bicycle. [量化] [空間関係]
21
評価実験(実験データ)
● FOLストラクチャをシンプルまたはサーカムスクリプションによ
り翻訳したときの影響を評価
実験① サーカムスクリプションによる
解析性能の評価
22
FOLストラクチャ 変換方法 論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))
実験結果 言語現象ごとのF値と速度
23
言語現象 シンプル サーカムスクリプション
論理結合子 0.68 / 8.9 0.84 / 12.1
数詞 0.81 / 8.8 0.95 / 9.2
量化 0.0 / 10.4 0.76 / 35.0
空間関係 0.73 / 9.3 0.88 / 13.3
全体 0.74 / 9.0 0.88 / 11.9
サーカムスクリプションにより、量化や否定を含む文の
精度が大きく改善した
F値 / 速度[sec]
本提案手法の予測画像
24
“There are at least two cats.”
“There is a cat which is not white.”
● GRIMには位置関係の述語しかないため、キャプションを用いて
一般の関係を扱えるようになるか評価
例)A person is wearing a hat.
● クエリとキャプションに含まれる述語のギャップでエラー
○ クエリはman, キャプションにpersonなど
○ ∀x.man(x) → person(x)など知識の追加が課題
実験② キャプションからストラクチャ
への変換の評価
25
適合率 再現率 F1
0.86 0.36 0.49
本提案手法の予測画像
“A person is riding a bicycle.”
26
(a) True positive
(c) False negative
(b) True negative
まとめ
● 画像とテキストを論理式を用いて統一的に扱い、
推論を行うシステムを提案した
● CCGの意味解析と定理証明を組み合わせることで、否
定や量化・数量表現の意味を扱うことが可能に
なることを示した
27
+ There is no cat.
Two cats are sitting
next to each other.
All cats are sitting on the chair.
D={d1,d2,d3}
I(cat)={d1,d2}
I(blanket)={d3}
I(chair)={d4}
I(red)={d4}
I(next_to)={(d1,d2)}
I(sit_on)={(d1,d4),
(d2,d4)}
今後の課題
28
● Scene Graph から 論理式への変換
● Visual Genomeを使った大きめの実験
→ “Multimodal Logical Inference System for
Visual-Textual Entailment” (ACL-SRW2019)
● 画像からFOLモデル抽出の自動化と提案手法を繋げる
● VisualQA、GQAタスクへの挑戦(TallyQA [Achaya+ 2018])
● 定理証明の高速化(論理式の書き方により証明速度が変化
することが知られている [Stephen+ 2018])

More Related Content

What's hot

What's hot (9)

コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
前景と背景の画像合成技術
前景と背景の画像合成技術前景と背景の画像合成技術
前景と背景の画像合成技術
 
Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3
 

テキスト情報と画像情報を組み合わせた論理推論システムの構築