SlideShare a Scribd company logo
テキスト情報と画像情報を組み合わせた
論理推論システムの構築
鈴木莉子1
 吉川将司2
 谷中瞳3,1
 峯島宏次1
 戸次大介1
令和元年6月5日(水)
人工知能学会2019@新潟
1
お茶の水女子大学 2
奈良先端科学技術大学院大学
3
理化学研究所AIPセンター
● 画像とテキストといった異なるモーダルの情報を統合的に理解
し、新しい知識を獲得する
○ 画像:物体、それらの位置、etc.
○ テキスト:アコーディオンを弾いてる?持ってるだけ?
マルチモーダル推論
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
テキストデータ
画像
2
×
The man playing an accordion is next to a woman.
関連研究
グラフによる画像情報の意味表現 [Johnson+ 2015]
● VisualGenome [Ranjay+ 2016]
3
課題点
➔ 否定、数量、量化など複雑の意味を扱うことが難しい
4
より表現力の高い意味表現で
画像を扱う必要がある
本研究の取り組み
● 論理式を用いたマルチモーダル推論システム
○ 画像、テキストを論理式で表現
○ 論理式間の関係を定理証明器でチェック
● 文クエリによる画像検索で評価
○ 含意⇒画像を結果として返す
5
5
There is no cat.
All cats are sitting on the chair.
?
提案手法
6
1
4
2
3
��0
0. FOLストラクチャ
FOLストラクチャ M=(D,I), D :ドメイン, I : 解釈関数
d1
d2
d3
7
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
(ちなみに)FOL ストラクチャはScene Graph [Johnson 2015]と対応している
ここの成果は
ACL-SRWにて発表
画像から
FOLストラクチャ
・画像
・FOLのストラクチャ M = <D, F, G>
・キャプション(True/False)
・データ数:200件
8
・touches ・supports
・occludes ・near
・part_of
画像中の物体情報
f(cat,[d1])
f(dog,[d2])
f(tree,[d3])
物体の属性情報
f(gray,[d1])
f(black,[d2])
f(brown,[d3])
物体間の空間情報(関係)
f(touches, [(d1, d3)])
f(part_of, [(n1, d1)])
● GRIM [Hurlimann+ 2016]
提案手法
9
3
4
1
2
��0
①画像から論理式への変換
10
FOLストラクチャから論理式への2通りの翻訳方法
述語サーカムスクリプション [McCarthy 1980]:
● 述べられていること以外は、考慮しない
● ~という性質(関係)を持つのは、・・・だけである
FOLストラクチャ 変換方法 論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))
画像情報が持つ網羅性を明示的に扱うことができ、
否定や量化などを伴う文と組み合わせた論理推論が可能になる
シンプルな翻訳:
サーカムスクリプションによる翻訳:
①画像から論理式への変換
11
(S1) entity(d1)∧entity(d2)∧ entity(d3)
(S2) man(d1)∧ woman(d2)∧ accordion(d3)∧
white(d3)
(S3) play(d1,d3)∧ near(d1,d2)
(C1) ∀x. (entity(x) ↔ (x = d1∨ x = d2∨ x = d3))
(C2) ∀x. (man(x) ↔ (x = d1))
(C3) ∀xy. (play(x,y) ↔ (x = d1∧ y = d3))
D={d1,d2,d3}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
①画像から論理式への変換
12
● サーカムスクリプション翻訳は複雑 ⇒ 推論速度に影響
○ 論理式の形に基づき翻訳方法をきめる
● 基本的に全称、否定が伴う論理式は負
○ 論理式の正負は予稿参照
帰結部が正の論理式の場合はシンプルな翻訳を、負の論理式の
場合はサーカムスクリプションによる翻訳を用いる
正の論理式:There are two cats. / ∃xy.cat(x)∧cat(y)∧(x≠y)
負の論理式:All cats are white. / ∀x.(cat(x) → white(x))
There is no white cat. / ∀x.¬(white(x)∧cat(x))
提案手法
13
3
4
1
2��
0
②キャプションの活用
14
● テキストと画像の持つ情報は相補的
● キャプションを利用して画像の意味表現を拡張する
The man is performing an accordion.
The woman wears a pink dress.
There is not a green parasol.
キャプション
画像
×
The man playing an accordion is next to a woman.
②キャプションの活用
15
1. キャプションをccg2lambdaで意味解析
2. 論理式でFOLストラクチャを拡張
○ 指示関係が一意に定まる場合にのみ述語を追加する
The man is sitting on the chair.
⇒ ョxy.(man(x) ⋀ chair(y) ⋀ sit_on(x,y))
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(chair)={d4}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
I(sit_on)={(d1,d4)}
I(man)={d1}
I(woman)={d2}
I(accordion)={d3}
I(white)={d3}
I(near)={(d1,d2)}
I(play)={(d1,d3)}
提案手法
16
3
4
1
2
��
0
③文から論理式への変換
● 文から論理式の変換にCCG (組合せ範疇文法) [Steedman 2000]
に基づく意味解析器ccg2lambda [Mineshima+ 2015] を用いる
There is a man. exists x. man(x)
導出木
導出木
ccg2lambda
17
③意味解析テンプレートの改良
● 数量表現の改良など
○ 少なくとも n 個, ちょうど n 個, 高々 n 個
例)There are two cats./There are at least two cats.
18
ョx.(two(x) ⋀ cat(x)) ⇒ ョxy.(cat(x) ⋀ cat(y) ⋀ ¬(x = y))
提案手法
19
3
4
1
2
��
0
④定理証明
● Γ が A を含意するか(Γ⊦A)を判定する方法
○ Γ:画像を表す論理式の集合
○ A:検索クエリの論理式
● 本研究ではVampire [W. McCune 2005--2010]を用いる
20
?
?
● GRIMデータセットを用いる
○ 画像 + FOLストラクチャ + キャプション
● 19文のクエリを用意
○ GRIM中の正解画像を人手で付与
There is a cat or dog. [論理結合子]
There are at least two cats. [数詞]
There is no cat. [量化]
Every person is touching a bicycle. [量化] [空間関係]
21
評価実験(実験データ)
● FOLストラクチャをシンプルまたはサーカムスクリプションによ
り翻訳したときの影響を評価
実験① サーカムスクリプションによる
解析性能の評価
22
FOLストラクチャ 変換方法 論理式
(cat,{d1,d2})
シンプルな連言 cat(d1)∧cat(d2)
述語サーカムスクリプション
∀x.(cat(x)↔
(x=d1∨x=d2))
実験結果 言語現象ごとのF値と速度
23
言語現象 シンプル サーカムスクリプション
論理結合子 0.68 / 8.9 0.84 / 12.1
数詞 0.81 / 8.8 0.95 / 9.2
量化 0.0 / 10.4 0.76 / 35.0
空間関係 0.73 / 9.3 0.88 / 13.3
全体 0.74 / 9.0 0.88 / 11.9
サーカムスクリプションにより、量化や否定を含む文の
精度が大きく改善した
F値 / 速度[sec]
本提案手法の予測画像
24
“There are at least two cats.”
“There is a cat which is not white.”
● GRIMには位置関係の述語しかないため、キャプションを用いて
一般の関係を扱えるようになるか評価
例)A person is wearing a hat.
● クエリとキャプションに含まれる述語のギャップでエラー
○ クエリはman, キャプションにpersonなど
○ ∀x.man(x) → person(x)など知識の追加が課題
実験② キャプションからストラクチャ
への変換の評価
25
適合率 再現率 F1
0.86 0.36 0.49
本提案手法の予測画像
“A person is riding a bicycle.”
26
(a) True positive
(c) False negative
(b) True negative
まとめ
● 画像とテキストを論理式を用いて統一的に扱い、
推論を行うシステムを提案した
● CCGの意味解析と定理証明を組み合わせることで、否
定や量化・数量表現の意味を扱うことが可能に
なることを示した
27
+ There is no cat.
Two cats are sitting
next to each other.
All cats are sitting on the chair.
D={d1,d2,d3}
I(cat)={d1,d2}
I(blanket)={d3}
I(chair)={d4}
I(red)={d4}
I(next_to)={(d1,d2)}
I(sit_on)={(d1,d4),
(d2,d4)}
今後の課題
28
● Scene Graph から 論理式への変換
● Visual Genomeを使った大きめの実験
→ “Multimodal Logical Inference System for
Visual-Textual Entailment” (ACL-SRW2019)
● 画像からFOLモデル抽出の自動化と提案手法を繋げる
● VisualQA、GQAタスクへの挑戦(TallyQA [Achaya+ 2018])
● 定理証明の高速化(論理式の書き方により証明速度が変化
することが知られている [Stephen+ 2018])

More Related Content

What's hot

コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
yamahige
 
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
Akira Asano
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
Deep Learning JP
 
前景と背景の画像合成技術
前景と背景の画像合成技術前景と背景の画像合成技術
前景と背景の画像合成技術
Morpho, Inc.
 
Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
Atsushi Hashimoto
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
Hirotaka Hachiya
 
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
Yasuhisa Kondo
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
Sotetsu KOYAMADA(小山田創哲)
 
データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3
Hiroyuki Ichikawa
 

What's hot (9)

コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
2020年度秋学期 画像情報処理 講義の進め方と成績評価について (2020.9. 25)
 
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
[DL輪読会]Graph Convolutional Policy Network for Goal-Directed Molecular Graph G...
 
前景と背景の画像合成技術
前景と背景の画像合成技術前景と背景の画像合成技術
前景と背景の画像合成技術
 
Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
オープンチームサイエンス〜シビックテックを取り入れた社会課題解決研究の方法論〜
 
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning【論文紹介】PGQ: Combining Policy Gradient And Q-learning
【論文紹介】PGQ: Combining Policy Gradient And Q-learning
 
データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3データアカデミー 兵庫広域自治体3
データアカデミー 兵庫広域自治体3
 

テキスト情報と画像情報を組み合わせた論理推論システムの構築