1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Measuring abstract reasoning in neural networks
(ICML2018)
Norihisa Kobayashi
書誌情報
2
Measuring abstract reasoning in neural networks(ICML2018)
(https://arxiv.org/abs/1807.04225)
タイトル:
著者: David G.T. Barrett, Felix Hill, Adam Santoro,
Ari S. Morcos, Timothy Lillicrap
• ニューラルネットワークでは、大きな成果を上げているが、抽象的な推論を確立することは困難で
ある事が証明されている
• 本研究では、抽象推論を測定するアプローチを示し、一般化に関する洞察を明らかにする
• 結果、新しいアーキテクチャ(WReN)を提示し、従来のアーキテクチャよりも高い精度を出した
• また、補助訓練を行うことで、一般化の精度を高めることができた
• 抽象推論と一般化の両方をモデルで研究するためのツールとして、PGMデータセットを導入
概要:
選定理由: 汎用化や抽象的な学習に興味
書誌情報
3
DeepMind News & Blog
https://deepmind.com/blog/measuring-abstract-reasoning/
アジェンダ
4
1. Introduction
2. Raven‘s Progressive Matrices(RPM)
3. Procedurally generating matrices
4. Models and Experimental Setup
5. Experiments
6. Discussion
1. Introduction
• ニューラルネットワークベースのモデルは、大きな成果を上げているが、抽象的な推論を確立することは困難で
ある事が証明されている
• 抽象的な推論は人間の知性の特徴であり、重要である
(アインシュタインのエレベータ思考実験など、抽象的な概念を関連付ける能力は知性において重要)
5
背景
より賢いシステムを構築するためには、ニューラルネットワークが抽象的な概念を
処理できる方法を理解し、改善が必要なところがどこにあるのかを理解することが重要
1. Introduction
6
1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な
推論課題に対する解決策を見つけることができるか?
2. 見つけられるのであれば、訓練データが制御されているときにどれだけうまく推論できるのか?
研究目的
2. Raven‘s Progressive Matrices(RPM)
7
Raven‘s Progressive Matrices(RPM)
• アメリカの心理学者レーヴンによって1938年に考案された知能検査
• RPMは、通常不完全な3 × 3マトリックスと、8つの回答候補画像から構成
• 候補画像のどれがマトリクスを完成させるのに最適な選択肢であるかを選択する
2. Raven‘s Progressive Matrices(RPM)
8
Q.次の空欄に当てはまる図形を選択してください。
2. Raven's Progressive Matrices(RPM)
9
Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か?
2. Raven's Progressive Matrices(RPM)
10
同じ行において、パネルが右にいくにつれて点の数が多くなっている。
そのため、右下の空欄には「4」 となることが推測できる。
=
2. Raven's Progressive Matrices(RPM)
11
点が4つあるのは「A」のみのため、Aが正解となる。
2. Raven's Progressive Matrices(RPM)
12
Q.次の空欄に当てはまる図形を選択してください。
2. Raven's Progressive Matrices(RPM)
13
Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か?
2. Raven's Progressive Matrices(RPM)
14
各列には、点の数が「1」、「5」、「7」 のパネルがある。(このような一連を ”consistent union”と呼ぶ。)
一番右の列は、点の数が「1」のパネルが無いので、空欄は「1」なることが推測できる。
=
2. Raven's Progressive Matrices(RPM)
15
しかし、点が「1」のパネルはA, C, D, E, Hが該当するため、別の関係性を見つける必要がある。
別の関係性とは、どのようなものか?
2. Raven's Progressive Matrices(RPM)
16
各行を見ると、1列目と2列目に共通して出現してる線が3列目に現れている。(これをAND relationと呼ぶ)
この関係が成り立つのは、「A」、「B」、「G」 である。
2. Raven's Progressive Matrices(RPM)
17
2つの関連性を満たしている選択肢は、「A」のみとなる。
3. Procedurally generating matrices
• RPMを学習するために、Procedurally Generated Matrices (PGM) データセット を生成
• Carpenter et al.(1990)、Wang&Su(2015)を参考
18
PGMs データセットの生成
• 抽象構造を、3つの集合要素から定義
relation types(r ∈ R) :progression, XOR, OR, AND, consistent union
object types(o ∈ O) :shape, line
attribute types(a ∈ A):size, type, color, position, number
例:S = [r, o, a]
= [progression, shape, color]
(1 ≤ |S| ≤ 4)
3. Procedurally generating matrices
19
PGMs データセットの生成
3. Procedurally generating matrices
20
一般化レジーム
(1)Neutral : 訓練データとテストデータは、同じ基礎分布から生成
(2)Interpolation(内挿) : 偶数のデータで訓練し、奇数のデータでテスト
(3)Extrapolation(外挿) : Lowerのデータで訓練し、Upperのデータでテスト
(4)Held-out Attribute shape-color : 訓練データセットにo=「shape」と、a=「color」なし
(5)Held-out Attribute line-type : 訓練データセットにo=「line」と、a=「type」なし
(6)Held-out Triples : 29の組み合わせのうち、7組をホールドアウト
(7)Held-out Pairs of Triples : S≥2で、400の組み合わせのうち、40組をホールドアウト
(8)Held-out Attribute Pairs : S≥2で、20組の (a1, a2)に対して、4組をホールドアウト
訓練データとテストデータを意図的に変えて、汎化性能を試す
4. Models and Experimental Setup
• 8つのContext Panel と、8つのChoice Panel(回答候補)で構成
• 各パネルは80×80ピクセルの画像
21
入力データ
• CNN-MLP
• ResNet
• LSTM
• Wild Relation Network(WReN)
• Wild ResNet
• Context-blind ResNet
モデル
4. Models and Experimental Setup
22
Wild Relation Network(WReN)
• Relation Networks(Santoro et al. 2017)に基づくアーキテクチャ
• CNNは、各Context Panelと、Choice Panelから9つの埋め込みベクトルを生成
• ベクトルはRNに渡され、Choice Panelのスコアを付ける
• 各回答選択肢ごとに1つ作成された結果をsoftmax関数に渡す
4. Models and Experimental Setup
補助情報の訓練
23
• relation, object, attribute タイプをバイナリ文字列としてエンコードする「メタ・ターゲット」を構築
• 12桁で、shape, line, color, number, position, size, type, progression, XOR, OR, AND,
consistent union を表現し、OR演算を行い、メタ・ターゲットを生成
例: OR([101000010000], [100100010000])= [101100010000]
• 補助情報の訓練の影響を考慮する場合は、以下においてβ≠0とする
L 𝑡𝑜𝑡𝑎𝑙 = 𝐿 𝑡𝑎𝑟𝑔𝑒𝑡 + βL 𝑚𝑒𝑡𝑎−𝑡𝑎𝑟𝑔𝑒𝑡
5. Experiments
24
• ResNet-50 > LSTM > CNN の順で精度が高い
• 最も精度が高かったのがWReN
モデル別の精度の比較
5. Experiments
25
質問タイプ別の精度
関係性の数
• 関係性が多いほど精度は低くなる傾向がある
• しかし、関係性が3つの場合の方が、関係性が4つ
の場合より精度が低い結果となった
5. Experiments
26
質問タイプ別の精度
関係性の種類
• 図形の数や、線の有無は精度が高い
• 一方で、大きさや形状は精度が低い
5. Experiments
27
一般化
• 最も誤差が少ないのは、Interpolation(内挿)で、
一般化誤差14:6%
• 最も誤差が大きいのは、Extrapolation(外挿)で、
一般化誤差52.1%
→一般化の失敗は、範囲外の入力を認識できないこと
に起因する可能性がある
• Held-out Triplesの一般化の精度が低いということは、
モデルが、構成要素の知識から未知の集合を推論するこ
とができないことを示唆している
• Heldout line-type、Held-out shape-colorの結果
から、新しい属性で作られた関係を理解できていない
5. Experiments
28
補助訓練の効果
• 補助訓練により、一般化レジームの精度は向上した
• 新しい組み合わせに再結合するモデルは、特に精度が向上(H.O. Triple Pairsは41.9%→56.3%、
H.O.Attribute Pairsは、27.2%→51.7%)
• この発見は、知識表現(Andreas et al. 2016)のための離散チャネルの利点と、説明や理論的根拠の
誘導の利点に関する観察と一致する(Ling et al. 2017)
5. Experiments
29
補助訓練の分析
• 補助訓練は、パフォーマンスを向上させることに加えて、モデルがそのPGMに存在すると判断している
shapes, attributes, relationsを測定し、モデルを把握することができる。
• WReNモデルは、メタ・ターゲットの予測が正しければ87.4%のテスト精度を達成したが、予測が正しくない
場合は34.8%であった。
• メタ・ターゲット予測は、オブジェクト、属性、およびリレーション・タイプの予測に分解できる。WReNモデルの
精度が、これらの特性のそれぞれについて予測値の関数としてどのように変化するかを調査
⇒relationプロパティの差が最も大きい
⇒relationプロパティを正しく予測することが、タスクの成功に最も重要である
メタ・ターゲット予測が、
正しい場合のテスト精度
メタ・ターゲット予測が、
誤っている場合のテスト精度
shapes 78.2% 62.2%
attributes 79.5% 49.0%
relation 86.8% 32.1%
6. Discussion
30
1. 最先端のニューラルネットワークは、豊富な訓練データで訓練されれば、複雑で人間が挑戦する抽象的な
推論課題に対する解決策を見つけることができるか?
研究目的に対する結果
• ニューラルネットワークは抽象推論を学ぶことができる
• CNNやResNetsなどの標準的なビジュアルプロセッシングモデルでは不十分であり、
WReNによって複雑な視覚的推論の問題を解決することを学んだ。
• 補助訓練を行うことで精度を向上させる方法を見つけた。メタ・ターゲットを生成することで、
モデルの汎化能力が向上した。
6. Discussion
31
2.複雑で人間が挑戦する抽象的な推論課題に対する解決策を見つけられるのであれば、訓練データが制御
されているときにどれだけうまく推論できるのか?
研究目的に対する結果
• モデルは非常に制約されており、有限の属性と値で少数の関係から構成されている
• 本研究のモデルは、日常生活における経験を、馴染みのない視覚的な推論問題設定に移す必要が
ある人間とは異なり、知覚的および構造的均一性の高い質問セットで訓練している。
• 既知の属性値の間を補間する必要がある場合、またよく知られていない組み合わせで既知の抽象的
なコンテンツを適用する場合、モデルは一般化されている。しかしながら、この制約された領域内であっ
ても、彼らは経験を超えてインプットに推論する必要があるとき、あるいはまったく馴染みのない属性に
対処する必要があるとき、著しく精度が低くなった。
• 後者の行動では、モデルと人間とは非常に異なる。 XORなどの関係を線の色に適用できる人間は、
ほぼ確実にそれを形の色に適用ができる。
6. Discussion
32
• 本研究の重要な貢献は、抽象推論と一般化の両方をモデルで研究するためのツールとして、
PGMデータセットを導入したこと
その他貢献
• メタラーニングなど一般化に向けた改善
• WReNモデルの改良
課題
6. Discussion
33
• (記載されているが)限られた条件の中でのテストであるので、抽象的な推論を行うにはまだ課題がある
• 一方で、質問タイプによる違いや一般化レジームごとの精度の違いを見比べると違いが出ていたり、補助的
な学習で精度を高めたりと、抽象化・一般化に向けた参考となった
感想
Appendix
参考文献
34
• Andreas, J., Klein, D., and Levine, S. Modular multitask reinforcement learning with
policy sketches. arXiv preprint arXiv:1611.01796, 2016.
• http://proceedings.mlr.press/v80/santoro18a/santoro18a-supp.pdf
• https://deepmind.com/blog/measuring-abstract-reasoning/
Appendix
ハイパーパラメータ
35
Appendix
その他例題
36
Appendix
37
Q.次の空欄に当てはまる図形を選択してください。
Appendix
38
Q.次の空欄に当てはまる図形を選択してください。 A.「A」が正解です。何故か?
Appendix
39
同じ列において、パネルが下にいくにつれて図形の数が多くなっている。
そのため、右下の空欄には、図形の数が「5」 となることが推測できる。
=
Appendix
40
しかし、図形の数が「5」のパネルはA, B, C, E, F, Hが該当するため、別の関係性を見つける必要がある。
別の関係性とは、どのようなものか?
Appendix
41
各行を見ると、1列目と2列目に共通して出現してる線が3列目に現れている。(2問目と同様)
この関係が成り立つのは、「A」、「D」、「E」、「H」 である。他に関係性は無いか?
Appendix
42
各列を見ると、1列目と2列目は共通して「灰色」、「濃い灰色」、「黒色」の三色が表示されている。
3列目を見ると、「黒色」 が無いため、空欄には「黒色」が該当することが推測される。
ここは「濃い灰色」では
ないか?と思われる
Appendix
43
3つの関連性を満たしている選択肢は、「A」のみとなる。

[DL輪読会]Measuring abstract reasoning in neural networks