20181214 clebsch gordan_mizuta

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Clebsch-Gordan Nets: a Fully Fourier Space Spherical
Convolutional Neural Network
Rei Mizuta, Graduate School of Mathematical Sciences, UT

書誌情報
• 著者:Risi Kondor, Zhen Lin, Shubhendu Trivedi
• NIPS 2018 (12/2~12/8 @Canada)
• （cf. On the generalization of equivalence and convolution in neural
networks to the action of compact groups.; ICLR 2018）
• Spherical CNNs（Taco S. Cohen et al.; ICLR 2018）のアーキテクチャを変え
てSO(3)-equivariant（つまり⼊⼒を回転してもNNの出⼒は同じ）にしたもの
• 定義：SO(3):={𝑔 ∈ 𝑀$(ℝ)|𝑔𝑔( = 𝑔( 𝑔 = 𝐼, det 𝑔 = 1}
• SO(3)は3次元、⾮可換、コンパクト
2
球⾯を中⼼を固定して
動かす操作の全体！

何をするのか
• 球⾯上のデータの分類問題を学習したい
• 例えば、CNNのようにcross-correlation（≒convolution）を使った処理をした
い（Spherical CNNs）
– 今回のスライドではSpherical CNNsのみこの操作を⾏うが、cross-correlationは
convolutionと同⼀視して構わないので以降convolution（or 畳み込み）と呼ぶ
• 普通にCNNのような処理をしようとすると移動するごとにフィルタの形が変わっ
てしまいグリッドの数に応じてメモリが必要
3

目的
• 3D Shape Recognition
• meshで与えられる3Dデータに対して周囲から中⼼点に向けてのray castingで得
られる情報のみを使って物体についての情報を推測する
• ⼀般に物体が凸でないとray castingで情報が落ちてしまうが、今回のタスクには
⼗分
4
• ⼀般に物体が回転しているかも
しれない状況でも、NN⾃体に
SO(3)-equivariantの性質があ
るとpredictionの出⼒は回転に
依らない

要点
(1)Spherical CNNsは球⾯上のデータに対してCNNのような処理をすることを⽬的
にしている。そのためにフーリエ変換の（可換でない群への）拡張を使う。
(2)Clebsch-Gordan netでは活性化層にReluやSigmoidなどを使わず、Fusion
Ruleから来る関数を使っている。結果NNがSO(3)-equivaliantになる。
(3)3D Shape Recognitionの実験結果はSpherical CNNsや（このタスクに特化し
た）他の既存⼿法と⽐べて遜⾊ない
5

目次
1. 既存⼿法
1. Review of CNN
2. The Convolution over SO(3)
3. Representations of SO(3)
4. Spherical CNNs
2. 提案⼿法
1. The Fusion Rule of SO(3)
2. Clebsch-Gordan net
3. 各⼿法の評価
1. データセットと評価指標
2. アーキテクチャ
3. 結果
4. まとめと感想
6

1.1 Review of CNN
1. 画像データをR^2の上の関数だと思うと、畳み込みは⼊⼒画像が並⾏移動し
た場合に計算結果が平⾏移動する。
2. （1次元データで）畳み込みがO(N^2)かかるのに対しFourier Transformし
て掛けてからInverse FTするとFast FTを挟むことでO(Nlog N)で計算できる。
3. しかしCNNはFTを使わない。<- フィルタは局所的な関数であるため、普通に
畳み込みをしてもO(N)だから。
4. しかしSpherical CNNでは普通の畳み込みができないので、Fourier
Transformの類似を使う！
7

1.2 The Convolution over SO(3)
1. ℝ上でフーリエ変換の理論から𝑓 ∗ 𝑔4 = 𝑓5 𝑔6だが、これのSO(3)版はどうなるの
か？
2. 定義（Cohen et al. ʼ18）：球⾯上のℂ8-valued関数𝜓, 𝑓に関して畳み込み𝜓 ⋆
𝑓: 𝑆𝑂(3) → ℂを次で定義する
3. 定理（同上）：ただし両辺はl番⽬のフーリエ変換で(2l+1)
次⾏列（後述）、つまりℝ上でフーリエ変換した時と同様の式が成り⽴つ。
4. 上を認めるとSO(3)上の畳み込みはフーリエ変換の積になることがわかったが、
ではここでいうフーリエ変換とは何か？→表現論
8

1.3 Representations of SO(3)
1. 定義：SO(3)の有限次元（ユニタリ）表現とは、連続群準同型𝜋: 𝑆𝑂(3) →
𝑈B(ℂ)である。ただし𝑈B(ℂ)はn次ユニタリ⾏列全体。ここでnを𝜋の次元と呼ぶ。
2. 定義：⼆つの表現𝜋, 𝜌が同値とはあるユニタリ⾏列Uがあって
∀𝑔 ∈ 𝑆𝑂 3 , 𝜋 𝑔 𝑈 = 𝑈𝜌(𝑔)となることを⾔う。また表現𝜋が既約とは
𝜋と𝜌E⨁𝜌Gが同値になるような表現𝜌E, 𝜌Gが存在しないことを⾔う。
3. 定理：任意のSO(3)の有限次元表現𝜋は既約表現の直和に分解する。
4. 定理：SO(3)の既約表現は全て𝜋B: 𝑆𝑂(3) → 𝑈GBHE(ℂ)という形をしている
(n>=0)
5. 定理（Peter-Weyl）：任意のSO(3)上の連続関数は既約表現の成分の和で近
似できる。
6. 定義：標準的な(2l+1)次既約表現(𝐷J
K)を作り、 (m,n)成分とSO(3)上の関数f
とのSO(3)上の内積をfのフーリエ変換と呼び、𝑓5LB
K と書く。ただし内積は
SO(3)上のHaar measureでの積分で定義する。
9
:=

1.3 Representations of SO(3)（補足）
1. 定義（ZYZ-coding）：SO(3)上のchart R: (0,2𝜋)×(0, 𝜋)×(0,2𝜋) → 𝑆𝑂(3)を
R(α, 𝛽, 𝛾) ≔ 𝑍 𝛼 𝑌 𝛽 𝑍(𝛾)で定める。ただし𝑌 𝑎 , 𝑍(𝑏)はそれぞれY軸,Z軸周り
のa,b回転を表す。この写像でSO(3)（のほとんど）と(0,2𝜋)×(0, 𝜋)×(0,2𝜋)を
同⼀視する。
2. 同様に(0,2𝜋)×(0, 𝜋)と𝑆Gを(α, β) ↦ 𝑍 𝛼 𝑌 𝛽 𝑛で同⼀視できる。ここで𝑛は𝑆Gの
北極点（Z座標が⼀番⼤きい点）
3. 定義（Haar measure）：上のchart上の密度をHaar
measureと呼ぶ。関数を回転させてもこの密度上の積分は不変
4. 球⾯上の関数𝑓を𝐹^ α, 𝛽, 𝛾 ≔ 𝑓(α, 𝛽)によってSO(3)上の関数とみなすと、
⾊々うまくいく。例えば次が成り⽴つ。
1. ∫ 𝐹^ 𝑅 𝑑𝑅

cd $
= ∫ 𝑓 𝑥 𝑑𝑥

cf
2. 𝐹^ ∗ 𝐹g 𝑅 : = ∫ 𝐹^ 𝑅hE
𝑆 𝐹g 𝑆 𝑑𝑆

cd $
= 𝑓 ⋆ 𝑔(𝑅)
10

1.4 Spherical CNNs
1. NaiveにやるとSO(3)上の関数のFT(=既約表現との内積を求める)は
O(L_max^6)かかる。ただしL_maxはBandwidth(=内積を取る既約表現の番
号の最⼤値)
2. 以上より、Spherical CNNの畳み込み層は
1. 球⾯上の関数をSO(3)上の関数にする
2. 1にGFTをかける
3. 2をフィルタのGFTと掛け合わせる
4. Inverse DFTをする
11
SO(3)上の関数のフーリエ変換は番号lで
(2l+1)(2l+1)サイズだが、球⾯上の関
数だと(2l+1)サイズ！(cf. Appendix D
in (Cohen et al.))

目次
1. 既存⼿法
1. Review of CNN
4. Spherical CNNs
2. 提案⼿法
3. 結果
12

2.1. Fusion Rule
13
• 以下、𝜋B: 𝑆𝑂(3) → 𝑈GBHE(ℂ)(𝑛 = 0,1,2, … )は既約表現とする。
• 定義（covariant vector）：関数𝑉: (𝑆𝑂(3) → ℂ) → ℂGKHEで𝑔𝑉 ≔ 𝑉(𝑔 J) = 𝜋K(𝑔)𝑉
となるものを𝜋K-covariant vectorと呼ぶ。ただし関数𝑓: 𝑆𝑂(3) → ℂに対し𝑔𝑓 ≔
𝑓(𝑔hE J)
• 例：関数𝑓: 𝑆𝑂(3) → ℂのl番⽬のフーリエ変換の列ベクトル𝑓5Jk
K
は𝜋K-covariant
vector
• ここで、テンソル積表現𝜋 ⊗ 𝜌: 𝑆𝑂(3) → 𝑈mno p× mno q(ℂ)を𝜋 ⊗ 𝜌 𝑔 𝑣 ⊗ 𝑤 : =
(𝜋 𝑔 𝑣) ⊗ (𝜌 𝑔 𝑤)で定義する。
• 定理（Clebsch-Gordan Rule）：SO(3)の既約表現𝜋L, 𝜋Bに対して次が成り⽴
つ。𝜋L ⊗ 𝜋B ≅⊕Kv LhB
LHB
𝜋K
• 定理（Kondor ʻ18）：2つのSO(3)-covariant vector V,Wに対し、あるユニタ
リUが存在して𝑈 𝑉 ⊗ 𝑊 は𝜋 LhB , 𝜋 LhB HE, … , 𝜋LHB-covariant vectorsの直和に
なる。

2.1. Fusion Rule（捕足）
14
• 関数𝑓: 𝑆𝑂(3) → ℂのl番⽬のフーリエ変換の列ベクトル𝑓5Jkは𝐷K-covariant vector
• 𝑔𝑓5Jk = 𝑔𝑓xJk = ∫ 𝑓 𝑔hEℎ 𝐷Jk
K
(ℎ)𝑑ℎ

cd($)
= z 𝑓 ℎ 𝐷Jk
K
(𝑔ℎ)𝑑ℎ

cd($)
= 𝐷
K(𝑔) z 𝑓 ℎ 𝐷Jk
K
(ℎ)𝑑ℎ

cd($)
= 𝐷
K(𝑔)𝑓5Jk
• 定理（Kondor ʻ18）：2つの𝜋L, 𝜋B-covariant vector V,Wに対し、あるユニタリ
Uが存在して𝑈 𝑉 ⊗ 𝑊 は𝜋 LhB , 𝜋 LhB HE, … , 𝜋LHB-covariant vectorsの直和にな
る。
• CG Ruleよりあるユニタリが存在して𝑈 𝜋L ⊗ 𝜋B = ⊕Kv LhB
LHB
𝜋K 𝑈
• 𝑔 𝑈 𝑉 ⊗ 𝑊 = 𝑈𝜋L ⊗ 𝜋B 𝑔 𝑉 ⊗ 𝑊
= (⊕Kv LhB
LHB
𝜋K(𝑔))(𝑈 𝑉 ⊗ 𝑊 )

2.2. Clebsch-Gordan net
15
• l=0,l=1,…,l=L_maxまで球⾯上の関数のフーリエ変換を求める（それぞれ𝐹Kと
書く）以降のClebsch-Gordan netの計算は以下の⼿順になる
– 各𝐹KEと𝐹KGのテンソル積を計算し、CG Ruleにより分解した𝐹K成分を𝐹Kの段に追加する。
– 各𝐹Kを𝑊Kとかける（学習時はこの𝑊Kを学習する）
– 以上繰り返す。結果として⼊⼒がg∈SO(3)で回転した場合、l段⽬は𝜋K(g)が左から掛けられる
• ⾃明表現 (= 𝜋{)の係数は
SO(3)不変なので、その係数を
出⼒層にすることによりNNが
SO(3)-equivariantになる
⾮線形！（Relu等の活性化層の代わり）

目次
1. 既存⼿法
1. Review of CNN
4. Spherical CNNs
2. 提案⼿法
3. 結果
16

3.1. データセットと評価指標（SHREC17）
17
• 51300個くらいのShapeNetのサブセット。55 categoriesの分類
• [Savva et al.]で70/10/20⽐でtrain/valid/testのデータセットをそのまま/ラン
ダムに回転させたもので⽣成。
• 今回はランダムに回転させたもののみ使う
• ⼤元の中⾝は点の3D座標と⾯のデータの集まり
• 今回はそのデータを球⾯上の6Dデータにする
– 視点からぶつかる平⾯への距離(1D)
– ぶつかる平⾯の傾き(2D)
– Meshの凸包へのray castingのデータ(3D)<-衝突点の座標?
• バンド幅128のDiscroll-Healy grid でデータを離散化
• 評価指標はPR,F1のMacro average等

3.2. アーキテクチャ
18
• L_max=14
• 出⼒はF_0の最終層を55 nodesに全結合
• 最終層にのみBatch Normalization
• ADAM,learning rate = 0.0005,L2 reg weight decay of 0.0005

3.3. 結果
19
• 他⼿法でnon-Rotatedなデータではよりよいスコアを出す⼿法があるが、
RotatedなデータでのSOTAは以下
• cf. https://shapenet.cs.stanford.edu/shrec17/
既存⼿法と⽐
べて遜⾊はな
い

目次
1. 既存⼿法
1. Review of CNN
4. Spherical CNNs
2. 提案⼿法
3. 結果
20

まとめと感想
(1)Spherical CNNは球⾯上のデータでCNNのような枠組みを使うため作られた
(2)Clebsch-Gordan netsは活性化層をFusion Ruleを使って実装しており、その結
果NN⾃体がSO(3)-equivariantなものになった
[感想]
- NN⾃体はSO(3)-equivariantだが、学習はSO(3)回転したデータで結果が異なる
ため、学習データをランダムに回転して学習した時にパフォーマンスが変わらな
いのかが気になる。
21

参考文献
• Savva, M., Yu, F., Su, H., Kanezaki, A., Furuya, T., Ohbuchi, R.,
Zhou, Z., Yu, R., Bai, S., Bai, X., Aono, M., Tatsuma, A.,
Thermos, S., Axenopoulos, A., Papadopoulos, G. T., Daras, P.,
Deng, X., Lian, Z., Li, B., Johan, H., Lu, Y., and Mk., S. (2017).
Large-scale 3d shape retrieval from shapenet core55.
Eurographics Workshop on 3D Object Retrieval.
• A. X. Chang, T. Funkhouser, L. Guibas, P. Hanrahan, Q. Huang,
Z. Li, S. Savarese, M. Savva, S. Song, H. Su, J. Xiao, L. Yi, and F.
Yu. Shapenet: An information-rich 3d model repository. 2015.
• T.S.Cohen,M.Geiger,J.Ko¨hler,andM.Welling.SphericalCNNs.Intern
ationalConferenceonLearning Representations, 2018.
• Risi Kondor, Zhen Lin, and Shubhendu Trivedi. Clebsch–gordan
nets: a fully fourier space spherical convolutional neural network.
In Neural Information Processing Systems (NIPS), 2018. 22

20181214 clebsch gordan_mizuta

Recommended

Recommended

More Related Content

What's hot

What's hot (18)

Similar to 20181214 clebsch gordan_mizuta

Similar to 20181214 clebsch gordan_mizuta (20)

20181214 clebsch gordan_mizuta