This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...Toru Tamaki
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis; 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 6155-6164
https://openaccess.thecvf.com/content/CVPR2021/html/Li_2D_or_not_2D_Adaptive_3D_Convolution_Selection_for_Efficient_CVPR_2021_paper.html
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
Chun-Fu Richard Chen, Rameswar Panda, Kandan Ramakrishnan, Rogerio Feris, John Cohn, Aude Oliva, Quanfu Fan; Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Recognition, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 6165-6175
https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Deep_Analysis_of_CNN-Based_Spatio-Temporal_Representations_for_Action_Recognition_CVPR_2021_paper.html
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
文献紹介:2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Reco...Toru Tamaki
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis; 2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 6155-6164
https://openaccess.thecvf.com/content/CVPR2021/html/Li_2D_or_not_2D_Adaptive_3D_Convolution_Selection_for_Efficient_CVPR_2021_paper.html
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
Chun-Fu Richard Chen, Rameswar Panda, Kandan Ramakrishnan, Rogerio Feris, John Cohn, Aude Oliva, Quanfu Fan; Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Recognition, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 6165-6175
https://openaccess.thecvf.com/content/CVPR2021/html/Chen_Deep_Analysis_of_CNN-Based_Spatio-Temporal_Representations_for_Action_Recognition_CVPR_2021_paper.html
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
11. スケジュール
4⽉ 5⽉ 6⽉ 7⽉ 8⽉
ML Track2
4/25
Phase 1
Start
4/20
Dataset
Release
6/30
Phase 1
End
Phase 1
7/3
Phase 2
Start
7/26
Phase 2
End
7/29
Winner
Announcement
7/30
Paper
Submission
8/5
Presentation
Video due
8/26
KDD CUP Day
7/1
Dataset
Release
攻撃側のみで運営が
⽤意した防御モデルを
攻撃する
11
12. 参考: Graph Convolutional Network
• 画像の畳み込み
• 着⽬している画素を周りの画素に重み付けして⾜し合わせて活性化関数を適⽤
• グラフの畳み込み
• 着⽬しているノードの特徴量を隣接ノードの特徴量に重み付けして⾜し合わせて
活性化関数を適⽤
INPUT GRAPH
TARGET NODE B
D
E
F
C
A
B
C
D
A
A
A
C
F
B
E
A
w1 w2 w3
w4 w5 w6
w7 w8 w9
w1
w2
w3
xA
xB
xC
xE
xF
xAD
xB
xC
xAD
σ(・)
hA
σ(W・CONCAT(MEAN( , , ), ))
12
図の⼀部は http://snap.stanford.edu/proj/embeddings-www/ から引⽤
13. Strategy for Attack
• Graph Structure Attack
1. 次数が低いノードは攻撃しやすい [1]
→ 次数が10以下のテストノードを対象に攻撃
2. 攻撃ノードを多く追加するほど攻撃しやすい
→ 最⼤の500ノードを追加
3. 攻撃ノードから張るエッジ数は50-90の間でランダムに設定
• (1) 攻撃エッジが多い⽅が攻撃⼒が⾼い
• (2) ただし、上限である100にするとすぐに攻撃とバレてしまうので少し少ない
50-90の間で設定
[1] Zügner, Daniel et al. “Adversarial Attacks on Neural Networks for Graph Data.” KDD (2018): 2847-2856. 13
14. Strategy for Attack
• Feature Attack
• Adversarial attackの⽅法の1つにgradient-based attackがあり
有名な⼿法としてFast Gradient Sign Method (FGSM) [2]がある
[2] Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. "Explaining and harnessing adversarial examples."
arXiv preprint arXiv:1412.6572 (2014).
Original
image
perturbation
Figure from [2]
画像とラベルが
必要
14
16. Strategy for Attack
• Feature Attack
• FGSMをグラフに応⽤する⽅法を実装
• (1) copy feature from training node
• (2) calculate loss
• (3) modify node feature based on the Eq. (1)
train label: y1
train label: y2
train node
adversarial node
test node
test label: !𝑦
copied from
training node 16
17. Strategy for Attack
• Feature Attack
• FGSMをグラフに応⽤する⽅法を実装
• (1) copy feature from training node
• (2) calculate loss
• (3) modify node feature based on the Eq. (1)
train label: y1
train label: y2
test label: !𝑦
estimated
label
we use 1-layer linear GCN model
as surrogate model to efficiently
calculate loss
Adj Feat W
train node
adversarial node
test node
学習/テストノードの特徴量が
変えられないので固定値にし、
攻撃ノードの特徴量だけ微分
するように実装し省メモリ化
通常のNNではWを微分で
求めるが今回は特徴量を
改変するのでFeatを微分
× ×
GCNの⾏列計算
17
18. Strategy for Attack
• Feature Attack
• FGSMをグラフに応⽤する⽅法を実装
• (1) copy feature from training node
• (2) calculate loss
• (3) modify node feature based on the Eq. (1)
node feature perturbation
(1)
train label: y1
train label: y2
test label: !𝑦
estimated
label
train node
adversarial node
test node
18
19. Strategy for defense
• 特徴量の閾値処理
• 特徴量の値が[-1.74, 1.63]に⼊っていなければ除去
• MIN = -1.74 , MAX = 1.63は学習データの統計値から算出
• 次数の閾値処理
• 次数が[90, 100]のノードは攻撃の疑いがあるので除去
• 隣接⾏列の値が0/1以外なら0に置換
pre-processing
inference
post-processing
Feature value
MIN = -1.74 MAX = 1.63
Degree distribution
90≦deg≦100
→570 nodes (0.086%)
ノード次数 19
20. Strategy for defense
pre-processing
inference
post-processing
• 4-layer GIN model [3]
• Adam optimizer
• Hyper-parameter optimization using Optuna [4]
• Learning rate: 0.01
• Dropout rate: 0.2
• Hidden dim: 144
• Early stopping/Batch normalization
[3] Xu, Keyulu, et al. "How Powerful are Graph Neural Networks?." ICLR 2018
[4] Akiba, Takuya, et al. "Optuna: A next-generation hyperparameter optimization framework.” KDD 2019.
GINConv
BatchNorm
Linear
Dropout
Linear
Softmax
×4
• 全特徴量が0ならラベル1に上書き(学習データの統計から)
20
21. Model Selection
• 前処理がモデル選択のために複数種類のモデルを投稿しスコア
を⾒て効果的なものを選択
• Models: GCN, SAGE, GIN
• Model training: Adding noise to features to increase robustness
• Pre-processing: thresholding by feature/degree of nodes
Defender Model Pre-processing Training Avg. Acc
NTTDOCOMO LABS-0716 GCN - - 0.460
NTTDOCOMO LABS-0717 SAGE - - 0.472
NTTDOCOMO LABS-0718 GIN - - 0.261
NTTDOCOMO LABS-0721 GIN Feature/Degree - 0.686
NTTDOCOMO LABS-0722 SAGE Feature - 0.639
NTTDOCOMO LABS-0723 GIN Feature/Degree Add noise 0.666
21