本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
文献紹介:Temporal Convolutional Networks for Action Segmentation and DetectionToru Tamaki
Colin Lea, Michael D. Flynn, Rene Vidal, Austin Reiter, Gregory D. Hager, "Temporal Convolutional Networks for Action Segmentation and Detection", CVPR2017
https://openaccess.thecvf.com/content_cvpr_2017/html/Lea_Temporal_Convolutional_Networks_CVPR_2017_paper.html
【論文紹介】Spatial Temporal Graph Convolutional Networks for Skeleton-Based Acti...ddnpaa
(参考文献)Sijie Yan, Yuanjun Xiong, Dahua Lin.Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. Association for the Advancement of Artificial Intelligence (AAAI)2018
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
Chunhui Liu, Xinyu Li, Hao Chen, Davide Modolo, Joseph Tighe; Selective Feature Compression for Efficient Activity Recognition Inference, Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 13628-13637
https://openaccess.thecvf.com/content/ICCV2021/html/Liu_Selective_Feature_Compression_for_Efficient_Activity_Recognition_Inference_ICCV_2021_paper.html
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
8. Action Recognitionの動向|Efficient 1
S. Bhardwaj+, “Efficient Video Classification Using Fewer Frames”, CVPR 2019.
全フレームを使うTeacherを少ないフレームのみ使うStudentに蒸留して効率化
9. Action Recognitionの動向|Efficient 2
B. Korbar+, “SCSampler: Sampling Salient Clips from Video for Efficient Action Recognition”, ICCV 2019.
動画中の重要なclipのみを抜き出して認識することで効率化 & ⾼精度化
10. Action Recognitionの動向|Efficient 3
J. Lin+, “TSM: Temporal Shift Module for Efficient Video Understanding”, ICCV 2019.
3D CNNは性能は良いが重いので2D CNNで
追加の計算コストなしに複数フレームの情報を畳み込むための⼿法を提案.
⼀部のChannelを時間⽅向にshiftさせることでフレームの情報を混ぜると
2D CNNでも3D CNN以上の性能を達成可能.
11. Action Recognitionの動向|Efficient 4
C. Luo+, “Grouped Spatial-Temporal Aggregation for Efficient Action Recognition”, ICCV 2019.
3D CNNは性能は良いが重いので3D CNNの⼀部を2D Convに置き換えて効率化
12. Action Recognitionの動向|Efficient 5
D. Tran+, “Video Classification with Channel-Separated Convolutional Networks”, ICCV 2019.
Standard
Bottleneck Block
Channel-separated Bottleneck Block
dw: depth-wise conv
3D CNNによる動画認識におけるgroup convolutionの有効性を詳細に検討し
効率的なモデルでSOTA性能を達成
16. Action Proposal Generation の概要
• 動画中の action が起こっていそうな時間区間 (Action Proposal) を予測
• データセット
- ActivityNet 1.3 [2]
- 動画数 : 20k動画, 計 648 時間
- THUMOS14 [3]
- 動画数: 約400動画
• 評価指標
- The area under the Average Recall vs Average Number of Proposals
per Video (AR-AN) with tIoU thresholds
18
[1] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation”, In ECCV 2018
[2] F. Caba Heilbron et al., “ActivityNet: A large-scale video benchmark for human activity understanding“, In CVPR 2015
[3] Y. G. Jiang et al., “Thumos challenge: Action recognition with a large number of classes”, In ECCVWS 2014
[1]より引⽤
担当: ⽯川
17. Anchor-based Approaches
• マルチスケールな anchor を⽤いて proposal を⽣成
• 主な⼿法
- SSAD[1], CBR[2], TURN TAP[3]
• ⻑所
- マルチスケールの proposal を効果的に⽣成できる
- 全ての anchor の情報を同時に捉えるため,
- confidence score が信頼できることが多い
• 短所
- anchor の設計が難しい
- 正確でないことが多い
- 様々なサイズの時系列区間を捉えるのが難しい
19
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017
担当: ⽯川
18. Anchor-free Approaches
• action boundary や actioness などを評価してから proposal を⽣成
• 主な⼿法
- TAG[1], BSN[2], BMN[3]
• ⻑所
- 時系列⽅向の区間を柔軟に,かつ正確に proposal を⽣成可能
- BSP (Boundary Sensitive Proposal) features を⽤いれば,
- confidence score の信頼性が上がる
• 短所
- feature の設計と confidence score の評価が別々で⾏われるため,⾮効率的である
- 特徴量が単純になりがちで,時系列⽅向のコンテキストを捉えるには不⼗分である場合がある
- multi-stage で,end2end なフレームワークではない
20
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019
担当: ⽯川
19. Anchor-based approach: DAPs
• クリップごとの動画特徴量をLSTMに通し,⻑期的な特徴量を抽出
• この特徴量から anchorに対するoffsetを出⼒する
21
Victor Escorcia et al., “DAPs: Deep Action Proposals for Action Understanding”, In ECCV2016
Visual Encoder: 動画特徴抽出器 (C3D)
Sequence Encoder: C3Dから得られた特
徴量をLSTMに⼊⼒し,さらに⻑期的な時
系列情報を考慮した特徴へとエンコード
Localization Module: LSTMの出⼒から,
全結合層を組み合わせて,action
proposal の位置と⻑さを出⼒する
Prediction Module: Action proposal に
対する確信度を出⼒する.全結合層と
sigmoid関数からなる
担当: ⽯川
20. Anchor-based Approach: Segment-CNN (SCNN)
• action localization を⾏う two-stage 型のモデルを提案
• ⼀つ⽬のステージで,マルチスケールのスライディングウィンドウに対して
class-agnostic actionness を予測し,actionnessの⾼いものを proposal とする
• ⼆つ⽬のステージでは得られたproposalに対して⾏動分類を⾏う
22
Z. Shou et al., “Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs”, In CVPR2016
担当: ⽯川
36. Video Recognition
• Supervised learning has made significant progress in context-aware video recognition
• However, supervised learning suffers from problems of:
• acquisition of supervised data is time-consuming and labor-intensive.
• copyright issue.
• mislabelling
To address these issues, we use synthetic data to learn context-aware video recognition.
37. Advantages of synthetic data
• Unlimited amount. --Huge datasets are what powers deep learning algorithms.
• Less labor-intensive.
• Perfect annotation.
• ImageNet -- a lot of mislabelling
• No copyright issue.
38. Disadvantages of synthetic data
• Poor performance on realism
• Inharmonious on appearance, location and scale.
• Overfitting
• Temporal Consistency (video only)
40. Video Harmonization. --Temporally Coherent Video Harmonization Using Adversarial
Networks
Supervised dataset creation:
Given an image (a), we take it as the first ground-truth frame.
Then we cut out the foreground and apply inpainting to obtain
the pure background (c). By performing color adjustment on
the foreground of (a),we obtain the first composite frame (d).
By applying a random affine transform to the foregrounds of
(a) and (d), we obtain the second ground-truth frame (e) and
(b) the second composite frame (f).
41. Temporal GAN --Temporal Generative Adversarial Nets with Singular Value
Clipping
TGAN can learn a semantic representation of unlabeled videos, and is capable of generating videos.
42. Temporal GAN -2017
• Applications: Video Frame Interpolation, Conditional TGAN
• Conditional TGAN:
• In some cases, videos in a dataset contain some labels which correspond to a category of the video such as
“IceDancing” or “Baseball”. In order to exploit them and improve the quality of videos by the generator, we
also develop a Conditional TGAN (CTGAN), in which the generator can take both label l and latent variable
z0.
43. Title:Context-aware Synthesis for Video Frame Interpolation ーーhttps://arxiv.org/pdf/1803.10967.pdfp.pdf
概要・新規性:
服の形状が明示的にモデル化された、動作中の3D
人間の最初の大規模データセットを公開しました。
体のリグメッシュを形状画像としてモデル化する
ために、細長い身体部分の球形のパラメーター化
を実行する新しいアルゴリズムを提案しました。
パラメトリックモデルに依存せずに、単一の画像
から人体と衣服の形状を推定するエンドツーエン
ドのネットワークを導入しました
結果
45. motionとcontentに基づく動画⽣成
• 動画⽣成⼿法は⼤体2種類がある︓
• future frame prediction
• 過去のframeから新たなframeを⽣成
• Decomposing Motion And Content For Natural Video Sequence Prediction ------ICLR2017
• Animating Landscape:
Self-Supervised Learning of Decoupled Motion and Appearance for Single-Image Video Synthesis
--SIGGRAPH Asia 2019
• generation
• Temporal Generative Adversarial Nets with Singular Value Clipping --ICCV2017
• MoCoGAN: Decomposing Motion and Content for Video Generation --CVPR2018
48. Generating Videos with Scene Dynamics --NIPS2016
• 動画をforegroundとbackgroundに分ける。
• 同じnoiseから背景と前景を⽣成
する
• We capitalize on large amounts of
unlabeled video in order to learn a
model of scene dynamics for both
video recognition tasks (e.g. action
classification) and video generation
tasks (e.g. future prediction)
52. TwoStreamVAN: Improving Motion Modeling in Video Generation --WACV2020
A major problem with pixel-level video prediction
and generation methods is that they
attempt to model both static content and dynamic
motion in a single entangled generator, regardless
of whether they disentangle the motion and content
in the latent space or not.
1. proposed a video generation model TwoStreamVAN
as well as a more effective learning scheme, which
disentangle motion and content in the generation phase.
2. designed a multi-scale motion fusion mechanism and
further improve motion modeling by conditioning on
the spatial context;
61. 最新動画データセット 1
Y. Tang+, “COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis”, CVPR 2019.
インストラクション動画の詳細⾏動認識⽤データセット
62. 最新動画データセット 2
A. Miech+, “HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips”, ICCV 2019.
テキストのアノテーションが付与された超⼤規模動画データセット
63. 最新動画データセット 3
H. Zhao+, “HACS: Human Action Clips and Segments Dataset for Recognition and Temporal Localization”, ICCV 2019.
Action Recognition & Temporal Localization⽤の⼤規模データセット
64. 最新動画データセット 4
X. Wang+, “VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research”, ICCV 2019.
複数⾔語のVideo Captioningや動画&テキスト⼊⼒での翻訳⽤データセット
65. 最新動画データセット 5
Q. Jiang+, “SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval”, ICCV 2019.
動画の複製・転載を検出するためのデータセット
66. 最新動画データセット 6
Q. Kong+, “MMAct: A Large-Scale Dataset for Cross Modal Human Action Understanding”, ICCV 2019.
多視点・Multi-modalなAction Recognition⽤データセット
67. 最新動画データセット 7
M. Martin+, “Drive&Act: A Multi-modal Dataset for Fine-grained Driver Behavior Recognition in Autonomous Vehicles”, ICCV 2019.
⾞内の詳細⾏動認識⽤Multi-modalデータセット
68. 最新動画データセット 8
Q. You+, “Action4D: Online Action Recognition in the Crowd and Clutter”, CVPR 2019.
⾏動認識⽤の多視点動画データセット
69. 最新動画データセット 9
D. Shao+, “FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding”, CVPR 2020 (accepted, Oral).
階層的に詳細な⾏動をアノテーションした動画データセット
70. 最新動画データセット 10
J. Liu+, “VIOLIN: A Large-Scale Dataset for Video-and-Language Inference”, CVPR 2020 (accepted).
動画に字幕とシーンを説明するpositive/negative⽂章が付与された動画データセット
71. 最新動画データセット 11
S. Ghorbani+, “MoVi: A Large Multipurpose Motion and Video Dataset”, arXiv, 2020.
Mocapと動画と加速度センサが同期されたデータセット