CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
CVPR2019読み会で発表したRethinking the Evaluation of Video Summariesの説明スライドです。論文自体は映像要約全体を分析しており、読み応えがありました。説明スライドがあっているかどうかよくわからないので、詳しくは本人に聞いてください。よろしくおねがいします。
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
CVPR2019読み会で発表したRethinking the Evaluation of Video Summariesの説明スライドです。論文自体は映像要約全体を分析しており、読み応えがありました。説明スライドがあっているかどうかよくわからないので、詳しくは本人に聞いてください。よろしくおねがいします。
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
LHCにおける素粒子ビッグデータの解析とROOTライブラリ(Big Data Analysis at LHC and ROOT)Akira Shibata
Tokyo Web Mining #45でお話させていただいた内容です。
アブストラクト:
実験素粒子物理学においては、加速器を使った高エネルギー素粒子の衝突実験から生まれる大量のデータを分析するため、かつてよりあらゆる科学分野の中でも最もデータ量の多い領域でした。スイスのCERN研究所で行われている最新の実験、LHC(Large Hadron Collider)では、最初の2年間で、1PB(ペタバイト)のデータが生成され、その一部は昨年オープン化されました。本講演では、LHCのビッグデータがどのように解析されたのか、インフラ及びアプリケーションレベルの観点ご紹介します。特に、アプリケーションレベルにおいては、独自の統計解析ライブラリであるROOTが幅広く使われており、この講演を通じ、ROOTが現在のデータ解析パラダイムのどこに位置しているのかを参加者の皆様と議論したいと思います。
cvpaper.challengeにおいてECCVのOral論文をまとめた「ECCV 2020 報告」です。
ECCV2020 Oral論文 完全読破(1/2) [https://www.slideshare.net/cvpaperchallenge/eccv2020-oral-12/1]
pp. 7-10 ECCVトレンド
pp. 12-72 Looking at humans
pp. 73-132 Low level vision
pp. 133-198 Recognition & detection
pp. 199-262 Segmentation & scene interpretation and description, language
pp. 263-294 Video & action understanding
pp. 295-296 まとめ
cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。2020の目標は「トップ会議に30+本投稿」することです。
I am going to share a case study of how we as coaches kick start a large scale agile transition and supported the product teams in the one year journey in the transition in FDA (Food & Drugs Administration) regulated organisation in healthcare industry. The product teams include members with software, electrical and mechanical background. I will share how the transition get started, what are the phases during the journey, what are the main problems we try to address and what we did to achieve significant success.
**Outlines**
- Why did the management seek external support after a successful product death march version release
- Phase 0 - Kick start
- How did we kick off the journey and facilitate the organisation structure change
- Phase 1 - Building real teams and Make very basics
- How to build self-managing team to enable cross-learning and close collaboration
- Phase 2 - Scaling Scrum and Real Teams
- What scaling ceremonies, practices, artifacts were adopted and what were the difference from single team implementation
- Involving stake holders
- Phase 3 - Get up to speed
- What infrastructure, tool and process change were adopt to support iterative and increment development
- What individual level agile practices adopted to enable frequent and stable release
- Phase 4 - Test Efficiency and Effectiveness
- What we did to address quality issue of life-critical product release
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
Ho Kei Cheng, Seoung Wug Oh, Brian Price, Alexander Schwing, Joon-Young Lee, " Tracking Anything with Decoupled Video Segmentation " ICCV2023
https://openaccess.thecvf.com/content/ICCV2023/html/Cheng_Tracking_Anything_with_Decoupled_Video_Segmentation_ICCV_2023_paper.html
Similar to Towards Performant Video Recognition (20)
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
10. 導入
10
● Kinetics: The Kinetics Human Action Video
Dataset [Key+, arXiv]
○ 行動クラス → 400 クラス!!
○ 動画数 → 300K+ 動画!!
圧倒的なデータ量!
→ 2D CNNと比較してパラメータ数が
膨大な3Dの学習を成功!!
担当:若宮
https://arxiv.org/abs/1705.06950
11. 導入
11
● Can Spatiotemporal 3D CNNs Retrace the
History of 2D CNNs and ImageNet? [Hara+ ,
CVPR 2018]
○ 3D CNNが Kinetics を過学習せずに学習可能
○ Kinetics の学習済みモデルを使えば
UCF-101/HMDB-51やActivityNet も学習が可
能
事実上の 動画 × 3D CNN が可能となり、
動画認識の時代の開幕
担当:若宮
https://arxiv.org/abs/1711.09577
26. Action Proposal Generation
26
● どんなタスク?
○ CVPR workshop ActivityNet Challenge にて開催
○ 動画中の action が起こっていそうな時間区間 (Action Proposal) を予
測
○ action localization や dense-captioning のタスクにも使われる
● データセット
○ ActivityNet
■ 動画数 : 20k動画
■ 計 648 時間
● 評価指標
○ The area under the Average Recall vs Average Number of
Proposals per Video (AR-AN) with tIoU thresholds
担当:石川
27. Action Proposal Generation の主な手法 (1/2)
27
Anchor-based Approaches
● マルチスケールな anchor を用いて proposal を生成
● 主な手法
○ SSAD[1]
, CBR[2]
, TURN TAP[3]
● 長所
○ マルチスケールの proposal を効果的に生成できる
○ 全ての anchor の情報を同時に捉えるため,
○ confidence score が信頼できることが多い
● 短所
○ anchor の設計が難しい
○ 正確でないことが多い
○ 様々な時系列区間を捉えるのが難しい
担当:石川
[1] T. Lin, “Single Shot Temporal Action Detection”, in ACM Multimedia 2017
[2] J. Gao, “Cascaded Boundary Regression for Temporal Action Detection”, in BMVC 2017
[3] J. Gao, “TURN TAP: Temporal Unit Regression Network for Temporal Action Proposals” in ICCV2017
28. Action Proposal Generation の主な手法 (2/2)
28
Anchor-free Approaches
● action boundary や actioness を評価して,proposal を生成
● 主な手法
○ TAG[1]
, BSN[2]
, BMN[3]
● 長所
○ 時系列方向の区間を柔軟に,かつ正確に proposal を生成可能
○ BSP (Boundary Sensitive Proposal) features を用いれば,
○ confidence score の信頼性が上がる
● 短所
○ feature の設計と confidence score の評価が別々で
行われるため,非効率的である
○ 特徴量が単純になりがちで,時系列方向のコンテキストを捉えるには不
十分である場合がある
○ multi-stage で,end2end なフレームワークではない
担当:石川
[1] Yue Zhao et al., “Temporal Action Detection with Structured Segment Networks” in ICCV 2017
[2] T. Lin et al., “BSN: Boundary Sensitive Network for Temporal Action Proposal Generation” in ECCV 2018
[3] T. Lin et al., “BMN: Boundary-Matching Network for Temporal Action Proposal Generation”, in ICCV 2019
43. Building a Size Constrained Predictive Model for Video Classification
[Skalic+, ECCV 2018 WS]
43
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの1位
● 手法
○ NetVLAD, Deep Bag of Frames, FVNet, RNNのモデルとモデルの蒸
留によって親と子を最小化するように学習
● 結果
○ GAP(評価方法) : 0.89053
担当:若宮
http://openaccess.thecvf.com/content_eccv_2018_workshops/w22/html/Skalic_Buildin
g_a_Size_Constrained_Predictive_Model_for_Video_Classification_ECCVW_2018_pa
per.html
44. Label Denoising with Large Ensembles of Heterogeneous Neural
Networks [Ostyakov+, ECCV 2018 WS]
44
● 学会・順位
○ The 2nd YouTube-8M
Large-Scale Video
Understanding Challengeの動
画認識コンペの2位
● 手法
○ 様々なモデルのアンサンブルし
た結果をLGBM勾配加速モデ
ルに入れて蒸留ラベルの生成
後に蒸留することで高い精度を
算出
● 結果
○ GAP : 0.88729
担当:若宮
https://arxiv.org/abs/1809.04403
45. NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for
Large-scale Video Classification [Lin+, ECCV 2018 WS]
45
● 学会・順位
○ The 2nd YouTube-8M Large-Scale Video Understanding Challenge
の動画認識コンペの3位
● 手法
○ 高速かつ効率的な NeXtVLAD を提案
● 結果
○ GAP : 0.8798 (val)
担当:若宮
https://arxiv.org/abs/1811.05014
65. 強者たち
65
● Ting Yao(ActivityNet)
○ 中国北京 JD AI Research
○ 様々なコンペでトップ
Rank 1 in Multi-Source Domain Adaptation Track and Rank 2 in Semi-Supervised Domain Adaptation Track of Visual Domain
Adaptation Challenge at ICCV 2019.
Rank 1 in Trimmed Activity Recognition (Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2019.
Rank 1 in both Open-set Classification Track and Detection Track of Visual Domain Adaptation Challenge at ECCV 2018.
Rank 2 in three tasks of Dense-Captioning Events in Videos, Temporal Action Localization, and Trimmed Activity Recognition
(Kinetics) of ActivityNet Large Scale Activity Recognition Challenge at CVPR 2018.
Rank 1 in Segmentation Track of Visual Domain Adaptation Challenge at ICCV 2017.
Rank 1 in Dense-Captioning Events in Videos and Rank 2 in Temporal Action Proposals of ActivityNet Large Scale Activity
Recognition Challenge at CVPR 2017.
Rank 1 in COCO Image Captioning.
担当:全員
● JD AI Researchとは?
○ JD.COM が支持する研究団体
○ 特に最先端の AI を研究して実用化を図
るための団体
○ すでに実績はいくつか存在
66. 強者たち
66
● Dongliang He (ActivityNet)
○ 中国北京 Baidu, Inc.
○ 2018年のActivityNet Recognition Challenge (Kinetics) に
おいて1位
担当:全員