Submit Search
Upload
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
•
1 like
•
629 views
Deep Learning JP
Follow
2023/5/26 Deep Learning JP http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 36
Download now
Download to read offline
Recommended
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segm...
文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segm...
Toru Tamaki
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
Recommended
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge
Action Recognitionの歴史と最新動向
Action Recognitionの歴史と最新動向
Ohnishi Katsunori
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
Deep Learning JP
文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segm...
文献紹介:Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segm...
Toru Tamaki
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
sleepy_yoshi
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
畳み込みLstm
畳み込みLstm
tak9029
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
Takuji Tahara
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
More Related Content
What's hot
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
畳み込みLstm
畳み込みLstm
tak9029
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
Deep Learning JP
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
Takuji Tahara
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
What's hot
(20)
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
畳み込みLstm
畳み込みLstm
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【DL輪読会】Hierarchical Text-Conditional Image Generation with CLIP Latents
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
backbone としての timm 入門
backbone としての timm 入門
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
CatBoost on GPU のひみつ
CatBoost on GPU のひみつ
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
GAN(と強化学習との関係)
GAN(と強化学習との関係)
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Triplet Loss 徹底解説
Triplet Loss 徹底解説
Transformer メタサーベイ
Transformer メタサーベイ
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Similar to 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
Mitsuo Yamamoto
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
infinite_loop
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
株式会社スカイアーチネットワークス
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
Xtextハンズオン(仮)
Xtextハンズオン(仮)
You&I
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
ソフトウェア品質シンポジウム
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
You&I
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
NTT DATA Technology & Innovation
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
Dan Imagineer
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
RyuichiKanoh
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
Similar to 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
(18)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Creating and Using Links between Data Objects
Creating and Using Links between Data Objects
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
Start rl with_unity_machine_learning_agents
Start rl with_unity_machine_learning_agents
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Xtextハンズオン(仮)
Xtextハンズオン(仮)
SQiPシンポジウムアブストラクト作成のポイント
SQiPシンポジウムアブストラクト作成のポイント
一口で何度もおいしい?DSL
一口で何度もおいしい?DSL
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
TouchDesigenr Beginners' workshop vol.003
TouchDesigenr Beginners' workshop vol.003
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
大規模並列実験を支えるクラウドサービスと基盤技術
大規模並列実験を支えるクラウドサービスと基盤技術
勝つための計画づくり 20110415(鈴木)
勝つための計画づくり 20110415(鈴木)
More from Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
More from Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Recently uploaded
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Recently uploaded
(14)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
1.
DEEP LEARNING JP [DL
Papers] EgocentricVideoTaskTranslation (CVPR 2023 Highlight) Yoshifumi Seki http://deeplearning.jp/
2.
書誌情報 ● 投稿先 ○ CVPR
2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果 ● 選定理由 ○ ウェラブルデバイスの会社に務めています ○ 一人称動画からの動作解析系に最近取り組ん でいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、
3.
背景・目的 ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に なっているが、それ以外の情報が少なくなる ● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相 互作用が記録される ○
タスク間にも相互作用がありので予測の助けにもある ● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある ● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して さまざまなタスクに対する統合的な枠組みを作りたい ● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位
4.
一つの動画の中にたくさんのタスクが存在する
5.
タスクの関連性を学ぶことで汎用的なモデルを作る
6.
実現に向けた転移学習/マルチタスク学習の課題 ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である が、それは現実的ではない ● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統 合モデルを作るのが難しく、特化モデルを作ることを助長している ○
モード(音声、視覚、運動) ○ ラベルの多様性(空間的・時間的・意味的) ○ 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動) ● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用 していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高 い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること があることが指摘されている
7.
提案手法: Ego Task
Translation (EgoT2) ● 多様な一人称動画に対する統合的な学習フレームワーク ● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが できる ● タスクが強く関連していない場合の影響を軽減する ● 2つの仕組みを持つ ○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル ○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
8.
9.
個別のBackboneを持つ利点 ● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる ● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間 の類似性が低い場合の影響も軽減ができる ●
過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な 特徴だけを活用するように学習できる ● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき る
10.
EgoT2-s ●
11.
EgoT2-s ● Stage1: Individual Task
Training
12.
Stage1: Individual Task
Training ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う ● 学習方法に制限はない ● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
13.
EgoT2-s ● Stage2: Task Specific
Translation
14.
Stage2: Task Specific
Translation
15.
Stage2: Task Specific
Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う
16.
Stage2: Task Specific
Translation 2: 特徴ベクトルの射影を行う (Projection Layer)
17.
Stage2: Task Specific
Translation 3: 各タスク特化モデルからの出力 (射影したもの)を結合
18.
Stage2: Task Specific
Translation 4: Translationのための共通Encoderに結合ベクトルを入力
19.
Stage2: Task Specific
Translation 5: タスク固有のDecoderによってタスクの出力を得る このEncoder-Decoderは抽象化されていてなんでも良い 実験の中ではEncoderは1層のTransformerを使っている
20.
EgoT2-g
21.
EgoT2-g ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が 必要になる ● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ とを目指す ●
22.
EgoT2-gでの変更点 ● Stage1はEgoT2-sと同じ ● 1)
デコーダーを汎用的な物に置き換える ● 2) 全てのデータセットを使って学習をする
23.
EgoT2-g: デコーダの置き換え ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる ●
それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換 える ● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす る ● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない ● 出力された文字列からarg samplingによってタスクのラベルを復元する
24.
EgoT2-g
25.
EgoT2-g: 全てのデータセットを使った学習 ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの 学習をしなければならない ●
各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの 更新を行う
26.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した
27.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ るのはShort Team Anticipationなので、それの別名?
28.
Human-Object InteractionなタスクでのEgoT2-sの結果
29.
Human-Human InteractionなタスクでのEgoT2-sの結果
30.
EgoT2-sのablation study
31.
EgoT2-gの結果
32.
SOTAなモデルとの比較 (1/2) Ego4D
Challengeの4つのカテゴリでSOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-page/1622/o verview https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911
33.
SOTAなモデルとの比較 (2/2) https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881 https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 Ego4D Challengeの4つのカテゴリでSOTA タスクのサイトで現在の
LeadersBoardを見ることが できる
34.
EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。 上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。 下の例はあまり急激に変わらないの で、ARも早いうちから活性化している
35.
EgoT2-gでの結果解釈 出力結果に対して各種タスクプロンプ トを設定した時の結果の比較。
36.
まとめ・感想 ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研 究 ● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○
アンサンブル学習の考え方に近い物を感じる ● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ トができたことの強みをよく生かしている良い研究だと感じた
Download now