本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
文献紹介:Spatially-Adaptive Pixelwise Networks for Fast Image TranslationToru Tamaki
Tamar Rott Shaham, Michael Gharbi, Richard Zhang, Eli Shechtman, Tomer Michaeli; Spatially-Adaptive Pixelwise Networks for Fast Image Translation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14882-14891
https://openaccess.thecvf.com/content/CVPR2021/html/Shaham_Spatially-Adaptive_Pixelwise_Networks_for_Fast_Image_Translation_CVPR_2021_paper.html
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
文献紹介:Spatially-Adaptive Pixelwise Networks for Fast Image TranslationToru Tamaki
Tamar Rott Shaham, Michael Gharbi, Richard Zhang, Eli Shechtman, Tomer Michaeli; Spatially-Adaptive Pixelwise Networks for Fast Image Translation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14882-14891
https://openaccess.thecvf.com/content/CVPR2021/html/Shaham_Spatially-Adaptive_Pixelwise_Networks_for_Fast_Image_Translation_CVPR_2021_paper.html
「解説資料」MetaFormer is Actually What You Need for VisionTakumi Ohkuma
'MetaFormer is Actually What You Need for Vision' の論文の解説資料
近年画像認識において高い精度を実現しているVision TransformerやMLP-Mixer等の非CNN系のモデルを、Embedding、Tokenの混合、Channel毎のMLP の3つを構成要素としてもつモデル群「MetaFormer」として一般化し、このMetaFormerが高い精度を実現する為に必要な枠組みあると主張した研究。
MetaFormerの枠組みにおいて、その構成要素の一つである「Tokenの混合」としてAttentionを採用したものがTransformer、MLPを採用したものがMLP-Mixer等のMLP系モデルである。
さらに、本研究ではこのTokenの混合として、極力シンプルな演算であるPoolingを採用した「PoolFormer」を提案し、複数の画像認識タスクで従来のモデルに劣らない精度を実現した。
PoolFormerはMetaFormerとしての最低限の機能しか持ち合わせていないにもかかわらず高い精度を達成したことから、MetaFormerの枠組み自体が画像認識に対して高いパフォーマンスを発揮できると主張している。