「解説資料」MetaFormer is Actually What You Need for VisionTakumi Ohkuma
'MetaFormer is Actually What You Need for Vision' の論文の解説資料
近年画像認識において高い精度を実現しているVision TransformerやMLP-Mixer等の非CNN系のモデルを、Embedding、Tokenの混合、Channel毎のMLP の3つを構成要素としてもつモデル群「MetaFormer」として一般化し、このMetaFormerが高い精度を実現する為に必要な枠組みあると主張した研究。
MetaFormerの枠組みにおいて、その構成要素の一つである「Tokenの混合」としてAttentionを採用したものがTransformer、MLPを採用したものがMLP-Mixer等のMLP系モデルである。
さらに、本研究ではこのTokenの混合として、極力シンプルな演算であるPoolingを採用した「PoolFormer」を提案し、複数の画像認識タスクで従来のモデルに劣らない精度を実現した。
PoolFormerはMetaFormerとしての最低限の機能しか持ち合わせていないにもかかわらず高い精度を達成したことから、MetaFormerの枠組み自体が画像認識に対して高いパフォーマンスを発揮できると主張している。
2018/10/20コンピュータビジョン勉強会@関東「ECCV読み会2018」発表資料
Yew, Z. J., & Lee, G. H. (2018). 3DFeat-Net: Weakly Supervised Local 3D Features for Point Cloud Registration. European Conference on Computer Vision.
「解説資料」MetaFormer is Actually What You Need for VisionTakumi Ohkuma
'MetaFormer is Actually What You Need for Vision' の論文の解説資料
近年画像認識において高い精度を実現しているVision TransformerやMLP-Mixer等の非CNN系のモデルを、Embedding、Tokenの混合、Channel毎のMLP の3つを構成要素としてもつモデル群「MetaFormer」として一般化し、このMetaFormerが高い精度を実現する為に必要な枠組みあると主張した研究。
MetaFormerの枠組みにおいて、その構成要素の一つである「Tokenの混合」としてAttentionを採用したものがTransformer、MLPを採用したものがMLP-Mixer等のMLP系モデルである。
さらに、本研究ではこのTokenの混合として、極力シンプルな演算であるPoolingを採用した「PoolFormer」を提案し、複数の画像認識タスクで従来のモデルに劣らない精度を実現した。
PoolFormerはMetaFormerとしての最低限の機能しか持ち合わせていないにもかかわらず高い精度を達成したことから、MetaFormerの枠組み自体が画像認識に対して高いパフォーマンスを発揮できると主張している。
2018/10/20コンピュータビジョン勉強会@関東「ECCV読み会2018」発表資料
Yew, Z. J., & Lee, G. H. (2018). 3DFeat-Net: Weakly Supervised Local 3D Features for Point Cloud Registration. European Conference on Computer Vision.
The slides of Artificial Intelligence and Entertainment Science (AIES) Workshop 2021 Keynote lecture
https://aies.info/program/
Empathic Entertainment in Digital Game
A digital game give a unique experience to a user. AI system in Digital game consists of three kinds of AI such as Meta-AI, Character AI, and Spatial AI. Game experience is formed by them. Meta-AI keeps watching a status of game and controlling characters, objects, terrain, weather and so on dynamically to make many dramatic and empathic situations in a game for users. Character AI is a brain of an autonomous game character to make a decision by itself, but sometimes it acts to achieve a goal issued from Meta-AI. Spatial AI analyses a terrain and abstracts its features to communicate them to Meta-AI and Character-AI. They can make their intelligent decisions by using specific terrain and environment features. The AI system is called MCS-AI dynamic cooperative model (Meta-AI, Character AI, and Spatial AI dynamic cooperative model). In the lecture, I will explain the system by showing some cases of published digital games.