SlideShare a Scribd company logo
CV輪講 (Jan. 10, 2020)
How Much Position Information
Do Convolutional Neural Networks Encode?
宮澤 一之
AI本部AIシステム部AI研究開発第二グループ
株式会社ディー・エヌ・エー
自己紹介
2
@kzykmyzw
宮澤 一之
AI本部AIシステム部AI研究開発第二G
株式会社ディー・エヌ・エー
2007〜2010年 東北大学博士課程
2010〜2019年 電機メーカ研究所
2019年〜 DeNA
生体認証やステレオビジョンの研究に従事
日本学術振興会特別研究員(DC1)
映像符号化、標準化活動
車載・監視カメラ物体認識、外観検査
AI研究開発エンジニア
論文情報
タイトル
How Much Position Information Do Convolutional Neural Networks Encode?
著者
Md Amirul Islam, Sen Jia, Neil D. B. Bruce (Ryerson University)
概要
• CNNは画像の絶対位置情報を隠に学習しているという仮説を検証
• シンプルな実験方法で位置情報が学習されていることを確認
• 何が位置情報の学習に寄与しているかを指摘し、実験で妥当性を確認
3
なぜこの論文を選んだか
• ICLR2020にspotlightでアクセプト
• OpenReviewを見ると、査読者3人が全員8点満点* (全員8点は2594本中わずか34本)
• 課題設定が面白く、実験方法もシンプルでわかりやすい
• CNNが位置情報を学習するのに必要な要素を指摘している
4
* OpenReviewにおける点数ランキングは以下から確認できる
https://chillee.github.io/OpenReviewExplorer/
CNNは位置情報を学習しているか?
• CNNが学習しているのは局所的なフィルタの係数であり、画像の絶対位置は学習してい
ないため、カプセルネットワークやRNNによる位置情報の陽な獲得が試みられてきた
• 画像からのsaliency推定において、画像をクロップするとテクスチャが全く同じであるに
も関わらず最もsaliencyが高い領域がシフトする現象が見られる (Figure 1)
• CNNは意思決定の手がかりとして位置情報を学習しているのではないか?
5
どうやって確かめるか
• 位置情報は、CNNで抽出される特徴マップ中に隠にエンコードされていると仮定
• 仮定を確かめるため、特徴マップから位置情報を推測できるかトライ
6
学習済みのCNNから得られる複数の
特徴マップを入力として、物体の位
置情報を推測
PosENet (Position Encoding Network)
• fencにはVGGとResNetベースのアーキテクチャを使用 (重みは凍結)
• 5つの特徴抽出ブロックを定義し、各ブロックから得られる特徴マップに対してバイリニ
ア補間を適用して空間解像度をそろえる
• 全ての特徴マップをconcatしたうえでCNNに入力し、位置情報を推測
7
位置情報の真値とは?
• 位置情報を表現した ”normalized gradient-like position map” を真値として与える
• x方向 (H) およびy方向 (V) のそれぞれのマップを用意
• x方向であれば左から右へ、y方向であれば上から下へ値が増加するマップ
• 加えて、ガウス分布 (G)、水平および垂直方向のストライプパターンも用意 (HS, VS)
• 真値は入力画像の内容には依存しないため、ある種のランダムラベルと言える
• 入力画像としては自然画像のほか、黒画像、白画像、ノイズ画像を利用
8
PosENetの学習
• Position Encoding Moduleが生成した と真値 の差分をロスとして学習
• をアップサンプリングして真値と解像度を合わせ、画素ごとの二乗誤差を平均
9
実験
• 実験にはSaliency検出向けのデータセットを利用
• 学習:DUT-S (10,533枚)
• 検証:PASCAL-S、黒画像、白画像、ノイズ画像
• 評価尺度
• Spearman Correlation (SPC):PosENet出力と真値のスピアマン相関
• Mean Absolute Error (MAE):PosENet出力と真値の平均絶対誤差
10
ネットワークアーキテクチャ
• 特徴抽出のためのネットワークにはImageNetで学習したVGG16および
ResNet-152を利用 (重みは固定)
• PosENetはカーネルサイズ3x3の畳み込み1層だけ
• 学習時には画像サイズを224x224に固定
• 抽出する特徴マップのサイズはリサイズで28x28に揃える
• 特徴抽出をせず、画像をダイレクトにPosENetに入力する方法も実験
11
結果
• VGGおよびResNetの特徴マップを入力した場合は、PosENetは高精度に位置情報の推測
に成功しているが、画像を入力した場合は著しく推測精度が低下
• CNNの特徴マップに位置情報がエンコードされていることの裏付け
• 繰り返しパターンの精度が悪いのは、位置情報のより高度な解釈が必要なため?
12
SPC:1に近いほど高精度
MAE:0に近いほど高精度
画像を入力 →
VGG特徴を入力 →
ResNet特徴を入力 →
PosENet出力の比較
• 画像を入力した場合は真値となる位置情報をうまく推測できていない
• VGG/ResNet特徴を入力した場合は真値との間に高い相関が見られる
13
レイヤ数とカーネルサイズの影響
• レイヤ数を増やす、あるいはカーネルサイズを大きくすることで推定精度が向上
• 位置情報は特徴マップ全体に分布するような形になっており、受容野を広げることが性能
向上につながっている可能性がある
14
CNNのどの層に位置情報がエンコードされているのか
• VGGに定義した5つの特徴抽出ブロックのそれぞれから得られる特徴マップに対して個別
にPosENetを適用して位置情報を推測
• より深い層に適用した方が高精度であり、位置情報は深い層にエンコードされている模様
• 単純に深い層の方が特徴マップの数が多いためとも考えられるが、f 4
posとf 5
posの特徴マッ
プ数を揃えて実験してもf 5
posの方が高精度であった
15
どこから位置情報を学んでいるのか
CNNにおけるpaddingが位置情報の手かがりとなっているのでは?
16
https://medium.com/@ayeshmanthaperera/what-is-padding-in-cnns-71b21fb0dd7
実験による確認
• VGGからpaddingを削除して同じ実験を実施 (pretrainedの重みはそのまま)
• paddingを削除することでPosENetによる位置情報の推定精度が大幅に低下
17
実験による確認
• PosENetにpaddingを導入して画像を直接入力する場合の推定精度を評価
• paddingを入れることで精度が向上(padding幅を増やすとさらに向上)
18
実験による確認
• PosENetにpaddingを導入して画像を直接入力する場合の推定精度を評価
• paddingを入れることで精度が向上(padding幅を増やすとさらに向上)
19
より位置情報が重要なタスクでの検証
• 位置情報が重要なはずのタスクであるsemantic segmentationやsaliency object detection
において、paddingを削除するとどうなるか
• VGGのpaddingあり、paddingなしをそれぞれのタスクで学習して性能を評価
• 両タスク共にpaddingの削除により大きく性能が低下していることから、やはりpadding
が位置情報の学習に重要であることが裏付けられる
20
saliency object detection semantic segmentation
より位置情報が重要なタスクでの検証
• semantic segmentationやsaliency object detectionではclassficationよりも強く位置情報が
学習されているのではないか?
• semantic segmentationとsaliency object detectionのそれぞれでVGGを学習し、PosENet
により位置情報の推定精度を評価
• semantic segmentationやsaliency object detectionで学習したVGGの特徴を使った方が
classificationの特徴を使うよりも位置情報の推定精度が向上 21
image classification →
saliency object detection →
semantic segmentaion →
まとめ
• CNNは学習の過程で画像の絶対位置の情報を隠にエンコードしているのではないかという
仮説を検証
• 学習済みCNNの特徴マップから極めてシンプルなCNNで位置情報が抽出できることを実証
• CNNで一般的に使われるpaddingが位置情報の学習に重要であることを指摘し、さまざま
な実験によりその妥当性を確認
22

More Related Content

What's hot

深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
Masahiro Suzuki
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
Kazuki Maeno
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
 
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
NTT DATA Technology & Innovation
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
 

What's hot (20)

深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報[DL輪読会]ICLR2020の分布外検知速報
[DL輪読会]ICLR2020の分布外検知速報
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 

Similar to How Much Position Information Do Convolutional Neural Networks Encode?

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Kazuyuki Miyazawa
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
DeNA
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
nlab_utokyo
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
harmonylab
 
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
Takashi Kaneda
 
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
Daiyu Hatakeyama
 
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
nlab_utokyo
 
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
NABLAS株式会社
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
Kyoichi Iwasaki
 
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
Deep Learning JP
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
Takuya Minagawa
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Takuya Azumi
 
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
日本顎顔面再建先進デジタルテクノロジー学会
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
Takuya Minagawa
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
Kohei Kojima
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
nlab_utokyo
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
 

Similar to How Much Position Information Do Convolutional Neural Networks Encode? (20)

Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]
 
画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向画像の基盤モデルの変遷と研究動向
画像の基盤モデルの変遷と研究動向
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
物体認識 IoT サービスを支える技術 〜クラウドアーキテクチャから組込み深層学習まで〜
 
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
明治大学理工学部情報科学科: 特別講義 - データが示す近い未来の世界と、準備すべき コト
 
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
仮想脳「NeuroAI」の裏側 & 企画発表(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
20160601画像電子学会
20160601画像電子学会20160601画像電子学会
20160601画像電子学会
 
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
【NABLAS株式会社】採用ピッチ資料 Ver. 2024           .
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
[DL輪読会]DeepSignals: Predicting Intent of Drivers Through Visual Signals
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォームAutoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
Autoware: ROSを用いた一般道自動運転向けソフトウェアプラットフォーム
 
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
両眼立体視可能なスマートグラス を用いた3Dモデル可視化アプリの 開発
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
ロボットサービス開発の現場から
ロボットサービス開発の現場からロボットサービス開発の現場から
ロボットサービス開発の現場から
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 

More from Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
Kazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
Kazuyuki Miyazawa
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
Kazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Kazuyuki Miyazawa
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 

More from Kazuyuki Miyazawa (13)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 

How Much Position Information Do Convolutional Neural Networks Encode?