SlideShare a Scribd company logo
CVPR 2015 読み会
!
A. Mahendran and A. Vedaldi
Understanding Deep Image Representations by Inverting Them
加藤大晴
http://hiroharu-kato.com/
自己紹介
• 加藤 大晴 (かとう ひろはる)
• 2014/04- ソニー株式会社(音響信号処理)
• 2014/03 修士(情報理工学)東京大学 原田研究室
• http://hiroharu-kato.com/
• @hiroharu_kato など
• 本発表は所属組織とは一切関係ありません
• 以降, 論文に記載のない内容については を付けます
論文の概要
• A. Mahendran and A. Vedaldi. Understanding
Deep Image Representations by Inverting Them.
• CNN の出力を画像へと逆変換する手法を提案
• ついでに SIFT と HOG も逆変換
• いろいろ画像を再構成して観察
• 手法: 誤差逆伝播で重みではなく入力画像を最適化
• モチベ: CNN が何を捉えているか理解したい
元画像 再構成1
再構成2 再構成3
読んだ動機
• 加藤の修士論文:

Image Reconstruction from Bag-of-Visual-Words (CVPR 14)
• BoVW を画像へと再変換
• ついでに識別器の分析や画像の生成
• 修論の反省
• Bag-of-Visual-Words は相当時代遅れ
• そもそも画像再構成の役立て方がよくわからない
なぜ画像再構成?
• 画像特徴の性質について, 我々は実はよく知らない
• とりあえず実験的に良い性能が出ればOK
• 特にニューラルネットワークでは顕著
• 画像特徴って実のところ何を捉えているんだろう?
• 画像特徴から画像を再構成してみれば

画像特徴に残されている情報が感覚的にわかるのでは?
既存の画像再構成の例
• HOG 特徴の視点からは誤識別しても仕方ない





• Bag-of-Visual-Words にも局所既述子の位置情報は

(潜在的に)残されている
[Vondrick+ 13]
[Kato+ 14]
提案手法 (1)
• 一般的な画像識別器の学習
• 画像 x とその教師ラベル y を与え,

最適なネットワークのパラメータ w を求める
• これは誤差逆伝播法で効率的に解ける
• 本論文での画像の再構成
• 教師ラベル y と ネットワークのパラメータ w を与え,

最適な画像 x を求める
• これも誤差逆伝播法で効率的に解ける!
Lは Cross Entropy 誤差
Lは2乗誤差
提案手法 (2)
• 提案手法の工夫
• 画像がギザギザ化を防止する正則化項を追加
• SIFT, HOG
• ニューラルネットワーク的な形で微分可能なように再定義(詳細は省略)
• 同様の手法で画像再構成が可能
Deep Dream との関係
• Deep Dream
• ネットワークがよく

反応するような画像に変形









• 最適化問題
• 識別器の学習

• 画像の再構成

• Deep Dream

Lは Cross Entropy 誤差
Lは2乗誤差
-
実験 (1)
• HOG, SIFT の逆変換
実験 (2)
• CNN の各階層の逆変換
• 深いほど曖昧さが増すが, 深い層にもかなりの画像情報が残されている
実験 (3)
• CNN の不変性
• 同じ特徴から複数の画像を再構成
• いろいろな位置やサイズで現れる -> それらに対する不変性がある
実験 (4)
• Receptive Field と再構成
• Receptive Field の端の方は画像が再構成されない
実験 (5)
• 違うチャネルからの再構成
• 色に反応するチャネルと, エッジに反応するチャネルとがある
実験 (6)
• 正則化項の影響
• 画像のギザギザを減らす正則化項の

効果はかなり大きい
• 

HOG
CNN
まとめ
• この論文は
1. CNN, SIFT, HOG を逆変換する手法を提案した
• 勾配降下法による最適化
• 正則化項を入れてギザギザ化を防ぐのが
2. CNN の各レイヤーで表されている情報を明らかにした
• 深いほど不変性と抽象性が高まる
疑問
1. 画像再構成で表現できないものもあるよね?
2. 画像再構成で画像識別の性能上がるの?
3. 実は画像再構成手法の性質を見てるだけでは?
疑問
1. 画像再構成で表現できないものもあるよね?
• 名詞以外はビジュアルで表現しにくくないか?
• 抽象的すぎるものを捉えていたら?
• たとえば「美」や「真実」に反応するニューロンだったら?
Simple Truth 

https://www.flickr.com/photos/bamboobarnes/16445364238/
Abstract Beauty 

https://www.flickr.com/photos/crazyshin/153621375/
疑問
2. 画像再構成で画像識別の性能上がるの?
• 本論文は確かに興味深かった, が, これをどう活かせばいいのか?
• 特徴量設計の方法まで述べないとあまり意味がないのでは?
• そこまで述べたのは [Zeiler+ 14] のみ
[Zeiler+ 14]
疑問
3. 実は画像再構成手法の性質を見てるだけでは?
• 右の画像から SIFT の性質がわかるか?
• 本論文の場合でも
• 最適化がうまくいっていないのでは?
• 正則化項の影響は?
[Weinzaepfel+ 11]
まとめ (2)
• この論文は
1. CNN, SIFT, HOG を逆変換する手法を提案した
• けれど実用に耐えうる性能なのかはよくわからない
2. CNN の各レイヤーで表されている情報を明らかにした
• けれどその知見をどう活かせばいいのかよくわからない
• 画像特徴可視化に期待すること
1. 提案手法で画像特徴を再設計して性能向上, まで示してほしい
2. ビジュアル化できないけれど捉えている情報, も示してほしい
参考文献
• [Mahendran+ 15] A. Mahendran and A. Vedaldi. Understanding Deep Image
Representations by Inverting Them . CVPR. 2015.
• [Kato+ 14] H. Kato and T. Harada. Image Reconstruction from Bag-of-Visual-Words .
CVPR. 2014.
• [Vondrick+ 13] C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles:
Visualizing Object Detection Features . ICCV. 2013.
• [Zeiler+ 14] M. Zeiler and R. Fergus. Visualizing and Understanding Convolutional
Networks . ECCV. 2014.
• [Weinzaepfel+ 11] P. Weinzaepfel, H. Jégou and P. Pérez. Reconstructing an Image
from Its Local Descriptors . CVPR. 2011.

More Related Content

What's hot

コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
Norishige Fukushima
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
 
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
 [DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se... [DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
Deep Learning JP
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
 
BRDF レンダリングの方程式
BRDF レンダリングの方程式BRDF レンダリングの方程式
BRDF レンダリングの方程式
康弘 等々力
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
Takuya Minagawa
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
Deep Learning JP
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
Yamato OKAMOTO
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
Deep Learning JP
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
Takanori Ogata
 

What's hot (20)

コンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィコンピューテーショナルフォトグラフィ
コンピューテーショナルフォトグラフィ
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
 [DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se... [DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
[DL輪読会]"CyCADA: Cycle-Consistent Adversarial Domain Adaptation"&"Learning Se...
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
BRDF レンダリングの方程式
BRDF レンダリングの方程式BRDF レンダリングの方程式
BRDF レンダリングの方程式
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
 
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
 
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
関西CVPRML勉強会2018 岡本大和 Unsupervised Feature Learning Via Non-Parametric Instanc...
 
[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況[DL輪読会]画像を使ったSim2Realの現況
[DL輪読会]画像を使ったSim2Realの現況
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 

Similar to CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"

CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
Atsushi Hashimoto
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
Yuki Yamashita
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
Atsushi Hashimoto
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
Kento Doi
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
Atsushi Hashimoto
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
Silicon Studio Corporation
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
Atsushi Hashimoto
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
Kazuyuki Miyazawa
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
Deep Learning JP
 

Similar to CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them" (12)

CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
 
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
3DCG住宅プレゼンテーションのグローバルイルミネーションをディープラーニングで推定!
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 

Recently uploaded

FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
atsushi061452
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
atsushi061452
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
Sony - Neural Network Libraries
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
yassun7010
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
NTT DATA Technology & Innovation
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
iPride Co., Ltd.
 

Recently uploaded (15)

FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 

CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"

  • 1. CVPR 2015 読み会 ! A. Mahendran and A. Vedaldi Understanding Deep Image Representations by Inverting Them 加藤大晴 http://hiroharu-kato.com/
  • 2. 自己紹介 • 加藤 大晴 (かとう ひろはる) • 2014/04- ソニー株式会社(音響信号処理) • 2014/03 修士(情報理工学)東京大学 原田研究室 • http://hiroharu-kato.com/ • @hiroharu_kato など • 本発表は所属組織とは一切関係ありません • 以降, 論文に記載のない内容については を付けます
  • 3. 論文の概要 • A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them. • CNN の出力を画像へと逆変換する手法を提案 • ついでに SIFT と HOG も逆変換 • いろいろ画像を再構成して観察 • 手法: 誤差逆伝播で重みではなく入力画像を最適化 • モチベ: CNN が何を捉えているか理解したい 元画像 再構成1 再構成2 再構成3
  • 4. 読んだ動機 • 加藤の修士論文:
 Image Reconstruction from Bag-of-Visual-Words (CVPR 14) • BoVW を画像へと再変換 • ついでに識別器の分析や画像の生成 • 修論の反省 • Bag-of-Visual-Words は相当時代遅れ • そもそも画像再構成の役立て方がよくわからない
  • 5. なぜ画像再構成? • 画像特徴の性質について, 我々は実はよく知らない • とりあえず実験的に良い性能が出ればOK • 特にニューラルネットワークでは顕著 • 画像特徴って実のところ何を捉えているんだろう? • 画像特徴から画像を再構成してみれば
 画像特徴に残されている情報が感覚的にわかるのでは?
  • 6. 既存の画像再構成の例 • HOG 特徴の視点からは誤識別しても仕方ない
 
 
 • Bag-of-Visual-Words にも局所既述子の位置情報は
 (潜在的に)残されている [Vondrick+ 13] [Kato+ 14]
  • 7. 提案手法 (1) • 一般的な画像識別器の学習 • 画像 x とその教師ラベル y を与え,
 最適なネットワークのパラメータ w を求める • これは誤差逆伝播法で効率的に解ける • 本論文での画像の再構成 • 教師ラベル y と ネットワークのパラメータ w を与え,
 最適な画像 x を求める • これも誤差逆伝播法で効率的に解ける! Lは Cross Entropy 誤差 Lは2乗誤差
  • 8. 提案手法 (2) • 提案手法の工夫 • 画像がギザギザ化を防止する正則化項を追加 • SIFT, HOG • ニューラルネットワーク的な形で微分可能なように再定義(詳細は省略) • 同様の手法で画像再構成が可能
  • 9. Deep Dream との関係 • Deep Dream • ネットワークがよく
 反応するような画像に変形
 
 
 
 
 • 最適化問題 • 識別器の学習
 • 画像の再構成
 • Deep Dream
 Lは Cross Entropy 誤差 Lは2乗誤差 -
  • 10. 実験 (1) • HOG, SIFT の逆変換
  • 11. 実験 (2) • CNN の各階層の逆変換 • 深いほど曖昧さが増すが, 深い層にもかなりの画像情報が残されている
  • 12. 実験 (3) • CNN の不変性 • 同じ特徴から複数の画像を再構成 • いろいろな位置やサイズで現れる -> それらに対する不変性がある
  • 13. 実験 (4) • Receptive Field と再構成 • Receptive Field の端の方は画像が再構成されない
  • 14. 実験 (5) • 違うチャネルからの再構成 • 色に反応するチャネルと, エッジに反応するチャネルとがある
  • 15. 実験 (6) • 正則化項の影響 • 画像のギザギザを減らす正則化項の
 効果はかなり大きい • 
 HOG CNN
  • 16. まとめ • この論文は 1. CNN, SIFT, HOG を逆変換する手法を提案した • 勾配降下法による最適化 • 正則化項を入れてギザギザ化を防ぐのが 2. CNN の各レイヤーで表されている情報を明らかにした • 深いほど不変性と抽象性が高まる
  • 18. 疑問 1. 画像再構成で表現できないものもあるよね? • 名詞以外はビジュアルで表現しにくくないか? • 抽象的すぎるものを捉えていたら? • たとえば「美」や「真実」に反応するニューロンだったら? Simple Truth 
 https://www.flickr.com/photos/bamboobarnes/16445364238/ Abstract Beauty 
 https://www.flickr.com/photos/crazyshin/153621375/
  • 19. 疑問 2. 画像再構成で画像識別の性能上がるの? • 本論文は確かに興味深かった, が, これをどう活かせばいいのか? • 特徴量設計の方法まで述べないとあまり意味がないのでは? • そこまで述べたのは [Zeiler+ 14] のみ [Zeiler+ 14]
  • 20. 疑問 3. 実は画像再構成手法の性質を見てるだけでは? • 右の画像から SIFT の性質がわかるか? • 本論文の場合でも • 最適化がうまくいっていないのでは? • 正則化項の影響は? [Weinzaepfel+ 11]
  • 21. まとめ (2) • この論文は 1. CNN, SIFT, HOG を逆変換する手法を提案した • けれど実用に耐えうる性能なのかはよくわからない 2. CNN の各レイヤーで表されている情報を明らかにした • けれどその知見をどう活かせばいいのかよくわからない • 画像特徴可視化に期待すること 1. 提案手法で画像特徴を再設計して性能向上, まで示してほしい 2. ビジュアル化できないけれど捉えている情報, も示してほしい
  • 22. 参考文献 • [Mahendran+ 15] A. Mahendran and A. Vedaldi. Understanding Deep Image Representations by Inverting Them . CVPR. 2015. • [Kato+ 14] H. Kato and T. Harada. Image Reconstruction from Bag-of-Visual-Words . CVPR. 2014. • [Vondrick+ 13] C. Vondrick, A. Khosla, T. Malisiewicz, and A. Torralba. HOGgles: Visualizing Object Detection Features . ICCV. 2013. • [Zeiler+ 14] M. Zeiler and R. Fergus. Visualizing and Understanding Convolutional Networks . ECCV. 2014. • [Weinzaepfel+ 11] P. Weinzaepfel, H. Jégou and P. Pérez. Reconstructing an Image from Its Local Descriptors . CVPR. 2011.