4. DNNの動向(1/8)
• DNN時代以前の動向
– Perceptron, MLP, Neocognitron, BackProp, CNN
– DNNが流⾏る前の画像認識では局所特徴が使⽤
1st AI 2nd AI 3rd AI
F. Rosenblatt et al. “Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms” in 1961.
Rumelhart et al. “Learning representations by back-propagating errors” in Nature 1986.
K. Fukushima, “Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”, in
1980
Y. LeCun et al. “Gradient-based learning applied to document recognition” in IEEE 1998.
23. ICCV2017の動向・気付き(11/22)
– 予測という⾼次な情報を推定
• 時間 t の状態が⾼度に観測できるようになったので t+n
の状態を予測する
• 少し調べただけでも下記のような論⽂が⾒つかる
• Predicting Human Activities Using Stochastic Grammar
• First-Person Activity Forecasting With Online Inverse Reinforcement Learning
• Visual Forecasting by Imitating Dynamics in Natural Sequences
• Fashion Forward: Forecasting Visual Style in Fashion(ファッションスタイルの予測)
• The Pose Knows: Video Forecasting by Generating Pose Futures
• What Will Happen Next? Forecasting Player Moves in Sports Videos
• Encouraging LSTMs to Anticipate Actions Very Early
• Anticipating Daily Intention Using On-Wrist Motion Triggered Sensing
39. 引⽤されそうな論⽂(4/18)
• SSD-6D: Making RGB-Based 3D Detection
and 6D Pose Estimation Great Again
– One-shot RGB画像から物体検出と3次元6D姿勢を出⼒
– Inception v4を⽤いて画像から多スケールな特徴抽出,SSDベースな⼿法で物
体検出と姿勢推定
RGB画像だけでも⾼精度で3次元情報を推定できることを⽰した
44. 引⽤されそうな論⽂(9/18)
• What Actions are Needed for
Understanding Human Actions in Videos?
– これまでの⾏動認識⼿法やデータセットを
様々な⾓度から分析
– 現状の位置づけと今後の⽅向性を議論
• これまでの⼿法は何を学習していたのか?
• ⾏動を理解するためにはどのようなクラス設計が必要か?
45. 引⽤されそうな論⽂(10/18)
• Detect to Track and Track to Detect
– ビデオから同時に物体検出と追跡を⾏うend-to-endなネッ
トワークを提案
– 隣接するフレーム間の対応関係を表すcorrelation feature
を提案
• 従来のネットワークより構造的に簡単
73. J. Martinez, R. Hossain, J. Romero, and J. J. Little, “A simple yet effective
baseline for 3d human pose estimation”, in ICCV, 2017.
【6】
Keywords: 3d pose estimation, 2d to 3d
・2Dの姿勢から3Dの姿勢に変換する⼿法の提案。
・ネットワークはsimple, deep, multilayerに構成されてお
り、2D座標を⼊⼒すると3D座標が出⼒される。⼊⼒が座標の
みなので、学習コストなどが⼤幅に削減できている。
・学習にはhuman3.6m, HumanEva, mpii pose datasetを
⽤いている。
概要
Links
論⽂ : https://arxiv.org/pdf/1705.03098.pdf
コード:https://github.com/djangogo/3d-pose-baseline
動画:
https://www.youtube.com/watch?
v=Hmi3Pd9x1BE&feature=youtu.be
新規性・差分
・⾮常にシンプルながらも⾼精度な結果を出している。
74. David Novotny, Diane Larlus, Andrea Vedaldi, “Learning 3D Object
Categories by Looking Around Them”, in ICCV, 2017. (Oral)
【7】
Keywords: 3D object categorization, 3D shape completion, Training data from videos,
新規性・差分
概要
・2DRGB物体画像から,視点,デプス,物体のコンプリート
な3次元点群を同時に予測するネットワークを提案した。
・異なるビデオから撮影した同じ物体をロバストでアライ
メントする視点分解ネットワークと⽋損な物体モデルから
コンプリートな3次元形状を推定するネットワークの2つを
ジョイントで構築した。
・視点推定,デプス推定,ポイントクラウド推定の3つの
タスクともstate-of-artな結果が得られている。
・3次元物体の分類の学習データとして従
来は⼿動でアノテーションや合成データな
どを⽤いる⽅が多い。ビデオから学習する
ことの有⽤性を⽰した。
・物体の視点のpertubationを利⽤し,ト
レーンデータ拡張を⾏う。従来⼿法と⽐べ
て、よりリアルなデータを得られている。
Links
論⽂: http://arxiv.org/abs/1705.03951
結果
ネットワーク
概要図
75. Jean Lahoud, B. Ghanem, “2D-Driven 3D Object Detection in RGB-D
Images”, in ICCV, 2017.
【8】
Keywords:3D object detection, Utilize 2D object detection to reduce search space
新規性・差分
概要
・1枚のRGB-D画像から物体の3Dバウン
ディングボクスを⽣成する⼿法を提案。
・Faster R-CNNを利⽤し2Dの画像か
ら,物体を検出,3DデータをMFE⼿法に
よりオリエンテーションを推定,また,
物体間の関係からバウンディングボクス
の最適化を⾏う。SUN RGB-Dデータセッ
トで⾼い精度と最も速い処理スピードを
達している。
・処理スピード(4.1sec per image)と
⾼い精度を得られていて,2D検出を3D
データに利⽤することの有⽤性を⽰した。
・3D物体オリエンテーション推定する
際,予めの物体のCADモデルが不要。
Links
論⽂:
https://ivul.kaust.edu.sa/Documents/
Publications/2017/2D-Driven%203D
%20Object%20Detection%20in%20RGB-D
%20Images.pdf
プロジェクト:
https://ivul.kaust.edu.sa/Pages/pub-3d-
detect.aspx
提案⼿法のプロセス
結果
76. Kuo-Hao Zeng, William B. Shen, De-An Huang, Min Sun, Juan Carlos
Niebles, “Visual Forecasting by Imitating Dynamics in Natural
Sequences”, in ICCV, 2017. (Spotlight)
【9】
Keywords: Visual Forecasting, Prediction
新規性・差分
概要
・⻑時間/短時間フレームの予測、未来の画像⽣成の問題を同時に
解決する予測⽅法を提案した。⼿法としてはRaw Imageの⼊⼒に
よるInverse Reinforcement Learning (IRL)を扱う。学習では指
針として「模倣学習」を⾏う。ある動作に類似したシーケンスを観
測して、その流れや分散を記憶する。強化学習とは異なり、エキス
パートの⾏動を観測することでコスト関数を復元(強化学習ではコ
スト関数を与える)することから逆強化学習と呼ばれる。
・ドメインに関する事前知識やハンドクラフト特徴が不要で、普遍的な予
測を実現した
・普遍的な予測では、⻑時間の⽂脈予測/短時間の⾏動予測、先の時間の画
像⽣成問題を同時に解決するフレームワークを提案している。
Links
論⽂:
https://arxiv.org/pdf/1708.05827.pdf
プロジェクト(to appear) :
http://ai.stanford.edu/~khzeng/projects/
vfid/
著者: https://kuohaozeng.github.io/
(下図)のように⻑時間フレームを
観測した上での予測、短時間の予
測、次フレームの画像⽣成を普遍的
に解く問題を取り扱う。
103. Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman, “Detect to Track
and Track to Detect”, in ICCV, 2017. (Spotlight)
【36】
Keywords:Object detection and tracking from video, RPN, R-FCN
新規性・差分
概要
・ビデオから同時に物体検出と追跡を⾏うEnd-to-Endな
ネットワーク構造を提案した。
・提案ネットワーク(右図)はまず隣接するフレームに対
し,CNNにより特徴マップを抽出する.抽出した特徴マッ
プに対し,RPNとRoI Poolingにより物体のクラス及びバ
ウンディングをregressionする.そして,同じ特徴マップ
をR-FCN構造をベースな構造によりRoI Trackingを⾏い,
出⼒として隣接するフレーム間の対応バウンディング間の
transformationが得られる.この結果によりさらにフレー
ム間の物体検出を最適化できる.
・ImageNet VID validationデータセットで⾼精度達成。
・ビデオから同時に物体検出と追跡を⾏うネットワーク構
造を提案した。この2つのタスクを同時に⾏うことの有効
性を⽰した.
・隣接するフレーム間の対応関係を求められるcorrelation
feature を提案した。
・従来⼿法より構造簡単しかも⾼精度。
Links
論⽂ :
http://www.robots.ox.ac.uk/~vgg/publications/2017/
Feichtenhofer17/feichtenhofer17.pdf
プロジェクト :
https://www.robots.ox.ac.uk/~vgg/research/detect-
track/
提案⼿法のネットワーク構造
ImageNet VID validation setでの定量的結果
104. Seil Na, Sangho Lee, Jisung Kim, Gunhee Kim, “A Read-Write Memory
Network for Movie Story Understanding”, in ICCV, 2017.
【37】
Keywords: Memory Network, movie understanding
新規性・差分
概要
・新しい記憶装置付きニューラルネットワークを構築することによっ
て、⻑いビデオを理解し、QAタスクに取り組む。
・RWMN(Read-Write Memory Network)はWrite networkとRead
networkの⼆つのネットワークで構成され、従来⼿法より⾼い容量や柔
軟なメモリー読み込み・書き込みを達成した。
・QAベンチマークデータセットにおいてベスト性能を達成。
・既存⼿法では各メモリースロットを独⽴のブロックとす
るが、この研究では、多層のCNN構造を利⽤することに
よって、連続的なメモリーをチャンクとした読み込むこと
を可能にした。
・メモリーネットワークの読み込み・書き込み操作に対し
て、初めての多層CNNの利⽤の試み。
Links
論⽂ :
http://openaccess.thecvf.com/content_ICCV_2017/
papers/Na_A_Read-
Write_Memory_ICCV_2017_paper.pdf
105. Yikang Li, Wanli Ouyang, Bolei Zhou, Kun Wang, Xiaogang Wang, “Scene
Graph Generation from Objects, Phrases and Caption Regions”, in ICCV,
2017.
Keywords: Multi-task Network, Motion Capture, Scene graph generation
概要
・Multi-level Scene Description Networkを提案した.
・画像中の物体検出と同時に説明⽂を⽣成するだけでなく,説明⽂と画像
の対応関係も⽣成できる.説明⽂のある部分が画像の何処に対応するかを
反映できる.
・State-of-artの結果を達成した.
新規性・差分
・⼀つのネットワークで物体検出,説明⽂⽣成とモーション
キャプチャーの多タスク処理ができる構造を提案した.
・その構造が画像から抽出したセマンティックレベルの領域
特徴,⽂章の特徴また物体の特徴を有効的に融合する.
Links
論⽂: https://arxiv.org/abs/1605.08179
【38】
106. Saihui Hou, Xu Liu and Zilei Wang, “DualNet: Learn Complementary
Features for Image Recognition”, in ICCV, 2017 .
Keywords: Image Recognition, Parallel Neural Networks, Complementary Features
概要
・画像認識でより精確な特徴を抽出できるDualNetを提案した
・提案した構造を現在よく使われるモデル(VGGやCaffeNetなど)に適
⽤すると,明らかに認識性能が上がることが分かる.またCIFAR-100 で
state-of-the-art な認識精度を達成した.
新規性・差分
・⼆つのSubnetworkから組み合わせる.相補的な特徴を学
習できる.
・End2Endな学習でモデルをトレーニングすることではな
く,まず⼆つのSubnetworkを交替的にトレーニングし,ま
た全ての分類器に対してFinetuningする.
Links
論⽂:
http://home.ustc.edu.cn/~saihui/project/dualnet/
iccv17_dualnet.pdf
【39】
107. Aseem Behl; Omid Hosseini Jafari; Siva Karthik Mustikovela; Hassan Abu
Alhaija; Carsten Rother; Andreas Geiger, “Bounding Boxes,
Segmentations and Object Coordinates: How Important Is Recognition
for 3D Scene Flow Estimation in Autonomous Driving Scenarios?”, in
ICCV, 2017 .
Keywords: 3D Scene Flow Estimation, CNN, CRF
概要
・⼤きな移動や局所的に曖昧な場合があるため、既存の3Dシーンフロー
推定の⽅法はよくできない場合がある.本論⽂がこれを克服するために,
2DのBounding-boxとInstance Segmentationの情報を利⽤する⼿法を
提案した.
新規性・差分
・幾何学的⼿掛かりを⽤いて新しい3D scene flow ⼿法を
提案した, KITTI 2015 scene flow benchmarkでstate-
of-the-art の性能を達成した.
・2DのBounding-boxとInstance Segmentation情報を利
⽤して3Dパーツ座標の予測性能を向上させる.
Links
論⽂: http://www.cvlibs.net/publications/Behl2017ICCV.pdf
【40】
108. Pan He; Weilin Huang; Tong He; Qile Zhu; Yu Qiao; Xiaolin Li, “Single
Shot Text Detector With Regional Attention”, in ICCV, 2017 .
Keywords: text detection, word-level, text attention, inception
概要
・Single-shot boxをベースとして⾃然シーンから⽂字領域の
Bounding-boxを直接出⼒する⼿法を提案した.
・ICDAR2015データセットでF-scoreが77%に達成した.他
のテストセットもトップの結果を得た.
新規性・差分
・Attentionモデルを利⽤し,粗いword-levelの⽂字領域の
特徴を求められる.そのattentional mapを⽤いて,より⾼
い精度を達成する可能性がある.
・Inceptionモデルを利⽤して,スケールが違うカーネルで
処理したら,より詳しい特徴が得られる.こうすると,学習
したモデルがmulti-scaleとmulti-orientationの⽂字にうま
く対応できる.
Links
論⽂: https://arxiv.org/abs/1709.00138
【41】
109. Christoph Lassner; Gerard Pons-Moll; Peter V. Gehler, “A Generative
Model of People in Clothing”, in ICCV, 2017 .
Keywords: Attribute Recognition, GAN, Super Resolution
概要
・監視カメラから⼈の属性を分析する
・低解像度と遮断される場合にうまく対応できる.80%の
部分が遮断されても⼈の属性を抽出できると記載した.
新規性・差分
・敵対的学習の⼿法を⽤いて,Reconstruction
Networkを提案し,遮断された画像を⾃動的に補完す
る.
・Super Resolution Networkを利⽤し,低解像度の画
像からより⾼解像度の画像を⽣成できる.
Links
論⽂: https://arxiv.org/pdf/1707.02240.pdf
【42】
110. Masaki Saito; Eiichi Matsumoto; Shunta Saito; Peter V. Gehler, “Temporal
Generative Adversarial Nets With Singular Value Clipping”, in ICCV, 2017 .
Keywords: Temporal GAN, Video, Stable Training, SVC
概要
・ビデオを⽣成できるGANを提案した.意味的に
ビデオを⽣成することも可能.
新規性・差分
・Generatorが昔の三次元畳み込み層の構造では
なく,まずは提案されたTemporal Generatorを⽤
いて時間的にフレームに対応するLatent変数を⽣
成する.そして,そのLatent変数を利⽤し,フ
レームごとに画像を⽣成する.
・GANの学習が不安定に対して,Wasserstein
GANの⼿法でEarth Moverʼs distanceを最適化す
る.
・WGANの学習をより安定させるために,
Singular Value Clipping(SVC)を提案した.
Links
論⽂:
http://openaccess.thecvf.com/content_ICCV_2017/
papers/
Saito_Temporal_Generative_Adversarial_ICCV_2017_p
aper.pdf
【43】
111. Xudong Mao; Qing Li; Haoran Xie; Raymond Y.K. Lau; Zhen Wang;
Stephen Paul Smolley, “Least Squares Generative Adversarial Networks”,
in ICCV, 2017 .
Keywords: GAN, Least squares loss function, Stable training
概要
・LSGAN(Least Squares Generative Adversarial
Networks)を提案する.
・LSUNとCIFAR-10データセットを学習し,モデル
を評価した.結果としては,LSGANがよりリアルな
画像を⽣成できる.
・LSGANを⽤いて⼿書きの中国語(漢字)を⽣成す
る.ちゃんと読める結果を得られた.
新規性・差分
・ Least Squares Loss Functionを⽤いて,
Discriminatorからのロスを計算する.その最適化
はピアソンχ2分布の最適化と⾒なす.
Links
論⽂:
http://openaccess.thecvf.com/content_ICCV_2017/
papers/
Mao_Least_Squares_Generative_ICCV_2017_paper.p
df
Generator Discriminator
【44】