SlideShare a Scribd company logo
1 of 20
Download to read offline
cvpaper.challenge
	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev, George Toderici, Balakrishnan
Varadarajan, Sudheendra Vijayanarasimhan, “YouTube-8M: A Large-Scale Video Classification
Benchmark”, in CVPR WS, 2017.
【1】
Keywords: YouTube-8M dataset, Video Classification
新規性・差分
概要
動画認識の問題設定であるYouTube-8Mの論⽂であり,同データセットを⽤いたコン
ペティションがCVPR2017のワークショップにて開催される.YouTube-8Mは4,800の
語彙数からクラスが構成,800万の動画数(19億フレーム),500K時間の動画⻑さを
誇り,2017年現在の動画データベースとしては世界最⼤である.ビデオや複数ラベル
の付与にはYouTube video annotation systemを⽤いた.TensorFlowを⽤いた学習モ
デルや評価コードが⼊⼿可能である.同データを⽤いて学習したところActivityNetに
おいてはベースの53.8%から77.6%に向上し,state-of-the-artなmAPのスコアを算
出.右図はビデオデータやイメージデータの位置づけを可視化したもの。
学習・評価・テスト⽤のスプリットは7:2:1である(右図).YouTube-8Mで学習した
学習済みモデルは動画認識に対して汎⽤性が⾼く,Sports-1MやActivityNetにおいても
転移学習による精度がstate-of-the-artを記録した(下表).
Links
論⽂
https://static.googleusercontent.com/media/
research.google.com/ja//youtube8m/youtube8m-paper.pdf
プロジェクト
https://static.googleusercontent.com/media/
research.google.com/ja//youtube8m/
Amir Sadeghian et al. , “Tracking The Untrackable:Learning To Track Multiple Cues with Long-Term
Dependencies ”, in arXiv1701.01909, 2017.
【2】
Keywords: MOT, multi object tracking, rnn, lstm
新規性・差分
概要
・CNN, LSTMを⽤いた複数物体追跡. 現在MOT Challenge
2015 2DのMOTAにおいて2位. Appearance, Motion,
Interactionそれぞれに着⽬したモデルを統合して追跡に⽤
いる. 上記モデルで計算されたグラフの重みをもとにハン
ガリアンアルゴリズムで割り当てを⾏う。
・各モデルはsiamese CNNをベースとしており、⼊⼒に対
し同⼀⼈物のものか否かで学習. 出⼒層前の層の出⼒をと
特徴ベクトルとする. Appearanceは時刻t-1とtにおける検
出矩形を⼊⼒に,Motionは速度ベクトルをt-1時刻まで
LSTMにより計算しその出⼒とt時刻の速度を⼊⼒,
Interactionはこの論⽂で定義したoccupancy mapをベクト
ル表現したものを⼊⼒とし,Motionと同様時刻t-1までの
LSTMの出⼒と時刻tのoccupancy mapベクトルを⼊⼒する.
Links
論⽂ https://arxiv.org/pdf/1701.01909v1.pdf
Anton Milan et al. , “Online Multi-Target Tracking Using Recurrent Neural Networks”, in arXiv:
1604.03635, 2016.
【3】
Keywords: MOT, Multi-object tracking, RNN, LSTM
新規性・差分
概要
・RNN, LSTMを⽤いた⾼速な複数物体追跡⼿法の提
案.RNNをベースとした次フレームの物体位置の予測と新
たに検出された物体か否か,物体が消失したか否かを判断
するモデルの提案. また,LSTMを⽤いたアソシエーション
モデルの提案. Torch7でのコードも公開されている.
・Aはアソシエーションの情報, xは検出矩形の情報,εは
物体がBirthしたかDeathしたかを表す値[0, 1]. 従来Greedy
solutionやJPDAなどがあったがそれぞれ⽋点がある. この
論⽂ではアソシエーション情報をLSTMに⼊⼒することで
LSTMの計算のみでアソシエーションを⾏うことができる.
モデルが浅いため計算コストが少なくとても⾼速という利
点がある.
Links
論⽂ https://arxiv.org/pdf/1604.03635v2.pdf
プロジェクト https://bitbucket.org/amilan/rnntracking
Amir R. Zamir et al., “Feedback Networks”, in arXiv:1612.09508, 2016.
【4】
Keywords: LSTM, CNN, cifar 100
・通常CNNではfeedforwardのネットワーク構成だが,こ
の論⽂ではLSTMの構造をCNNに応⽤することでfeedback
による推定が可能なネットワーク構成を提案する. cifar
100とstanford cars datasetを⽤いて分類精度実験,MPII
Human Pose estimation benchmarkにて姿勢推定の精度実
験を⾏っている.
新規性・差分
概要
・LSTMをCNNに応⽤したConvolutinal LSTMの提案. ま
た,skip connectionという時間⽅向にスキップするコネク
ションを⽤いることで精度の向上が⾒込める. ConvLSTM
は基本的に通常のLSTMの内積計算を畳み込みに置き換え
たものになっている. ConvLSTM内に複数の畳み込み層や
BatchNormalization層を加えたモデルも提案している.
Links
論⽂ https://arxiv.org/pdf/1612.09508v2.pdf
プロジェクトhttp://feedbacknet.stanford.edu/
Brian Chu, Daylen Yang, Ravi Tadinada, “Visualizing Residual Networks”, in 1701.02362, 2017.
【5】
Keywords: Visualization, ResNet
新規性・差分
概要
ResNetを可視化することで、Residual Skip Connectionの挙動を把握する。ショー
トカットコネクションは(想像では)特徴の強調を⾏っている。右図は、ベーシッ
クショートカット(下)とプロジェクションショートカットブロック(上)であ
る。本論⽂の可視化ではdeconvの代わりにYosinski et al.のGuided
BackpropagationをResNetに適⽤する。
・Deconvの代わりにYosinskiらのGuided Backprop.を⽤い
ることでResNetを可視化。その結果、より鮮明な特徴抽
出を実現していることが判明した。より上位の層 (e.g. 5a,
5b)になると対象物体にフォーカスした特徴抽出が可能と
なった。
Links
論⽂ https://arxiv.org/pdf/1701.02362v1.pdf
ResNet-50 Vis
http://ethereon.github.io/netscope/#/gist/
db945b393d40bfa26006
Satoshi Ikehata, “Structured Indoor Modeling”, in ICCV, 2015.
【6】
Keywords: Indoor Modeling, 3D Reconstruction
新規性・差分
概要
パノラマRGBDを⼊⼒とした屋内環境のモデリングをグラフ構造で表現し
た。新規に再構成のアルゴリズムを考案し、環境をモデリングするための
組織化を実現。Structure Graphには部屋レベルから物体レベルの意味情報
が対応している。グーグルストリートビューのような⾒せ⽅で屋内環境を
可視化。新しい部屋のセグメンテーションやそのマップを構成することに
成功し、極めてコンパクトな3次元モデルを構成した。3次元表現におい
てもメッシュや点群、距離画像など多様な表現を実現した。
・(フレームワークの新規性)新規の構造化モデル表現や再構成の枠組
みを考案。このフレームワークは他のドメインにも転⽤可能である。
・(技術的な新規性)部屋のセグメンテーションや再構成を考案し、部
屋間のつながりのタイプを識別した。
・(システムの新規性)本論⽂は始めて(1) 屋内環境において部屋から物
体までのラベル付けやセグメンテーションを⾏った。 (2) 間取りを⾃動
で⽣成、(3) 屋内環境におけるInverse-CAD (実環境を観測してCADを⽣
成)を実現した。
Links
論⽂
https://www.hal.t.u-tokyo.ac.jp/~ikehata/
structured_modeling_iccv2015.pdf
動画 https://www.youtube.com/watch?v=RZU8w3uvenU
Structured Graphによるつながりの表現。構造化
されたグラフとして屋内環境の間取り、部屋のセ
グメント、物体まで組織化。
6つのSyntheticな環境、5つのデータセットにて実験を⾏い、有効性
を確かめた。
Sirion Vittayakorn, Alexander C. Berg, Tamara L. Berg, “When Was That Made?”, in arXiv pre-print,
1608.03914, 2016.
【7】
Keywords: Fashion, Car, Old Recognition
新規性・差分
概要
⾞やファッションなど、「いつ作られたか」を推定する問題。歴史家、コ
レクター、アーチファクトたちに向けた研究である。この課題に対して、
既存のDNNにFine-tuneを⾏ったネットワークを適⽤する。⼆つのデータ
セットに対して67,771の時を経た服装の画像をFlickrやミュージアムコレ
クションから収集する。本論⽂の⼿法は⾊ベースのベースラインよりも⾼
い精度でこの時系列推定を⾏った。ネットワークが複数の解析を⾏い、ど
のようにファッションコレクションから学習するのかを解析した。
・昔から現在までのデータセットを作成し、年代を推定する課題を与えた。
従来のデータが10年弱のデータを含むのに対して本論⽂のデータは1900年か
ら2009年までのデータを含む。データセットの画像枚数は67K枚で構成。
・初めてDeep Networksが年代推定を⾏った⼿法である。アプリケーション
としてはファッションにおけるビンテージスタイルの影響を解析する。
Links
論⽂ https://arxiv.org/pdf/1608.03914v1.pdf
プロジェクト
ミュージアムデータセットは⼆つの異なる博物館:
Metropolitan Museum of Art, Europeana Fashionから構成さ
れ、12の国籍、9,421枚の画像、1900年から2009年の年代に
おいてコレクションされた。
DNNはImageNet Pre-trained Model (VGG-16)からスタート
した。中間層の4,096次元の特徴を抽出し、SVM/SVRと組み
合わせにより識別器を構成。Fine-tuningは本論⽂で提案の
CarDb dataset、Clothing, Museum dataなどを⽤いて追加学
習を⾏った。左の表は年代(year)のMean Absolute Errorを⽰
している。
⼿法
Peiyun Hu, Deva Ramanan, “Finding Tiny Faces”, in arXiv pre-print 1612.04402, 2016.
【8】
Keywords: Face Detection, Tiny Faces, WIDER Face, FDDB
新規性・差分
概要
物体検出の試みが2014年からの数年で進んでいるが、ひとつの課題が⼩さな物
体への対応である。本論⽂では3つの側⾯(スケール普遍性、画像解像度、コ
ンテキストを考慮した意味づけ)から⼩さな顔を検出する⼿法を模索した。極
めて⼩さい顔(e.g. 3pxl tall)は通常の顔とは異なるため、異なる学習を実⾏し
た。効率化を図るため、完全に分離した学習ではなく、Multi-task学習を⾏う。
通常の顔に対してはStraight-forwardな学習を⾏うが、⼩さな物体に対してはコ
ンテキストが効果的である。FDDBやWIDER FACEなど巨⼤なデータベースに
おいてState-of-the-artな精度を達成した。
⼩さな顔ほど、画像パッチに対するTight-fittingが重要である。⾯⽩いことに⼩
さな顔は⼩さな受容野(Receptive Field)が効果的であった(⼩さな顔はオクルー
ジョンがなく、全て⾒えていることが多いため)。
・複数解像度や複数のデータセット拡張やMulti-task学習により極めて
⼩さな顔を検出した
・FDDBやWIDER FACEなど巨⼤なDBに
対してState-of-the-artな精度(右図)
Links
論⽂ https://arxiv.org/pdf/1612.04402.pdf
プロジェクト
https://www.cs.cmu.edu/~peiyunh/tiny/
FDDB http://vis-www.cs.umass.edu/fddb/
WIDER FACE
http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/
コード https://github.com/peiyunh/tiny
密に解像度を変更して、ピラミッド画像を構成する。異なるス
ケールには異なる検出器を割り当てる。上の図に⽰すようにあ
らゆる画像変換を⾏い学習を実⾏する。⼩さな顔は通常学習画
像に含まれていないが、積極的に⽣成する。
⼩さな顔ほど、コ
ンテキストが驚く
ほど効いている。
右表はサイズとコ
ンテキストの関係
性である。
Adria Recasens, Carl Vondrick, Aditya Khosla, Antonio Torralba, “Following Gaze Across Views”, in
arXiv 1612.03094, 2016.
【9】
Keywords: Gaze, Across View
新規性・差分
概要
ビデオ内での⼈物の視線位置を推定する問題は⼈が何を⾒ていて、どう⾏動する
かにおいて重要である。本論⽂ではビデオ内で視点を変えたとしても⼈物の状態
やシーンの切り変わりにおける視線推定する⼿法を提案する。VideoGazeという
データセットを提案し、本提案の⼿法を検証する。複数の問題から構成される
(Saliency, Gaze Pose, Geometric Relationships)をEnd-to-endなモデルを⽤いて
対応する。教師は⼈物の視線のみであり、それ以外の問題は教師なしで学習を⾏
う。⼊⼒はソースビューSとターゲットビューTに分けられる。Sには⼈物の顔や瞳
の位置がラベルづけされている。SとTのトランスフォームは矩形(コーナー)に
より対応づけられ、CNNの学習によりアフィン⾏列が求められる。注視点は円錐
モデルによる視線⽅向と顕著性マップ(CNN Pre-trained Modelを使⽤)の重ね合
わせにより表現。モデルは3-wayであり、右下に⽰される。
・ビデオのシーンの切り変わりにおいて視線を検
出する。CNNのネットワークは⼈物の視線、顕著
性マップ、ビュー間の変換を推定し、最終的に注
視位置が記録される。
・評価はAUC(0.844)や正解からのL2距離(0.209)
が⽤いられ、ベースラインの視線推定⼿法よりも
⾼い精度となった。
Links
論⽂ http://web.mit.edu/vondrick/videogaze.pdf
プロジェクト
http://people.csail.mit.edu/recasens/video_results.html
本提案の概念図。ある
⼈物の視線を検出し、
異なるビューにおける
注視点を推定する。視
線推定、顕著性マップ
推定、ビュー間の
Geometryを推定する問
題が含まれる。
Sharma, Arjun. "Adapting off-the-shelf CNNs for word spotting & recognition." Document Analysis and
Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015.
【10】
Keywords: Word spotting, CNN Adaption
概要
・現存のCNNが⽂字認識問題にうまく対応できない原因で、CNN-
Adaptationで少ないラベル付きのデータを⽤いて、より顕著な⽂字
の特徴を抽出できる。また、CNNの特徴を抽出し、KD-treeで認識
を⾏う。実験段階では、⽣データとSynthetic dataを学習データとし
て両⽅から評価を⾏う。
・CNN-Adaptation:The process of preserving the knowledge learnt
by the lower levels of the CNN, and retraining the classification
layers to address the new problem(実はfine-tuning)
新規性・差分
・CNN-Adaptationで再トレーニングしたネットワークか
ら抽出した特徴を⽤いて、⼿作りの特徴とOff-the-Shelf
CNNの特徴より⾼い精度を達成した。
Links
論⽂: http://ieeexplore.ieee.org/abstract/document/7333909/keywords
CNN-Adaptation前後特徴の変化
Dataset:
Test: 2 Book in Telugu & 1 Book in English
Train: 本からのデータ&Synthetic Data
Printed documentsの実験結果
英語の認識はヒンディー語の学習データに適⽤したCNNの
特徴を⽤いて⾏う結果と、逆にヒンディー語の認識は英語
に適⽤したCNNの特徴を⽤いて⾏う結果
Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi, “Deep Learning Based Language and
Orientation Recognition in Document Analysis”, in ICDAR, 2015.
【11】
Keywords: Kernel, Optical character recognition software
新規性・差分
概要
・OCRが⽅向に対して弱い。また、単⼀の⾔語を認識しか
できない原因で、OCRが認識する前に⽂字の種類と⽅向を
ディープラーニングで認識する⼿法を提案した。
・新しいSliding window投票の処理を提案し、ネットワー
ク規模を縮⼩する。
・事前に⽂字の種類と⽅向を判断し、各OCRを使うことが
間違いないように認識精度が⾼くなる。
Links
論⽂: http://ieeexplore.ieee.org/document/7333799/
流れ CNN    Structure
⼊⼒サイズには制限なし認識について
 認識段階で、Sliding windowsは平均的に各⾏
に配分する。
n: the number of sliding
windows
m: the number of classes
j: the class now確率分布
投票⽅法
従来⼿法: 97.31%
Number: Sliding windowの数
Width: Sliding windowの幅
5種の⾔語、⼆⽅向 → 10種類 5種の⾔語、⼆⽅向 → 7種類
*三種の⾔語は⼀つの⽅向しかない
という設定がある
・⽂字認識に対して、inter-class informationはよく無視さ
れた。本研究では、classification feedbackだけでなく、
inter-class informationを表⽰できるreconstruction
feedbackを加えるニューラルネットワークを提案した。こ
の⼿法を使って、当時には⼀番低い誤検出率を達成した。
Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi , “Reconstruction Combined Training for
Convolutional Neural Networks on Character Recognition”, in ICDAR, 2015.
【12】
Keywords: neural nets, character recognition, image classification, image reconstruction, learning
新規性・差分
概要
・ネットワークから再構成した⽂字イメージと標準的な⽂
字イメージの差をreconstruction feedbackとして、CNNを
トレニンーグする。
Links
論⽂: http://ieeexplore.ieee.org/document/7333798/
Framework
CNN Structure
Loss function
E c → t h e e r r o r o f t h e
classification
E r → t h e e r r o r o f t h e
reconstruction
I f E r
satisfies:
Then
:
λ, T → Validation trainingから得られ
る
Benjamin Eysenbach, Carl Vondrick, Antonio Torralba, “Who is Mistaken?”, in arXiv pre-print
1612.01175, 2016.
【13】
Keywords: Mistake Understanding, Action Recognition
新規性・差分
概要
誰がいつ誤った⾏動をしたのかを認識する問題である。こ
の新規の問題に対して、抽象シーンないにおいて課題を抽
出する。提案のデータセットは8フレームのストーリーで
構成され、いずれかに誤った⾏動を含んでいる。右図のよ
うにシーンが進み、⾚い⽮印が誤った⾏動(False Belief)で
ある。ここでは誰がいつミスをしたかを推定する。
・誤った⾏動を認識する問題やそのデータベースを提供す
る。ミスかどうかは2値分類問題に設定した。
・このタスクにおいて解決策を与えた。時間特徴や画像特
徴などを適⽤。
Links
論⽂ https://arxiv.org/abs/1612.01175
プロジェクト http://people.csail.mit.edu/bce/mistaken/
⾚⽮印は正解、紫⽮印は推定を誤った結果
Hengshuang Zhao,Jianping Shi,Xiaojuan Qi,Xiaogang Wang,Jiaya Jia “Pyramid Scene Parsing Network
”, in ILSVRC, 2016.
【14】
Keywords:Scene Parsing、Semantic Segmentation、ImageNet Scene Parsing Challenge 2016
新規性・差分
概要
・ シーンの解析で⽤いられるネットワークPSPNetを提案した。
2016のImageNet Scene Parsing Challenge 2016に優勝した。 
右の図で⽰しているのはPSPNetのネットワーク構造です。
・従来のFCN( fully convolutional network)をベースとした⼿法は1、mismatched relationship;2、confusion categories;3、
Inconspicuous Classesの三つの問題点がある。これらの問題の解決するために、部分的だけではなく、適切なグローバルシーンレベルの情
報が必要となる。PSPNetはピラミッドプーリーングモジュールによって、4つの異なるレベルの特徴を得ることができる。結果としては従
来⼿法の問題点を有効に解決した。
・代表的なデータセットADE20K、PASCAL VOC 2012、Cityscapesの三つを⽤いて実験を⾏って、三つのデータセットとも提案モデルの優
位性が証明された。
Links
論⽂ https://arxiv.org/pdf/1612.01105v1.pdf
プロジェクト http://appsrv.cse.cuhk.edu.hk/~hszhao/projects/pspnet/index.html
Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler, “Semantic Understanding of Scenes through the
ADE20K Dataset ”, in,arXiv:1608.05442v1[cs.CV], 2016.
【15】
Keywords: Scene parsing ,ADE20K dataset,ADE20K benchmark,segmentation module
新規性・差分
概要
     ・ 今のシーン解析で⽤いられるデータセットがカテゴリが少ない、解析できる
シーンが制限されている、オブジェクトパートの情報がなしなどの問題点があります。そう
いった問題を踏まえてシーンの解析で⽤いられるデータセットADE20K(左下図:データ
セットのデータの例)を紹介した。そして、Cascadeというセグメンテーションのモジュー
ルを提案した。Cascadeを⽤いたら、オブジェクトのパートまでの解析が可能になる。
・  ADE20Kデータセットは従来のデータセットのCOCOやPASCAL VOCなどと⽐べた
ら、平均的1枚の画像あたりオブジェクトクラス数が多い。異なるセグメンテーション⼿法
で検証を⾏ったら、オブジェクトに対しての解釈の⼀致性が⾼い(統合的82.4%程度)。
・  シーンの解析はロングテール性(例えば道路、床などがよく出てくる、⽯鹸箱などが
めったにない)、空間レイアウトには関係がある(壁に貼ってある絵が壁の⼀部分など)た
め、Cascadeセグメンテーションモジュール(右上図:フレームワーク)を提案した。この
モジュールを⽤いて、実験を⾏ったら、右下の図で⽰しているようで、セグメンテーション
の表現が向上できた。
Links
論⽂
https://
www.researchgate.net/
publication
/
306357649_Semantic_U
nderstanding_of_
Scenes_through_the_AD
E20K_Dataset
Zhenzhong Lan, Yi Zhu, Alexander G. Hauptmann, “Deep Local Video Feature for Action Recognition”,
in 1701.07368, 2017.
【16】
Keywords: Video Recognition, Action Recognition
新規性・差分
概要
動画における⾏動認識の問題を扱っている。動画のラベルを推定するため、動画全体の特徴蓄積は⾏ってきたが、局所的な特徴を把握する
には⾄っていなかった。この問題に対処するため、局所的な⼊⼒から局所的な特徴を抽出するためのCNNの学習を実⾏する。ローカルな特
徴を抽出したあとはグローバルな表現(e.g. VLAD, FVs)に変換し、動画ラベルを推定する。
画像認識から動画認識へのドメイン変換やローカルな特徴を抽出するためにDeep lOcal Video Features (DOVF)を提案する。DOVFでは、
(1)どの層から特徴抽出するか、オーバーフィットを避けることも重要、(2)ローカル特徴からグローバル特徴にどのようにエンコー
ディングすればよいか、MeanPoolingやFisher Vectors (FV)も検討を⾏う、(3)どの程度デンスにローカル特徴を抽出すれば良いか、
(4)DOVFはどの程度IDTのような古典的なモデルを補完できるかを検証した。
ローカル特徴を取り出すために、VeryDeepTwo-StreamCNN (VGG16, Inception-BN)を⽤い、最後の5層の特徴マップを参照する。テストで
は25フレームごとに均⼀にサンプルを⾏い、確率分布を累積する。データ拡張はオリジナルと4種にクリップした画像を⽤い、さらにその⽔
平に反転した画像のx10に設定する。特徴のエンコードは単純平均、MaxPooling、BoW、VLAD、FVなどを採⽤。SVMはCHI square、FVと
VLADに関してはLinear Kernelを採⽤。Spatial-netとTemporal-netの重みはSpa:Tem = 1:1.5に設定。ローカル特徴は⾼次元になりがちである
が、PCAにより256次元に圧縮してからエンコードを⾏う。実験結果より、VGG16(第4層)、Inception(第2層)、エンコード(MeanPooling、
MaxPooling)、サンプルサイズ(15フレーム以降はあまり効果がない; 25フレームごとにサンプルする⽅法は、全探索(1フレームごとに25フ
レームをサンプル)とほぼ同じであることが判明)
・HMDB51, UCF101にてState-of-the-art, Comparativeな精度を達成した。
(が、UCF101においてもあまり有意な差が⾒られない)
・動画認識ではEnd-to-endなCNNよりも、中間層の出⼒をエンコードして認識
したほうが性能がよくなりやすい
Links
論⽂ https://arxiv.org/pdf/1701.07368v2.pdf
プロジェクト
Gomez, Lluis, and Dimosthenis Karatzas, “Object Proposals for Text Extraction in the Wild”, in ICDAR,
2015.
【17】
Keywords: Word spotting, Selective search,
新規性・差分
概要
・Selective search[1] をワードスポット問題に適⽤する⼿法を提案し
た。まずはMSERで画像をセグメンテーションし、最初の候補領域
(proposals)を⽣成する。凝集型クラスタリングで同じ内容を持ってい
る候補領域をクラスタリングする。最後にクラスタリングされた候補
領域をランキングする。当時には ⾮常に良い認識率を達成した。
・クラスターがsingle linkage criterion (SLC) を⽤いて最近傍を探索す
る。今回のSLCではsquared Euclidean distanceのような空間的な距離
だけでなく、領域の簡単な特徴(例えば画素値の平均や領域境界で勾
配の⼤きさの平均など)も考慮される。
Links
論⽂: https://arxiv.org/abs/1509.02317
Code: https://github.com/lluisgomez/TextProposals
[1] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision 104.2 (2013): 154-171.
今回のSLC:
f(r)で使われる特徴が違うため、性能も違いがある
f(r) → ⼆つの領域の類似度を表現するため定義される関数
テストデータ:
・ICDAR Robust Reading Competition
dataset (ICDAR2013)
・Street View Dataset (SVT)
ICDAR2013
SVT
FAST
FULL
ランキング⽅法によって、proposalの数と認識率との関係
*10000個のproposalに接近すると、⽅法を問わず、認識率が同じくなる傾
向がある。
Gao, Renwu, Shoma Eguchi, and Seiichi Uchida, “True Color Distributions of Scene Text and
Background”, in ICDAR, 2015.
【18】
Keywords: text detection, color feature, HSV
新規性・差分
概要
・⼤量な⾃然画像から⽂字の⾊とその背景の⾊との具体的な
関係をHSVモデル上で分析した。前景と背景との⾊相、明
度、彩度のノンパラメトリック統計分布を統計した。統計結
果によって、⽂字とその背景の⾊特徴の関係を分析した。
・初めに⽂字認識に対する前景と背景の⾊関係を分析した
Links
論⽂: human.ait.kyushu-u.ac.jp/publications/ICDAR2015-Gao.pdf
結論
1) 明度と彩度から⾒ると、⽂字とその背景のコントラストが
⾼い
 ・ ⽂字とその背景は明るさのコントラストが⾼い
 ・現実世界では暗い背景に明るい⽂字がある場合より明るい背
景に暗い⽂字がある場合が多い
 ・飽和の⽂字は⼀般的に不飽和の背景に囲まれ、不飽和の⽂字
の後ろには飽和の背景がある 
2) ⾊相から⾒ると、⽂字とその背景のコントラストが低い
 ・ ⾃然画像での⽂字とその背景の原⾊は、⾚と⻘に近く、紫と
緑にほとんど関係ない
3) ⾊特徴を⽤いれば、⽂字の検出より、ノイズの抑制のほう
が得意
Non-parametric distribution of each channel in HSV color space. (a) Distribution in
value channel. (b) Distribution in saturation channel. (c) Distribution in hue channel.
Color distribution with condition. (a)
Distribution of saturation channel
under the condition of value channel
greater than 0.5. (b) Distribution of
hue channel under the condition of
both value and saturation channels
greater than 0.5.
彩度や明度の影響を抑えるため
⾊特徴の役割を考察する実験
Original Ground Truth
Using only shape features Using shape features + Color features
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

Similar to 【2017.01】cvpaper.challenge2017

文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action RecognitionToru Tamaki
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれからMayuOtani
 
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報cvpaper. challenge
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video GenerationDeep Learning JP
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
ID説明資料20130107ver1.0
ID説明資料20130107ver1.0ID説明資料20130107ver1.0
ID説明資料20130107ver1.0Norihiro Oku
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイYuki Yamashita
 

Similar to 【2017.01】cvpaper.challenge2017 (10)

文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから動画からの意図理解のこれまでとこれから
動画からの意図理解のこれまでとこれから
 
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報ThemeStudy ― CHI2017-2018分析 + CHI2018速報
ThemeStudy ― CHI2017-2018分析 + CHI2018速報
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
ID説明資料20130107ver1.0
ID説明資料20130107ver1.0ID説明資料20130107ver1.0
ID説明資料20130107ver1.0
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
DRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasaDRL_stydy_1_doc_ohmasa
DRL_stydy_1_doc_ohmasa
 

【2017.01】cvpaper.challenge2017

  • 2. Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev, George Toderici, Balakrishnan Varadarajan, Sudheendra Vijayanarasimhan, “YouTube-8M: A Large-Scale Video Classification Benchmark”, in CVPR WS, 2017. 【1】 Keywords: YouTube-8M dataset, Video Classification 新規性・差分 概要 動画認識の問題設定であるYouTube-8Mの論⽂であり,同データセットを⽤いたコン ペティションがCVPR2017のワークショップにて開催される.YouTube-8Mは4,800の 語彙数からクラスが構成,800万の動画数(19億フレーム),500K時間の動画⻑さを 誇り,2017年現在の動画データベースとしては世界最⼤である.ビデオや複数ラベル の付与にはYouTube video annotation systemを⽤いた.TensorFlowを⽤いた学習モ デルや評価コードが⼊⼿可能である.同データを⽤いて学習したところActivityNetに おいてはベースの53.8%から77.6%に向上し,state-of-the-artなmAPのスコアを算 出.右図はビデオデータやイメージデータの位置づけを可視化したもの。 学習・評価・テスト⽤のスプリットは7:2:1である(右図).YouTube-8Mで学習した 学習済みモデルは動画認識に対して汎⽤性が⾼く,Sports-1MやActivityNetにおいても 転移学習による精度がstate-of-the-artを記録した(下表). Links 論⽂ https://static.googleusercontent.com/media/ research.google.com/ja//youtube8m/youtube8m-paper.pdf プロジェクト https://static.googleusercontent.com/media/ research.google.com/ja//youtube8m/
  • 3. Amir Sadeghian et al. , “Tracking The Untrackable:Learning To Track Multiple Cues with Long-Term Dependencies ”, in arXiv1701.01909, 2017. 【2】 Keywords: MOT, multi object tracking, rnn, lstm 新規性・差分 概要 ・CNN, LSTMを⽤いた複数物体追跡. 現在MOT Challenge 2015 2DのMOTAにおいて2位. Appearance, Motion, Interactionそれぞれに着⽬したモデルを統合して追跡に⽤ いる. 上記モデルで計算されたグラフの重みをもとにハン ガリアンアルゴリズムで割り当てを⾏う。 ・各モデルはsiamese CNNをベースとしており、⼊⼒に対 し同⼀⼈物のものか否かで学習. 出⼒層前の層の出⼒をと 特徴ベクトルとする. Appearanceは時刻t-1とtにおける検 出矩形を⼊⼒に,Motionは速度ベクトルをt-1時刻まで LSTMにより計算しその出⼒とt時刻の速度を⼊⼒, Interactionはこの論⽂で定義したoccupancy mapをベクト ル表現したものを⼊⼒とし,Motionと同様時刻t-1までの LSTMの出⼒と時刻tのoccupancy mapベクトルを⼊⼒する. Links 論⽂ https://arxiv.org/pdf/1701.01909v1.pdf
  • 4. Anton Milan et al. , “Online Multi-Target Tracking Using Recurrent Neural Networks”, in arXiv: 1604.03635, 2016. 【3】 Keywords: MOT, Multi-object tracking, RNN, LSTM 新規性・差分 概要 ・RNN, LSTMを⽤いた⾼速な複数物体追跡⼿法の提 案.RNNをベースとした次フレームの物体位置の予測と新 たに検出された物体か否か,物体が消失したか否かを判断 するモデルの提案. また,LSTMを⽤いたアソシエーション モデルの提案. Torch7でのコードも公開されている. ・Aはアソシエーションの情報, xは検出矩形の情報,εは 物体がBirthしたかDeathしたかを表す値[0, 1]. 従来Greedy solutionやJPDAなどがあったがそれぞれ⽋点がある. この 論⽂ではアソシエーション情報をLSTMに⼊⼒することで LSTMの計算のみでアソシエーションを⾏うことができる. モデルが浅いため計算コストが少なくとても⾼速という利 点がある. Links 論⽂ https://arxiv.org/pdf/1604.03635v2.pdf プロジェクト https://bitbucket.org/amilan/rnntracking
  • 5. Amir R. Zamir et al., “Feedback Networks”, in arXiv:1612.09508, 2016. 【4】 Keywords: LSTM, CNN, cifar 100 ・通常CNNではfeedforwardのネットワーク構成だが,こ の論⽂ではLSTMの構造をCNNに応⽤することでfeedback による推定が可能なネットワーク構成を提案する. cifar 100とstanford cars datasetを⽤いて分類精度実験,MPII Human Pose estimation benchmarkにて姿勢推定の精度実 験を⾏っている. 新規性・差分 概要 ・LSTMをCNNに応⽤したConvolutinal LSTMの提案. ま た,skip connectionという時間⽅向にスキップするコネク ションを⽤いることで精度の向上が⾒込める. ConvLSTM は基本的に通常のLSTMの内積計算を畳み込みに置き換え たものになっている. ConvLSTM内に複数の畳み込み層や BatchNormalization層を加えたモデルも提案している. Links 論⽂ https://arxiv.org/pdf/1612.09508v2.pdf プロジェクトhttp://feedbacknet.stanford.edu/
  • 6. Brian Chu, Daylen Yang, Ravi Tadinada, “Visualizing Residual Networks”, in 1701.02362, 2017. 【5】 Keywords: Visualization, ResNet 新規性・差分 概要 ResNetを可視化することで、Residual Skip Connectionの挙動を把握する。ショー トカットコネクションは(想像では)特徴の強調を⾏っている。右図は、ベーシッ クショートカット(下)とプロジェクションショートカットブロック(上)であ る。本論⽂の可視化ではdeconvの代わりにYosinski et al.のGuided BackpropagationをResNetに適⽤する。 ・Deconvの代わりにYosinskiらのGuided Backprop.を⽤い ることでResNetを可視化。その結果、より鮮明な特徴抽 出を実現していることが判明した。より上位の層 (e.g. 5a, 5b)になると対象物体にフォーカスした特徴抽出が可能と なった。 Links 論⽂ https://arxiv.org/pdf/1701.02362v1.pdf ResNet-50 Vis http://ethereon.github.io/netscope/#/gist/ db945b393d40bfa26006
  • 7. Satoshi Ikehata, “Structured Indoor Modeling”, in ICCV, 2015. 【6】 Keywords: Indoor Modeling, 3D Reconstruction 新規性・差分 概要 パノラマRGBDを⼊⼒とした屋内環境のモデリングをグラフ構造で表現し た。新規に再構成のアルゴリズムを考案し、環境をモデリングするための 組織化を実現。Structure Graphには部屋レベルから物体レベルの意味情報 が対応している。グーグルストリートビューのような⾒せ⽅で屋内環境を 可視化。新しい部屋のセグメンテーションやそのマップを構成することに 成功し、極めてコンパクトな3次元モデルを構成した。3次元表現におい てもメッシュや点群、距離画像など多様な表現を実現した。 ・(フレームワークの新規性)新規の構造化モデル表現や再構成の枠組 みを考案。このフレームワークは他のドメインにも転⽤可能である。 ・(技術的な新規性)部屋のセグメンテーションや再構成を考案し、部 屋間のつながりのタイプを識別した。 ・(システムの新規性)本論⽂は始めて(1) 屋内環境において部屋から物 体までのラベル付けやセグメンテーションを⾏った。 (2) 間取りを⾃動 で⽣成、(3) 屋内環境におけるInverse-CAD (実環境を観測してCADを⽣ 成)を実現した。 Links 論⽂ https://www.hal.t.u-tokyo.ac.jp/~ikehata/ structured_modeling_iccv2015.pdf 動画 https://www.youtube.com/watch?v=RZU8w3uvenU Structured Graphによるつながりの表現。構造化 されたグラフとして屋内環境の間取り、部屋のセ グメント、物体まで組織化。 6つのSyntheticな環境、5つのデータセットにて実験を⾏い、有効性 を確かめた。
  • 8. Sirion Vittayakorn, Alexander C. Berg, Tamara L. Berg, “When Was That Made?”, in arXiv pre-print, 1608.03914, 2016. 【7】 Keywords: Fashion, Car, Old Recognition 新規性・差分 概要 ⾞やファッションなど、「いつ作られたか」を推定する問題。歴史家、コ レクター、アーチファクトたちに向けた研究である。この課題に対して、 既存のDNNにFine-tuneを⾏ったネットワークを適⽤する。⼆つのデータ セットに対して67,771の時を経た服装の画像をFlickrやミュージアムコレ クションから収集する。本論⽂の⼿法は⾊ベースのベースラインよりも⾼ い精度でこの時系列推定を⾏った。ネットワークが複数の解析を⾏い、ど のようにファッションコレクションから学習するのかを解析した。 ・昔から現在までのデータセットを作成し、年代を推定する課題を与えた。 従来のデータが10年弱のデータを含むのに対して本論⽂のデータは1900年か ら2009年までのデータを含む。データセットの画像枚数は67K枚で構成。 ・初めてDeep Networksが年代推定を⾏った⼿法である。アプリケーション としてはファッションにおけるビンテージスタイルの影響を解析する。 Links 論⽂ https://arxiv.org/pdf/1608.03914v1.pdf プロジェクト ミュージアムデータセットは⼆つの異なる博物館: Metropolitan Museum of Art, Europeana Fashionから構成さ れ、12の国籍、9,421枚の画像、1900年から2009年の年代に おいてコレクションされた。 DNNはImageNet Pre-trained Model (VGG-16)からスタート した。中間層の4,096次元の特徴を抽出し、SVM/SVRと組み 合わせにより識別器を構成。Fine-tuningは本論⽂で提案の CarDb dataset、Clothing, Museum dataなどを⽤いて追加学 習を⾏った。左の表は年代(year)のMean Absolute Errorを⽰ している。 ⼿法
  • 9. Peiyun Hu, Deva Ramanan, “Finding Tiny Faces”, in arXiv pre-print 1612.04402, 2016. 【8】 Keywords: Face Detection, Tiny Faces, WIDER Face, FDDB 新規性・差分 概要 物体検出の試みが2014年からの数年で進んでいるが、ひとつの課題が⼩さな物 体への対応である。本論⽂では3つの側⾯(スケール普遍性、画像解像度、コ ンテキストを考慮した意味づけ)から⼩さな顔を検出する⼿法を模索した。極 めて⼩さい顔(e.g. 3pxl tall)は通常の顔とは異なるため、異なる学習を実⾏し た。効率化を図るため、完全に分離した学習ではなく、Multi-task学習を⾏う。 通常の顔に対してはStraight-forwardな学習を⾏うが、⼩さな物体に対してはコ ンテキストが効果的である。FDDBやWIDER FACEなど巨⼤なデータベースに おいてState-of-the-artな精度を達成した。 ⼩さな顔ほど、画像パッチに対するTight-fittingが重要である。⾯⽩いことに⼩ さな顔は⼩さな受容野(Receptive Field)が効果的であった(⼩さな顔はオクルー ジョンがなく、全て⾒えていることが多いため)。 ・複数解像度や複数のデータセット拡張やMulti-task学習により極めて ⼩さな顔を検出した ・FDDBやWIDER FACEなど巨⼤なDBに 対してState-of-the-artな精度(右図) Links 論⽂ https://arxiv.org/pdf/1612.04402.pdf プロジェクト https://www.cs.cmu.edu/~peiyunh/tiny/ FDDB http://vis-www.cs.umass.edu/fddb/ WIDER FACE http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/ コード https://github.com/peiyunh/tiny 密に解像度を変更して、ピラミッド画像を構成する。異なるス ケールには異なる検出器を割り当てる。上の図に⽰すようにあ らゆる画像変換を⾏い学習を実⾏する。⼩さな顔は通常学習画 像に含まれていないが、積極的に⽣成する。 ⼩さな顔ほど、コ ンテキストが驚く ほど効いている。 右表はサイズとコ ンテキストの関係 性である。
  • 10. Adria Recasens, Carl Vondrick, Aditya Khosla, Antonio Torralba, “Following Gaze Across Views”, in arXiv 1612.03094, 2016. 【9】 Keywords: Gaze, Across View 新規性・差分 概要 ビデオ内での⼈物の視線位置を推定する問題は⼈が何を⾒ていて、どう⾏動する かにおいて重要である。本論⽂ではビデオ内で視点を変えたとしても⼈物の状態 やシーンの切り変わりにおける視線推定する⼿法を提案する。VideoGazeという データセットを提案し、本提案の⼿法を検証する。複数の問題から構成される (Saliency, Gaze Pose, Geometric Relationships)をEnd-to-endなモデルを⽤いて 対応する。教師は⼈物の視線のみであり、それ以外の問題は教師なしで学習を⾏ う。⼊⼒はソースビューSとターゲットビューTに分けられる。Sには⼈物の顔や瞳 の位置がラベルづけされている。SとTのトランスフォームは矩形(コーナー)に より対応づけられ、CNNの学習によりアフィン⾏列が求められる。注視点は円錐 モデルによる視線⽅向と顕著性マップ(CNN Pre-trained Modelを使⽤)の重ね合 わせにより表現。モデルは3-wayであり、右下に⽰される。 ・ビデオのシーンの切り変わりにおいて視線を検 出する。CNNのネットワークは⼈物の視線、顕著 性マップ、ビュー間の変換を推定し、最終的に注 視位置が記録される。 ・評価はAUC(0.844)や正解からのL2距離(0.209) が⽤いられ、ベースラインの視線推定⼿法よりも ⾼い精度となった。 Links 論⽂ http://web.mit.edu/vondrick/videogaze.pdf プロジェクト http://people.csail.mit.edu/recasens/video_results.html 本提案の概念図。ある ⼈物の視線を検出し、 異なるビューにおける 注視点を推定する。視 線推定、顕著性マップ 推定、ビュー間の Geometryを推定する問 題が含まれる。
  • 11. Sharma, Arjun. "Adapting off-the-shelf CNNs for word spotting & recognition." Document Analysis and Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015. 【10】 Keywords: Word spotting, CNN Adaption 概要 ・現存のCNNが⽂字認識問題にうまく対応できない原因で、CNN- Adaptationで少ないラベル付きのデータを⽤いて、より顕著な⽂字 の特徴を抽出できる。また、CNNの特徴を抽出し、KD-treeで認識 を⾏う。実験段階では、⽣データとSynthetic dataを学習データとし て両⽅から評価を⾏う。 ・CNN-Adaptation:The process of preserving the knowledge learnt by the lower levels of the CNN, and retraining the classification layers to address the new problem(実はfine-tuning) 新規性・差分 ・CNN-Adaptationで再トレーニングしたネットワークか ら抽出した特徴を⽤いて、⼿作りの特徴とOff-the-Shelf CNNの特徴より⾼い精度を達成した。 Links 論⽂: http://ieeexplore.ieee.org/abstract/document/7333909/keywords CNN-Adaptation前後特徴の変化 Dataset: Test: 2 Book in Telugu & 1 Book in English Train: 本からのデータ&Synthetic Data Printed documentsの実験結果 英語の認識はヒンディー語の学習データに適⽤したCNNの 特徴を⽤いて⾏う結果と、逆にヒンディー語の認識は英語 に適⽤したCNNの特徴を⽤いて⾏う結果
  • 12. Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi, “Deep Learning Based Language and Orientation Recognition in Document Analysis”, in ICDAR, 2015. 【11】 Keywords: Kernel, Optical character recognition software 新規性・差分 概要 ・OCRが⽅向に対して弱い。また、単⼀の⾔語を認識しか できない原因で、OCRが認識する前に⽂字の種類と⽅向を ディープラーニングで認識する⼿法を提案した。 ・新しいSliding window投票の処理を提案し、ネットワー ク規模を縮⼩する。 ・事前に⽂字の種類と⽅向を判断し、各OCRを使うことが 間違いないように認識精度が⾼くなる。 Links 論⽂: http://ieeexplore.ieee.org/document/7333799/ 流れ CNN    Structure ⼊⼒サイズには制限なし認識について  認識段階で、Sliding windowsは平均的に各⾏ に配分する。 n: the number of sliding windows m: the number of classes j: the class now確率分布 投票⽅法 従来⼿法: 97.31% Number: Sliding windowの数 Width: Sliding windowの幅 5種の⾔語、⼆⽅向 → 10種類 5種の⾔語、⼆⽅向 → 7種類 *三種の⾔語は⼀つの⽅向しかない という設定がある
  • 13. ・⽂字認識に対して、inter-class informationはよく無視さ れた。本研究では、classification feedbackだけでなく、 inter-class informationを表⽰できるreconstruction feedbackを加えるニューラルネットワークを提案した。こ の⼿法を使って、当時には⼀番低い誤検出率を達成した。 Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi , “Reconstruction Combined Training for Convolutional Neural Networks on Character Recognition”, in ICDAR, 2015. 【12】 Keywords: neural nets, character recognition, image classification, image reconstruction, learning 新規性・差分 概要 ・ネットワークから再構成した⽂字イメージと標準的な⽂ 字イメージの差をreconstruction feedbackとして、CNNを トレニンーグする。 Links 論⽂: http://ieeexplore.ieee.org/document/7333798/ Framework CNN Structure Loss function E c → t h e e r r o r o f t h e classification E r → t h e e r r o r o f t h e reconstruction I f E r satisfies: Then : λ, T → Validation trainingから得られ る
  • 14. Benjamin Eysenbach, Carl Vondrick, Antonio Torralba, “Who is Mistaken?”, in arXiv pre-print 1612.01175, 2016. 【13】 Keywords: Mistake Understanding, Action Recognition 新規性・差分 概要 誰がいつ誤った⾏動をしたのかを認識する問題である。こ の新規の問題に対して、抽象シーンないにおいて課題を抽 出する。提案のデータセットは8フレームのストーリーで 構成され、いずれかに誤った⾏動を含んでいる。右図のよ うにシーンが進み、⾚い⽮印が誤った⾏動(False Belief)で ある。ここでは誰がいつミスをしたかを推定する。 ・誤った⾏動を認識する問題やそのデータベースを提供す る。ミスかどうかは2値分類問題に設定した。 ・このタスクにおいて解決策を与えた。時間特徴や画像特 徴などを適⽤。 Links 論⽂ https://arxiv.org/abs/1612.01175 プロジェクト http://people.csail.mit.edu/bce/mistaken/ ⾚⽮印は正解、紫⽮印は推定を誤った結果
  • 15. Hengshuang Zhao,Jianping Shi,Xiaojuan Qi,Xiaogang Wang,Jiaya Jia “Pyramid Scene Parsing Network ”, in ILSVRC, 2016. 【14】 Keywords:Scene Parsing、Semantic Segmentation、ImageNet Scene Parsing Challenge 2016 新規性・差分 概要 ・ シーンの解析で⽤いられるネットワークPSPNetを提案した。 2016のImageNet Scene Parsing Challenge 2016に優勝した。  右の図で⽰しているのはPSPNetのネットワーク構造です。 ・従来のFCN( fully convolutional network)をベースとした⼿法は1、mismatched relationship;2、confusion categories;3、 Inconspicuous Classesの三つの問題点がある。これらの問題の解決するために、部分的だけではなく、適切なグローバルシーンレベルの情 報が必要となる。PSPNetはピラミッドプーリーングモジュールによって、4つの異なるレベルの特徴を得ることができる。結果としては従 来⼿法の問題点を有効に解決した。 ・代表的なデータセットADE20K、PASCAL VOC 2012、Cityscapesの三つを⽤いて実験を⾏って、三つのデータセットとも提案モデルの優 位性が証明された。 Links 論⽂ https://arxiv.org/pdf/1612.01105v1.pdf プロジェクト http://appsrv.cse.cuhk.edu.hk/~hszhao/projects/pspnet/index.html
  • 16. Bolei Zhou,Hang Zhao,Xavier Puig,Sanja Fidler, “Semantic Understanding of Scenes through the ADE20K Dataset ”, in,arXiv:1608.05442v1[cs.CV], 2016. 【15】 Keywords: Scene parsing ,ADE20K dataset,ADE20K benchmark,segmentation module 新規性・差分 概要      ・ 今のシーン解析で⽤いられるデータセットがカテゴリが少ない、解析できる シーンが制限されている、オブジェクトパートの情報がなしなどの問題点があります。そう いった問題を踏まえてシーンの解析で⽤いられるデータセットADE20K(左下図:データ セットのデータの例)を紹介した。そして、Cascadeというセグメンテーションのモジュー ルを提案した。Cascadeを⽤いたら、オブジェクトのパートまでの解析が可能になる。 ・  ADE20Kデータセットは従来のデータセットのCOCOやPASCAL VOCなどと⽐べた ら、平均的1枚の画像あたりオブジェクトクラス数が多い。異なるセグメンテーション⼿法 で検証を⾏ったら、オブジェクトに対しての解釈の⼀致性が⾼い(統合的82.4%程度)。 ・  シーンの解析はロングテール性(例えば道路、床などがよく出てくる、⽯鹸箱などが めったにない)、空間レイアウトには関係がある(壁に貼ってある絵が壁の⼀部分など)た め、Cascadeセグメンテーションモジュール(右上図:フレームワーク)を提案した。この モジュールを⽤いて、実験を⾏ったら、右下の図で⽰しているようで、セグメンテーション の表現が向上できた。 Links 論⽂ https:// www.researchgate.net/ publication / 306357649_Semantic_U nderstanding_of_ Scenes_through_the_AD E20K_Dataset
  • 17. Zhenzhong Lan, Yi Zhu, Alexander G. Hauptmann, “Deep Local Video Feature for Action Recognition”, in 1701.07368, 2017. 【16】 Keywords: Video Recognition, Action Recognition 新規性・差分 概要 動画における⾏動認識の問題を扱っている。動画のラベルを推定するため、動画全体の特徴蓄積は⾏ってきたが、局所的な特徴を把握する には⾄っていなかった。この問題に対処するため、局所的な⼊⼒から局所的な特徴を抽出するためのCNNの学習を実⾏する。ローカルな特 徴を抽出したあとはグローバルな表現(e.g. VLAD, FVs)に変換し、動画ラベルを推定する。 画像認識から動画認識へのドメイン変換やローカルな特徴を抽出するためにDeep lOcal Video Features (DOVF)を提案する。DOVFでは、 (1)どの層から特徴抽出するか、オーバーフィットを避けることも重要、(2)ローカル特徴からグローバル特徴にどのようにエンコー ディングすればよいか、MeanPoolingやFisher Vectors (FV)も検討を⾏う、(3)どの程度デンスにローカル特徴を抽出すれば良いか、 (4)DOVFはどの程度IDTのような古典的なモデルを補完できるかを検証した。 ローカル特徴を取り出すために、VeryDeepTwo-StreamCNN (VGG16, Inception-BN)を⽤い、最後の5層の特徴マップを参照する。テストで は25フレームごとに均⼀にサンプルを⾏い、確率分布を累積する。データ拡張はオリジナルと4種にクリップした画像を⽤い、さらにその⽔ 平に反転した画像のx10に設定する。特徴のエンコードは単純平均、MaxPooling、BoW、VLAD、FVなどを採⽤。SVMはCHI square、FVと VLADに関してはLinear Kernelを採⽤。Spatial-netとTemporal-netの重みはSpa:Tem = 1:1.5に設定。ローカル特徴は⾼次元になりがちである が、PCAにより256次元に圧縮してからエンコードを⾏う。実験結果より、VGG16(第4層)、Inception(第2層)、エンコード(MeanPooling、 MaxPooling)、サンプルサイズ(15フレーム以降はあまり効果がない; 25フレームごとにサンプルする⽅法は、全探索(1フレームごとに25フ レームをサンプル)とほぼ同じであることが判明) ・HMDB51, UCF101にてState-of-the-art, Comparativeな精度を達成した。 (が、UCF101においてもあまり有意な差が⾒られない) ・動画認識ではEnd-to-endなCNNよりも、中間層の出⼒をエンコードして認識 したほうが性能がよくなりやすい Links 論⽂ https://arxiv.org/pdf/1701.07368v2.pdf プロジェクト
  • 18. Gomez, Lluis, and Dimosthenis Karatzas, “Object Proposals for Text Extraction in the Wild”, in ICDAR, 2015. 【17】 Keywords: Word spotting, Selective search, 新規性・差分 概要 ・Selective search[1] をワードスポット問題に適⽤する⼿法を提案し た。まずはMSERで画像をセグメンテーションし、最初の候補領域 (proposals)を⽣成する。凝集型クラスタリングで同じ内容を持ってい る候補領域をクラスタリングする。最後にクラスタリングされた候補 領域をランキングする。当時には ⾮常に良い認識率を達成した。 ・クラスターがsingle linkage criterion (SLC) を⽤いて最近傍を探索す る。今回のSLCではsquared Euclidean distanceのような空間的な距離 だけでなく、領域の簡単な特徴(例えば画素値の平均や領域境界で勾 配の⼤きさの平均など)も考慮される。 Links 論⽂: https://arxiv.org/abs/1509.02317 Code: https://github.com/lluisgomez/TextProposals [1] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision 104.2 (2013): 154-171. 今回のSLC: f(r)で使われる特徴が違うため、性能も違いがある f(r) → ⼆つの領域の類似度を表現するため定義される関数 テストデータ: ・ICDAR Robust Reading Competition dataset (ICDAR2013) ・Street View Dataset (SVT) ICDAR2013 SVT FAST FULL ランキング⽅法によって、proposalの数と認識率との関係 *10000個のproposalに接近すると、⽅法を問わず、認識率が同じくなる傾 向がある。
  • 19. Gao, Renwu, Shoma Eguchi, and Seiichi Uchida, “True Color Distributions of Scene Text and Background”, in ICDAR, 2015. 【18】 Keywords: text detection, color feature, HSV 新規性・差分 概要 ・⼤量な⾃然画像から⽂字の⾊とその背景の⾊との具体的な 関係をHSVモデル上で分析した。前景と背景との⾊相、明 度、彩度のノンパラメトリック統計分布を統計した。統計結 果によって、⽂字とその背景の⾊特徴の関係を分析した。 ・初めに⽂字認識に対する前景と背景の⾊関係を分析した Links 論⽂: human.ait.kyushu-u.ac.jp/publications/ICDAR2015-Gao.pdf 結論 1) 明度と彩度から⾒ると、⽂字とその背景のコントラストが ⾼い  ・ ⽂字とその背景は明るさのコントラストが⾼い  ・現実世界では暗い背景に明るい⽂字がある場合より明るい背 景に暗い⽂字がある場合が多い  ・飽和の⽂字は⼀般的に不飽和の背景に囲まれ、不飽和の⽂字 の後ろには飽和の背景がある  2) ⾊相から⾒ると、⽂字とその背景のコントラストが低い  ・ ⾃然画像での⽂字とその背景の原⾊は、⾚と⻘に近く、紫と 緑にほとんど関係ない 3) ⾊特徴を⽤いれば、⽂字の検出より、ノイズの抑制のほう が得意 Non-parametric distribution of each channel in HSV color space. (a) Distribution in value channel. (b) Distribution in saturation channel. (c) Distribution in hue channel. Color distribution with condition. (a) Distribution of saturation channel under the condition of value channel greater than 0.5. (b) Distribution of hue channel under the condition of both value and saturation channels greater than 0.5. 彩度や明度の影響を抑えるため ⾊特徴の役割を考察する実験 Original Ground Truth Using only shape features Using shape features + Color features