2. Alexander G. Anderson, Cory P. Berg, Daniel P. Mossing, Bruno A. Olshusen, “DeepMoive: Using
Optical Flow and Deep Neural Networks to Stylize Movies”, in arXiv pre-print 1605.08153, 2016.
【1】
Keywords: Art Style,
新規性・差分
概要
自然画像と任意のArt Styleの合成は様々な研究が行われて
おり,例えばGatysらの画像合成などが提案されている(下
記リンク; コードあり).本論文では動画に対して画像合成
を行う手法を提案する.オプティカルフロー画像を生成し
てより安定した動画のStylizeを実現した.
・オプティカルフローを用いることで画風転移の最適化の
ための初期化にする.動画に対する画像合成には動作特徴
を用いることが重要であると位置付けた.
Links
論文 http://arxiv.org/pdf/1605.08153v1.pdf
プロジェクト http://alexanderganderson.github.io/
ビデオ
https://www.youtube.com/watch?v=nOrXeFBkP04&feature=yo
utu.be
A neural algorithm of artistic style
http://gitxiv.com/posts/jG46ukGod8R7Rdtud/a-neural-
algorithm-of-artistic-style
9. F. Perazzi, J. Pont-Tuset, B. McWilliams, L. Van Gool, M. Gross, A. Sorkine-Hornung, “A Benchmark
Dataset and Evaluation Methodology for Video Object Segmentation”, in CVPR, 2016.
【8】
Keywords: Segmentation
新規性・差分
概要
前景と背景を高精度に分離するセグメンテーション問題
のための密なラベル付けデータセットであるDAVIS
(Densely Annotated VIdeo Segmentation)を提供する.
・問題は従来のセグメンテーションにのっとっているが,
とにかく密に(Dense)することで現在までの手法がどの程
度できているかを再度認識した.
・従来手法としては教師なし学習による手法 (NLC, FST,
SAL, TRC, MSG, CVOS),半教師あり学習による手法
(SEA, JMP, TSP, HVS)をDAVISデータセットに対して実
装し,表のような精度を得た.
Links
論文
https://graphics.ethz.ch/~perazzif/davis/file
s/davis.pdf
プロジェクト
https://graphics.ethz.ch/~perazzif/davis/ind
ex.html
10. Ira Kemelmacher-Shlizerman, Steve Seitz, Daniel Miller, Evan Brossard, “The MegaFace Benchmark: 1
Million Faces for Recognition at Scale”, in CVPR, 2016.
【9】
Keywords: MegaFace, Dataset, Benchmark
新規性・差分
ベンチマーク概要
1,000,000の顔画像が含まれる顔認識ベンチマークである
MegaFaceを提供.実に690,572人の顔画像が含まれ,顔
検出や顔認証の精度を競う.
・顔認証の分野において比類なき人数のビッグデータを提
供した
・GoogleのFaceNet [CVPR15]の拡張版である,FaceNet-
v8が約75%の精度で同データに対して処理した
(NTechLABのFaceNLargeでも約73%を実現).右にCMC
曲線も示されている.
ベンチマークはFlickerを用いて収集され,その下図は写真数が1,027,060枚
(100万超),サブジェクト(Unique Faceと呼ばれる)が690,572人であった.
下図は顔やその検出枠である.
Links
論文
https://arxiv.org/pdf/1512.00596v1.pdf
プロジェクト
http://megaface.cs.washington.edu/
NTechLAB http://ntechlab.com/
FaceNet論文
https://arxiv.org/abs/1503.03832
OpenFace
https://cmusatyalab.github.io/openface/
11. Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, “TGIF: A New Dataset and Benchmark on
Animated GIF Description”, in CVPR, 2016.
【10】
Keywords: Animated GIF, Image Description
新規性・差分
概要
GIFアニメに対する画像説明文の研究.Tumblrからの100K
を超えるGIFアニメと,120Kに及ぶキャプションの収集を
クラウドソーシングにより行い,データセットについても
提案する.
・GIFアニメに対する画像説明文を提案する.さらにはデ
ータの収集についても解決する
・GIFアニメを多数含んだデータセットを提供し,さらに
は同データセットを現在の画像説明文のデータと比較した
・作成したデータセットに対して,既存のビデオ説明文の
手法を実装して比較した.
・コードをGitHubにて一般公開した
・下の表は提案のTGIFデータセットを用い,動画説明文
にDomain Adaptationした際の結果である.データ数が確
保できている分,精度が向上したものと思われる.
Links
論文 http://arxiv.org/pdf/1604.02748v2.pdf
プロジェクト http://raingo.github.io/TGIF-Release/
コード https://github.com/raingo/TGIF-Release
12. Jiale Cao, Yanwei Pang, Xuelong Li, “Pedestrian Detection Inspired by Appearance Constancy and
Shape Symmetry”, in CVPR, 2016.
【11】
Keywords: Pedestrian Detection
新規性・差分
概要
アピアランスの恒常性や形状の対称性を用いることでハン
ドクラフト特徴でも歩行者検出の精度がまだ向上すること
を示した.2種のNon-Neighboring Features (NNF)である
Side-Inner Difference Features (SIDF)やSymmetrical
Similarity Features (SSF)を提案する.
・ハンドクラフト特徴で非常に高いパフォーマンスを実現
した.
・SIDFは前景と背景を効果的に分離することができるだ
けでなく,人物の外輪郭や内側に存在する輪郭を分離する
ことができる.さらにSSFは人物の対称性を考慮した記述
によりSIDFにない表現を実装可能である.
Links
論文 https://arxiv.org/pdf/1511.08058v1.pdf
プロジェクト
SIDFのパッチペア例.SIDFやSSFの識別器には異なる深さのDecision
Treesを組み合わせた.これにより,SIDFやSSFの有効な空間を探索す
ることができ,歩行者と背景を高度に分離可能である.
提案のNNNF-L4はCaltech
Pedestrian Detection Benchmarkに
おいて16.84%のエラー率であった.
CheckerBoard特徴(CVPR2015)から
1.63%向上した.
15. Nikolaus Correll, Kostas E. Bekris, Dmitry Berenson, Oliver Brock, Albert Causo, Kris Hauser, Kei Okada,
Alberto Rodriguez, Joseph M. Romano, Peter R. Wurman, “Lessons from the Amazon Picking
Challenge”, in arXiv pre-print 1601.05484, 2016.
【14】
Keywords: Amazon Picking Challenge
新規性・差分
概要
Amzon Picking Challengeはロボットによる倉庫の自動化を図る大規
模プロジェクト&コンペティションである.2015年のICRAワークシ
ョップとして26チームが参加し,Perception, Motion Planning,
Grasping, Robotic Systemなどの総合力を競った.ルールは,(簡単
には)完全自動のロボットが20分の間に12の目的アイテムを棚から取
り出す.目的アイテムは右の図に示す.アイテムによっては加点・
減点の度合いが異なり,その総合点で順位を競う.
・日本から参加したトップはC^2M (中部大学藤吉・山下
研・中京大学橋本研・三菱電機)が最高の5位であった
・優勝はRBOであり,スコアは148.Single Arm,グリッ
プは吸引式,アームに取り付けた3次元画像,レーザスキ
ャン,物体検出や3次元バウンディングボックスの知覚特
徴はカラー・エッジ・高さなどにより行い把持のために用
いた、モーションプラニングは行っていなかった
Links
論文 http://arxiv.org/pdf/1601.05484v2.pdf
プロジェクト http://amazonpickingchallenge.org/
Gigazine http://gigazine.net/news/20150602-amazon-picking-
challenge-winner/
藤吉研APC
http://mprg.jp/research/amazon_picking_challenge_j
16. Sergey Levine, Peter Pastor, Alex Krizhevsky, Deidre Quillen, “Learning Hand-Eye Coordination for
Robotic Grasping with Deep Learning and Large-Scale Data Collection”, in arXiv pre-print 1603.02199,
2016.
【15】
Keywords: Hand-Eye Camera, Robot Grasping
新規性・差分
概要
ロボットの把持を自動で学習するための方法を提案した.
Google Research Blogで一時期話題になったロボットハン
ドの研究である(ビデオあり).14台のロボットがパラメー
タを共有し,CNNのモデルを学習し,把持の成功/失敗と
その際の環境を学習する.ロボットの稼働時間が合計
3,000時間,800,000回の試行を経て深層学習を学習.
・ロボットの把持に対して自動で学習を行うことでロボッ
トが賢くなる.
・データがなくても,トライ&エラーの繰り返しによりロ
ボットが自ら学習する.
・パラメータを共有して学習,とにかく試行を繰り返して
ロボットの知覚を強化する
Links
論文 http://arxiv.org/pdf/1603.02199v3.pdf
ビデオ https://www.youtube.com/watch?v=iaF43Ze1oeI
Google Research Blog
http://googleresearch.blogspot.jp/2016/03/deep-learning-for-
robots-learning-from.html
29. Hao Su, Charles R. Qi, Yangyan Li, Leonidas J. Guibas, “Render for CNN: Viewpoint Estimation in
Images Using CNNs Trained with Rendered 3D Model Views”, in ICCV, 2015.
【28】
Keywords: CNN, View Point Estimation, Rendered 3D Model Views,
新規性・差分
概要
2D画像から視点推定を行うCNNフレームワークの提案
PASCAL 3D+ benchmarkにおいてアウトパフォームな結
果を示した.
レンダリングベースの合成画像とCNNを組み合わせること
で,トレーニングデータの不足と能力不足に対処
Links
論文 http://arxiv.org/pdf/1505.05641v1
プロジェクト
https://shapenet.cs.stanford.edu/projects/RenderForCNN/
code https://github.com/shapenet/RenderForCNN
大規模な3Dモデルのコレクションからレンダリングされた画像を
実際の画像上に合成することでトレーニング画像を生成.
CNNは,Ground Truthの視点画像を学習.
テストデータとして実際の画像を利用して,視点の推定を行う.
CNNのトレーニング合成画像生成のパイプライン
46. Fang Wang, Le Kang, Yi Li, “Sketch-based 3D Shape Retrieval using Convolutional Neural Networks”, in
CVPR, 2015.
【45】
Keywords: 3D Object Retrieval, Sketck Retrieval
新規性・差分
概要
2次元スケッチをクエリ(入力)として,3次元モデルから対
象物体を検索する.検索するサーバ側には3次元モデルを
保持しておき,”best view”な2次元投影画像でマッチング
する.マッチングのモデルにはSiamese Convolutional
Networkを用い,片方にはスケッチを,もう一方には3次元
モデルを2次元に投影したモデルを用いる.
・スケッチを入力とした特徴表現方法としてSiamese
Networkを学習する.さらには,3次元モデルからの2次元
投影を実行してベストビューを選択する問題を解いた.
・2つのSiamese Networkを適用し,Cross-Domainでの類
似度を計測した.
・2つのデータセットにおいてstate-of-the-artな精度を達成
した.
Links
論文 http://users.cecs.anu.edu.au/~yili/publication/cvpr-2015-sbsr.pdf
プロジェクト http://users.cecs.anu.edu.au/~yili/cnnsbsr/
コード http://users.cecs.anu.edu.au/~yili/cnnsbsr/software/sbsr-cvpr15.zip
GitXiv http://gitxiv.com/posts/L63GfSyXG4yneS5mt/sketch-based-3d-
shape-retrieval-using-convolutional-neural
47. Nicholas Rhinehart, Kris M. Kitani, “Learning Action Maps of Large Environments via First-Person
Vision ”, in CVPR, 2016.
【46】
Keywords: Human Centric Functional Description, Action Map
新規性・差分
概要
3次元のマップと人物の行動の履歴から行動するマップ
(Action Map)を空間中に生成する.一人称視点からの入力
からStructure-from-Motionにより3次元のマップを生成し
て人物の行動する領域に対して履歴を投影する.
・従来では三人称視点からの解析がメインであった
Function認識を,一人称視点から実現した.
・Action MapというConceptiualな問題を提起した.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/RK-CVPR16.pdf
プロジェクト
http://www.cs.cmu.edu/~nrhineha/slides/action_maps_2016_3
0min.pdf
48. Huan Fu, Chaofui Wang, Dacheng Tao, Michael J. Black, “Occlusion Boundary Detection via Deep
Exploration of Context”, in CVPR, 2016.
【47】
Keywords: Occlusion Boundary Detection
新規性・差分
概要
オクルージョンしている境界領域を識別するために(i) 位置
のパターン (local contextual correlations in pixel labeling)
や(ii) 周囲環境の観測 (contextual correlations between the
labeling of pixels),(iii) 時系列的なコンテキスト (temporal
contextual information in video sequences)を解析する.手
法としてはConvolutional Neural Networks (CNN)や
Conditional Random Fields (CRF)を用いる.
・CMUのベンチマークにおいて従来のstate-of-the-artな結
果を超越した.数値的には0.62から0.71に向上した.
・
Links
論文 http://files.is.tue.mpg.de/black/papers/FuCVPR2016.pdf
プロジェクト https://ps.is.tuebingen.mpg.de/publications/fu-
cvpr-2016
49. Wei Shen, Kai Zhao, Yuan Jiang, Yan Wang, Zhijiang Zhang, Xiang Bai, “Object Skeleton Extraction in
Natural Images by Fusing Scale-associated Deep Side Outputs”, in CVPR, 2016.
【48】
Keywords: DeepSkeleton
新規性・差分
概要
一般的な物体のスケルトン推定を実行するアルゴリズムを
提案.人物に限らずあらゆる物体や動物の姿勢を推定する
(上図)ために,Oxford VGG-16をベースとする(下図)が,
畳み込みの行程によって推定する部位を分け,最後に結果
を統合する.各層により得意・不得意を分別して学習する.
雰囲気的には与えられた前景の細線化を行うものである.
・煩雑な自然シーンにおいても物体のスケルトンを効果的
に推定することができる.
・色やテクスチャ,形状やサイズなどの多様性を許容して
物体のスケルトンを推定.
Links
論文 http://arxiv.org/pdf/1603.09446v2.pdf
コード https://github.com/zeakey/DeepSkeleton
67. Kris M. Kitani, Takahiro Okabe, Yoichi Sato, Akihiro Sugimoto, “Fast Unsupervised Ego-Action Learning
for First-Person Sports Videos”, in CVPR, 2011.
【65】
Keywords: First Person View, GoPro, Unsupervised Learning
新規性・差分
概要
一人称ビジョンからのスポーツ映像解析を行う.頭部に装
着したGoProカメラから行動を教師なしで学習し,映像の
セグメント化を実行する.具体的にはスパースオプティカ
ルフローにより抽出したモーションヒストグラムを
Stacked Dirichlet Process Mixture Modelsにより解析する
ことで自動で類似行動がクラスタリングされる.
・教師なし学習により行動を分割して高精度にセグメント
化することに成功した.
・一人称ビジョンにおいて頻繁に用いられるデータセット
UEC Dataset (PARK, Quad sequenceなど)を提案した論文
としても知られる.
Links
論文 http://www.cs.cmu.edu/~kkitani/pdf/KOSS-CVPR11.pdf
データセット http://www.cs.cmu.edu/~kkitani/datasets/
68. Yin Li, Zhefan Ye, James M. Rehg, “Delving into Egocentric Actions”, in CVPR, 2015.
【66】
Keywords: First-Person Vision (FPV), Dense Trajectories,
新規性・差分
概要
一人称ビジョンからの行動認識の改良に関する論文.Low-
levelとしてはDense Trajectories (DT)によるモーション特
徴,DTにLABチャネルから取り出したLBPも統合した物体
特徴を適用.Middle-levelな情報では,手の姿勢や動作,
頭部の動作,視線方向も参照する.また,一人称ビジョン
いおけるそれらの組み合わせについても詳細に評価を行っ
た.
・一人称ビジョンにおいて高度な特徴量であるDTを用い
ただけでなく,LABの各チャネルにおいてLBPを抽出する
特徴をDTのフレームワーク内にて実装した.
・中央の表のFPV datasetまとめも便利.
・下表の評価において,O(Object) + M(Motion) + E
(Egocentric cues) + H(Hand)の組み合わせがもっとも効果
的であることが判明した.HがあればG(gaze)はさほど重
要ではない?
Links
論文 http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Li_Delv
ing_Into_Egocentric_2015_CVPR_paper.pdf
著者ページ http://yinli.cvpr.net/
69. Hamed Pirsiavash, Deva Ramanan, “Detecting Activities of Daily Living in First-person Camera Views”,
in CVPR, 2012.
【67】
Keywords: Activities of Daily Living (ADL), First Person Vision, Actiivty Detection
新規性・差分
概要
介護などで特に重要であると思われるActivities of Daily
Living (ADL)の認識に取り組む.物体検出をVisual Phrases
[Farhadi+, CVPR11]により実行し,行動認識ではTemporal
Pyramidsを参照し,visual wordsを物体モデルから抽出,
長期の行動解析にも耐えうる手法とした.
・長時間に渡って解析を実行したADL dataasetを提案.
・ADL認識のための物体検出や行動認識手法が右の表や
Confusion Matrixに示す通りである.行動認識の平均精度
は40.6%であった.
Links
論文 http://people.csail.mit.edu/hpirsiav/papers/adl_cvpr12.pdf
プロジェクト
http://vision.ics.uci.edu/papers/PirsiavashR_CVPR_2012_1/
ビデオ https://www.youtube.com/watch?v=tybmC0bS928
スライド
http://www.csc.kth.se/cvap/cvg/rg/materials/hossein_004_slide
s.pdf
70. Junhua Mao, Jonathan Huang,Alexander Toshev, Oana Camburu, Alan Yuille, Kevin Murphy,
“Generation and Comprehension of Unambiguous Object Descriptions”, in CVPR, 2016.
【68】
Keywords: text descriptions of images,dataset
新規性・差分
概要
・画像生成分の根本的な問題として,画像の説明の仕方
はいくらでもあるため,手法の評価が難しいという点が
ある.そこで一度に説明するbounding_box内の物を1つ
に限定することで,より明確な評価をする.右図のよう
に,画像と領域が入力されたら説明文が出力され,文と
画像が入力されたらその文に合う領域が出力される.
・Google Refexp (G-Ref) datasetを提案.右上の画像
のように,リッチなアノテーションが物体ごと(緑
のマーク)に付与されている.MS COCOに基づいた
ものなので物体のmaskやカテゴリーの情報にもアク
セスできる.
. datasetとtoolboxが公開されている.
https://github.com/ mjhucla/Google_Refexp_toolbox
Links
論文 https://arxiv.org/pdf/1511.02283v3.pdf