SlideShare a Scribd company logo
1 of 67
Download to read offline
cvpaper.challenge	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Daniel Weinland, Edmond Boyer, Remi Ronfard, “Action Recognition from Arbitrary Views using 3D Exemplars”,
in ICCV, 2007.	
【1】	
Keywords: Action Recognition, Arbitrary View	
新規性・差分	
手法	
結果	
概要	
カメラのビューポイントに依存せず行動認識を実行する.マル
チカメラの設定において,3次元のモデルを生成し,exemplar
ベースのHMMにより認識.	
認識段階において3次元再構成が必要ではないこと.代わり
に,Exemplarベースにより,カメラビューをまたいだ時系列特徴
空間になっているため,2次元の画像からでもマッチングが高
精度に行える.	
入力画像からシルエットを認識することや,3次元モデルからシルエットを生成す
る.得られた2画像のシルエットをマッチングすることで行動を推定する.	
ここで,マッチングにはキーフレームを用いることとし,3次元の人体モデルはキャリ
ブレーションされた5台のカメラからVisual Hullによりあらかじめ復元する.時系列モ
デルにはHMMを用いて状態遷移を学習.	
ここで,5台のカメラから行動を認識するIXMAS Datasetを提案する.5台のカメラの
キャリブレーションデータも配布.このデータにおいて提案手法は91.11%での認識
を実現した.	
Links	
論文
http://www-ljk.imag.fr/Publications/Basilic/
com.lmc.publi.PUBLI_Inproceedings@1176ddd04d5_1d47e88/
WeinlandBoyerRonfard-ICCV07.pdf	
データセット http://4drepository.inrialpes.fr/public/viewgroup/6
Hueihan Jhuang, Thomas Serre, Lior Wolf, Tomaso Poggio, “A Biologically Inspired System for Action
Recognition”, in ICCV, 2007.	
【2】	
Keywords: Action Recognition, Biological System	
手法	
結果	
概要	
生物学の知見を活かした行動認識手法の提案.脳の仕組みで
あるV1レイヤやMTレイヤの仕組みを模して行動認識のための
時系列・空間的な特徴を抽出.	
V1レイヤやMTレイヤの仕組みを模している.MTレイヤではV1レイヤで抽出された
膨大な特徴を投影していることがわかっており,それはV1の細胞の4倍から10倍に
及ぶ.	
実装では各勾配に反応するGabor filterを用いている.さらにはスケールを複数種
類用意する.勾配は空間を示すx,yのみならず,t方向からも抽出することで時系
列情報を獲得.さらに拡張した場合にはLucas Kanade法によりオプティカルフロー
を抽出する.	
KTHデータセットを用いた.6種類の
行動が含まれており,画像サイズは
160x120である.また,25種類のシー
ンがおさめられており,16種を学習,
9種をテストに設定.結果,KTHデー
タセットにて91.6%を達成,脳の仕組
みからヒントを得て単純な手法ながら
も非常に効果的な精度を得ることに
成功した.UCSDやWeizmann dataset
からもそれぞれ79.0%,96.3%の精度を
達成.	
Links	
論文
https://www.researchgate.net/profile/Hueihan_Jhuang/
publication/
221110709_A_Biologically_Inspired_System_for_Action_Recognition/
links/00b7d52783cf75e5b7000000.pdf	
プロジェクト
Andrew Rabinovich, Andrea Vedaldi, Carolina Galleguillos, Eric Wiewiora, Serge Belongie, “Objects in Context”,
in ICCV, 2007.	
【3】	
Keywords: Object Recognition, Context	
新規性・差分	
手法	
結果	
概要	
物体認識のため,コンテキスト情報を導入する.物体情報やコ
ンテキスト情報を後処理で入れ込む.Conditional Random
Fields (CRF)を用いて情報を統合.データセットにはPASCALや
MSRCを適用して物体認識に対するコンテキスト統合の有効性
を示す.	
コンテキスト情報により不明なエラーを防ぐことができる.下図
はLemon => Tennis Ballと推定が改正されている.	
手法の簡略化図を下記に示す.画像入力後は前処理として粗くセグメンテーション
を実行する.さらに,BoFによる物体の識別を実行し,最後に後処理としてCRFによ
りコンテキストを導入する.途中のBoFによる識別で誤りがあったとしても後処理の
コンテキストモデルを導入する際に精度を向上させる.	
上はMSRC,下はPASCALデータセットに対する
confusion matrixを示す.列は(a)コンテキスト情報な
し (b)Google Setsによるコンテキスト (c) Ground
Truthによるコンテキスト情報である.	
Links	
論文 http://cseweb.ucsd.edu/~sjb/iccv2007a.pdf	
YouTube
https://www.youtube.com/watch?v=qvYo1Zb2GUw
Jianxin Wu, Adebola Osuntogun, Tanzeem Choudhury, Matthai Philipose, James Rehg, “A Scalable Approach to
Activity Recognition based on Object Use”, in ICCV, 2007.	
【4】	
Keywords: Action Recognition, Object Interaction	
新規性・差分	
手法	
結果	
概要	
人物と物体のインタラクションから行動を認識する研究.物体
のタグや手部の軌道から人物が何をしているかを推定する研
究である.	
RFIDや画像認識の統合,さらに時系列モデルを用いて物体認
識・行動認識を行う.物体情報を行動に反映させることがポイ
ント.	
行動認識のための入力にはRadio-Frequency
Identification Tags (RFID)を用いる.物体のカテゴ
リを推定するためにはSIFT特徴量が用いられ,
RFIDデータからのモデルを推定するためには
Dynamic Bayesian Networks (DBN)が用いられ
る.パラメータ推定にはEMアルゴリズムを適用.	
右図がDynamic Bayesian Networksのモデル.(a)
のfull modelではRFIDやVisionセンサから物体認
識,さらには動作特徴により行動を認識する.	
33の物体情報やセンサの手掛かりから16の行動を認識する.結果は表に示す通
りである.今後はSURFなどより高速に処理できる特徴の導入や,人物の手部や物
体とのインタラクション情報を反映させることが課題である.	
Links	
論文
https://www.cs.cornell.edu/~tanzeem/pubs/iccv07_activityrec.pdf	
参考
https://cs.uwaterloo.ca/~jhoey/teaching/cs793/reviews/Wu-
ICCV07-review.pdf
Raffay Hamid, Siddhartha Maddi, Aaron Bobick, Irfan Essa, “Structure from Statistics - Unsupervised Activity
Analysis using Suffix Trees”, in ICCV, 2007.	
【5】	
Keywords: Action Recognition, Suffix Tree	
新規性・差分	
手法	
結果	
概要	
行動認識の表現方法としてSuffix Treeを表現する.一連の行
動を分解し,時間がそれぞれ異なるサブ行動にセグメント化す
る際に役立つ.	
それまでの異常検出はモデルベースであった
が,異常のモデリングが貧弱であるためにうまく
検出できていなかった.提案手法ではSuffix
Treeによる行動表現を適用することで局所的か
つ構造的な異常の検出を実現する.	
Suffix Treeによる行動の表現方法は左図で表される.一連の行動を入力として,
それらがまずはルートノードに設置される.その後,特徴の解析により分岐してセ
グメントごとに分割される.右図は連結を考慮した表現であり,つながりは5連結(5-
gram)まで扱うこととする.	
キッチン内における映像データにて行動のセグメント化を
行った.結果はSuffix Treeが69%であり,Suffix Treeの表現
でシーケンスを統計的に解析することで異常動作の検出も
実現した.	
Links	
論文 http://raffayhamid.com/iccv_07.pdf	
プロジェクト
Varan Ganapathi, Chiristian Plagemann, Daphne, Koller, Sebastian Thrun, “Real Time Motion Capture Using a
Single Time-Of-Flight Camera”, in CVPR, 2010.	
【6】	
Keywords: Motion Capture, Real Time, 	
新規性・差分	
手法	
結果	
概要	
・単眼距離画像から人間の高速な動作に対応した人物追跡を
行うフィルタリングアルゴリズムの提案	
・身体部位の位置を取得し,取得した情報からグラフィックハー
ドウェア上の身体情報を更新することで,最良の人物追跡を行
う.	
本提案手法では,以下の3つの構成からなる.	
(1)胴体部から手先・足先にかけてスキャンし,モデルベース成分の尤度関数を最
適化する.	
(2)z軸方向(奥行き)を測定し,フィルタの一部を再初期化する.	
(3)モデルベースのアルゴリズムを初期化するために,evidence propagation(EP)
を導出し,推定手順を生成する.	
以上の推定手順とモデルベースの人物追跡を組み合わせ,人物追跡を行う.	
右図は,テニスのサーブにおける腕のス
イングの瞬間を人物追跡した結果であ
る.	
上図は,モデルベースのみの人物追跡	
下図は提案手法での人物追跡である.	
Frame11854において,従来手法と比較
すると,高速な動作を行っている腕部の
追跡が正確に行われた.	
モデルベースのみのアルゴリズムは1秒
あたり6フレームで処理できるのに対し,
提案手法では1秒あたり4〜6フレームと
映像により,処理時間が異なる.	
	
Links	
論文 	
http://ai.stanford.edu/~koller/Papers/Ganapathi+al:CVPR10.pd	
	
スライド	
http://goo.gl/uhJ9Sg
Jingen Liu, Mubarak Shah, “Learning Human Actions via Information Maximization”, in CVPR, 2008.	
【7】	
Keywords: Action Recognition, 	
新規性・差分	
手法	
結果	
概要	
時系列のコードワード特徴を用いて行動を識別する.Cuboidに
より時系列特徴を取得,K-meansによるクラスタリングに対抗し
て,最適化ベースのクラスタであるMMI (Maximization of Mutual
Information)を採用している.MMIでは時系列的な特徴が類似
する特徴の相関値を参照することで精度を高める.	
・初めてマルチビュー動画に対してコードワード特徴を実装した	
・単眼・複眼問わず精度が良いアプローチである	
K-meansに代わるクラスタリング方法としてMMIを適用し,動画中に含まれる識別
性に優れた特徴を抽出できるようにする.より少ない次元で表現可能であり,時系
列特徴空間内の相関値を参照した表現が可能である.Cuboidsによるベクトル抽
出を入力としている.流れは下記により構成される.	
・Cuboidsの取得	
・k-meansによるコードワード生成	
・MMIを用いたコードワードの圧縮	
・併進,回転,スケールに対応する構造化	
・SVMによる学習	
KTH,IXMASに対する精度は下記のと
おりである.	
Links	
論文 http://vision.eecs.ucf.edu/papers/cvpr2008/5.pdf	
プロジェクト
Weilong Yang, Yang Wang, Greg Mori, “Recognizing Human Action from Still Images with Latent Poses”, in
CVPR, 2010.	
【8】	
Keywords: stikk image, Action Recognition, Latent Poses, 	
新規性・差分	
手法	
結果	
概要	
・静止画から人物の行動を認識し,アクションラベルを推定す
る.	
・姿勢推定と行動認識のためのシステムを個別に学習し,結合
させ,静止画中の行動推定を行う.	
・画像中の姿勢を”latent variables”として扱い行動の分類に関
連付け	
previous work	
	
proposal	
本提案手法は以下4つの構成からなる.	
(1)Pose Representation:画像から人間の体を上半	
身,下半身,右腕,左腕に分け,諸動作中の身体	
部位として分類し,poseletsを形成する.右図に	
例としてランニング中のposeletsを示す.	
(2)Model Formulation:モデルの定式化	
(3)Learning:トレーニングデータからモデルパラ	
メータの学習を行う.	
(4)Inference:学習したモデルパラメータからアク	
ションラベルを推定する.	
実験結果を以下に示す.	
右上図はstill image datase	
右下図はyoutube dataset での実験結果である	
Links	
論文 	
http://www.cs.sfu.ca/~mori/research/papers/yang_cvpr10.pdf
Aaron F. Bobick, James W. Dabis, “Real-time Recognition of Activity Using Temporal Templates”, in CVPR,
2008.	
【9】	
Keywords: Motion History Image (MHI)	
新規性・差分	
手法	
概要	
Motion History Image (MHI)の提案.背景画像をフレームごとに
蓄積することで動的なモーションを表現する.現在では,距離
画像でもMHIが実装可能となり,ノイズの影響を受けにくくなっ
た.	
・簡易的かつ効果的な行動表現方法を提案した.	
前景をバイナリ画像で示す.MHIを生成する際には
バイナリ画像を時系列で蓄積する.蓄積する際は
下の式を参考にする.ここで,D(x,y,t)はバイナリ画
像である.	
Links	
論文
http://web.cse.ohio-state.edu/~jwdavis/CVL/Publications/
TR-386.pdf	
プロジェクト
http://web.cse.ohio-state.edu/~jwdavis/CVL/Research/MHI/
mhi.html	
下の図ではスケール変動や有向のフローに対する
表現を示す.
Moonsub Byeon, Songhwai Oh, Kikyung Kim, Haan-Ju Yoo and Jin Young Choi, “Efficient Spatio-
Temporal Data Association Using Multidimensional Assignment for Multi-Camera Multi-Target Tracking ”, in
BMVC, 2015.	
【10】	
新規性・差分	
手法	
結果	
概要	 複数カメラ間における複数人物追跡問題を時空間デー
タアソシエーション問題として解決する手法を提案	
従来手法 :単純なモーションモデル(最短パス)と3次元位置推定
により複数人物追跡を単純化	
→しかし,カメラの台数により複雑性が指数的に増加	
提案手法 : 複数人物追跡を時空間データアソシエーションとみ
なし多次元割当(MDA)問題として定式化	
複数台カメラのデータセットにおける複数人物の追跡精度	
-*- が 提案手法,いずれも従来手法より追跡精度が高い	
(左) 提案手法による追跡結果,人物は3次元の円柱としてモデル化	
Links	
PDF : http://www.bmva.org/bmvc/2015/papers/paper068/paper068.pdf	
[2台のカメラ間,5フレームの場合]	
 	
コストが最小である互いに素な軌跡
を見つけるためことで人物の移動軌
跡を決定する	
 軌跡を求めるためにはカメラとフ
レームをノードとしたハイパーグラフ
を生成し,ランダムに分割/再マージ
を繰り返すことでコストを最小化し各
人の軌跡を最適化していく	
Keywords : multi-target tracking, data association	 手法
M. Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C. Berg, Tamara L. Berg, “Where to Buy It:
Matching Street Clothing Photos in Online Shops”, in BMVC, 2015.	
【11】	
新規性・差分	
結果	
概要	 ファッションアイテムに特化した詳細な画像検索タスクの
提案と,このタスクのためのデータセットの提案	
スナップ写真中のファッションアイテムをオンラインショップ上の
写真より見つけるという詳細な画像検索タスク	
(左) データセットの構成	
(右) 検索性能,特に右から2列目では手法同士を比較して
いる.深層特徴を組み合わせた提案手法による検索性能
が最も高い	
PDF :
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Kiapour_Where_to_Buy_ICCV_2015_paper.pdf	
Project : http://www.tamaraberg.com/street2shop/ (Poster, Dataset有り)	
Author : http://www.cs.unc.edu/~hadi/	
1. ファッションアイテム(Bag)から特徴抽出し,コサイン類似度より検索アイテ
ムの候補求める	
2.検索アイテムと各候補アイテムの特徴を連結し,Street2Shop Match Netよ
り各候補アイテムごとのスコアを求め最終的な出力とする	
Keywords : multi-target tracking, data association	
手法	
Links
Keywords: Weakly supervised, semantic segmentation	
新規性・差分	
手法	
結果	
概要	
Semantic segmentation + 弱教師有り学習とういアプローチの提案.目
標としては,pixelレベルでラベルを割り当てることである.	
	
	
提案された手法は,画像内のラベル位置に影響されずに,部分
的にラベル付けされたデータを用いて学習を行うことができる.ま
た,最先端の手法と比較して,高速かつ高精度であることが示さ
れている.	
	
提案しているアプローチは,粗いセグメンテーションから始まり,Spectral
clustering法によって関連するImage partsをクラスタリングする処理が続く.最
後に ラベルを基にして画像にマッピングする.フレームワークの図を以下に示
す.	
	
	
結果は下図に示す.	
Niloufar Pourian, S. Karthikeyan, and B.S. Manjunath, “ Weakly supervised graph based semantic segmentation
by learning communities of image-parts”, in ICCV, 2015.	
【12】	
Links	
論文ページ:http://www.cv-foundation.org/openaccess/
content_iccv_2015/papers/
Pourian_Weakly_Supervised_Graph_ICCV_2015_paper.pdf
Prithvijit Chattopadhyay, Ramakrishna Vedantam, Ramprasaath RS, Dhruv Batra, Devi Parikh, “Counting
Everyday Objects in Everyday Scenes”, in arXiv1604.03505v1, 2016.	
【13】	
Keywords: Visual Question Answering, Daily Object Recognition	
新規性・差分	
手法	
結果	
概要	
日常生活において物体認識や物体のカウントを実現する.さら
には質問回答(Visual Question Answering; VQA)の要素も加え
て日常生活の物体に関する受け答えを自動で行う.	
・従来のカウントと異なる点はカウント手法のバリエーションで
ある.下図のように,画像内での位置を特定するDetection,種
分けを行うGlance,区切られた範囲における物体のカウントを
行うAssociative Subtizingを提案.	
日常生活の中で物体のカウントをDetection, Glance, Associative Subtizingに分け
て考え,最終的には質問回答的に「How many?」の質問に回答する答えを用意す
る.	
具体的な手法として,物体検出にはFast R-CNN (FRCN)を用いる.FRCNでは物体
候補領域を抽出後,CNNによる物体認識を行い,さらにNon-Maximum
Suppression (NMS)を実行する.	
Associative Subtizingとはセルごとの物体をカウントする方式であり,下の式で実
行する.あるカテゴリc = {c_1, … , c_n}の中でのカウントS^cを計算する.	
データにはVisual Question Answering [9]やCOCO-QA [10]を用いた.カウントは
回帰により行い,Root Mean Squared Error (RMSE)により評価した.プロジェクト
ページにはDeepDreamに対するカウントも表示.	
Links	
論文 http://arxiv.org/pdf/1604.03505v1.pdf	
プロジェクト
https://filebox.ece.vt.edu/~ram21/
Ramprasaath_RamasamySelvaraju_CVproject_Fall2015.html
Alexei A. Efros, Alexander C. Berg, Greg Mori, Jitendra Malik, “Recognizing Action at a Distance”, in ICCV,
2003.	
【14】	
Keywords: Action Recognition, Optical Flow	
新規性・差分	
手法	
結果	
概要	
スポーツシーンで行動認識を適用するため,カメラから離れた
位置からでも頑健に動く手法を考案.動作を安定的に取得する
ために人物領域に補正を行ったのち,オプティカルフローで特
徴抽出,Nearest Neighborにてマッチングを行う.	
スポーツシーンでは選手の領域が非
常に小さいことも多い.右の図では
人物領域の高さが約30pixelsである
が,この環境でも頑健に人物行動認
識を実施するための手法を提案し
た.	
下にフローチャートを示す.入力ビデオ
から人物追跡やスタビライゼーションを
実行.各方向ごとにオプティカルフロー
を取得後,データベースとのマッチング
により行動のラベル・関節位置・アピア
ランス情報まで抽出する.マッチングに
はNearest Neighborを行う.	
各Ballet, Tennis, Footballのデータにおいて実験を行ったところ,良好な性能が得ら
れた.さらに,人物の関節位置まで復元することに成功した.	
Links	
論文 http://acberg.com/papers/berg_action.pdf	
プロジェクト
Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Scharwachter, Markus Enzweiler, Rodrigo Benenson,
Uwe Franke, Stefan Roth, Bernt Schiele, “The Cityscapes Dataset”, in CVPRW, 2016.	
【15】	
Keywords: Dataset, Traffic, Semantic Segmentation	
データセットの構成	概要	
大規模かつ多様な都市の交通シーンにおいてセマンティックセ
グメンテーションや物体検出などのデータセットを提供する.
データは主にヨーロッパの50の都市においてアノテーションされ
た5,000枚(pixel-level),20,000枚(weakly-annotated)の画像で
構成される.	
データセット中のアノテーションには,Ground (road, sidewalk), Human (person,
rider), Vehicle (car, truck, bus, on rails, motorcycle, bicycle, license plate),
Infrastructure (building, wall, fence, traffic sign, traffic light, pole, bridge, tunnel),
Nature (tree, terrain), Sky (sky), Void (ground, dynamic, static)が含まれる.	
Links	
論文
http://www.visinf.tu-darmstadt.de/media/
visinf/vi_papers/2015/cordts-cvprws.pdf	
プロジェクト
https://www.cityscapes-dataset.com/
Yanhua Cheng, Rui Cai, Chi Zhang, Zhiwei Li, Xin Zhao, Kaiqi Huang, Yong Rui, “Query Adaptive Similarity
Measure for RGB-D Object Recognition”, in ICCV, 2015.	
【16】	
Keywords: dense matching, similarity learning, RGB-D fusion, ranking SVM	
新規性・差分	
手法	
結果	
概要	
RGBD物体認識において、ピッチャー vs コーヒーマグ、
のように見分けにくい物体カテゴリをよく見分けられるよ
うなパラメータを学習する手法を提案した。	
・ 比較対象の二つの物体間の密な対応点がとれる	
・ RGBの類似度とdepthの類似度のフュージョンを
(重みを学習して)良い感じにできる	
下式のwθをRanking SVMで最適化する。	
RGBDの物体データセットで評価したら、top-1 accuracyが92.7%となった。	
これまでにstate-of-the-artに比べて5.1%の改善。	
Links	
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/
Cheng_Query_Adaptive_Similarity_ICCV_2015_paper.pdf	
θはRGBとdepthのバランスをとるパラメータ。	
θにより変化するsθの加重平均(重みwθ)を全体の類似度としてい
る。
Jeremie Papon and Markus Schoeler, “Semantic Pose using Deep Networks Trained on Synthetic RGB-D”, in
ICCV, 2015.	
【17】	
Keywords: Deep CNN, learning by synthesis, indoor scene understanding	
新規性・差分	
手法	
結果	
概要	
RGBD画像とその画像に対するObject Proposals(物体検出の前処理で出てく
るウィンドウ群)を入力すると、そこに写っている物体たちのクラス名、位置、
姿勢が出力されるDeep CNNを提案。	
学習には3Dモデルを使って人工的に作成されたシーン画像を使う。	
・ RGB-Dシーンをシンセサイズして学習データを作る。	
・ ひとつのCNNで多数の物体の物体識別と姿勢推定を一気にやってしまう。	
・処理時間はGPUで数秒程度。	
ModelNet10の3Dモデルを使って7000のRGBDシーンをランダムに作成。	
クラスは普通のSoftMax cross-entropy loss、姿勢とデプスにはローカルビン毎の
lossをweighted averageしたlossを使用。	
NYU v2 データセット(リアルなRGBDシーンデータセット)で識別精度と姿勢推定精度を評価した。	
Links	
論文  http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Papon_Semantic_Pose_Using_ICCV_2015_paper.pdf
Mohammed Hachama, Bernard Ghanem, and Peter Wonka, “Intrinsic Scene Decomposition from RGB-D
images”, in ICCV, 2015.	
【18】	
Keywords: 	
新規性・差分	
手法	
結果	
概要	
RGB-D画像をアルベド(反射成分)と陰影に分解する手法を
提案。data termとregularity termの二つからなるエネルギー
を定義し、最小化する。前者の項はアルベドと表面形状の法
線、そして入射照明の関係性を表している。後者の項はイル
ミネーションベクターフィールドとアルベドそれぞれの正規化
項である。	
・ これまでの手法(Retinexライクな手法)とは異なり、image
gradientとテクスチャに依らない。	
・ RGBD画像からPoisson reconstruction techniqueにより得られる色・法線つき点
群を入力とする。各頂点のアルベドとイルミネーションを同時に推定する。最適化
にはa cyclic block coordinate descent algorithmを使用している。	
	
・入力のRGB-D画像は一枚でも複数枚でも可。	
Links	
論文  
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/
Hachama_Intrinsic_Scene_Decomposition_ICCV_2015_paper.pdf	
	
Youtube  https://www.youtube.com/watch?v=0ilTmJcyrL4
Zhuo Deng, Sinisa Todorovic, and Longin Jan Latecki, “Semantic Segmentation of RGBD Images with Mutex
Constraints”, in ICCV, 2015.	
【19】	
Keywords: CRF, Quadratic Programming (QP), common sense, image labeling	
新規性・差分	
手法	
結果	
概要	
インドアシーンのRGB-D画像からの密な物体セグメンテーショ
ン(ラベリング)のための、CRFと相互排除制約を合体させた手
法を提案。最終的に出力されるラベリングは、たとえば「寝室用
ランプの上に床は来ない」といった”常識”による物体間の制約
をすべて満たすものになる。	
・ セマンティックシーンセグメンテーションをCRFによる画像の
密なクラスラベル付けで実現。quadratic programming (QP)問
題で解く。	
・ 椅子はテレビの上には来ない、等の”常識”の制約を入れ込
んだことが一番のコントリビューション。	
・ CRF	
・ MAP assignment as QP	
・ QP with Mutex Constraints	
	
・ 三つのMutex Constraints:	
(1)  Global object co-
occurrence constraints	
(2)  Relative height
relationship constraints:	
(3)  Object local support
relationship constraints	
・図3(→)参照。	
一番左が入力画像	
二番目が	
[Gupta et al., CVPR2013]	
三番目が提案手法	
一番右がground truth	
Links	
論文  
http://web.engr.oregonstate.edu/~sinisa/research/publications/
iccv15_mutex.pdf	
	
ポスター(Not found)	
http://web.engr.oregonstate.edu/~sinisa/talks/
iccv15_mutex_poster.pdf
A. Krull, E. Brachmann, F. Michel, M. Y. Yang, S. Gumhold, and C. Rother, “Learning Analysis-by-Synthesis for
6D Pose Estimation in RGB-D Images”, in ICCV, 2015.	
【20】	
Keywords: CNN, probabilistic model	
新規性・差分	
手法	
結果	
概要	
・ CNNによるRGBD画像からの物体の6D姿勢推定。3Dモデル
をレンダリングして人工的に作った物体の見た目と実際の見た
目との誤差を少なくするようにCNNを学習する。	
・ オクルージョンの激しい環境下でも物体の姿勢推定が高精
度に可能	
・ CNNを実画像とレンダリング画像を比較する確率的モデルと
して使った初めてのワーク。	
・ 特定の物体のgeometryやappearanceに特化せずさまざまな
背景化でジェネラルな物体に使える	
・ 3Dモデルを姿勢𝐻でレンダリングして、実際の観測との誤差を計算	
・ その誤差を入力としエネルギー関数𝐸(𝐻)を出力するCNNを学習	
・ 学習したCNNを使って姿勢の事後分布𝑝(𝐻|𝒙;𝜽)を計算	
	
	
・ 激しいオクルージョンのとき先行研究に比べて20%以上の
精度向上	
Links	
プロジェクト
http://cvlab-dresden.de/research/scene-understanding/pose-
estimation/	
YouTube https://www.youtube.com/watch?v=pvsrl-foX_k
Christian Kerl, Jorg Stuckler, and Daniel Cremers, “Dense Continuous-Time Tracking and Mapping with Rolling
Shutter RGB-D Cameras ”, in ICCV, 2015.	
【22】	
Keywords: consumer-grade RGB-D cameras, SLAM	
新規性・差分	
手法	
結果	
概要	
・ 安価なRGBDカメラのほとんどがローリングシャッターCMOS
センサを使用している。そこで、rolling shutterをモデル化するこ
とでRGBDカメラからのSLAMの(トラッキングと三次元再構成
の)精度を向上させた。	
・ 連続的な軌跡の表現を用いることで、
断続的な時間表現よりもいろいろなアド
バンテージがある。	
・ splinesは断続的な時間表現よりパラメ
タが少なく、平滑化項も含んでいる。	
・ rolling shutter現象も補える。	
・ 連続的なB-splinesを用
いてカメラ軌跡を最適化
する。rolling shutterの制
約を考慮したカメラモデ
ルを使用することでrolling
shutter現象を回避する。	
・ 人工データでも実データでも非常によい性能をあ
げた。	
Links	
プロジェクト、データセット
http://vision.in.tum.de/~kerl/
kerl_etal_iccv2015_webpage/	
	
YouTube
https://www.youtube.com/watch?
v=Lo6tKswM3hc
Shanshan Zhang, Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele, “How Far are We from
Solving Pedestrian Detection?”, in CVPR, 2016.	
【23】	
Keywords: Pedestrian Detection, Human Baseline	
新規性・差分	
手法	
結果	
概要	
現状の歩行者検出技術の最先端と実利用化に耐えうるパー
フェクトな人物検出にはどれほどの差があるのかを検証.実利
用化のレベルを”Human-level”と定義付け,現行の技術がどこ
まで近づくことができているかについて議論する.なお,データ
セットにはCaltech-USAを採用している.Human-levelではエ
ラー率が5.62%である.	
さらにはローカライズのエラーを学習し,アノテーションの補正
を行った.	
・最先端の歩行者識別器での検出ミスのパターンを把握	
・Human-levelのベースラインをCaltechデータセットに与える	
・学習データの品質がいかに検出率に影響するかを評価.
Caltechのデータセットに対して再アノテーション	
最先端手法としてはICF(Integral Channel Features)ベースのFiltered Channel
Features [Zhang+, CVPR15],R-CNNベースの歩行者検出 [Hosang+, CVPR15]を
適用する.ICFの改良手法の中ではChackerboards detectorがもっとも性能が高い
(Error-rate: 18.5%).また,R-CNNでは物体候補領域の抽出方法にセンシティブで
あるという問題がある.下の図は各タスクにおける各手法の精度である.また,失
敗する環境要因(double detections, vertical structures in bg, confusing等),ソース
(small scale, side view, cyclists, occlusion等)についても言及した.	
Checkerborards detectorに回転を加えて特徴
を抽出するRotation Filtersを提案し,精度を
上げた(16.1 => 13.0%).さらに,VGGNet特徴を
追加(11,1%),bbox回帰やNMSにより9.3%のエ
ラー率を達成した.	Links	
論文
http://arxiv.org/pdf/1602.01237v1.pdf	
プロジェクト
https://www.mpi-inf.mpg.de/departments/
computer-vision-and-multimodal-
computing/research/people-detection-
pose-estimation-and-tracking/how-far-
are-we-from-solving-pedestrian-
Piotr Dollar, Vincent Rabaud, Garrison Cottrell, Serge Belongie, “Behavior Recognition via Sparse Spatio-
Temporal Features”, in PETS, 2005.	
【24】	
Keywords: Cuboids, Action Recognition	
新規性・差分	
手法	
結果	
概要	
行動認識のための時系列特徴であるCuboids特徴を提案.	
時系列の特徴を取得するためのxyt領域抽出を提案した.位置
付けとしてはSTIPの改善版とされている.	
2Dの特徴点ではなく,xytの3次元情報にア
クセスして特徴を取得する.この仕組みは現
在でも用いられることがあり,Cuboids特徴と
呼ばれている.	
コーナー検出とPCA-SIFTによる時系列ベク
トルにより行動を認識する.	
KTH(左), UCSD Mouse(中), Face dataset(右)を用いた.各データセットにおける精
度を以下に示す.	
Links	
論文
http://vision.cornell.edu//se3/wp-content/uploads/2014/09/
BehaviorRecognitionViaSparseSpatioTemporalFeatures_VSPET05.p
df	
著者 http://vision.ucsd.edu/~pdollar/
Ryo Yonetani, Kris M. Kitani, Yoichi Sato, “Recognizing Micro-Actions and Reactions from Paired Egocentric
Videos”, in CVPR, 2016.	
【25】	
Keywords: Micro-Action Recognition	
新規性・差分	
手法	
結果	
概要	
一人称視点からの人物行動認識やその行動に対する人物間
のリアクション認識を行う.行動においては大きなもののみでな
く,微小動作も含む(micro-actionと定義)ため,どの手法が最適
化を定義.データセットでは一人称視点だけでなく,二人称のリ
アクションも含み,1000にも及ぶペアがアノテーションされてい
る.	
人物間の一人称ビジョンから微小な動作認識を行うことが新規
性として挙げられる.	
一人称の行動認識の手法と二人称のリアクション認識の手法を分けている.	
・一人称認識では,Improved Dense Trajectories (IDT) + Fisher Vectors (FV)
[Wang+, ICCV13],Cumulative Displacement Patterns (CD) [Poleg+, CVPR14],
Pooled Time-Series (PoT) [Ryoo+, CVPR2015]を用いた.	
・二人称のリアクション認識ではIDT+FV, Two-stream ConvNet [Simonyan+,
NIPS14], Trajectory-Pooled Convolutional Descriptors (TDD) [Wang+, CVPR15]を
適用した.	
提案法では識別器にSVMを適用し,CD, PoT,IDTやTDDなどにおいてパラメータ
を調整した統合ベクトルを使用した.	
下の図がデータセットの各タスクにおける精度である.	
また,この試行とは別にJPL Interactionデータセットにおいても実験を行った.	
Links	
論文 http://yonetaniryo.github.io/assets/papers/yks-cvpr2016.pdf	
プロジェクト
http://yonetaniryo.github.io/2016/03/02/yks-cvpr2016/
Yuping Shen, Hassan Foroosh, “View-Invariant Action Recognition Using Fundamental Ratios”, in CVPR, 2008.	
【26】	
Keywords: View-invariant Action Recogniton, Posture	
新規性・差分	
手法	
結果	
概要	
視点に頑健な行動認識の手法を提案する.具体的には2x2の
基礎行列(matrix F)を参照し,人物の関節位置を復元すること
により視点変化に頑健な行動認識を与える.	
・現在までの人物姿勢による手法ではビュー毎に学習やマッチ
ングを行う手法がほとんどであったが,視点変化が発生した場
合にでも行動認識を行うことができる手法を提供する.	
Pose Transitionsと呼ばれる,すべての視点から
見た際に変動しない人物姿勢情報を提案する.
この手法は右図のようにカメラ間の動的な平面を
考慮するF行列を用い,その姿勢の変動を考慮す
る.	
視点変化による姿勢情報の変動の解析は,CMU
Motion Capture Databaseを用いて生成的に行
う.	
カメラの分布(左下図)やConfusion Marix (右下図)を示す.モーションキャプチャ
データの解析や関節情報の学習により,リアルデータに対する認識率が95%前後
であった.	
Links	
論文
https://pdfs.semanticscholar.org/
2b29/94e72e12e9a35a5779b5f9c4d33804a6f8a1.pdf	
研究室ページ http://cil.cs.ucf.edu/
Krystian Mikolajczyk, Hirofumi Uemura, “Action Recognition with Motion-Appearance Vocabulary Forest”, in
CVPR, 2008.	
【27】	
Keywords: Action Recognition, Vocabulary Forest	
新規性・差分	
手法	
結果	
概要	
局所的なモーション特徴を用いた,Vocabulary Forestベースの
行動認識手法を提案する.人物行動が含まれる映像データか
らモーション特徴を大量に抽出し,Vocabulary Forestにより確
率分布を計算する.実験では2008年当時としては大規模で
あった17クラスの行動分類を実行した.	
・時系列特徴や空間的特徴の統合により行動認識の精度を高
められると主張.(当時ではSTIPが非常に大きな成果を挙げて
いたが,非常に空間的にスパースな特徴の記述であることが
問題であった)	
下図が提案手法の概要である.特徴点の検出と特徴ベクトルの抽出後,次元圧縮
を実行する.圧縮特徴を用いてVocabulary Forestを学習することにより行動を認
識する.	
特徴点検出にはMSERやHarris-Laplaceコーナー検出を行い,セグメント化も同時
に実行.特徴量にMSERやはGLOHを適用した.	
モーション特徴ではLucas-Kanadeによる特徴点追跡,RANSACによる有効な特徴
点のみ残し,セグメント領域からのモーションパラメータを抽出.	
右の表はKTHデータセットにおける行動認識結
果である.行動認識では各クラス[.97, .96, .98, .
88, .93, .87]を達成,行動検出でも良好な精度を
実現した.一方の17クラスのスポーツ行動認識
でも70%前後の識別率を達成した.	
Links	
論文
http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/
Mikolajczyk-CVPR-2008.pdf	
プロジェクト
Konrad Schindler, Luc Van Gool, “Action Snippets: How many frames does human action recognition require?”,
in CVPR, 2008.	
【28】	
Keywords: Action Snippets, Action Recgonition	
手法	
結果	
概要	
人物行動認識に最適なフレーム数を評価する.本論文では
1~10フレームの特徴累積をAction Snippetsと定義して最適なフ
レーム数を決定づける.	
KTHデータセットを用いた実験では,5~7フレーム(0.3~0.5秒)の
蓄積で十分であり,約90%を達成した.	
手法としては局所的なエッジ特徴やオプティカルフロー特徴を抽出する.手法自体
は[Giese and Poggio, ICCV2007]のBiologically Inspired Action Recognitionを参考
にしている.いかに短いフレーム数で人物の行動認識をするかにフォーカスしてお
り,毎フレームのエッジ形状やフレーム間のオプティカルフローにより人物行動を
記述する.スニペットはあらかじめ取得された人物行動の断片を辞書化したもので
あり,エッジやフローの蓄積された特徴と比較し,類似度を計算する.識別器には
one-vs-all SVMを用いる.	
パラメータ調整から,5-7フレームですでに良好な性能を出している.また,
Weizmannデータセットでは100%,KTHでは92.7%の認識率を達成し,制限されtフ
レーム数ながら非常に高度な認識を実現.	
Links	
論文
https://www.vision.ee.ethz.ch/en/publications/papers/
proceedings/eth_biwi_00532.pdf
Alireza Fathi, Greg Mori, “Action Recognition by Learning Mid-level Motion Features”, in CVPR, 2008.	
【29】	
Keywords: Mid-level Feature, Action Recognition	
新規性・差分	
手法	
結果	
概要	
オプティカルフローの情報を統合して,より高次なMid-level特
徴としてモーションを表現することにより行動に認識を実行す
る.特徴の統合にはAdaBoostを用いて,クラス間の分離を大き
く,さらには処理コストを削減する.	
Weizmannデータセットにて100%の認識精度を達成するなど非
常に有効な精度を実現した.	
戦略的にはAdaBoostにより有効なエッジ同士をつなげるShapelet
[Sabzmeydani&Mori, CVPR07]と量子化オプティカルフロー特徴 [Efros+, ICCV03]
の統合である.有効なモーション特徴をAdaBoostにより結合することで行動認識に
有効なMid-level特徴へと拡張可能.AdaBoostは二段階活用することとし,1段目で
はLow-levelなオプティカルフロー特徴を統合し,2段階目では行動間の識別を実
行するために行う.左図はMid-level特徴のイメージ図であり,右図は方向毎の
Low-levelなオプティカルフロー特徴.	
WeizmannやKTHのデータに対して識別を実
行した.WeizmannではPer-frameや動画毎
に精度を算出したところ,Per-frameでは
99.9%,動画単位では100%の識別を達成し
た.KTHでは90.5%の識別精度であった.	
Links	
論文
http://www.vision.cs.chubu.ac.jp/CV-R/pdf/AlirezaCVPR2008.pdf	
Video https://vimeo.com/4240423	
プロジェクト http://ai.stanford.edu/~alireza/research.html
Jingen Liu, Saad Ali, Mubarak Shah, “Recognizing Human Actions Using Multiple Features”, in CVPR, 2008.	
【30】	
Keywords: Action Recognition, Multiple Features	
新規性・差分	
手法	
結果	
概要	
特徴の統合が行動認識に有効であることを明らかにする.特
徴量には,(i) 局所領域から抽出した時系列特徴(もしくは
Cuboids特徴)のベクトル量子化コードワード や (ii) 3次元形状
のSpin Imagesから抽出したベクトル量子化コードワードを用い
る.	
特徴の統合のためのEmbedding方法について検討.特徴量と
しては時系列特徴や3次元のスピンイメージを採用した.ベクト
ル表現にはコードワード(BoF)を適用.	
基本的な3ステップには,	
1.  局所特徴量のコードワード学習	
2.  トレーニングサンプルからのLaplacian Matrix計算	
3.  エンコーディングと特徴の量子化	
時系列特徴としては[Dollar+, PETS05]を用いる.3次元形状の特徴としてはSpin
Imagesを用いるが,xyzではなく,時系列を含んだxytの3次元データからSpin
Imagesを計算する.	
WeizmannやIXMASのデータセットに対して実験を行った.	
Weizmannでは89.26%,IXMASデータセットにおいては78.5%の認識精度を実現し
た.ビデオ中からのワード数はST特徴約200,Spinimagesからは約400であった.	
Links	
論文 http://www.vision.eecs.ucf.edu/papers/cvpr2008/2.pdf	
プロジェクト
Xiaogang Wang, Kinh Tieu, W. Eric L. Grimson, “Correspondence-Free Multi-Camera Activity Analysis and
Scene Modeling”, in CVPR, 2008.	
【31】	
Keywords: Trajectory Analysis	
新規性・差分	
手法	
結果	
概要	
キャリブレーションフリーのカメラ間同期の研究.題材としては
駐車場や道路上の人物や車両の動線を扱う.	
・	
(1)  動線のグルーピングを実施,異なるカメラの動線もまとめる	
(2)  複数カメラをまたいだ軌跡のモデリングを実行	
(3)  自動で異常な動線を検出する	
下図のようにカメラ間の関連性をUnsupervisedに学習する.	
キャリブレーションなしのカメラ間をまたいだとしても同ク
ラスのクラスタリングを効果的に行うことに成功した.ま
た,同様にカメラ間をまたいだ異常認識も可能にした.	
Links	
論文
https://pdfs.semanticscholar.org/
1f05/4e881484af41f8850d0349b2627384
f82246.pdf	
プロジェクト
http://www.ee.cuhk.edu.hk/~xgwang/
traj_multicam.html
Christian Thurau, Vaclav Hlavac, “Pose Primitive based Human Action Recognition in Videos or Still Images”,
in CVPR, 2008.	
【32】	
Keywords: Action Recognition, Still Images	
手法	
結果	
概要	
HOGベースの特徴表現であるHistograms of Poses Primitives
を用いることで静止画,もしくは複数の静止画から姿勢(のプリ
ミティブな値)を復元,行動を認識可能にした.HOG特徴量を
Non-Negative Matrix Factorization (NMF)により分解して要素
の分布により認識する.NMFを用いてHOGのベクトルから姿勢
のプリミティブ値を復元するところに新規性がある.	
提案手法は幾つかの要素技術に分けられる	
・人物検出による人体領域からの特徴抽出	
・HOGの抽出とNMFによる基底ベクトルの抽
出,この分解されたベクトルは姿勢のプリミ
ティブな要素を近似していると言える.	
・基底ベクトルの分布により行動を認識する,
認識には一枚絵でも構わないし,静止画を複
数用いても構わない.	
行動の認識には基底ベクトルを数値化した
Histograms of Poses Primitivesを用いる.	
下の表がNMFを用いたHOG特徴量の分解特徴量による精度比較である.複数の
手法があるが,NMFによる姿勢や背景の分解や,重み付けを施した例が最も精度
が高く,Weizmannデータセットにおいて94.4%を実現した.	
Links	
論文
http://cmp.felk.cvut.cz/ftp/articles/hlavac/Thurau-
HlavacPosePrimitivesCVPR2008.pdf	
関連 http://d.hatena.ne.jp/htee2006/20090420/1240247395
Mikel D. Rodriguez, Javed Ahmed, Mubarak Shah, “Action MATCH: A Spatio-temporal Maximum Average
Correlation Height Filter for Action Recognition”, in CVPR, 2008.	
【33】	
Keywords: Action Recognition, Correlation	
手法	
結果	
概要	
Maximum Average Correlation Height (MACH) Filterを提案す
る.MACH Filterはテンプレートベースの行動表現であり,行動
クラス内の分散を表現可能とした.この表現を実現するため,
Clifford Fourier Transformを採用する.	
XYT3次元の空間にFFTを施すことにより,右図
のようなテンプレート画像を得ることができる.
このテンプレートにはクラス内の分散が表現さ
れている.	
Weizmann(左表)やKTH(右表)のデータセットにおいても良好な精度を実現した.そ
れだけでなく,スポーツや顔認識のデータに対しても処理できるなど多様なデータ
に対して広く用いることができる.	
Links	
論文 http://visionnas2.cs.ucf.edu/projects/mikel/ActionMACH.pdf	
プロジェクト
Qinfeng Shi, Li Wang, Li Cheng, Alex Smola, “Discriminative Human Action Segmentation and Recognition using
Semi-Markov Model”, in CVPR, 2008.	
【34】	
Keywords: Action Recognition, Action Segmentation	
新規性・差分	
手法	
結果	
概要	
Semi-Markov Modelフレームワークにより行動認識や行動セグ
メンテーション(映像が与えられた状態で行動の開始・終了やそ
のタグを推定)を実行する.与えられた非拘束の映像から境界
フレームや行動間の特徴を明確に切り分ける手法について検
討した.	
・時系列の行動セグメンテーションに対する解決策として,
semi-Markov model (SVM-SMM)を提案する.	
ここでのSemi-Markov Modelとは,SVM-SMMのように識別的手法や生成的手法を
組み合わせる(SVM: 識別的手法, HMMなど: 生成的手法)ことにより,映像中に存
在する行動をセグメント化する.主なタスクとしては行動間の境界を明らかにする,
セグメントの特徴空間を生成,近傍の行動のつながりを把握する.特徴量には
SIFTやShapeContextを用いる.左図は提案手法の概念ラベルである.3つあり,上
が完全に分離したラベル,中央がMarkov chainに代表されるような時系列モデル.
下は提案手法であり,モデルが隣接するラベル同士の依存関係や時系列の関係
性を把握する.	
実験にはCMU Mobo Datasetを用いた.同データセットには24人のトレッドミルによ
る歩行データが含まれる.行動としてはslow walk, fast walk, incline, slow walk with
a ballの4種類.表は1NN, SVM, SVM-HMM, SVM-HMMにより比較した例.セグメン
ト化で59%の認識率であった.	
Links	
論文
http://users.cecs.anu.edu.au/~qshi/pub/
ActRecog_CVPR08_CameraReady.pdf	
プロジェクト
Daniel Weinland, Edmond Boyer, “Action Recognition using Exemplar-based Embedding”, in CVPR, 2008.	
【35】	
Keywords: Action Recognition, Key-frame Exemplar	
新規性・差分	
手法	
結果	
概要	
Key-frame Exemplarによる行動認識手法の提案.Key-frameと
は時系列画像の中で認識に重要なフレームのことであり,
Exemplarとはここでは各ビューからみたベストなサンプルのこと
を示す.	
キーポイントの検出やマッチングのベストなサンプルを行動の
空間から参照するため,時間の幅に対して頑健な行動認識手
法である.(下図 例:キーフレームやベストサンプルのマッチン
グ)	
特徴抽出にはシルエットからのChamfer Distanceを用いる.	
あらかじめ検出した複数のキーフレームからベクトルを計算して特徴空間に投影
する.テスト段階でもキーフレームを検出し,Chamfer Matchingを計算する.	
Weizmannデータセットにて93.6%の認識率を
達成した.	
Links	
論文
http://www.deutsche-telekom-laboratories.de/~danielw/
publications/weinland08.pdf	
プロジェクト
Pingkun Yan, Saad M. Khan, Mubarak Shah, “Learning 4D Action Feature Models for Arbitrary View Action
Recognition”, in CVPR, 2008.	
【36】	
Keywords: Action Recognition, 4D (xyzt) feature	
新規性・差分	
手法	
結果	
概要	
行動認識のためのxytz4次元の特徴を構成する.キャリブレー
ションされたカメラからのVisual Hullにより3次元再構成を行い,
時系列の3dモデル同士のマッチングにより行動認識を行う.	
時系列の3次元形状を扱って行動認識する論文.3次元形状の
キーポイントマッチングを時系列で行う.	
右図が4D Action Feature Model (4D-
AFM)の概略図.キャリブレーションされ
た複数台のカメラよりキーポイントマッチ
ングにより時系列特徴を抽出する.	
データセットにはキャリブレーションされた複数台のカメラが用意されていることか
ら,IXMASデータセットを用いた.Single-viewごとの精度は72, 53, 68, 63%であった
のに対してMulti-viewの結果は78%であった.	
Links	
論文 http://vision.eecs.ucf.edu/papers/cvpr2008/1.pdf	
プロジェクト
Yue Zhou, Shuicheng Yan, Thomas S. Huang, “Pair-Activity Classification by Bi-Trajectories Analysis”, in
CVPR, 2008.	
【37】	
Keywords: Pair Action Recognition	
新規性・差分	
手法	
結果	
概要	
行動をペアとして認識するための手法を提案.2つ以上の動線
を解析することにより判断できる行動を定義して,識別問題を
解決する.	
単一人物の行動ではなく,Granger Causality Test (GCT; グレ
ンジャー因果関係)を用いて特徴抽出を行いペアとして行動認
識を行った.	
動線を得るためのトラッカーはMean-shiftにより得られる.トラッキングにより得ら
れる特徴は例えばCausality ratio, feedback ratioなどがある.このふたつの関連性
により得られる特徴はGranger Causality Test (GCT)をベースにしている.GCTは
Causality, Feedback, Causality ratio, Feedback ratioにより構成され,直感的には
二つ以上の動線の影響の及ぼしあいを示す.	
行動の種類としては左下図のようにChasing,Following, Independent, Meeting,
Togetherが含まれる.	
識別器としてはLDAやSVMを用いるが,Intra-class, Inter-classの分離を考慮した
重み付けを行った.	
170の実例が含まれている
Pair-Activity Datasetを提
案して,実験を行なった.	
Links	
論文 http://www.lv-nus.org/papers%5C2008%5C2008_C_13.pdf	
プロジェクト
Roman Filipovych, Eraldo Ribeiro, “Learning Human Motion Models from Unsegmented Videos”, in CVPR, 2008.	
【38】	
Keywords: Action Recognition, Action Segmentation	
新規性・差分	
手法	
結果	
概要	
人物行動/モーションの学習モデルを提案する.姿勢の個人差
や動作に依存することなく時系列の関係性を学習できるモデル
としている.静的な人物関節位置や時系列モーションを部分的
に評価して識別することができる.	
それまでの手法とは異なり,姿勢情報やモーション情報を統合
した形式で評価できるとしている.	
右図は提案手法のフレームワー
クであり,人物姿勢やモーション
特徴を統合して行動認識を実行
することができる.まず姿勢に関
しては同じものをクラスタリング
する.その際にエッジマップを取
得する.モーション特徴はDollar
らのCuboidsを適用する.	
学習には姿勢やモーション特徴
をMAP推定により分布を生成す
る.識別器にはRandom Markov
Fields (RMF)を用いた.	
Weizmann Action Datasetを適用
した.単一の姿勢の際には75.3%
であったが,複数の姿勢を認識
に用いた場合には88.9%にまで向
上した.	
Links	
論文
http://cs.fit.edu/~eribeiro/papers/FilipovychRibeiro_cvpr2008.pdf	
プロジェクト
Andrew Gilbert, John Illingworth, Richard Bowden, “Fast Realistic Multi-Action Recognition using Mined Dense
Spatio-temporal Features”, in ICCV, 2009.	
【39】	
Keywords: Action Recognition	
新規性・差分	
手法	
結果	
概要	
時間的にも空間的にも非常に密なコーナー検出を実行し,人
物の行動を精細に捉えることに成功した.密な特徴からデータ
マイングの枠組みにより重要な特徴量を取り出し,階層的な識
別器により高精度な行動認識を実現.	
従来の行動認識はSTIPやCuboidsのようにスパースな時系列
特徴点や時系列領域より特徴ベクトルを抽出する方法が主で
あったが,デンスな特徴抽出と特徴選択により時系列を記述.	
コーナー検出はxy, xt, yt空間に対して実行する.左下の2画像はデンスなコーナー
検出の一例である.コーナー検出のパラメータとしては [Orientation, Scale,
Channel] を考慮した.Scale = {1,...,5},Channelは3種,Orientation = {1,...,8}である.
近隣の特徴点の共起性を考慮するが,単純に共起を取得するだけでは空間が膨
大になるので,Association Rulesを用いて信頼性の高いもののみ特徴量として残
すこととする.	
監視レベルの映像から6クラスの行動認識を実行するKTHデータセットを用いた.
従来の手法では86%が最高であったが,提案手法により約95%にまで認識率を向上
させた.	
Links	
論文
http://personal.ee.surrey.ac.uk/Personal/R.Bowden/publications/
ICCV09/PID950588.pdf	
プロジェクト
Juan Carlos Niebles, Bohyung Han, Andras Ferencz, Li Fei-Fei, “Extracting Moving People from Internet
Videos”, in ECCV, 2008.	
【40】	
Keywords: Action Recognition, Action Detection	
新規性・差分	
手法	
結果	
概要	
2ステップ -- 人物検出やPictorial Structureにより所定の姿勢
を検出することでビデオ中から特定の人物行動の検出を行う.
人物検出の際にはFalse Positiveの棄却により誤りを省く.	
人物のPictorial Structure姿勢表現により行動の検出やセグメ
ンテーションを同時に実行する.	
手法は人物の検出やクラスタリング,Pictorial Structuresを用いた時系列ボリュー
ムの抽出にある(下図).	
人物検出はHOG特徴量を抽出後,Boostingによるカスケード識別器を用いる.人
物検出後の矩形は独立しているため,人物の手がかりを元にして(時系列に)クラ
スタリングを実行する.	
YouTubeから取得したデータに対して処理した結果を以下に示す.	
Links	
論文
http://vision.stanford.edu/documents/NieblesHanFerenczFei-
Fei_ECCV2008.pdf	
プロジェクト
http://vision.stanford.edu/projects/extractingPeople.html	
データセット
http://coblitz.codeen.org/vision.stanford.edu/projects/
extractingPeople/eccv08dataset.tar.gz
Hao Jiang, David R. Martin, “Finding Actions Using Shape Flows”, in ECCV, 2008.	
【41】	
Keywords: Action Detection, Shape Flows	
手法	
結果	
概要	
オプティカルフローの集合体であるShape Flowをテンプレートと
して,テストビデオから行動を検出する研究.ShapeFlowは時系
列情報を持ち,アピアランスによるノイズを含まないが,マッチ
ングが非常に難しい.ここでは非凸計画問題(Non-convex
integer problem)を解くことによりマッチングを実現する.	
右下図は本論文でのマッチングの戦略を示す.(a)テンプレートとなるShape Flow,
(b) 近傍フローの関係性を示したRelation Graph,(c) 対象ビデオのフロー,(d) 非
凸計画問題によるマッチング,(e)(f)はDPやICMによるマッチングである.	
Wezimann Action Datasetに対する行動検出はPrecision-Recall rateが約90%で
あった.パラメータとして,Shape Flowは15フレームの蓄積を行い,マッチングを実
行した.	
Links	
論文 http://cs.bc.edu/~hjiang/papers/conference/eccv08.pdf	
プロジェクト
Imran N. Junejo, Emilie Dexter, Ivan Laptev, Patrick Perez, “Cross-View Action Recognition from Temporal
Self-Similarities”, in ECCV, 2008.	
【42】	
Keywords: Action Recognition	
新規性・差分	
手法	
結果	
概要	
Cross-viewによる行動認識の問題を解決すべく,自己類似性
を特徴とする.下図は自己類似性による行動認識の表現方
法.この手法はSelf-Similarity Matrices (SSM)と呼ばれてい
る.図の例ではゴルフのスイングを示しており,見え方が全くこ
となる場合にでもSSMの行列は類似していることがわかる.	
 ビューポイントが異なる場合でも行動認識を実行することが可
能にした.	
SSMは行列成分が(x,y,t)各フレーム間の距離であり,下の式のように対角成分が0
の行列である.右図のように二つの動線はスケールが異なるが,主要な成分はほ
とんど変わらず,SSMをとってみると意味として同じ行動に分類できる.	
特徴量にはHOGやLucas-Kanade Optical Flowを適用する.MoCapデータが得られ
る場合には関節の動線を特徴として入力し,マッチングにはNearest Neighbor
Classifier (NNC; 最近傍探索法)やカイを適用する.	
CMU MoCap(左),Weizmann(中),IXMAS(右)データセットを用いる.SSMを用いた
場合,同一視点やCross-viewの学習とテストに対しても良好な性能を達成した.	
Links	
論文 http://www.irisa.fr/vista/Papers/2008-eccv-junejo.pdf	
プロジェクト
Hedvig Kjellstrom, Javier Romero, David Martinez, Danica Kragic, “Simultaneous Visual Recognition of
Manipulation Actions and Manipulated Objects”, in ECCV, 2008.	
【43】	
Keywords: Action Recognition, Object Interaction, CRF	
新規性・差分	
手法	
結果	
概要	
Human-Object Interactionを観測することにより人物行動を認
識する研究.物体のアピアランス情報や人物が物体を扱う際
の行動を尤度として時系列モデルを構築.モデルには
Connected Hierarchic CRF (CHCRF)を採用した.	
従来,HOIの研究ではFactorial CRFが用いられていたが,単一
フレームにおける人物と物体の関係性のみしか表現できてい
なかった.時系列の物体や人物の操作を強固に表現するため
に時系列的に階層的なCRF (CHCRF)を提案.	
(下図)人物特徴量は肌色のセグメンテーションやその時系列
位置を記録する.さらには勾配のヒストグラムを抽出.物体特
徴量にはSIFTを用いた.右図はCHCRFのグラフィカルモデル
であり,行動側の時系列モデル,物体側の時系列モデルやそ
れらをPairwiseに学習する.	
5クラスの物体 (animals, humans, airplanes, trucks, cars) が含まれるNORBデータ
セットを用いて物体を学習した.認識のエラー率は6%台であった.その後,物体や
行動の複合問題であるObject-Action-Complex (OAC)データセットにて実験を行っ
た. OACデータにはlook through binoculars, drink from cup, pour from pitcherと
いった物体操作による人物行動が含まれており,CHCRFを用いた際の認識エラー
率がもっとも低かった.	
Links	
論文 http://www.nada.kth.se/~danik/Papers/ECCV_2008.pdf	
プロジェクト 	
Factorial CRF (ICML2004)
http://homepages.inf.ed.ac.uk/csutton/publications/dcrf.pdf
Hakan Bilen, Andrea Vedaldi, “Weakly Supervised Deep Detection Networks”, in CVPR, 2016.	
【44】	
Keywords: Weakly supervised, CNN, Object Detection	
新規性・差分	
手法	
結果	
概要	
CNNのPre-trainedモデルを使用した,弱教師あり学習による物
体検出の手法を提案.ImageNetデータのPre-trainedモデルに
含まれる特徴を効果的に用いることで弱教師あり学習でも物体
検出の学習ができるというアイディア.	
End-to-Endでの弱教師あり学習による物体検出を提案.手法
の名前はWealy Supervised Deep Detection Network (WSDDN)
とされている.下図は正解(緑枠)と不正解(赤枠)を示す.	
AlexNetやVGGNetのImageNet Pre-trainedモデルを適用する.候補領域のモデル
により画像xより領域Rを抽出(Φ(x; R)を得る)し,画像サイズが任意で活性化関数
により特徴を抽出するSpatial Pyramid Pooling (SPP)に領域を挿入する.SPPを通
り抜けると特徴はRecognitionとDetectionの目的に分割され,認識クラスを抽出す
るスコアΦ^c(x; R)と検出枠を出すためのスコアΦ^d(x; R)が出力される.	
ベンチマークデータにはPaccal VOC 2007と2010を用い
た.物体検出の評価としてはIoUが50%を超える際に成功と
した.2007では89%, 2010では36.2%という結果になった.	
Links	
論文
http://www.robots.ox.ac.uk/~hbilen/pubs/cv/
bilen2016wsddn.pdf	
コード https://github.com/hbilen/WSDDN	
著者 http://www.robots.ox.ac.uk/~hbilen/
Ziming Zhang, Yiqun Hu, Syin Chan, Liang-Tien Chia, “Motion Context: A New Representation for Human
Action Recognition”, in ECCV, 2008.	
【45】	
Keywords: MotionContext, ShapeContext	
新規性・差分	
手法	
結果	
概要	
ShapeContextを参考にして,行動認識を対象に時系列情報を
表現するMotionContext (MC)を提案.MCにより特徴点や特徴
ベクトルを取り出し,コードワード表現 Motion Words (MWs)を生
成.MWやSVM, pLSAにより行動を識別する.	
時系列表現の新しい特徴を提案した.	
Motion Images (MIs)の生成(左図)や,コードワード表現(右図)により特徴ベクトルを
抽出する.識別器はトピックモデルとしてよく知られるpLSAや識別的手法である
SVMにより構成される.	
表ではKTHデータに対する精度比較を示しており,ここではMCやpLSAを用いる方
法がもっともよく,91.33%を記録した.従来法と比較しても高いパフォーマンスを実
現した.	
Links	
論文
https://pdfs.semanticscholar.org/
43a5/6a5e8bccbf24552bfcfef65fe2c578d3aa47.pdf	
プロジェクト
Du Tran, Alexander Sorokin, “Human Activity Recognition with Metric Learning”, in ECCV, 2008.	
【46】	
Keywords: Action Recognition, Metric Learning	
新規性・差分	
手法	
結果	
概要	
学習データのサンプル数が十分に得られていない場面,かつ
身体全体の変化による行動を対象として,Metric Learningによ
る認識を提案する.	
・Metric Learningによる行動認識を提案し,学習になく信頼度
の低い行動は棄却する	
・シンプルなアピアランス特徴により複雑なモデルを超える精度
を実現	
・実環境のデータにおいて高い精度を実現した	
特徴量としては人物のバウンディングボックスからオプティカルフローを抽出してxy
方向のFx, Fyやシルエットに抽象化(左図),計216次元のヒストグラムを得る.識別
にはMetric Learningを行った1-NearestNeighborにより認識を実行.LMNNにより最
適化されたMahalanobis距離により識別を実行.	
4つのデータ(IXMAS, Weizmann, 著者らの
自作, UMD)により評価を行った.	
Links	
論文
http://vision.cs.uiuc.edu/projects/
activity/papers/
TranSorokinECCV08.pdf	
プロジェクト
Hoo-Chang Shin, Kirk Roberts, Le Lu, Dina Demner-Fushman, Jianhua Yao, Ronald M Summers,“Learning to
Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation”, in CVPR, 2016.	
【47】	
Keywords: Image Captioning, X-Rays, RNN	
新規性・差分	
手法	
結果	
概要	
X線レントゲン画像からの画像説明文のためにアノテーションを
実行.具体的には疾病の種類や位置,状況などを説明する医
療診断用の文章を生成する.CNNによる特徴抽出,RNNによる
文章生成などベースは従来の方法で構成される.	
MS COCOなどのデータセットではWebなどを想定した限定的な
シーンでの画像説明文の生成であったが,それらを医用画像
処理に拡張した.	
いかにX線画像に自動でアノテーションするかを考える.データセットには3,955の
放射線技師からのレポート,7,470の病院のアーカイブシステムが用いられる.画
像はPNGフォーマットで512x420~512x624pixelsで与えられるが,CNNに入力する際
に256x256pixelsに変換する.CNNのモデルとしてはシンプルながら効果的である
Network-In-Network (NIN)を学習し,テストを実行する.	
画像説明文の評価方法である
BLEUにより評価した数値は表
の通りである.	
Links	
論文 http://arxiv.org/pdf/1603.08486.pdf	
コード https://github.com/khcs/learning-to-read	
著者 http://www.cs.jhu.edu/~lelu/	
NINはモデルの構造が非常に簡潔で
最適化も行いやすく例としてAlexNetよ
りもパフォーマンスが出ることが知られ
ている.また,バッチ正規化(Batch
Normalization)やData-Dropout
(DDropout)をNINに施すことで精度が
向上した.アノテーション列を学習する
ためにCNN特徴をRNNに入力し,テス
トではLong-Short Term Memory
(LSTM)やGated Recurrent Unit (GRU)
を用いた.右図が本稿での構成であ
る.
Chih-Wei Hsu, Chih-Chung Chang, Chih-Jen Lin, “A Practical Guide to Support Vector Classification”, in,
2003.	
【48】	
Keywords: SVM, LIBSVM, Practical Guide	
結果	
概要	
LIBSVMの著者らが紹介するSVMの実践ガイド.パラメータの
調整やデータの作りかたの手順などを示した教科書的な論文
(Cookbook).初心者では75.2% (Astroparticle), 36%
(Bioinformatics), 4.88% (Vehicle)であった問題も著者らの解析
ではそれぞれ96.9%, 85.2%, 87.8%であった.ツールとして強力な
ものであるにも関わらず,使い方次第では思うような精度を出
すに至っていないことも多いことから本論文を書いたようであ
る.	
・カテゴリ特徴:1次元 (e.g. ±1, 0)で示すより,3種のラベルを (0,0,1), (0,1,0), (1,0,0)
で示す	
・スケーリング:要素の値域を[-1, +1], [0, 1]で正規化する	
・カーネル関数:RBFカーネルを用いるのが良い,調整するパラメータはCとγであ
り問題によって変更する.	
・交差検証(Cross-validation)とグリッドサーチ:データが混ざりオーバーフィッティン
グするといけないので,学習とテストサンプルは分離する(左図).また,パラメータ
を探索する時には網羅的かつステップ幅を設けて探索する(右図).一番良いパラ
メータをその問題の最適値として選択.	
Vehicleデータを例に取ると,最初は2.43%だった精度がスケールの正規化を行うと
12.19%,C, γパラメータ調整により84.87%,モデルの選択により87.80%にまで向上
する.	
Links	
論文 http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf	
スライド http://www.slideshare.net/sleepy_yoshi/svm-13435949	
著者 http://www.csie.ntu.edu.tw/~cjlin/	
SVMはデータxとラベルyを与えられた(x, y) 際の学習の方策であ
る.xは特徴空間,yは基本的には{-1, 1}をとる.データxは関数
Φを用いることで,より高次な特徴空間に投影される.ここでパ
ラメータC (> 0)は損失項のペナルティパラメータである.カーネ
ル関数K(x_i, x_j) = Φ(x_i)^T Φ(x_j)で示される.	
定式・手法
Alper Yilmaz, Mubarak Shah, “Recognizing Human Actions in Videos Acquired by Uncalibrated Moving
Cameras”, in ICCV, 2005.	
【49】	
Keywords: Action Recognition, Pose	
新規性・差分	
手法	
結果	
概要	
身体から特徴点を追跡し,動的かつキャリブレーションされてい
ないカメラからでもカメラパラメータの復元や行動認識を行える
ようにした論文.	
動くカメラからでも人物の特徴点追跡を実行し,Dynamic
Epopolar GeometryによりTemporal Fundamental Matrix (TFM)
を推定した.	
動的なカメラ環境下ではエピポーラ幾何によ
る行列は用いることができないが,それを拡
張したTemporal Fundamental Matrix (TFM)を
提案した.↓は通常のエピポーラ幾何との違
い.	
下のConfusion Matrixは提案手法であるTFMや特徴点追跡を実行した結果(左)で
ある.	
Links	
論文 http://crcv.ucf.edu/papers/yilmaz_iccv_2005.pdf	
プロジェクト
Minghuang Ma, Haoqi Fan, Kris M. Kitani, “Going Deeper into First-Person Activity Recognition”, in CVPR,
2016.	
【50】	
Keywords: CNN, First-Person Vision, Action Recognition	
新規性・差分	
手法	
結果	
概要	
一人称ビジョンにいかにDeep Learning,特にConvolutional
Neural Network (CNN)を用いるかを検討した論文である.提案
手法では物体認識用のCNN (ObjectNet)や行動認識用のCNN
(ActionNet)をTwo-streamで処理し,最後に総合して結果を得
る.	
一人称ビジョンにおける行動認識や物体認識を同時に解決す
る深層学習モデルを提案し,高い精度でそれぞれを認識するこ
とに成功した.	
アピアランスモデルやモーションモデルを統合して総合的な行動認識を実行した.
(e.g. object: milk container, action: take, activity: take milk container) アピアランス
側ではHand Segmentationや物体位置の抽出を行い,モーション側ではTwo-
streamConvNet [Simonyan+, NIPS14]のようオプティカルフローからの畳み込みを
実行した.それらを総合的に判断して最終的にはより高次の行動として認識可能
とした.	
GTEAやGazeデータセットが一人称ビジョンの行動認識においてはよく用いられ
る.表は他手法と比較した結果である.ObjectNetやActionNet,さらにはそれらの
統合がもっとも高い精度を示す.	
Links	
論文 http://www.cs.cmu.edu/~kkitani/pdf/MFK-CVPR2016.pdf	
プロジェクト http://www.hci.iis.u-tokyo.ac.jp/~cvs/
Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynaic Image Networks for
Action Recognition”, in CVPR, 2016. (oral)	
【51】	
Keywords: Action Recognition, CNN, Dyanmic Image	
新規性・差分	
手法	
結果	
概要	
動的な画像表現をコンパクトなConvolutional Neural Networks
(CNN)で実現するための方法を提案する.動画像表現はRank
Poolingにより行われ,時系列の変化(temporal evolution)を効
果的に表現する.	
既存のCNNモデルを用い,動画像によりFine-tuningを実行す
ることにより動的な画像表現を簡易的に行うことが可能であ
る.このアイディアは [Fernando+, CVPR15]を参考にしている.	
左下図のようなDynamic Imagesを生成して,CNNのFine-tuningを実行.例えば
ImageNet Pre-trainedモデルとモーション認識のための特徴の乖離が激しいので,
膨大な学習サンプルが必要となる.これに対して本論文では前景のモデリング(背
景は統計的に棄却)や,データ拡張により学習のサンプルを行う.データ拡張では
各ビデオのミラーリング,クロッピングなどをして動画のサブセットを生成し,
Dynamic Imageを作成する.RankPooling Layer (RankPool)では,時系列情報を整
理しランク付けと効果的なオーダーにならべかえることができるとしている
([Fernando+, CVPR15]より).これを用いることでコンパクトかつ強力に時系列表現
がCNNないでも可能になる.	
ベンチマークにはHMDB51やUCF101データ
セットを用いた.HMDB51では65.2%,UCF101
では89.1%とハイレベルな認識を実現した.	
Links	
論文
http://www.robots.ox.ac.uk/~hbilen/pubs/cv/bilen2016dynamic.pdf	
コード https://github.com/hbilen/dynamic-image-nets	
著者 http://users.cecs.anu.edu.au/~basura/	
論文中では,Approximate Dynamic Mapsという,時
系列情報を保有する特徴マップの近似的な手法を
提案しており,よりリアルタイムでの処理に近づい
た.
Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman, “Convolutional Two-Stream Network Fusion for Video
Action Recognition”, in CVPR, 2016.	
【52】	
Keywords: Action Recognition, Two-Stream ConvNet	
新規性・差分	
手法	
結果	
概要	
Two-stream ConvNet [Simonyan+, NIPS14]の改良版であると
いう位置づけ.Two-streamでは空間特徴とモーション特徴が完
全に独立になっており,最後にSVMを用いて統合(LateFusion)
されていたが,今回は両者の関係性を途中の畳み込み段階か
ら統合させるという手法.	
最終的にはTwo-streamよりも途中の畳み込み層で特徴マップ
を統合した方が精度が良いという結論になった.下図はTwo-
Stream ConvNetの1~3層を示した図.統計的に見て,空間/
モーション情報ともに統合した方がよさそうに見える.	
Two-Streamの欠点として (1) 空間/モーションの特徴マップにおいてピクセルごと
の対応や統合を検討できていなかったこと (2) 空間的,時系列的な表現に乏しく,
行動の時系列変化に対応しきれていないこと が挙げられる.	
空間的な統合方法としてはSumFusion (単純な特徴マップの和), MaxFusion (2つの
特徴マップの値のうち最大のものを蓄積),ConcatenationFusion (2つの特徴マップ
の,2つのチャネルを統合),ConvFusion (畳み込み的に統合),BilinearFusion (特
徴マップ間の外積をとる)を適用.	
データにはUCF101やHMDB51を用いた.統合する位置や手法としては
ReLU5+ConFusionがもっともよく,パラメータ数も抑えられることが判明した.また,
ふたつの層を結合する際にはReLU5+FC8が良いとした.さらには3Dconv+3DPool
を用いる方がよく,最終的にはVGG-16アーキテクチャを用い,IDTと統合した場合
にはUCFに	
て93.5%,HMDB51では69.2%の精度を	
達成した.	
Links	
論文 http://arxiv.org/pdf/1604.06573.pdf	
GitHubコード https://github.com/feichtenhofer/twostreamfusion	
[Simonyan+, NIPS14]
http://web.cs.hacettepe.edu.tr/~aykut/classes/spring2016/bil722/slides/w07-
two-stream-CNNs.pdf	
統合する際の畳み込みやプーリングも3次元(X,
Y, T)にした.それぞれのスケールは3x3x3で3次
元である.
Iro Armeni, Ozan Sener, Amir R. Zamir, Helen Jiang, Ioannis Brilakis, Martin Fischer, Silvio Savarese, “3D
Semantic Parsing of Large-Scale Indoor Spaces”, in CVPR, 2016. (oral)	
【53】	
Keywords: 3D Semantic Parsing	
新規性・差分	
手法	
結果	
概要	
大規模3次元空間の意味的解析 (Semantic Parsing)に関する
論文.膨大な3次元点群(Point Clouds)を入力とし,空間内の意
味的な解析を行う.	
(1)3次元点群の意味を解析して境界をロバストに認識できる
(2) 屋内や建物の構造を事前情報として把握した上で意味付け
を行う (3)大規模3次元点群データを提供する	
入力は大規模な屋内環境における3次
元点群(色つき)とする.物理的な大きさ
は6,400m^2であり,215,000,000もの3次
元点が含まれる.下図が処理手順であ
り,3次元点群の入力から空間を分割し
て意味付けするためのCNNを構成す
る.	
各クラスの意味付けは下の表の通りである.床(47.60)や天井(89.23),
壁(77.21)など建物の構造的な意味を推定するのは得意であったが,
テーブル(28.15)や椅子(16.75)など家具の推定は苦手である.平均する
と48.16%での意味付け精度であった.	
Links	
論文
http://buildingparser.stanford.edu/images/
3D_Semantic_Parsing.pdf	
プロジェクト
http://buildingparser.stanford.edu/index.html	
データセット
http://buildingparser.stanford.edu/dataset.html
Jing Wang, Yu Cheng, Rogerio Schmidt Feris, “Walk and Learn: Facial Attribute Representation Learning from
Egocentric Video and Contextual Data”, in CVPR, 2016. (oral)	
【54】	
Keywords: Attribute, Face Reognition, Egocentric Vision	
新規性・差分	
手法	
結果	
概要	
一人称カメラから人物の顔やファッションのアトリビュートを推
定する.手法にはSiamese Networkを用いて2つの画像を入
力,それらの属性が同じ/異なる を判定する.あらかじめ手に
入る顔認識のデータセットによりFine-tuningをして,ネットワー
クのパラメータを最適化する.GPSからの位置情報により天気
やその地域の人種を記録できるようになる.	
・新しい一人称ビジョンのデータセットを提供する	
・Walk and Learnの概念を提唱:一人称カメラで街中を歩くだけ
で顔属性認識のための学習が行えるというもの	
手法は下図の通りである.2つの画像を入力し,Siamese Networkにより属性が同
じかどうかを判定する.その後,顔特徴量や地図上の位置を判定するためのDeep
Architectureを学習する.データセットには一人称ビジョンから撮影された街中の映
像が移されており,人物の顔トラッキングを行い,データベースに記録していく.同
時にGPS情報も記録している.	
天気の情報や位置情報を従来の顔特徴に追加す
ることで属性推定の精度が向上することが判明し
た.LFWAやCelebAデータセットに対する属性認識
において従来法よりも向上している.	
Links	
論文
http://arxiv.org/pdf/
1604.06433v1.pdf	
プロジェクト
https://sites.google.com/site/
jingwangnu/
Andreas Richtsfeld, Thomas Morwald, Johann Prankl, Michael Zillich, Markus Vincze, “Segmentation of
Unknown Objects in Indoor Environments”, in IROS, 2012.	
【55】	
Keywords: 3D Segmentation, Object Recognition, RGB-D	
新規性・差分	
手法	
結果	
概要	
RGB-Dデータからの3次元物体セグメンテーションに関する論
文でデータセット(The Object Segmentation Database; OSD)も
公開されている.	
RGBDやポイントクラウドのデータを提供して,広く3次元物体セ
グメンテーションの問題を解決するための足がかりとしたことが
新規性としてあげられる.	
Data Abstraction: 3次元点群のセグメンテー
ションのためにNon-Uniform Rational B-
Splines (NURBS)モデルを仮定する.これは
非線形のスプライン曲線であり,今回は入力
のポイントクラウド空間に対してあてはめる.	
Object Segmentation: 表面のパッチ関係性
を求めて,物体ラベルの割り当てを行う.識
別モデルにはSVMを適用する.最終的な領
域の分割にはGraphCutアルゴリズムを適用
する.	
データセットには3次元点群データやカラー画像も配布されている.	
左はデータセットの統計値であり,右は精度の比較である.	
Links	
論文
https://www.researchgate.net/profile/Andreas_Richtsfeld/
publication/
261353409_Segmentation_of_unknown_objects_in_indoor_environmen
ts/links/543fd14c0cf21227a11b8562.pdf
Katsunori Ohnishi, Atsushi Kanehira, Asako Kanezaki, Tatsuya Harada, “Recognizing Activities of Daily Living
with a Wrist-mounted Camera,” CVPR 2016	
【56】	
Keywords: 	
新規性・差分	 手法	
結果	
概要&	
・日常生活動作(ADL)を一人称視点から認識する上では操作
物体の認識が重要になるが、操作物体を認識するならばカメラ
をhead-mountするよりも手首につけた方がより認識できるの
で、行動の認識もより正確にできるというもの。	
動画の認識アルゴリズムにおいても、手首カメラの映像は位置
バイアスが非常に強いのでそういったバイアスをより捉えやす
いアルゴリズムを提案。	
手首カメラから撮影されたデータセットはないので作成して公
開。比較のため同時にhead mount カメラでも撮影した。	
	
・LCD [Z. Xu et al., CVPR15]をベースにVLADでコーディングするときに
Discriminative Spatial Pyramid [T. Harada et al., CVPR11]を組み込んで位置バイ
アスをより捉えられるようにしたもの。(DSAR)	
DSARを更に時間方向にもPyramidを切ったもの(DSTAR)	
DSTARは時間方向と空間方向にPyramidがあり、そのweightを同時に更新するの
は難しいのでbilinearな感じで更新していく	
・Wrist mount camera >> Head mount camera	
またwrist mountでは	
時空間バイアスを利用>空間バイアスを利用>利用しないという結果に	
Links	
論文 	
http://arxiv.org/abs/1511.06783	
プロジェクト http://www.mi.t.u-tokyo.ac.jp/static/projects/miladl/	
(coming soon)
Hirokatsu Kataoka, Soma Shirakabe, Yudai Miyashita, Akio Nakamura, Kenji Iwata, Yutaka Satoh, “Semantic
Change Detection with Hypermaps”, in arXiv pre-print 1604.07513, 2016.	
【57】	
Keywords: Semantic Change Detection, Hypermaps, Hypercolumns	
新規性・差分	
手法	
結果	
概要	
変化位置に対して意味付けを行う意味的変化検出 (Semantic
Change Detection)を提案.直感的には,変化検出とセマン
ティックセグメンテーションを同時実行する.この問題に対して
Hypercolumns [Hariharan+, CVPR15]を改良したHypermapsを
提案.	
1.  新しい概念であるSemanti Change Detectionを提唱す
る.下図は変化検出と意味的変化検出のイメージ図.	
2.  Hypercolumnsの改良版であるHypermapsを提案する.
ピクセル単位でCNNの中間層を蓄積するのでなく,各
カーネルの代表値を蓄積.	
提案手法としては,Hypercolumns [Hariharan+, CVPR15]を改良したHypermapsを
提案.本論文ではAlexNetではなく,VGGNetのアーキテクチャを採用した.
HypercolumnsはCNNの全結合層のみならず第2プーリング層 (pool2; 128channels)
や第4畳み込み層 (conv4; 512channels)を特徴として積み上げる.	
実験には,領域に対して意味付けすることにより
際アノテーションしたTSUNAMIデータセットを適
用.パラメータ調整により,Multi-scale,パッチサイ
ズ,データ拡張有,ガウスパラメータを設定.2つの
テストセットに対し,Hypercolumnsと比較して
Hypermapsはそれぞれ+4.64%, +3.54%の向上が見
られた.	
Links	
論文 http://arxiv.org/pdf/1604.07513v1.pdf	
プロジェクト 	
Hypermapsでは中央の値を割り当てるのではな
く,特徴マップから各チャネルにガウス分布によ
り重み付けした代表値を蓄積する.特徴ベクトル
はHypermaps, Hypercolumns共に
128+512+4,096=4,736次元である.
Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-based Object Detectors with Online
Hard Example Mining”, in CVPR, 2016. (oral)	
【58】	
Keywords: Hard Negative Mining, R-CNN, Object Detection	
新規性・差分	
手法	
結果	
概要	
物体検出のための学習には多大なコストやパラメータのチュー
ニングを行うが,できる限り効果的に最適化を行う手法Online
Hard Example Mining (OHEM)を提案する.ベースとなるアルゴ
リズムはFast R-CNN (FRCN)であり,物体検出に特に重要なト
レーニングセットであるHard Negative (クラス間の境界付近に
位置するサンプル)を見つけ出すことが重要であるとした.	
・ブートストラップ法に基づくHard Example Miningを提案するこ
とで,煩わしいパラメータ調整を省き,効果的に最適化を行え
る.	
・MSCOCOやPASCAL VOCのテストセットに対して改善が見ら
れた.	
ベースとなるアルゴリズムはFast R-CNN (FRCN) [Girshick, ICCV15]であり,画像
や物体候補領域(RoIs)の入力が必要である.	
提案手法では,FRCNの学習時にHard Negativeを選択することがポイントである.
入力のRoIs画像に対してエラー率を計算し,エラーが大きいものをHard Negativeと
して選定する.したがって,CNNのモデルを更新するために必要なサンプル数はご
く少数で済み,なおかつクラス間を分離するために必要なサンプルのみを用いるこ
とが可能である.	
実験はPASCAL 2007や2012に対して行った.それぞれ78.9%, 76.3%と非常に高い
精度での認識を可能にした(表).表中にはトレーニングセットやmAPが含まれてい
る.	
Links	
論文 http://arxiv.org/pdf/1604.03540v1.pdf	
著者 http://abhinav-shrivastava.info/
Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in CVPR,
2016. (oral)	
【59】	
Keywords: Object detection, CNN	
新規性・差分	
手法	
結果	
概要	
物体検出の領域抽出の精度を向上させるため,与えられた候
補領域や物体検出位置を再評価してバウンディングボックスを
より正確に割り当てるための方法(LocNet)を提案.近年の物体
検出の評価は推定領域とGroungTruthの交差領域(IoU)が50%
以上であるが,より正確に位置を割りあてることが求められる.	
・現在の候補領域抽出が不十分であるため,バウンディング
ボックスの回帰をニューラルネット内で実行する.	
アルゴリズムを右に示す.入力は画像Iとその(初期の)
バウンディングボックスB^1であり,出力は最終検出結
果Yである.仮説1~Tを評価することとし,認識のスコア
値S^t <- Recognition(B^t|I)を評価,その後バウンディ
ングボックスを評価 B^t+1 <- Localization(B^t|I)する.
それらを総合的に評価し,最終的に後処理を行った上
(PostProcess(D) )で最終検出結果Yに至る.下記は
LocNetのアーキテクチャである.	
下記はPASCAL VOC 2007/2012に対する検出結果である.IoUが0.7の場合でも高
い推定精度を実現している.	
Links	
論文 https://arxiv.org/pdf/1511.07763v2.pdf	
プロジェクト https://github.com/gidariss/LocNet	
・パラメータを限定的にした
CNNモデルを提案した.この
物体検出器をLocNetとして
新たに提案する.
Liang Lin, Guangrun Wang, Rui Zhang, Ruimao Zhang, Xiaodan Liang, Wangmeng Zuo, “Structured Scene
Parsing by Learning CNN-RNN Model with Sentence Description”, in CVPR, 2016. (oral)	
【60】	
Keywords: Scene Understanding, Scene Parsing	
新規性・差分	
手法	
結果	
概要	
CNNやRNNを用いた総合的なシーン解析について提案する.
CNNによりピクセル毎の物体ラベルを推定し,RNNにより階層
的な物体の構造や物体間の(inter-object)関係性について記述
する.	
下図は提案のシーン解析モデルを提案する.CNNの物体毎の
ラベルを割りあて,階層的な把握にはRNNを用いる.CNN-
RNNによる階層的なシーン解析を可能とした.	
下図はCNN-RNNモデルによる階層的シーン解析モデルである.CNNではセマン
ティックラベリングや特徴表現について出力する.RNNでは与えられたラベルやそ
の領域の特徴量を解析して詳細なシーン解析を実行する.トレーニングはWeakly-
Supervised Modelにより実行する.ロス関数は下記式(8)により定義し,CNNとRNN
の損失を同時に最適化することで識別器のパラメータを得る.	
表はPASCAL VOC 2012のテストセッ
トに対して評価した結果である.学習
の方策を変更して評価.	Links	
論文 https://arxiv.org/abs/1604.02271	
プロジェクト
Chenliang Xu, Jason J. Corso, “Actor-Action Semantic Segmentation with Grouping Process Models”, in
CVPR, 2016.	
【61】	
Keywords: Action Semantic Segmentation, Action Recognition	
新規性・差分	
手法	
結果	
概要	
Actor-Action (行動者とその行動を推定する)に関して,その行
動者や行動を推定するのみならず,セマンティックセグメンテー
ションも与える.CRFやSupervoxelのフレームワークにより時系
列領域を推定する.	
・GPMにより意味的なラベルを階層的な領域に統合した	
・今回,ActorやそのAction,さらにはそれらのセマンティックセ
グメンテーションを実現した	
前処理としてPairwise-CRF (近傍のみがつながっている)による荒いセグメンテー
ションを実行する.次に階層的Supervoxelによる時系列ラベリングを実行.この
CRFやSupervoxel Hierarchyを相補的に行う仕組みをGrouping Process Model
(GPM)と呼ぶ.GPMではCRFからグルーピングの手がかりを,Supervoxel
Hierarchyからはラベリングの手がかりを渡して繰り返し最適化を行う.	
実験にはA2Dデータセットを適用した.結果は下の表に示す通りである.	
Links	
論文 http://arxiv.org/pdf/1512.09041.pdf	
ビデオ https://www.youtube.com/watch?v=3Dvg5hzI-y4	
著者 http://www-personal.umich.edu/~cliangxu/
Hirokatsu Kataoka, Masaki Hayashi, Kenji Iwata, Yutaka Satoh, Yoshimitsu Aoki, Slobodan Ilic, “Dominant
Codewords Selection with Topic Model for Action Recognition”, in CVPR Workshop, 2016.	
【62】	
Keywords: Action Recognition, Topic Model, Dense Trajectories	
新規性・差分	
手法	
結果	
概要	
トピックモデル(Latent Dirichlet Allocation; LDA)を用いて行動
認識に有効な特徴選択を行う.行動認識にDense Trajectories
を用いているが,背景にノイズが乗ってしまうため,トピックごと
(≒ プリミティブなモーション)に分類し,各トピックのノイズを除
去することで行動認識の精度を向上した.	
オリジナルのトピックモデルであるLDAを用いて時系列行動認
識の精度を向上させた.非常に簡易的なモデルでパフォーマン
スをあげることができることを実証した.	
右図が提案手法の流れである.入力となる
データはDense Trajectories (DT)である.ト
ピックモデルLDA (Latent Dirichlet
Allocation)への入力のため,コードワード化
にはBag-of-words (Bow)を用いている.ここ
で,トピックは各プリミティブなモーション
(DCS)を近似していると言える.各DCS内で
閾値を設けることで,小さなモーションからも
ノイズを綺麗に除去できるという戦略であ
る.最後にノイズを除去したDCSを統合する
ことでDominant DT (DDT)を生成する.DDT
をSVMで学習したものが最終的な識別器で
ある.	
INRIA surgery, IXMAS, NTSEL, MPII cookingデータセット
に対して実験を行った.DDTを用いた各結果は80.4%,
94.6%, 90.9%, 61.8%でこれはオリジナルのDTよりも+4.9%,
+1.5%, +3.7%, +2.3%良好な結果である.さらに,MPII
cookingに関しては共起特徴[Kataoka+, ACCV14]も用いて
68.9%にまで向上した.	
Links	
論文
http://www.hirokatsukataoka.net/pdf/
cvprw16_kataoka_ddt.pdf	
プロジェクト
Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson, William T. Freeman,
“Visually Indicated Sounds”, in CVPR, 2016. (oral)	
【63】	
Keywords: Sound Prediction	
新規性・差分	
手法	
結果	
概要	
音の付いていない映像から音を推定する研究.音付きの映像
からその音声と映像の対応を学習し,音無しの映像に対して転
移させてテストする.	
映像から音を割り当てるための研究を実現した.例えばドラム
スティックを打つ映像からドラムの音を再現するといった感じに
無音の映像に音を割り当てることが可能となる.	
学習はCNNやRNN(特に,LSTM)を用いて行う.CNNにより画像特徴を学習し,
RNNにより時系列の映像や音声を割り当てる.データセットはGreatest Hits
Volume 1 datasetを提案(下図).データセットには978のビデオが含まれ,トータル
で46,620ものアクションとその音声が含まれる.材質も約20種含まれる.	
右は提案モデルを使用した際
の音声推定率を示す.精度は
さほど高くないように見えるが,
ランダムよりもかなりよく,今後
の可能性がうかがえる.	
Links	
論文 http://arxiv.org/pdf/1512.08512v1.pdf	
プロジェクト	
ビデオ https://www.youtube.com/watch?v=JpZUZ9ZDECE
Patrick Bardow, Andrew Davidson, Stefan Leutenegger, “Simultaneous Optical Flow and Intensity Estimation
from an Event Camera”, in CVPR, 2016. (oral)	
【64】	
Keywords: Sensor	
手法	
結果	
概要	
イベントカメラ(下図; Raw Input)から輝度(下図; Reconstruction)
やオプティカルフロー(下図)を復元する研究である.空間的,時
間的に正規化を行ったコスト関数を導入してイベントカメラから
の輝度値やフローの画像復元を試みた.	
本提案では生物学的にインスパイアされたイベ
ントカメラを用いる.イベントカメラでは前後フ
レームで変化したピクセルのみを記録し画像を
取得する.前のフレームより輝度値が低(高)け
れば負(正)のイベントが生起したとみなす.	
スライディングウィンドウにより分散を最適化す
る.	
下図のようなHigh Dynamic Rangeのシーンにおいても高い精度で復元ができてい
る.また,輝度値と同時にフロー画像も復元した.GPUで再構成を行っており,リア
ルタイムに近い復元を実現した.	
Links	
論文 http://www.doc.ic.ac.uk/~pb2114/papers/1934.pdf	
プロジェクト
http://wp.doc.ic.ac.uk/pb2114/publication/simultaneous-optical-
flow-and-intensity-estimation-from-an-event-camera/	
ビデオ https://www.youtube.com/watch?v=1zqJpiheaaI
M. Harandi , M. Salzmann , and F. Porikli, “When VLAD met Hilbert”, in CVPR, 2016.	
【65】	
Keywords: VLAD, Kernelization, Kernel Approximation, Grassmann manifold, SPD	
新規性・差分	
手法	
結果	
概要	
・VLADは局所記述子のaggregationで使われる画像表現だが、局
所記述子を適切にベクトルで表現できない場合には非力	
・Kernelizationによりそのような場合でも有効に働くようにし、更にはよ
り良い識別器の学習も可能に	
・Kernel VLADの近似も提案	
・諸々の実験で先行研究と同程度もしくは上回る性能	
・VLADをkernelization (Kernel VLAD, kVLAD)	
・kernelの局所的な近似手法も同時に提案 (sVLAD)、さらに
Nystromの手法 (nVLAD, sVLADを局所的じゃなくしたもの),
Random特徴 (fVLAD, Kernelがシフト不変(つまりk(x, y) = k(x-
y))な場合にのみ適用可能)に基づいた近似も提案	
・VLADでおなじみのL2 power normalizationも可能、signed
squared root normalizationはKernelのHilbert空間への射影が
自明じゃないと厳しいらしい	
[Kernel VLAD]	
・k-means → kernel k-means	
・codebook割り当て → ||Φ(x) - Φ(c)||^2 = k(x, c) - 2k(x, c) + k(c, c)を最小とする
ようなcodebookに	
・Kernel VLAD同士の積もカーネルだけで表現できる	
	
[sVLAD, Kernel VLADの近似]	
・各codebookに割り振られた局所記述子を元にしてcodebookごとにNystromの方
法で近似用の射影を用意	
	
	
・Grassmann manifold上の点, 正定値対称行列などを局所記
述子とする場合の実験を行い既存手法を超える性能	
・VOC07での実験(SIFTとRBF kernel?)も良好(右上表)、
ECCV2014の教師付きVLADと近い性能	
・kVLADの方がsVLADより高速らしい	
(右下表)	
Links	
論文 (camera review版ではない可能性あり) http://
infoscience.epfl.ch/record/217986/files/
HarandiSalzmannPorikliCVPR16.pdf
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016

More Related Content

What's hot

【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016cvpaper. challenge
 
【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper. challenge
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2015.08】(1/5)cvpaper.challenge@CVPR2015
【2015.08】(1/5)cvpaper.challenge@CVPR2015【2015.08】(1/5)cvpaper.challenge@CVPR2015
【2015.08】(1/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper. challenge
 

What's hot (20)

【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
 
【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015【2015.07】(2/2)cvpaper.challenge@CVPR2015
【2015.07】(2/2)cvpaper.challenge@CVPR2015
 
【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016【2016.06】cvpaper.challenge2016
【2016.06】cvpaper.challenge2016
 
【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015【2015.08】(4/5)cvpaper.challenge@CVPR2015
【2015.08】(4/5)cvpaper.challenge@CVPR2015
 
【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015【2015.05】cvpaper.challenge@CVPR2015
【2015.05】cvpaper.challenge@CVPR2015
 
【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017【2017.05】 cvpaper.challenge 2017
【2017.05】 cvpaper.challenge 2017
 
cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)cvpaper.challenge@CVPR2015(Re-ID)
cvpaper.challenge@CVPR2015(Re-ID)
 
【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015【2015.08】(5/5)cvpaper.challenge@CVPR2015
【2015.08】(5/5)cvpaper.challenge@CVPR2015
 
【2015.08】(1/5)cvpaper.challenge@CVPR2015
【2015.08】(1/5)cvpaper.challenge@CVPR2015【2015.08】(1/5)cvpaper.challenge@CVPR2015
【2015.08】(1/5)cvpaper.challenge@CVPR2015
 
CVPR 2016 まとめ v1
CVPR 2016 まとめ v1CVPR 2016 まとめ v1
CVPR 2016 まとめ v1
 
cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)cvpaper.challenge@CVPR2015(Action Recognition)
cvpaper.challenge@CVPR2015(Action Recognition)
 
RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07RobotPaperChallenge 2019-07
RobotPaperChallenge 2019-07
 
cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)cvpaper.challenge@CVPR2015(Attribute)
cvpaper.challenge@CVPR2015(Attribute)
 
IROS2020 survey
IROS2020 surveyIROS2020 survey
IROS2020 survey
 

Viewers also liked

CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
 
DLゼミ20170522
DLゼミ20170522DLゼミ20170522
DLゼミ20170522harmonylab
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライドharmonylab
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127harmonylab
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライドharmonylab
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolutionharmonylab
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dlharmonylab
 
Generating Videos with Scene Dynamics
Generating Videos with Scene DynamicsGenerating Videos with Scene Dynamics
Generating Videos with Scene Dynamicsharmonylab
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completionharmonylab
 
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworkUnpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkharmonylab
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networksharmonylab
 
Colorful image colorization
Colorful image colorizationColorful image colorization
Colorful image colorizationharmonylab
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライドharmonylab
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningharmonylab
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networksharmonylab
 

Viewers also liked (20)

CVPR 2016 速報
CVPR 2016 速報CVPR 2016 速報
CVPR 2016 速報
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
DLゼミ20170522
DLゼミ20170522DLゼミ20170522
DLゼミ20170522
 
AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
 
Deep voice
Deep voiceDeep voice
Deep voice
 
DeepLoco
DeepLocoDeepLoco
DeepLoco
 
Ai勉強会20170127
Ai勉強会20170127Ai勉強会20170127
Ai勉強会20170127
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Deeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-ResolutionDeeply-Recursive Convolutional Network for Image Super-Resolution
Deeply-Recursive Convolutional Network for Image Super-Resolution
 
7月10日(月)dl
7月10日(月)dl7月10日(月)dl
7月10日(月)dl
 
Generating Videos with Scene Dynamics
Generating Videos with Scene DynamicsGenerating Videos with Scene Dynamics
Generating Videos with Scene Dynamics
 
Globally and Locally Consistent Image Completion
Globally and Locally Consistent Image CompletionGlobally and Locally Consistent Image Completion
Globally and Locally Consistent Image Completion
 
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial NetworkUnpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Network
 
Deep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural NetworksDeep Forest: Towards An Alternative to Deep Neural Networks
Deep Forest: Towards An Alternative to Deep Neural Networks
 
Colorful image colorization
Colorful image colorizationColorful image colorization
Colorful image colorization
 
勉強会用スライド
勉強会用スライド勉強会用スライド
勉強会用スライド
 
Mobilenet
MobilenetMobilenet
Mobilenet
 
A simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoningA simple neural network mnodule for relation reasoning
A simple neural network mnodule for relation reasoning
 
Densely Connected Convolutional Networks
Densely Connected Convolutional NetworksDensely Connected Convolutional Networks
Densely Connected Convolutional Networks
 
A3C解説
A3C解説A3C解説
A3C解説
 

Similar to 【2016.04】cvpaper.challenge2016

顔認識アルゴリズム:Constrained local model を調べてみた
顔認識アルゴリズム:Constrained local model を調べてみた顔認識アルゴリズム:Constrained local model を調べてみた
顔認識アルゴリズム:Constrained local model を調べてみたJotaro Shigeyama
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料keima_12
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
28th CV勉強会@関東 #3
28th CV勉強会@関東 #328th CV勉強会@関東 #3
28th CV勉強会@関東 #3Hiroki Mizuno
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMIwami Kazuya
 
カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイYoshihisa Ijiri
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...Sho Kagami
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3sumisumith
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoishii yasunori
 

Similar to 【2016.04】cvpaper.challenge2016 (12)

顔認識アルゴリズム:Constrained local model を調べてみた
顔認識アルゴリズム:Constrained local model を調べてみた顔認識アルゴリズム:Constrained local model を調べてみた
顔認識アルゴリズム:Constrained local model を調べてみた
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料静岡Developers勉強会コンピュータビジョンvol4発表用資料
静岡Developers勉強会コンピュータビジョンvol4発表用資料
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
28th CV勉強会@関東 #3
28th CV勉強会@関東 #328th CV勉強会@関東 #3
28th CV勉強会@関東 #3
 
SLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAMSLAM勉強会(3) LSD-SLAM
SLAM勉強会(3) LSD-SLAM
 
カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイ
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
20150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.320150328 cv関東勉強会 sumisumithパート_v1.3
20150328 cv関東勉強会 sumisumithパート_v1.3
 
Slideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from videoSlideshare unsupervised learning of depth and ego motion from video
Slideshare unsupervised learning of depth and ego motion from video
 

【2016.04】cvpaper.challenge2016

  • 2. Daniel Weinland, Edmond Boyer, Remi Ronfard, “Action Recognition from Arbitrary Views using 3D Exemplars”, in ICCV, 2007. 【1】 Keywords: Action Recognition, Arbitrary View 新規性・差分 手法 結果 概要 カメラのビューポイントに依存せず行動認識を実行する.マル チカメラの設定において,3次元のモデルを生成し,exemplar ベースのHMMにより認識. 認識段階において3次元再構成が必要ではないこと.代わり に,Exemplarベースにより,カメラビューをまたいだ時系列特徴 空間になっているため,2次元の画像からでもマッチングが高 精度に行える. 入力画像からシルエットを認識することや,3次元モデルからシルエットを生成す る.得られた2画像のシルエットをマッチングすることで行動を推定する. ここで,マッチングにはキーフレームを用いることとし,3次元の人体モデルはキャリ ブレーションされた5台のカメラからVisual Hullによりあらかじめ復元する.時系列モ デルにはHMMを用いて状態遷移を学習. ここで,5台のカメラから行動を認識するIXMAS Datasetを提案する.5台のカメラの キャリブレーションデータも配布.このデータにおいて提案手法は91.11%での認識 を実現した. Links 論文 http://www-ljk.imag.fr/Publications/Basilic/ com.lmc.publi.PUBLI_Inproceedings@1176ddd04d5_1d47e88/ WeinlandBoyerRonfard-ICCV07.pdf データセット http://4drepository.inrialpes.fr/public/viewgroup/6
  • 3. Hueihan Jhuang, Thomas Serre, Lior Wolf, Tomaso Poggio, “A Biologically Inspired System for Action Recognition”, in ICCV, 2007. 【2】 Keywords: Action Recognition, Biological System 手法 結果 概要 生物学の知見を活かした行動認識手法の提案.脳の仕組みで あるV1レイヤやMTレイヤの仕組みを模して行動認識のための 時系列・空間的な特徴を抽出. V1レイヤやMTレイヤの仕組みを模している.MTレイヤではV1レイヤで抽出された 膨大な特徴を投影していることがわかっており,それはV1の細胞の4倍から10倍に 及ぶ. 実装では各勾配に反応するGabor filterを用いている.さらにはスケールを複数種 類用意する.勾配は空間を示すx,yのみならず,t方向からも抽出することで時系 列情報を獲得.さらに拡張した場合にはLucas Kanade法によりオプティカルフロー を抽出する. KTHデータセットを用いた.6種類の 行動が含まれており,画像サイズは 160x120である.また,25種類のシー ンがおさめられており,16種を学習, 9種をテストに設定.結果,KTHデー タセットにて91.6%を達成,脳の仕組 みからヒントを得て単純な手法ながら も非常に効果的な精度を得ることに 成功した.UCSDやWeizmann dataset からもそれぞれ79.0%,96.3%の精度を 達成. Links 論文 https://www.researchgate.net/profile/Hueihan_Jhuang/ publication/ 221110709_A_Biologically_Inspired_System_for_Action_Recognition/ links/00b7d52783cf75e5b7000000.pdf プロジェクト
  • 4. Andrew Rabinovich, Andrea Vedaldi, Carolina Galleguillos, Eric Wiewiora, Serge Belongie, “Objects in Context”, in ICCV, 2007. 【3】 Keywords: Object Recognition, Context 新規性・差分 手法 結果 概要 物体認識のため,コンテキスト情報を導入する.物体情報やコ ンテキスト情報を後処理で入れ込む.Conditional Random Fields (CRF)を用いて情報を統合.データセットにはPASCALや MSRCを適用して物体認識に対するコンテキスト統合の有効性 を示す. コンテキスト情報により不明なエラーを防ぐことができる.下図 はLemon => Tennis Ballと推定が改正されている. 手法の簡略化図を下記に示す.画像入力後は前処理として粗くセグメンテーション を実行する.さらに,BoFによる物体の識別を実行し,最後に後処理としてCRFによ りコンテキストを導入する.途中のBoFによる識別で誤りがあったとしても後処理の コンテキストモデルを導入する際に精度を向上させる. 上はMSRC,下はPASCALデータセットに対する confusion matrixを示す.列は(a)コンテキスト情報な し (b)Google Setsによるコンテキスト (c) Ground Truthによるコンテキスト情報である. Links 論文 http://cseweb.ucsd.edu/~sjb/iccv2007a.pdf YouTube https://www.youtube.com/watch?v=qvYo1Zb2GUw
  • 5. Jianxin Wu, Adebola Osuntogun, Tanzeem Choudhury, Matthai Philipose, James Rehg, “A Scalable Approach to Activity Recognition based on Object Use”, in ICCV, 2007. 【4】 Keywords: Action Recognition, Object Interaction 新規性・差分 手法 結果 概要 人物と物体のインタラクションから行動を認識する研究.物体 のタグや手部の軌道から人物が何をしているかを推定する研 究である. RFIDや画像認識の統合,さらに時系列モデルを用いて物体認 識・行動認識を行う.物体情報を行動に反映させることがポイ ント. 行動認識のための入力にはRadio-Frequency Identification Tags (RFID)を用いる.物体のカテゴ リを推定するためにはSIFT特徴量が用いられ, RFIDデータからのモデルを推定するためには Dynamic Bayesian Networks (DBN)が用いられ る.パラメータ推定にはEMアルゴリズムを適用. 右図がDynamic Bayesian Networksのモデル.(a) のfull modelではRFIDやVisionセンサから物体認 識,さらには動作特徴により行動を認識する. 33の物体情報やセンサの手掛かりから16の行動を認識する.結果は表に示す通 りである.今後はSURFなどより高速に処理できる特徴の導入や,人物の手部や物 体とのインタラクション情報を反映させることが課題である. Links 論文 https://www.cs.cornell.edu/~tanzeem/pubs/iccv07_activityrec.pdf 参考 https://cs.uwaterloo.ca/~jhoey/teaching/cs793/reviews/Wu- ICCV07-review.pdf
  • 6. Raffay Hamid, Siddhartha Maddi, Aaron Bobick, Irfan Essa, “Structure from Statistics - Unsupervised Activity Analysis using Suffix Trees”, in ICCV, 2007. 【5】 Keywords: Action Recognition, Suffix Tree 新規性・差分 手法 結果 概要 行動認識の表現方法としてSuffix Treeを表現する.一連の行 動を分解し,時間がそれぞれ異なるサブ行動にセグメント化す る際に役立つ. それまでの異常検出はモデルベースであった が,異常のモデリングが貧弱であるためにうまく 検出できていなかった.提案手法ではSuffix Treeによる行動表現を適用することで局所的か つ構造的な異常の検出を実現する. Suffix Treeによる行動の表現方法は左図で表される.一連の行動を入力として, それらがまずはルートノードに設置される.その後,特徴の解析により分岐してセ グメントごとに分割される.右図は連結を考慮した表現であり,つながりは5連結(5- gram)まで扱うこととする. キッチン内における映像データにて行動のセグメント化を 行った.結果はSuffix Treeが69%であり,Suffix Treeの表現 でシーケンスを統計的に解析することで異常動作の検出も 実現した. Links 論文 http://raffayhamid.com/iccv_07.pdf プロジェクト
  • 7. Varan Ganapathi, Chiristian Plagemann, Daphne, Koller, Sebastian Thrun, “Real Time Motion Capture Using a Single Time-Of-Flight Camera”, in CVPR, 2010. 【6】 Keywords: Motion Capture, Real Time, 新規性・差分 手法 結果 概要 ・単眼距離画像から人間の高速な動作に対応した人物追跡を 行うフィルタリングアルゴリズムの提案 ・身体部位の位置を取得し,取得した情報からグラフィックハー ドウェア上の身体情報を更新することで,最良の人物追跡を行 う. 本提案手法では,以下の3つの構成からなる. (1)胴体部から手先・足先にかけてスキャンし,モデルベース成分の尤度関数を最 適化する. (2)z軸方向(奥行き)を測定し,フィルタの一部を再初期化する. (3)モデルベースのアルゴリズムを初期化するために,evidence propagation(EP) を導出し,推定手順を生成する. 以上の推定手順とモデルベースの人物追跡を組み合わせ,人物追跡を行う. 右図は,テニスのサーブにおける腕のス イングの瞬間を人物追跡した結果であ る. 上図は,モデルベースのみの人物追跡 下図は提案手法での人物追跡である. Frame11854において,従来手法と比較 すると,高速な動作を行っている腕部の 追跡が正確に行われた. モデルベースのみのアルゴリズムは1秒 あたり6フレームで処理できるのに対し, 提案手法では1秒あたり4〜6フレームと 映像により,処理時間が異なる. Links 論文 http://ai.stanford.edu/~koller/Papers/Ganapathi+al:CVPR10.pd スライド http://goo.gl/uhJ9Sg
  • 8. Jingen Liu, Mubarak Shah, “Learning Human Actions via Information Maximization”, in CVPR, 2008. 【7】 Keywords: Action Recognition, 新規性・差分 手法 結果 概要 時系列のコードワード特徴を用いて行動を識別する.Cuboidに より時系列特徴を取得,K-meansによるクラスタリングに対抗し て,最適化ベースのクラスタであるMMI (Maximization of Mutual Information)を採用している.MMIでは時系列的な特徴が類似 する特徴の相関値を参照することで精度を高める. ・初めてマルチビュー動画に対してコードワード特徴を実装した ・単眼・複眼問わず精度が良いアプローチである K-meansに代わるクラスタリング方法としてMMIを適用し,動画中に含まれる識別 性に優れた特徴を抽出できるようにする.より少ない次元で表現可能であり,時系 列特徴空間内の相関値を参照した表現が可能である.Cuboidsによるベクトル抽 出を入力としている.流れは下記により構成される. ・Cuboidsの取得 ・k-meansによるコードワード生成 ・MMIを用いたコードワードの圧縮 ・併進,回転,スケールに対応する構造化 ・SVMによる学習 KTH,IXMASに対する精度は下記のと おりである. Links 論文 http://vision.eecs.ucf.edu/papers/cvpr2008/5.pdf プロジェクト
  • 9. Weilong Yang, Yang Wang, Greg Mori, “Recognizing Human Action from Still Images with Latent Poses”, in CVPR, 2010. 【8】 Keywords: stikk image, Action Recognition, Latent Poses, 新規性・差分 手法 結果 概要 ・静止画から人物の行動を認識し,アクションラベルを推定す る. ・姿勢推定と行動認識のためのシステムを個別に学習し,結合 させ,静止画中の行動推定を行う. ・画像中の姿勢を”latent variables”として扱い行動の分類に関 連付け previous work proposal 本提案手法は以下4つの構成からなる. (1)Pose Representation:画像から人間の体を上半 身,下半身,右腕,左腕に分け,諸動作中の身体 部位として分類し,poseletsを形成する.右図に 例としてランニング中のposeletsを示す. (2)Model Formulation:モデルの定式化 (3)Learning:トレーニングデータからモデルパラ メータの学習を行う. (4)Inference:学習したモデルパラメータからアク ションラベルを推定する. 実験結果を以下に示す. 右上図はstill image datase 右下図はyoutube dataset での実験結果である Links 論文 http://www.cs.sfu.ca/~mori/research/papers/yang_cvpr10.pdf
  • 10. Aaron F. Bobick, James W. Dabis, “Real-time Recognition of Activity Using Temporal Templates”, in CVPR, 2008. 【9】 Keywords: Motion History Image (MHI) 新規性・差分 手法 概要 Motion History Image (MHI)の提案.背景画像をフレームごとに 蓄積することで動的なモーションを表現する.現在では,距離 画像でもMHIが実装可能となり,ノイズの影響を受けにくくなっ た. ・簡易的かつ効果的な行動表現方法を提案した. 前景をバイナリ画像で示す.MHIを生成する際には バイナリ画像を時系列で蓄積する.蓄積する際は 下の式を参考にする.ここで,D(x,y,t)はバイナリ画 像である. Links 論文 http://web.cse.ohio-state.edu/~jwdavis/CVL/Publications/ TR-386.pdf プロジェクト http://web.cse.ohio-state.edu/~jwdavis/CVL/Research/MHI/ mhi.html 下の図ではスケール変動や有向のフローに対する 表現を示す.
  • 11. Moonsub Byeon, Songhwai Oh, Kikyung Kim, Haan-Ju Yoo and Jin Young Choi, “Efficient Spatio- Temporal Data Association Using Multidimensional Assignment for Multi-Camera Multi-Target Tracking ”, in BMVC, 2015. 【10】 新規性・差分 手法 結果 概要 複数カメラ間における複数人物追跡問題を時空間デー タアソシエーション問題として解決する手法を提案 従来手法 :単純なモーションモデル(最短パス)と3次元位置推定 により複数人物追跡を単純化 →しかし,カメラの台数により複雑性が指数的に増加 提案手法 : 複数人物追跡を時空間データアソシエーションとみ なし多次元割当(MDA)問題として定式化 複数台カメラのデータセットにおける複数人物の追跡精度 -*- が 提案手法,いずれも従来手法より追跡精度が高い (左) 提案手法による追跡結果,人物は3次元の円柱としてモデル化 Links PDF : http://www.bmva.org/bmvc/2015/papers/paper068/paper068.pdf [2台のカメラ間,5フレームの場合]   コストが最小である互いに素な軌跡 を見つけるためことで人物の移動軌 跡を決定する  軌跡を求めるためにはカメラとフ レームをノードとしたハイパーグラフ を生成し,ランダムに分割/再マージ を繰り返すことでコストを最小化し各 人の軌跡を最適化していく Keywords : multi-target tracking, data association 手法
  • 12. M. Hadi Kiapour, Xufeng Han, Svetlana Lazebnik, Alexander C. Berg, Tamara L. Berg, “Where to Buy It: Matching Street Clothing Photos in Online Shops”, in BMVC, 2015. 【11】 新規性・差分 結果 概要 ファッションアイテムに特化した詳細な画像検索タスクの 提案と,このタスクのためのデータセットの提案 スナップ写真中のファッションアイテムをオンラインショップ上の 写真より見つけるという詳細な画像検索タスク (左) データセットの構成 (右) 検索性能,特に右から2列目では手法同士を比較して いる.深層特徴を組み合わせた提案手法による検索性能 が最も高い PDF : http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Kiapour_Where_to_Buy_ICCV_2015_paper.pdf Project : http://www.tamaraberg.com/street2shop/ (Poster, Dataset有り) Author : http://www.cs.unc.edu/~hadi/ 1. ファッションアイテム(Bag)から特徴抽出し,コサイン類似度より検索アイテ ムの候補求める 2.検索アイテムと各候補アイテムの特徴を連結し,Street2Shop Match Netよ り各候補アイテムごとのスコアを求め最終的な出力とする Keywords : multi-target tracking, data association 手法 Links
  • 13. Keywords: Weakly supervised, semantic segmentation 新規性・差分 手法 結果 概要 Semantic segmentation + 弱教師有り学習とういアプローチの提案.目 標としては,pixelレベルでラベルを割り当てることである. 提案された手法は,画像内のラベル位置に影響されずに,部分 的にラベル付けされたデータを用いて学習を行うことができる.ま た,最先端の手法と比較して,高速かつ高精度であることが示さ れている. 提案しているアプローチは,粗いセグメンテーションから始まり,Spectral clustering法によって関連するImage partsをクラスタリングする処理が続く.最 後に ラベルを基にして画像にマッピングする.フレームワークの図を以下に示 す. 結果は下図に示す. Niloufar Pourian, S. Karthikeyan, and B.S. Manjunath, “ Weakly supervised graph based semantic segmentation by learning communities of image-parts”, in ICCV, 2015. 【12】 Links 論文ページ:http://www.cv-foundation.org/openaccess/ content_iccv_2015/papers/ Pourian_Weakly_Supervised_Graph_ICCV_2015_paper.pdf
  • 14. Prithvijit Chattopadhyay, Ramakrishna Vedantam, Ramprasaath RS, Dhruv Batra, Devi Parikh, “Counting Everyday Objects in Everyday Scenes”, in arXiv1604.03505v1, 2016. 【13】 Keywords: Visual Question Answering, Daily Object Recognition 新規性・差分 手法 結果 概要 日常生活において物体認識や物体のカウントを実現する.さら には質問回答(Visual Question Answering; VQA)の要素も加え て日常生活の物体に関する受け答えを自動で行う. ・従来のカウントと異なる点はカウント手法のバリエーションで ある.下図のように,画像内での位置を特定するDetection,種 分けを行うGlance,区切られた範囲における物体のカウントを 行うAssociative Subtizingを提案. 日常生活の中で物体のカウントをDetection, Glance, Associative Subtizingに分け て考え,最終的には質問回答的に「How many?」の質問に回答する答えを用意す る. 具体的な手法として,物体検出にはFast R-CNN (FRCN)を用いる.FRCNでは物体 候補領域を抽出後,CNNによる物体認識を行い,さらにNon-Maximum Suppression (NMS)を実行する. Associative Subtizingとはセルごとの物体をカウントする方式であり,下の式で実 行する.あるカテゴリc = {c_1, … , c_n}の中でのカウントS^cを計算する. データにはVisual Question Answering [9]やCOCO-QA [10]を用いた.カウントは 回帰により行い,Root Mean Squared Error (RMSE)により評価した.プロジェクト ページにはDeepDreamに対するカウントも表示. Links 論文 http://arxiv.org/pdf/1604.03505v1.pdf プロジェクト https://filebox.ece.vt.edu/~ram21/ Ramprasaath_RamasamySelvaraju_CVproject_Fall2015.html
  • 15. Alexei A. Efros, Alexander C. Berg, Greg Mori, Jitendra Malik, “Recognizing Action at a Distance”, in ICCV, 2003. 【14】 Keywords: Action Recognition, Optical Flow 新規性・差分 手法 結果 概要 スポーツシーンで行動認識を適用するため,カメラから離れた 位置からでも頑健に動く手法を考案.動作を安定的に取得する ために人物領域に補正を行ったのち,オプティカルフローで特 徴抽出,Nearest Neighborにてマッチングを行う. スポーツシーンでは選手の領域が非 常に小さいことも多い.右の図では 人物領域の高さが約30pixelsである が,この環境でも頑健に人物行動認 識を実施するための手法を提案し た. 下にフローチャートを示す.入力ビデオ から人物追跡やスタビライゼーションを 実行.各方向ごとにオプティカルフロー を取得後,データベースとのマッチング により行動のラベル・関節位置・アピア ランス情報まで抽出する.マッチングに はNearest Neighborを行う. 各Ballet, Tennis, Footballのデータにおいて実験を行ったところ,良好な性能が得ら れた.さらに,人物の関節位置まで復元することに成功した. Links 論文 http://acberg.com/papers/berg_action.pdf プロジェクト
  • 16. Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Scharwachter, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, Bernt Schiele, “The Cityscapes Dataset”, in CVPRW, 2016. 【15】 Keywords: Dataset, Traffic, Semantic Segmentation データセットの構成 概要 大規模かつ多様な都市の交通シーンにおいてセマンティックセ グメンテーションや物体検出などのデータセットを提供する. データは主にヨーロッパの50の都市においてアノテーションされ た5,000枚(pixel-level),20,000枚(weakly-annotated)の画像で 構成される. データセット中のアノテーションには,Ground (road, sidewalk), Human (person, rider), Vehicle (car, truck, bus, on rails, motorcycle, bicycle, license plate), Infrastructure (building, wall, fence, traffic sign, traffic light, pole, bridge, tunnel), Nature (tree, terrain), Sky (sky), Void (ground, dynamic, static)が含まれる. Links 論文 http://www.visinf.tu-darmstadt.de/media/ visinf/vi_papers/2015/cordts-cvprws.pdf プロジェクト https://www.cityscapes-dataset.com/
  • 17. Yanhua Cheng, Rui Cai, Chi Zhang, Zhiwei Li, Xin Zhao, Kaiqi Huang, Yong Rui, “Query Adaptive Similarity Measure for RGB-D Object Recognition”, in ICCV, 2015. 【16】 Keywords: dense matching, similarity learning, RGB-D fusion, ranking SVM 新規性・差分 手法 結果 概要 RGBD物体認識において、ピッチャー vs コーヒーマグ、 のように見分けにくい物体カテゴリをよく見分けられるよ うなパラメータを学習する手法を提案した。 ・ 比較対象の二つの物体間の密な対応点がとれる ・ RGBの類似度とdepthの類似度のフュージョンを (重みを学習して)良い感じにできる 下式のwθをRanking SVMで最適化する。 RGBDの物体データセットで評価したら、top-1 accuracyが92.7%となった。 これまでにstate-of-the-artに比べて5.1%の改善。 Links 論文 http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/ Cheng_Query_Adaptive_Similarity_ICCV_2015_paper.pdf θはRGBとdepthのバランスをとるパラメータ。 θにより変化するsθの加重平均(重みwθ)を全体の類似度としてい る。
  • 18. Jeremie Papon and Markus Schoeler, “Semantic Pose using Deep Networks Trained on Synthetic RGB-D”, in ICCV, 2015. 【17】 Keywords: Deep CNN, learning by synthesis, indoor scene understanding 新規性・差分 手法 結果 概要 RGBD画像とその画像に対するObject Proposals(物体検出の前処理で出てく るウィンドウ群)を入力すると、そこに写っている物体たちのクラス名、位置、 姿勢が出力されるDeep CNNを提案。 学習には3Dモデルを使って人工的に作成されたシーン画像を使う。 ・ RGB-Dシーンをシンセサイズして学習データを作る。 ・ ひとつのCNNで多数の物体の物体識別と姿勢推定を一気にやってしまう。 ・処理時間はGPUで数秒程度。 ModelNet10の3Dモデルを使って7000のRGBDシーンをランダムに作成。 クラスは普通のSoftMax cross-entropy loss、姿勢とデプスにはローカルビン毎の lossをweighted averageしたlossを使用。 NYU v2 データセット(リアルなRGBDシーンデータセット)で識別精度と姿勢推定精度を評価した。 Links 論文  http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Papon_Semantic_Pose_Using_ICCV_2015_paper.pdf
  • 19. Mohammed Hachama, Bernard Ghanem, and Peter Wonka, “Intrinsic Scene Decomposition from RGB-D images”, in ICCV, 2015. 【18】 Keywords: 新規性・差分 手法 結果 概要 RGB-D画像をアルベド(反射成分)と陰影に分解する手法を 提案。data termとregularity termの二つからなるエネルギー を定義し、最小化する。前者の項はアルベドと表面形状の法 線、そして入射照明の関係性を表している。後者の項はイル ミネーションベクターフィールドとアルベドそれぞれの正規化 項である。 ・ これまでの手法(Retinexライクな手法)とは異なり、image gradientとテクスチャに依らない。 ・ RGBD画像からPoisson reconstruction techniqueにより得られる色・法線つき点 群を入力とする。各頂点のアルベドとイルミネーションを同時に推定する。最適化 にはa cyclic block coordinate descent algorithmを使用している。 ・入力のRGB-D画像は一枚でも複数枚でも可。 Links 論文   http://www.cv-foundation.org/openaccess/content_iccv_2015/ papers/ Hachama_Intrinsic_Scene_Decomposition_ICCV_2015_paper.pdf Youtube  https://www.youtube.com/watch?v=0ilTmJcyrL4
  • 20. Zhuo Deng, Sinisa Todorovic, and Longin Jan Latecki, “Semantic Segmentation of RGBD Images with Mutex Constraints”, in ICCV, 2015. 【19】 Keywords: CRF, Quadratic Programming (QP), common sense, image labeling 新規性・差分 手法 結果 概要 インドアシーンのRGB-D画像からの密な物体セグメンテーショ ン(ラベリング)のための、CRFと相互排除制約を合体させた手 法を提案。最終的に出力されるラベリングは、たとえば「寝室用 ランプの上に床は来ない」といった”常識”による物体間の制約 をすべて満たすものになる。 ・ セマンティックシーンセグメンテーションをCRFによる画像の 密なクラスラベル付けで実現。quadratic programming (QP)問 題で解く。 ・ 椅子はテレビの上には来ない、等の”常識”の制約を入れ込 んだことが一番のコントリビューション。 ・ CRF ・ MAP assignment as QP ・ QP with Mutex Constraints ・ 三つのMutex Constraints: (1)  Global object co- occurrence constraints (2)  Relative height relationship constraints: (3)  Object local support relationship constraints ・図3(→)参照。 一番左が入力画像 二番目が [Gupta et al., CVPR2013] 三番目が提案手法 一番右がground truth Links 論文   http://web.engr.oregonstate.edu/~sinisa/research/publications/ iccv15_mutex.pdf ポスター(Not found) http://web.engr.oregonstate.edu/~sinisa/talks/ iccv15_mutex_poster.pdf
  • 21. A. Krull, E. Brachmann, F. Michel, M. Y. Yang, S. Gumhold, and C. Rother, “Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images”, in ICCV, 2015. 【20】 Keywords: CNN, probabilistic model 新規性・差分 手法 結果 概要 ・ CNNによるRGBD画像からの物体の6D姿勢推定。3Dモデル をレンダリングして人工的に作った物体の見た目と実際の見た 目との誤差を少なくするようにCNNを学習する。 ・ オクルージョンの激しい環境下でも物体の姿勢推定が高精 度に可能 ・ CNNを実画像とレンダリング画像を比較する確率的モデルと して使った初めてのワーク。 ・ 特定の物体のgeometryやappearanceに特化せずさまざまな 背景化でジェネラルな物体に使える ・ 3Dモデルを姿勢𝐻でレンダリングして、実際の観測との誤差を計算 ・ その誤差を入力としエネルギー関数𝐸(𝐻)を出力するCNNを学習 ・ 学習したCNNを使って姿勢の事後分布𝑝(𝐻|𝒙;𝜽)を計算 ・ 激しいオクルージョンのとき先行研究に比べて20%以上の 精度向上 Links プロジェクト http://cvlab-dresden.de/research/scene-understanding/pose- estimation/ YouTube https://www.youtube.com/watch?v=pvsrl-foX_k
  • 22. Christian Kerl, Jorg Stuckler, and Daniel Cremers, “Dense Continuous-Time Tracking and Mapping with Rolling Shutter RGB-D Cameras ”, in ICCV, 2015. 【22】 Keywords: consumer-grade RGB-D cameras, SLAM 新規性・差分 手法 結果 概要 ・ 安価なRGBDカメラのほとんどがローリングシャッターCMOS センサを使用している。そこで、rolling shutterをモデル化するこ とでRGBDカメラからのSLAMの(トラッキングと三次元再構成 の)精度を向上させた。 ・ 連続的な軌跡の表現を用いることで、 断続的な時間表現よりもいろいろなアド バンテージがある。 ・ splinesは断続的な時間表現よりパラメ タが少なく、平滑化項も含んでいる。 ・ rolling shutter現象も補える。 ・ 連続的なB-splinesを用 いてカメラ軌跡を最適化 する。rolling shutterの制 約を考慮したカメラモデ ルを使用することでrolling shutter現象を回避する。 ・ 人工データでも実データでも非常によい性能をあ げた。 Links プロジェクト、データセット http://vision.in.tum.de/~kerl/ kerl_etal_iccv2015_webpage/ YouTube https://www.youtube.com/watch? v=Lo6tKswM3hc
  • 23. Shanshan Zhang, Rodrigo Benenson, Mohamed Omran, Jan Hosang, Bernt Schiele, “How Far are We from Solving Pedestrian Detection?”, in CVPR, 2016. 【23】 Keywords: Pedestrian Detection, Human Baseline 新規性・差分 手法 結果 概要 現状の歩行者検出技術の最先端と実利用化に耐えうるパー フェクトな人物検出にはどれほどの差があるのかを検証.実利 用化のレベルを”Human-level”と定義付け,現行の技術がどこ まで近づくことができているかについて議論する.なお,データ セットにはCaltech-USAを採用している.Human-levelではエ ラー率が5.62%である. さらにはローカライズのエラーを学習し,アノテーションの補正 を行った. ・最先端の歩行者識別器での検出ミスのパターンを把握 ・Human-levelのベースラインをCaltechデータセットに与える ・学習データの品質がいかに検出率に影響するかを評価. Caltechのデータセットに対して再アノテーション 最先端手法としてはICF(Integral Channel Features)ベースのFiltered Channel Features [Zhang+, CVPR15],R-CNNベースの歩行者検出 [Hosang+, CVPR15]を 適用する.ICFの改良手法の中ではChackerboards detectorがもっとも性能が高い (Error-rate: 18.5%).また,R-CNNでは物体候補領域の抽出方法にセンシティブで あるという問題がある.下の図は各タスクにおける各手法の精度である.また,失 敗する環境要因(double detections, vertical structures in bg, confusing等),ソース (small scale, side view, cyclists, occlusion等)についても言及した. Checkerborards detectorに回転を加えて特徴 を抽出するRotation Filtersを提案し,精度を 上げた(16.1 => 13.0%).さらに,VGGNet特徴を 追加(11,1%),bbox回帰やNMSにより9.3%のエ ラー率を達成した. Links 論文 http://arxiv.org/pdf/1602.01237v1.pdf プロジェクト https://www.mpi-inf.mpg.de/departments/ computer-vision-and-multimodal- computing/research/people-detection- pose-estimation-and-tracking/how-far- are-we-from-solving-pedestrian-
  • 24. Piotr Dollar, Vincent Rabaud, Garrison Cottrell, Serge Belongie, “Behavior Recognition via Sparse Spatio- Temporal Features”, in PETS, 2005. 【24】 Keywords: Cuboids, Action Recognition 新規性・差分 手法 結果 概要 行動認識のための時系列特徴であるCuboids特徴を提案. 時系列の特徴を取得するためのxyt領域抽出を提案した.位置 付けとしてはSTIPの改善版とされている. 2Dの特徴点ではなく,xytの3次元情報にア クセスして特徴を取得する.この仕組みは現 在でも用いられることがあり,Cuboids特徴と 呼ばれている. コーナー検出とPCA-SIFTによる時系列ベク トルにより行動を認識する. KTH(左), UCSD Mouse(中), Face dataset(右)を用いた.各データセットにおける精 度を以下に示す. Links 論文 http://vision.cornell.edu//se3/wp-content/uploads/2014/09/ BehaviorRecognitionViaSparseSpatioTemporalFeatures_VSPET05.p df 著者 http://vision.ucsd.edu/~pdollar/
  • 25. Ryo Yonetani, Kris M. Kitani, Yoichi Sato, “Recognizing Micro-Actions and Reactions from Paired Egocentric Videos”, in CVPR, 2016. 【25】 Keywords: Micro-Action Recognition 新規性・差分 手法 結果 概要 一人称視点からの人物行動認識やその行動に対する人物間 のリアクション認識を行う.行動においては大きなもののみでな く,微小動作も含む(micro-actionと定義)ため,どの手法が最適 化を定義.データセットでは一人称視点だけでなく,二人称のリ アクションも含み,1000にも及ぶペアがアノテーションされてい る. 人物間の一人称ビジョンから微小な動作認識を行うことが新規 性として挙げられる. 一人称の行動認識の手法と二人称のリアクション認識の手法を分けている. ・一人称認識では,Improved Dense Trajectories (IDT) + Fisher Vectors (FV) [Wang+, ICCV13],Cumulative Displacement Patterns (CD) [Poleg+, CVPR14], Pooled Time-Series (PoT) [Ryoo+, CVPR2015]を用いた. ・二人称のリアクション認識ではIDT+FV, Two-stream ConvNet [Simonyan+, NIPS14], Trajectory-Pooled Convolutional Descriptors (TDD) [Wang+, CVPR15]を 適用した. 提案法では識別器にSVMを適用し,CD, PoT,IDTやTDDなどにおいてパラメータ を調整した統合ベクトルを使用した. 下の図がデータセットの各タスクにおける精度である. また,この試行とは別にJPL Interactionデータセットにおいても実験を行った. Links 論文 http://yonetaniryo.github.io/assets/papers/yks-cvpr2016.pdf プロジェクト http://yonetaniryo.github.io/2016/03/02/yks-cvpr2016/
  • 26. Yuping Shen, Hassan Foroosh, “View-Invariant Action Recognition Using Fundamental Ratios”, in CVPR, 2008. 【26】 Keywords: View-invariant Action Recogniton, Posture 新規性・差分 手法 結果 概要 視点に頑健な行動認識の手法を提案する.具体的には2x2の 基礎行列(matrix F)を参照し,人物の関節位置を復元すること により視点変化に頑健な行動認識を与える. ・現在までの人物姿勢による手法ではビュー毎に学習やマッチ ングを行う手法がほとんどであったが,視点変化が発生した場 合にでも行動認識を行うことができる手法を提供する. Pose Transitionsと呼ばれる,すべての視点から 見た際に変動しない人物姿勢情報を提案する. この手法は右図のようにカメラ間の動的な平面を 考慮するF行列を用い,その姿勢の変動を考慮す る. 視点変化による姿勢情報の変動の解析は,CMU Motion Capture Databaseを用いて生成的に行 う. カメラの分布(左下図)やConfusion Marix (右下図)を示す.モーションキャプチャ データの解析や関節情報の学習により,リアルデータに対する認識率が95%前後 であった. Links 論文 https://pdfs.semanticscholar.org/ 2b29/94e72e12e9a35a5779b5f9c4d33804a6f8a1.pdf 研究室ページ http://cil.cs.ucf.edu/
  • 27. Krystian Mikolajczyk, Hirofumi Uemura, “Action Recognition with Motion-Appearance Vocabulary Forest”, in CVPR, 2008. 【27】 Keywords: Action Recognition, Vocabulary Forest 新規性・差分 手法 結果 概要 局所的なモーション特徴を用いた,Vocabulary Forestベースの 行動認識手法を提案する.人物行動が含まれる映像データか らモーション特徴を大量に抽出し,Vocabulary Forestにより確 率分布を計算する.実験では2008年当時としては大規模で あった17クラスの行動分類を実行した. ・時系列特徴や空間的特徴の統合により行動認識の精度を高 められると主張.(当時ではSTIPが非常に大きな成果を挙げて いたが,非常に空間的にスパースな特徴の記述であることが 問題であった) 下図が提案手法の概要である.特徴点の検出と特徴ベクトルの抽出後,次元圧縮 を実行する.圧縮特徴を用いてVocabulary Forestを学習することにより行動を認 識する. 特徴点検出にはMSERやHarris-Laplaceコーナー検出を行い,セグメント化も同時 に実行.特徴量にMSERやはGLOHを適用した. モーション特徴ではLucas-Kanadeによる特徴点追跡,RANSACによる有効な特徴 点のみ残し,セグメント領域からのモーションパラメータを抽出. 右の表はKTHデータセットにおける行動認識結 果である.行動認識では各クラス[.97, .96, .98, . 88, .93, .87]を達成,行動検出でも良好な精度を 実現した.一方の17クラスのスポーツ行動認識 でも70%前後の識別率を達成した. Links 論文 http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/ Mikolajczyk-CVPR-2008.pdf プロジェクト
  • 28. Konrad Schindler, Luc Van Gool, “Action Snippets: How many frames does human action recognition require?”, in CVPR, 2008. 【28】 Keywords: Action Snippets, Action Recgonition 手法 結果 概要 人物行動認識に最適なフレーム数を評価する.本論文では 1~10フレームの特徴累積をAction Snippetsと定義して最適なフ レーム数を決定づける. KTHデータセットを用いた実験では,5~7フレーム(0.3~0.5秒)の 蓄積で十分であり,約90%を達成した. 手法としては局所的なエッジ特徴やオプティカルフロー特徴を抽出する.手法自体 は[Giese and Poggio, ICCV2007]のBiologically Inspired Action Recognitionを参考 にしている.いかに短いフレーム数で人物の行動認識をするかにフォーカスしてお り,毎フレームのエッジ形状やフレーム間のオプティカルフローにより人物行動を 記述する.スニペットはあらかじめ取得された人物行動の断片を辞書化したもので あり,エッジやフローの蓄積された特徴と比較し,類似度を計算する.識別器には one-vs-all SVMを用いる. パラメータ調整から,5-7フレームですでに良好な性能を出している.また, Weizmannデータセットでは100%,KTHでは92.7%の認識率を達成し,制限されtフ レーム数ながら非常に高度な認識を実現. Links 論文 https://www.vision.ee.ethz.ch/en/publications/papers/ proceedings/eth_biwi_00532.pdf
  • 29. Alireza Fathi, Greg Mori, “Action Recognition by Learning Mid-level Motion Features”, in CVPR, 2008. 【29】 Keywords: Mid-level Feature, Action Recognition 新規性・差分 手法 結果 概要 オプティカルフローの情報を統合して,より高次なMid-level特 徴としてモーションを表現することにより行動に認識を実行す る.特徴の統合にはAdaBoostを用いて,クラス間の分離を大き く,さらには処理コストを削減する. Weizmannデータセットにて100%の認識精度を達成するなど非 常に有効な精度を実現した. 戦略的にはAdaBoostにより有効なエッジ同士をつなげるShapelet [Sabzmeydani&Mori, CVPR07]と量子化オプティカルフロー特徴 [Efros+, ICCV03] の統合である.有効なモーション特徴をAdaBoostにより結合することで行動認識に 有効なMid-level特徴へと拡張可能.AdaBoostは二段階活用することとし,1段目で はLow-levelなオプティカルフロー特徴を統合し,2段階目では行動間の識別を実 行するために行う.左図はMid-level特徴のイメージ図であり,右図は方向毎の Low-levelなオプティカルフロー特徴. WeizmannやKTHのデータに対して識別を実 行した.WeizmannではPer-frameや動画毎 に精度を算出したところ,Per-frameでは 99.9%,動画単位では100%の識別を達成し た.KTHでは90.5%の識別精度であった. Links 論文 http://www.vision.cs.chubu.ac.jp/CV-R/pdf/AlirezaCVPR2008.pdf Video https://vimeo.com/4240423 プロジェクト http://ai.stanford.edu/~alireza/research.html
  • 30. Jingen Liu, Saad Ali, Mubarak Shah, “Recognizing Human Actions Using Multiple Features”, in CVPR, 2008. 【30】 Keywords: Action Recognition, Multiple Features 新規性・差分 手法 結果 概要 特徴の統合が行動認識に有効であることを明らかにする.特 徴量には,(i) 局所領域から抽出した時系列特徴(もしくは Cuboids特徴)のベクトル量子化コードワード や (ii) 3次元形状 のSpin Imagesから抽出したベクトル量子化コードワードを用い る. 特徴の統合のためのEmbedding方法について検討.特徴量と しては時系列特徴や3次元のスピンイメージを採用した.ベクト ル表現にはコードワード(BoF)を適用. 基本的な3ステップには, 1.  局所特徴量のコードワード学習 2.  トレーニングサンプルからのLaplacian Matrix計算 3.  エンコーディングと特徴の量子化 時系列特徴としては[Dollar+, PETS05]を用いる.3次元形状の特徴としてはSpin Imagesを用いるが,xyzではなく,時系列を含んだxytの3次元データからSpin Imagesを計算する. WeizmannやIXMASのデータセットに対して実験を行った. Weizmannでは89.26%,IXMASデータセットにおいては78.5%の認識精度を実現し た.ビデオ中からのワード数はST特徴約200,Spinimagesからは約400であった. Links 論文 http://www.vision.eecs.ucf.edu/papers/cvpr2008/2.pdf プロジェクト
  • 31. Xiaogang Wang, Kinh Tieu, W. Eric L. Grimson, “Correspondence-Free Multi-Camera Activity Analysis and Scene Modeling”, in CVPR, 2008. 【31】 Keywords: Trajectory Analysis 新規性・差分 手法 結果 概要 キャリブレーションフリーのカメラ間同期の研究.題材としては 駐車場や道路上の人物や車両の動線を扱う. ・ (1)  動線のグルーピングを実施,異なるカメラの動線もまとめる (2)  複数カメラをまたいだ軌跡のモデリングを実行 (3)  自動で異常な動線を検出する 下図のようにカメラ間の関連性をUnsupervisedに学習する. キャリブレーションなしのカメラ間をまたいだとしても同ク ラスのクラスタリングを効果的に行うことに成功した.ま た,同様にカメラ間をまたいだ異常認識も可能にした. Links 論文 https://pdfs.semanticscholar.org/ 1f05/4e881484af41f8850d0349b2627384 f82246.pdf プロジェクト http://www.ee.cuhk.edu.hk/~xgwang/ traj_multicam.html
  • 32. Christian Thurau, Vaclav Hlavac, “Pose Primitive based Human Action Recognition in Videos or Still Images”, in CVPR, 2008. 【32】 Keywords: Action Recognition, Still Images 手法 結果 概要 HOGベースの特徴表現であるHistograms of Poses Primitives を用いることで静止画,もしくは複数の静止画から姿勢(のプリ ミティブな値)を復元,行動を認識可能にした.HOG特徴量を Non-Negative Matrix Factorization (NMF)により分解して要素 の分布により認識する.NMFを用いてHOGのベクトルから姿勢 のプリミティブ値を復元するところに新規性がある. 提案手法は幾つかの要素技術に分けられる ・人物検出による人体領域からの特徴抽出 ・HOGの抽出とNMFによる基底ベクトルの抽 出,この分解されたベクトルは姿勢のプリミ ティブな要素を近似していると言える. ・基底ベクトルの分布により行動を認識する, 認識には一枚絵でも構わないし,静止画を複 数用いても構わない. 行動の認識には基底ベクトルを数値化した Histograms of Poses Primitivesを用いる. 下の表がNMFを用いたHOG特徴量の分解特徴量による精度比較である.複数の 手法があるが,NMFによる姿勢や背景の分解や,重み付けを施した例が最も精度 が高く,Weizmannデータセットにおいて94.4%を実現した. Links 論文 http://cmp.felk.cvut.cz/ftp/articles/hlavac/Thurau- HlavacPosePrimitivesCVPR2008.pdf 関連 http://d.hatena.ne.jp/htee2006/20090420/1240247395
  • 33. Mikel D. Rodriguez, Javed Ahmed, Mubarak Shah, “Action MATCH: A Spatio-temporal Maximum Average Correlation Height Filter for Action Recognition”, in CVPR, 2008. 【33】 Keywords: Action Recognition, Correlation 手法 結果 概要 Maximum Average Correlation Height (MACH) Filterを提案す る.MACH Filterはテンプレートベースの行動表現であり,行動 クラス内の分散を表現可能とした.この表現を実現するため, Clifford Fourier Transformを採用する. XYT3次元の空間にFFTを施すことにより,右図 のようなテンプレート画像を得ることができる. このテンプレートにはクラス内の分散が表現さ れている. Weizmann(左表)やKTH(右表)のデータセットにおいても良好な精度を実現した.そ れだけでなく,スポーツや顔認識のデータに対しても処理できるなど多様なデータ に対して広く用いることができる. Links 論文 http://visionnas2.cs.ucf.edu/projects/mikel/ActionMACH.pdf プロジェクト
  • 34. Qinfeng Shi, Li Wang, Li Cheng, Alex Smola, “Discriminative Human Action Segmentation and Recognition using Semi-Markov Model”, in CVPR, 2008. 【34】 Keywords: Action Recognition, Action Segmentation 新規性・差分 手法 結果 概要 Semi-Markov Modelフレームワークにより行動認識や行動セグ メンテーション(映像が与えられた状態で行動の開始・終了やそ のタグを推定)を実行する.与えられた非拘束の映像から境界 フレームや行動間の特徴を明確に切り分ける手法について検 討した. ・時系列の行動セグメンテーションに対する解決策として, semi-Markov model (SVM-SMM)を提案する. ここでのSemi-Markov Modelとは,SVM-SMMのように識別的手法や生成的手法を 組み合わせる(SVM: 識別的手法, HMMなど: 生成的手法)ことにより,映像中に存 在する行動をセグメント化する.主なタスクとしては行動間の境界を明らかにする, セグメントの特徴空間を生成,近傍の行動のつながりを把握する.特徴量には SIFTやShapeContextを用いる.左図は提案手法の概念ラベルである.3つあり,上 が完全に分離したラベル,中央がMarkov chainに代表されるような時系列モデル. 下は提案手法であり,モデルが隣接するラベル同士の依存関係や時系列の関係 性を把握する. 実験にはCMU Mobo Datasetを用いた.同データセットには24人のトレッドミルによ る歩行データが含まれる.行動としてはslow walk, fast walk, incline, slow walk with a ballの4種類.表は1NN, SVM, SVM-HMM, SVM-HMMにより比較した例.セグメン ト化で59%の認識率であった. Links 論文 http://users.cecs.anu.edu.au/~qshi/pub/ ActRecog_CVPR08_CameraReady.pdf プロジェクト
  • 35. Daniel Weinland, Edmond Boyer, “Action Recognition using Exemplar-based Embedding”, in CVPR, 2008. 【35】 Keywords: Action Recognition, Key-frame Exemplar 新規性・差分 手法 結果 概要 Key-frame Exemplarによる行動認識手法の提案.Key-frameと は時系列画像の中で認識に重要なフレームのことであり, Exemplarとはここでは各ビューからみたベストなサンプルのこと を示す. キーポイントの検出やマッチングのベストなサンプルを行動の 空間から参照するため,時間の幅に対して頑健な行動認識手 法である.(下図 例:キーフレームやベストサンプルのマッチン グ) 特徴抽出にはシルエットからのChamfer Distanceを用いる. あらかじめ検出した複数のキーフレームからベクトルを計算して特徴空間に投影 する.テスト段階でもキーフレームを検出し,Chamfer Matchingを計算する. Weizmannデータセットにて93.6%の認識率を 達成した. Links 論文 http://www.deutsche-telekom-laboratories.de/~danielw/ publications/weinland08.pdf プロジェクト
  • 36. Pingkun Yan, Saad M. Khan, Mubarak Shah, “Learning 4D Action Feature Models for Arbitrary View Action Recognition”, in CVPR, 2008. 【36】 Keywords: Action Recognition, 4D (xyzt) feature 新規性・差分 手法 結果 概要 行動認識のためのxytz4次元の特徴を構成する.キャリブレー ションされたカメラからのVisual Hullにより3次元再構成を行い, 時系列の3dモデル同士のマッチングにより行動認識を行う. 時系列の3次元形状を扱って行動認識する論文.3次元形状の キーポイントマッチングを時系列で行う. 右図が4D Action Feature Model (4D- AFM)の概略図.キャリブレーションされ た複数台のカメラよりキーポイントマッチ ングにより時系列特徴を抽出する. データセットにはキャリブレーションされた複数台のカメラが用意されていることか ら,IXMASデータセットを用いた.Single-viewごとの精度は72, 53, 68, 63%であった のに対してMulti-viewの結果は78%であった. Links 論文 http://vision.eecs.ucf.edu/papers/cvpr2008/1.pdf プロジェクト
  • 37. Yue Zhou, Shuicheng Yan, Thomas S. Huang, “Pair-Activity Classification by Bi-Trajectories Analysis”, in CVPR, 2008. 【37】 Keywords: Pair Action Recognition 新規性・差分 手法 結果 概要 行動をペアとして認識するための手法を提案.2つ以上の動線 を解析することにより判断できる行動を定義して,識別問題を 解決する. 単一人物の行動ではなく,Granger Causality Test (GCT; グレ ンジャー因果関係)を用いて特徴抽出を行いペアとして行動認 識を行った. 動線を得るためのトラッカーはMean-shiftにより得られる.トラッキングにより得ら れる特徴は例えばCausality ratio, feedback ratioなどがある.このふたつの関連性 により得られる特徴はGranger Causality Test (GCT)をベースにしている.GCTは Causality, Feedback, Causality ratio, Feedback ratioにより構成され,直感的には 二つ以上の動線の影響の及ぼしあいを示す. 行動の種類としては左下図のようにChasing,Following, Independent, Meeting, Togetherが含まれる. 識別器としてはLDAやSVMを用いるが,Intra-class, Inter-classの分離を考慮した 重み付けを行った. 170の実例が含まれている Pair-Activity Datasetを提 案して,実験を行なった. Links 論文 http://www.lv-nus.org/papers%5C2008%5C2008_C_13.pdf プロジェクト
  • 38. Roman Filipovych, Eraldo Ribeiro, “Learning Human Motion Models from Unsegmented Videos”, in CVPR, 2008. 【38】 Keywords: Action Recognition, Action Segmentation 新規性・差分 手法 結果 概要 人物行動/モーションの学習モデルを提案する.姿勢の個人差 や動作に依存することなく時系列の関係性を学習できるモデル としている.静的な人物関節位置や時系列モーションを部分的 に評価して識別することができる. それまでの手法とは異なり,姿勢情報やモーション情報を統合 した形式で評価できるとしている. 右図は提案手法のフレームワー クであり,人物姿勢やモーション 特徴を統合して行動認識を実行 することができる.まず姿勢に関 しては同じものをクラスタリング する.その際にエッジマップを取 得する.モーション特徴はDollar らのCuboidsを適用する. 学習には姿勢やモーション特徴 をMAP推定により分布を生成す る.識別器にはRandom Markov Fields (RMF)を用いた. Weizmann Action Datasetを適用 した.単一の姿勢の際には75.3% であったが,複数の姿勢を認識 に用いた場合には88.9%にまで向 上した. Links 論文 http://cs.fit.edu/~eribeiro/papers/FilipovychRibeiro_cvpr2008.pdf プロジェクト
  • 39. Andrew Gilbert, John Illingworth, Richard Bowden, “Fast Realistic Multi-Action Recognition using Mined Dense Spatio-temporal Features”, in ICCV, 2009. 【39】 Keywords: Action Recognition 新規性・差分 手法 結果 概要 時間的にも空間的にも非常に密なコーナー検出を実行し,人 物の行動を精細に捉えることに成功した.密な特徴からデータ マイングの枠組みにより重要な特徴量を取り出し,階層的な識 別器により高精度な行動認識を実現. 従来の行動認識はSTIPやCuboidsのようにスパースな時系列 特徴点や時系列領域より特徴ベクトルを抽出する方法が主で あったが,デンスな特徴抽出と特徴選択により時系列を記述. コーナー検出はxy, xt, yt空間に対して実行する.左下の2画像はデンスなコーナー 検出の一例である.コーナー検出のパラメータとしては [Orientation, Scale, Channel] を考慮した.Scale = {1,...,5},Channelは3種,Orientation = {1,...,8}である. 近隣の特徴点の共起性を考慮するが,単純に共起を取得するだけでは空間が膨 大になるので,Association Rulesを用いて信頼性の高いもののみ特徴量として残 すこととする. 監視レベルの映像から6クラスの行動認識を実行するKTHデータセットを用いた. 従来の手法では86%が最高であったが,提案手法により約95%にまで認識率を向上 させた. Links 論文 http://personal.ee.surrey.ac.uk/Personal/R.Bowden/publications/ ICCV09/PID950588.pdf プロジェクト
  • 40. Juan Carlos Niebles, Bohyung Han, Andras Ferencz, Li Fei-Fei, “Extracting Moving People from Internet Videos”, in ECCV, 2008. 【40】 Keywords: Action Recognition, Action Detection 新規性・差分 手法 結果 概要 2ステップ -- 人物検出やPictorial Structureにより所定の姿勢 を検出することでビデオ中から特定の人物行動の検出を行う. 人物検出の際にはFalse Positiveの棄却により誤りを省く. 人物のPictorial Structure姿勢表現により行動の検出やセグメ ンテーションを同時に実行する. 手法は人物の検出やクラスタリング,Pictorial Structuresを用いた時系列ボリュー ムの抽出にある(下図). 人物検出はHOG特徴量を抽出後,Boostingによるカスケード識別器を用いる.人 物検出後の矩形は独立しているため,人物の手がかりを元にして(時系列に)クラ スタリングを実行する. YouTubeから取得したデータに対して処理した結果を以下に示す. Links 論文 http://vision.stanford.edu/documents/NieblesHanFerenczFei- Fei_ECCV2008.pdf プロジェクト http://vision.stanford.edu/projects/extractingPeople.html データセット http://coblitz.codeen.org/vision.stanford.edu/projects/ extractingPeople/eccv08dataset.tar.gz
  • 41. Hao Jiang, David R. Martin, “Finding Actions Using Shape Flows”, in ECCV, 2008. 【41】 Keywords: Action Detection, Shape Flows 手法 結果 概要 オプティカルフローの集合体であるShape Flowをテンプレートと して,テストビデオから行動を検出する研究.ShapeFlowは時系 列情報を持ち,アピアランスによるノイズを含まないが,マッチ ングが非常に難しい.ここでは非凸計画問題(Non-convex integer problem)を解くことによりマッチングを実現する. 右下図は本論文でのマッチングの戦略を示す.(a)テンプレートとなるShape Flow, (b) 近傍フローの関係性を示したRelation Graph,(c) 対象ビデオのフロー,(d) 非 凸計画問題によるマッチング,(e)(f)はDPやICMによるマッチングである. Wezimann Action Datasetに対する行動検出はPrecision-Recall rateが約90%で あった.パラメータとして,Shape Flowは15フレームの蓄積を行い,マッチングを実 行した. Links 論文 http://cs.bc.edu/~hjiang/papers/conference/eccv08.pdf プロジェクト
  • 42. Imran N. Junejo, Emilie Dexter, Ivan Laptev, Patrick Perez, “Cross-View Action Recognition from Temporal Self-Similarities”, in ECCV, 2008. 【42】 Keywords: Action Recognition 新規性・差分 手法 結果 概要 Cross-viewによる行動認識の問題を解決すべく,自己類似性 を特徴とする.下図は自己類似性による行動認識の表現方 法.この手法はSelf-Similarity Matrices (SSM)と呼ばれてい る.図の例ではゴルフのスイングを示しており,見え方が全くこ となる場合にでもSSMの行列は類似していることがわかる.  ビューポイントが異なる場合でも行動認識を実行することが可 能にした. SSMは行列成分が(x,y,t)各フレーム間の距離であり,下の式のように対角成分が0 の行列である.右図のように二つの動線はスケールが異なるが,主要な成分はほ とんど変わらず,SSMをとってみると意味として同じ行動に分類できる. 特徴量にはHOGやLucas-Kanade Optical Flowを適用する.MoCapデータが得られ る場合には関節の動線を特徴として入力し,マッチングにはNearest Neighbor Classifier (NNC; 最近傍探索法)やカイを適用する. CMU MoCap(左),Weizmann(中),IXMAS(右)データセットを用いる.SSMを用いた 場合,同一視点やCross-viewの学習とテストに対しても良好な性能を達成した. Links 論文 http://www.irisa.fr/vista/Papers/2008-eccv-junejo.pdf プロジェクト
  • 43. Hedvig Kjellstrom, Javier Romero, David Martinez, Danica Kragic, “Simultaneous Visual Recognition of Manipulation Actions and Manipulated Objects”, in ECCV, 2008. 【43】 Keywords: Action Recognition, Object Interaction, CRF 新規性・差分 手法 結果 概要 Human-Object Interactionを観測することにより人物行動を認 識する研究.物体のアピアランス情報や人物が物体を扱う際 の行動を尤度として時系列モデルを構築.モデルには Connected Hierarchic CRF (CHCRF)を採用した. 従来,HOIの研究ではFactorial CRFが用いられていたが,単一 フレームにおける人物と物体の関係性のみしか表現できてい なかった.時系列の物体や人物の操作を強固に表現するため に時系列的に階層的なCRF (CHCRF)を提案. (下図)人物特徴量は肌色のセグメンテーションやその時系列 位置を記録する.さらには勾配のヒストグラムを抽出.物体特 徴量にはSIFTを用いた.右図はCHCRFのグラフィカルモデル であり,行動側の時系列モデル,物体側の時系列モデルやそ れらをPairwiseに学習する. 5クラスの物体 (animals, humans, airplanes, trucks, cars) が含まれるNORBデータ セットを用いて物体を学習した.認識のエラー率は6%台であった.その後,物体や 行動の複合問題であるObject-Action-Complex (OAC)データセットにて実験を行っ た. OACデータにはlook through binoculars, drink from cup, pour from pitcherと いった物体操作による人物行動が含まれており,CHCRFを用いた際の認識エラー 率がもっとも低かった. Links 論文 http://www.nada.kth.se/~danik/Papers/ECCV_2008.pdf プロジェクト Factorial CRF (ICML2004) http://homepages.inf.ed.ac.uk/csutton/publications/dcrf.pdf
  • 44. Hakan Bilen, Andrea Vedaldi, “Weakly Supervised Deep Detection Networks”, in CVPR, 2016. 【44】 Keywords: Weakly supervised, CNN, Object Detection 新規性・差分 手法 結果 概要 CNNのPre-trainedモデルを使用した,弱教師あり学習による物 体検出の手法を提案.ImageNetデータのPre-trainedモデルに 含まれる特徴を効果的に用いることで弱教師あり学習でも物体 検出の学習ができるというアイディア. End-to-Endでの弱教師あり学習による物体検出を提案.手法 の名前はWealy Supervised Deep Detection Network (WSDDN) とされている.下図は正解(緑枠)と不正解(赤枠)を示す. AlexNetやVGGNetのImageNet Pre-trainedモデルを適用する.候補領域のモデル により画像xより領域Rを抽出(Φ(x; R)を得る)し,画像サイズが任意で活性化関数 により特徴を抽出するSpatial Pyramid Pooling (SPP)に領域を挿入する.SPPを通 り抜けると特徴はRecognitionとDetectionの目的に分割され,認識クラスを抽出す るスコアΦ^c(x; R)と検出枠を出すためのスコアΦ^d(x; R)が出力される. ベンチマークデータにはPaccal VOC 2007と2010を用い た.物体検出の評価としてはIoUが50%を超える際に成功と した.2007では89%, 2010では36.2%という結果になった. Links 論文 http://www.robots.ox.ac.uk/~hbilen/pubs/cv/ bilen2016wsddn.pdf コード https://github.com/hbilen/WSDDN 著者 http://www.robots.ox.ac.uk/~hbilen/
  • 45. Ziming Zhang, Yiqun Hu, Syin Chan, Liang-Tien Chia, “Motion Context: A New Representation for Human Action Recognition”, in ECCV, 2008. 【45】 Keywords: MotionContext, ShapeContext 新規性・差分 手法 結果 概要 ShapeContextを参考にして,行動認識を対象に時系列情報を 表現するMotionContext (MC)を提案.MCにより特徴点や特徴 ベクトルを取り出し,コードワード表現 Motion Words (MWs)を生 成.MWやSVM, pLSAにより行動を識別する. 時系列表現の新しい特徴を提案した. Motion Images (MIs)の生成(左図)や,コードワード表現(右図)により特徴ベクトルを 抽出する.識別器はトピックモデルとしてよく知られるpLSAや識別的手法である SVMにより構成される. 表ではKTHデータに対する精度比較を示しており,ここではMCやpLSAを用いる方 法がもっともよく,91.33%を記録した.従来法と比較しても高いパフォーマンスを実 現した. Links 論文 https://pdfs.semanticscholar.org/ 43a5/6a5e8bccbf24552bfcfef65fe2c578d3aa47.pdf プロジェクト
  • 46. Du Tran, Alexander Sorokin, “Human Activity Recognition with Metric Learning”, in ECCV, 2008. 【46】 Keywords: Action Recognition, Metric Learning 新規性・差分 手法 結果 概要 学習データのサンプル数が十分に得られていない場面,かつ 身体全体の変化による行動を対象として,Metric Learningによ る認識を提案する. ・Metric Learningによる行動認識を提案し,学習になく信頼度 の低い行動は棄却する ・シンプルなアピアランス特徴により複雑なモデルを超える精度 を実現 ・実環境のデータにおいて高い精度を実現した 特徴量としては人物のバウンディングボックスからオプティカルフローを抽出してxy 方向のFx, Fyやシルエットに抽象化(左図),計216次元のヒストグラムを得る.識別 にはMetric Learningを行った1-NearestNeighborにより認識を実行.LMNNにより最 適化されたMahalanobis距離により識別を実行. 4つのデータ(IXMAS, Weizmann, 著者らの 自作, UMD)により評価を行った. Links 論文 http://vision.cs.uiuc.edu/projects/ activity/papers/ TranSorokinECCV08.pdf プロジェクト
  • 47. Hoo-Chang Shin, Kirk Roberts, Le Lu, Dina Demner-Fushman, Jianhua Yao, Ronald M Summers,“Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation”, in CVPR, 2016. 【47】 Keywords: Image Captioning, X-Rays, RNN 新規性・差分 手法 結果 概要 X線レントゲン画像からの画像説明文のためにアノテーションを 実行.具体的には疾病の種類や位置,状況などを説明する医 療診断用の文章を生成する.CNNによる特徴抽出,RNNによる 文章生成などベースは従来の方法で構成される. MS COCOなどのデータセットではWebなどを想定した限定的な シーンでの画像説明文の生成であったが,それらを医用画像 処理に拡張した. いかにX線画像に自動でアノテーションするかを考える.データセットには3,955の 放射線技師からのレポート,7,470の病院のアーカイブシステムが用いられる.画 像はPNGフォーマットで512x420~512x624pixelsで与えられるが,CNNに入力する際 に256x256pixelsに変換する.CNNのモデルとしてはシンプルながら効果的である Network-In-Network (NIN)を学習し,テストを実行する. 画像説明文の評価方法である BLEUにより評価した数値は表 の通りである. Links 論文 http://arxiv.org/pdf/1603.08486.pdf コード https://github.com/khcs/learning-to-read 著者 http://www.cs.jhu.edu/~lelu/ NINはモデルの構造が非常に簡潔で 最適化も行いやすく例としてAlexNetよ りもパフォーマンスが出ることが知られ ている.また,バッチ正規化(Batch Normalization)やData-Dropout (DDropout)をNINに施すことで精度が 向上した.アノテーション列を学習する ためにCNN特徴をRNNに入力し,テス トではLong-Short Term Memory (LSTM)やGated Recurrent Unit (GRU) を用いた.右図が本稿での構成であ る.
  • 48. Chih-Wei Hsu, Chih-Chung Chang, Chih-Jen Lin, “A Practical Guide to Support Vector Classification”, in, 2003. 【48】 Keywords: SVM, LIBSVM, Practical Guide 結果 概要 LIBSVMの著者らが紹介するSVMの実践ガイド.パラメータの 調整やデータの作りかたの手順などを示した教科書的な論文 (Cookbook).初心者では75.2% (Astroparticle), 36% (Bioinformatics), 4.88% (Vehicle)であった問題も著者らの解析 ではそれぞれ96.9%, 85.2%, 87.8%であった.ツールとして強力な ものであるにも関わらず,使い方次第では思うような精度を出 すに至っていないことも多いことから本論文を書いたようであ る. ・カテゴリ特徴:1次元 (e.g. ±1, 0)で示すより,3種のラベルを (0,0,1), (0,1,0), (1,0,0) で示す ・スケーリング:要素の値域を[-1, +1], [0, 1]で正規化する ・カーネル関数:RBFカーネルを用いるのが良い,調整するパラメータはCとγであ り問題によって変更する. ・交差検証(Cross-validation)とグリッドサーチ:データが混ざりオーバーフィッティン グするといけないので,学習とテストサンプルは分離する(左図).また,パラメータ を探索する時には網羅的かつステップ幅を設けて探索する(右図).一番良いパラ メータをその問題の最適値として選択. Vehicleデータを例に取ると,最初は2.43%だった精度がスケールの正規化を行うと 12.19%,C, γパラメータ調整により84.87%,モデルの選択により87.80%にまで向上 する. Links 論文 http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf スライド http://www.slideshare.net/sleepy_yoshi/svm-13435949 著者 http://www.csie.ntu.edu.tw/~cjlin/ SVMはデータxとラベルyを与えられた(x, y) 際の学習の方策であ る.xは特徴空間,yは基本的には{-1, 1}をとる.データxは関数 Φを用いることで,より高次な特徴空間に投影される.ここでパ ラメータC (> 0)は損失項のペナルティパラメータである.カーネ ル関数K(x_i, x_j) = Φ(x_i)^T Φ(x_j)で示される. 定式・手法
  • 49. Alper Yilmaz, Mubarak Shah, “Recognizing Human Actions in Videos Acquired by Uncalibrated Moving Cameras”, in ICCV, 2005. 【49】 Keywords: Action Recognition, Pose 新規性・差分 手法 結果 概要 身体から特徴点を追跡し,動的かつキャリブレーションされてい ないカメラからでもカメラパラメータの復元や行動認識を行える ようにした論文. 動くカメラからでも人物の特徴点追跡を実行し,Dynamic Epopolar GeometryによりTemporal Fundamental Matrix (TFM) を推定した. 動的なカメラ環境下ではエピポーラ幾何によ る行列は用いることができないが,それを拡 張したTemporal Fundamental Matrix (TFM)を 提案した.↓は通常のエピポーラ幾何との違 い. 下のConfusion Matrixは提案手法であるTFMや特徴点追跡を実行した結果(左)で ある. Links 論文 http://crcv.ucf.edu/papers/yilmaz_iccv_2005.pdf プロジェクト
  • 50. Minghuang Ma, Haoqi Fan, Kris M. Kitani, “Going Deeper into First-Person Activity Recognition”, in CVPR, 2016. 【50】 Keywords: CNN, First-Person Vision, Action Recognition 新規性・差分 手法 結果 概要 一人称ビジョンにいかにDeep Learning,特にConvolutional Neural Network (CNN)を用いるかを検討した論文である.提案 手法では物体認識用のCNN (ObjectNet)や行動認識用のCNN (ActionNet)をTwo-streamで処理し,最後に総合して結果を得 る. 一人称ビジョンにおける行動認識や物体認識を同時に解決す る深層学習モデルを提案し,高い精度でそれぞれを認識するこ とに成功した. アピアランスモデルやモーションモデルを統合して総合的な行動認識を実行した. (e.g. object: milk container, action: take, activity: take milk container) アピアランス 側ではHand Segmentationや物体位置の抽出を行い,モーション側ではTwo- streamConvNet [Simonyan+, NIPS14]のようオプティカルフローからの畳み込みを 実行した.それらを総合的に判断して最終的にはより高次の行動として認識可能 とした. GTEAやGazeデータセットが一人称ビジョンの行動認識においてはよく用いられ る.表は他手法と比較した結果である.ObjectNetやActionNet,さらにはそれらの 統合がもっとも高い精度を示す. Links 論文 http://www.cs.cmu.edu/~kkitani/pdf/MFK-CVPR2016.pdf プロジェクト http://www.hci.iis.u-tokyo.ac.jp/~cvs/
  • 51. Hakan Bilen, Basura Fernando, Efstratios Gavves, Andrea Vedaldi, Stephen Gould, “Dynaic Image Networks for Action Recognition”, in CVPR, 2016. (oral) 【51】 Keywords: Action Recognition, CNN, Dyanmic Image 新規性・差分 手法 結果 概要 動的な画像表現をコンパクトなConvolutional Neural Networks (CNN)で実現するための方法を提案する.動画像表現はRank Poolingにより行われ,時系列の変化(temporal evolution)を効 果的に表現する. 既存のCNNモデルを用い,動画像によりFine-tuningを実行す ることにより動的な画像表現を簡易的に行うことが可能であ る.このアイディアは [Fernando+, CVPR15]を参考にしている. 左下図のようなDynamic Imagesを生成して,CNNのFine-tuningを実行.例えば ImageNet Pre-trainedモデルとモーション認識のための特徴の乖離が激しいので, 膨大な学習サンプルが必要となる.これに対して本論文では前景のモデリング(背 景は統計的に棄却)や,データ拡張により学習のサンプルを行う.データ拡張では 各ビデオのミラーリング,クロッピングなどをして動画のサブセットを生成し, Dynamic Imageを作成する.RankPooling Layer (RankPool)では,時系列情報を整 理しランク付けと効果的なオーダーにならべかえることができるとしている ([Fernando+, CVPR15]より).これを用いることでコンパクトかつ強力に時系列表現 がCNNないでも可能になる. ベンチマークにはHMDB51やUCF101データ セットを用いた.HMDB51では65.2%,UCF101 では89.1%とハイレベルな認識を実現した. Links 論文 http://www.robots.ox.ac.uk/~hbilen/pubs/cv/bilen2016dynamic.pdf コード https://github.com/hbilen/dynamic-image-nets 著者 http://users.cecs.anu.edu.au/~basura/ 論文中では,Approximate Dynamic Mapsという,時 系列情報を保有する特徴マップの近似的な手法を 提案しており,よりリアルタイムでの処理に近づい た.
  • 52. Christoph Feichtenhofer, Axel Pinz, Andrew Zisserman, “Convolutional Two-Stream Network Fusion for Video Action Recognition”, in CVPR, 2016. 【52】 Keywords: Action Recognition, Two-Stream ConvNet 新規性・差分 手法 結果 概要 Two-stream ConvNet [Simonyan+, NIPS14]の改良版であると いう位置づけ.Two-streamでは空間特徴とモーション特徴が完 全に独立になっており,最後にSVMを用いて統合(LateFusion) されていたが,今回は両者の関係性を途中の畳み込み段階か ら統合させるという手法. 最終的にはTwo-streamよりも途中の畳み込み層で特徴マップ を統合した方が精度が良いという結論になった.下図はTwo- Stream ConvNetの1~3層を示した図.統計的に見て,空間/ モーション情報ともに統合した方がよさそうに見える. Two-Streamの欠点として (1) 空間/モーションの特徴マップにおいてピクセルごと の対応や統合を検討できていなかったこと (2) 空間的,時系列的な表現に乏しく, 行動の時系列変化に対応しきれていないこと が挙げられる. 空間的な統合方法としてはSumFusion (単純な特徴マップの和), MaxFusion (2つの 特徴マップの値のうち最大のものを蓄積),ConcatenationFusion (2つの特徴マップ の,2つのチャネルを統合),ConvFusion (畳み込み的に統合),BilinearFusion (特 徴マップ間の外積をとる)を適用. データにはUCF101やHMDB51を用いた.統合する位置や手法としては ReLU5+ConFusionがもっともよく,パラメータ数も抑えられることが判明した.また, ふたつの層を結合する際にはReLU5+FC8が良いとした.さらには3Dconv+3DPool を用いる方がよく,最終的にはVGG-16アーキテクチャを用い,IDTと統合した場合 にはUCFに て93.5%,HMDB51では69.2%の精度を 達成した. Links 論文 http://arxiv.org/pdf/1604.06573.pdf GitHubコード https://github.com/feichtenhofer/twostreamfusion [Simonyan+, NIPS14] http://web.cs.hacettepe.edu.tr/~aykut/classes/spring2016/bil722/slides/w07- two-stream-CNNs.pdf 統合する際の畳み込みやプーリングも3次元(X, Y, T)にした.それぞれのスケールは3x3x3で3次 元である.
  • 53. Iro Armeni, Ozan Sener, Amir R. Zamir, Helen Jiang, Ioannis Brilakis, Martin Fischer, Silvio Savarese, “3D Semantic Parsing of Large-Scale Indoor Spaces”, in CVPR, 2016. (oral) 【53】 Keywords: 3D Semantic Parsing 新規性・差分 手法 結果 概要 大規模3次元空間の意味的解析 (Semantic Parsing)に関する 論文.膨大な3次元点群(Point Clouds)を入力とし,空間内の意 味的な解析を行う. (1)3次元点群の意味を解析して境界をロバストに認識できる (2) 屋内や建物の構造を事前情報として把握した上で意味付け を行う (3)大規模3次元点群データを提供する 入力は大規模な屋内環境における3次 元点群(色つき)とする.物理的な大きさ は6,400m^2であり,215,000,000もの3次 元点が含まれる.下図が処理手順であ り,3次元点群の入力から空間を分割し て意味付けするためのCNNを構成す る. 各クラスの意味付けは下の表の通りである.床(47.60)や天井(89.23), 壁(77.21)など建物の構造的な意味を推定するのは得意であったが, テーブル(28.15)や椅子(16.75)など家具の推定は苦手である.平均する と48.16%での意味付け精度であった. Links 論文 http://buildingparser.stanford.edu/images/ 3D_Semantic_Parsing.pdf プロジェクト http://buildingparser.stanford.edu/index.html データセット http://buildingparser.stanford.edu/dataset.html
  • 54. Jing Wang, Yu Cheng, Rogerio Schmidt Feris, “Walk and Learn: Facial Attribute Representation Learning from Egocentric Video and Contextual Data”, in CVPR, 2016. (oral) 【54】 Keywords: Attribute, Face Reognition, Egocentric Vision 新規性・差分 手法 結果 概要 一人称カメラから人物の顔やファッションのアトリビュートを推 定する.手法にはSiamese Networkを用いて2つの画像を入 力,それらの属性が同じ/異なる を判定する.あらかじめ手に 入る顔認識のデータセットによりFine-tuningをして,ネットワー クのパラメータを最適化する.GPSからの位置情報により天気 やその地域の人種を記録できるようになる. ・新しい一人称ビジョンのデータセットを提供する ・Walk and Learnの概念を提唱:一人称カメラで街中を歩くだけ で顔属性認識のための学習が行えるというもの 手法は下図の通りである.2つの画像を入力し,Siamese Networkにより属性が同 じかどうかを判定する.その後,顔特徴量や地図上の位置を判定するためのDeep Architectureを学習する.データセットには一人称ビジョンから撮影された街中の映 像が移されており,人物の顔トラッキングを行い,データベースに記録していく.同 時にGPS情報も記録している. 天気の情報や位置情報を従来の顔特徴に追加す ることで属性推定の精度が向上することが判明し た.LFWAやCelebAデータセットに対する属性認識 において従来法よりも向上している. Links 論文 http://arxiv.org/pdf/ 1604.06433v1.pdf プロジェクト https://sites.google.com/site/ jingwangnu/
  • 55. Andreas Richtsfeld, Thomas Morwald, Johann Prankl, Michael Zillich, Markus Vincze, “Segmentation of Unknown Objects in Indoor Environments”, in IROS, 2012. 【55】 Keywords: 3D Segmentation, Object Recognition, RGB-D 新規性・差分 手法 結果 概要 RGB-Dデータからの3次元物体セグメンテーションに関する論 文でデータセット(The Object Segmentation Database; OSD)も 公開されている. RGBDやポイントクラウドのデータを提供して,広く3次元物体セ グメンテーションの問題を解決するための足がかりとしたことが 新規性としてあげられる. Data Abstraction: 3次元点群のセグメンテー ションのためにNon-Uniform Rational B- Splines (NURBS)モデルを仮定する.これは 非線形のスプライン曲線であり,今回は入力 のポイントクラウド空間に対してあてはめる. Object Segmentation: 表面のパッチ関係性 を求めて,物体ラベルの割り当てを行う.識 別モデルにはSVMを適用する.最終的な領 域の分割にはGraphCutアルゴリズムを適用 する. データセットには3次元点群データやカラー画像も配布されている. 左はデータセットの統計値であり,右は精度の比較である. Links 論文 https://www.researchgate.net/profile/Andreas_Richtsfeld/ publication/ 261353409_Segmentation_of_unknown_objects_in_indoor_environmen ts/links/543fd14c0cf21227a11b8562.pdf
  • 56. Katsunori Ohnishi, Atsushi Kanehira, Asako Kanezaki, Tatsuya Harada, “Recognizing Activities of Daily Living with a Wrist-mounted Camera,” CVPR 2016 【56】 Keywords: 新規性・差分 手法 結果 概要& ・日常生活動作(ADL)を一人称視点から認識する上では操作 物体の認識が重要になるが、操作物体を認識するならばカメラ をhead-mountするよりも手首につけた方がより認識できるの で、行動の認識もより正確にできるというもの。 動画の認識アルゴリズムにおいても、手首カメラの映像は位置 バイアスが非常に強いのでそういったバイアスをより捉えやす いアルゴリズムを提案。 手首カメラから撮影されたデータセットはないので作成して公 開。比較のため同時にhead mount カメラでも撮影した。 ・LCD [Z. Xu et al., CVPR15]をベースにVLADでコーディングするときに Discriminative Spatial Pyramid [T. Harada et al., CVPR11]を組み込んで位置バイ アスをより捉えられるようにしたもの。(DSAR) DSARを更に時間方向にもPyramidを切ったもの(DSTAR) DSTARは時間方向と空間方向にPyramidがあり、そのweightを同時に更新するの は難しいのでbilinearな感じで更新していく ・Wrist mount camera >> Head mount camera またwrist mountでは 時空間バイアスを利用>空間バイアスを利用>利用しないという結果に Links 論文 http://arxiv.org/abs/1511.06783 プロジェクト http://www.mi.t.u-tokyo.ac.jp/static/projects/miladl/ (coming soon)
  • 57. Hirokatsu Kataoka, Soma Shirakabe, Yudai Miyashita, Akio Nakamura, Kenji Iwata, Yutaka Satoh, “Semantic Change Detection with Hypermaps”, in arXiv pre-print 1604.07513, 2016. 【57】 Keywords: Semantic Change Detection, Hypermaps, Hypercolumns 新規性・差分 手法 結果 概要 変化位置に対して意味付けを行う意味的変化検出 (Semantic Change Detection)を提案.直感的には,変化検出とセマン ティックセグメンテーションを同時実行する.この問題に対して Hypercolumns [Hariharan+, CVPR15]を改良したHypermapsを 提案. 1.  新しい概念であるSemanti Change Detectionを提唱す る.下図は変化検出と意味的変化検出のイメージ図. 2.  Hypercolumnsの改良版であるHypermapsを提案する. ピクセル単位でCNNの中間層を蓄積するのでなく,各 カーネルの代表値を蓄積. 提案手法としては,Hypercolumns [Hariharan+, CVPR15]を改良したHypermapsを 提案.本論文ではAlexNetではなく,VGGNetのアーキテクチャを採用した. HypercolumnsはCNNの全結合層のみならず第2プーリング層 (pool2; 128channels) や第4畳み込み層 (conv4; 512channels)を特徴として積み上げる. 実験には,領域に対して意味付けすることにより 際アノテーションしたTSUNAMIデータセットを適 用.パラメータ調整により,Multi-scale,パッチサイ ズ,データ拡張有,ガウスパラメータを設定.2つの テストセットに対し,Hypercolumnsと比較して Hypermapsはそれぞれ+4.64%, +3.54%の向上が見 られた. Links 論文 http://arxiv.org/pdf/1604.07513v1.pdf プロジェクト Hypermapsでは中央の値を割り当てるのではな く,特徴マップから各チャネルにガウス分布によ り重み付けした代表値を蓄積する.特徴ベクトル はHypermaps, Hypercolumns共に 128+512+4,096=4,736次元である.
  • 58. Abhinav Shrivastava, Abhinav Gupta, Ross Girshick, “Training Region-based Object Detectors with Online Hard Example Mining”, in CVPR, 2016. (oral) 【58】 Keywords: Hard Negative Mining, R-CNN, Object Detection 新規性・差分 手法 結果 概要 物体検出のための学習には多大なコストやパラメータのチュー ニングを行うが,できる限り効果的に最適化を行う手法Online Hard Example Mining (OHEM)を提案する.ベースとなるアルゴ リズムはFast R-CNN (FRCN)であり,物体検出に特に重要なト レーニングセットであるHard Negative (クラス間の境界付近に 位置するサンプル)を見つけ出すことが重要であるとした. ・ブートストラップ法に基づくHard Example Miningを提案するこ とで,煩わしいパラメータ調整を省き,効果的に最適化を行え る. ・MSCOCOやPASCAL VOCのテストセットに対して改善が見ら れた. ベースとなるアルゴリズムはFast R-CNN (FRCN) [Girshick, ICCV15]であり,画像 や物体候補領域(RoIs)の入力が必要である. 提案手法では,FRCNの学習時にHard Negativeを選択することがポイントである. 入力のRoIs画像に対してエラー率を計算し,エラーが大きいものをHard Negativeと して選定する.したがって,CNNのモデルを更新するために必要なサンプル数はご く少数で済み,なおかつクラス間を分離するために必要なサンプルのみを用いるこ とが可能である. 実験はPASCAL 2007や2012に対して行った.それぞれ78.9%, 76.3%と非常に高い 精度での認識を可能にした(表).表中にはトレーニングセットやmAPが含まれてい る. Links 論文 http://arxiv.org/pdf/1604.03540v1.pdf 著者 http://abhinav-shrivastava.info/
  • 59. Spyros Gidaris, Nikos Komodakis, “LocNet: Improving Localization Accuracy for Object Detection”, in CVPR, 2016. (oral) 【59】 Keywords: Object detection, CNN 新規性・差分 手法 結果 概要 物体検出の領域抽出の精度を向上させるため,与えられた候 補領域や物体検出位置を再評価してバウンディングボックスを より正確に割り当てるための方法(LocNet)を提案.近年の物体 検出の評価は推定領域とGroungTruthの交差領域(IoU)が50% 以上であるが,より正確に位置を割りあてることが求められる. ・現在の候補領域抽出が不十分であるため,バウンディング ボックスの回帰をニューラルネット内で実行する. アルゴリズムを右に示す.入力は画像Iとその(初期の) バウンディングボックスB^1であり,出力は最終検出結 果Yである.仮説1~Tを評価することとし,認識のスコア 値S^t <- Recognition(B^t|I)を評価,その後バウンディ ングボックスを評価 B^t+1 <- Localization(B^t|I)する. それらを総合的に評価し,最終的に後処理を行った上 (PostProcess(D) )で最終検出結果Yに至る.下記は LocNetのアーキテクチャである. 下記はPASCAL VOC 2007/2012に対する検出結果である.IoUが0.7の場合でも高 い推定精度を実現している. Links 論文 https://arxiv.org/pdf/1511.07763v2.pdf プロジェクト https://github.com/gidariss/LocNet ・パラメータを限定的にした CNNモデルを提案した.この 物体検出器をLocNetとして 新たに提案する.
  • 60. Liang Lin, Guangrun Wang, Rui Zhang, Ruimao Zhang, Xiaodan Liang, Wangmeng Zuo, “Structured Scene Parsing by Learning CNN-RNN Model with Sentence Description”, in CVPR, 2016. (oral) 【60】 Keywords: Scene Understanding, Scene Parsing 新規性・差分 手法 結果 概要 CNNやRNNを用いた総合的なシーン解析について提案する. CNNによりピクセル毎の物体ラベルを推定し,RNNにより階層 的な物体の構造や物体間の(inter-object)関係性について記述 する. 下図は提案のシーン解析モデルを提案する.CNNの物体毎の ラベルを割りあて,階層的な把握にはRNNを用いる.CNN- RNNによる階層的なシーン解析を可能とした. 下図はCNN-RNNモデルによる階層的シーン解析モデルである.CNNではセマン ティックラベリングや特徴表現について出力する.RNNでは与えられたラベルやそ の領域の特徴量を解析して詳細なシーン解析を実行する.トレーニングはWeakly- Supervised Modelにより実行する.ロス関数は下記式(8)により定義し,CNNとRNN の損失を同時に最適化することで識別器のパラメータを得る. 表はPASCAL VOC 2012のテストセッ トに対して評価した結果である.学習 の方策を変更して評価. Links 論文 https://arxiv.org/abs/1604.02271 プロジェクト
  • 61. Chenliang Xu, Jason J. Corso, “Actor-Action Semantic Segmentation with Grouping Process Models”, in CVPR, 2016. 【61】 Keywords: Action Semantic Segmentation, Action Recognition 新規性・差分 手法 結果 概要 Actor-Action (行動者とその行動を推定する)に関して,その行 動者や行動を推定するのみならず,セマンティックセグメンテー ションも与える.CRFやSupervoxelのフレームワークにより時系 列領域を推定する. ・GPMにより意味的なラベルを階層的な領域に統合した ・今回,ActorやそのAction,さらにはそれらのセマンティックセ グメンテーションを実現した 前処理としてPairwise-CRF (近傍のみがつながっている)による荒いセグメンテー ションを実行する.次に階層的Supervoxelによる時系列ラベリングを実行.この CRFやSupervoxel Hierarchyを相補的に行う仕組みをGrouping Process Model (GPM)と呼ぶ.GPMではCRFからグルーピングの手がかりを,Supervoxel Hierarchyからはラベリングの手がかりを渡して繰り返し最適化を行う. 実験にはA2Dデータセットを適用した.結果は下の表に示す通りである. Links 論文 http://arxiv.org/pdf/1512.09041.pdf ビデオ https://www.youtube.com/watch?v=3Dvg5hzI-y4 著者 http://www-personal.umich.edu/~cliangxu/
  • 62. Hirokatsu Kataoka, Masaki Hayashi, Kenji Iwata, Yutaka Satoh, Yoshimitsu Aoki, Slobodan Ilic, “Dominant Codewords Selection with Topic Model for Action Recognition”, in CVPR Workshop, 2016. 【62】 Keywords: Action Recognition, Topic Model, Dense Trajectories 新規性・差分 手法 結果 概要 トピックモデル(Latent Dirichlet Allocation; LDA)を用いて行動 認識に有効な特徴選択を行う.行動認識にDense Trajectories を用いているが,背景にノイズが乗ってしまうため,トピックごと (≒ プリミティブなモーション)に分類し,各トピックのノイズを除 去することで行動認識の精度を向上した. オリジナルのトピックモデルであるLDAを用いて時系列行動認 識の精度を向上させた.非常に簡易的なモデルでパフォーマン スをあげることができることを実証した. 右図が提案手法の流れである.入力となる データはDense Trajectories (DT)である.ト ピックモデルLDA (Latent Dirichlet Allocation)への入力のため,コードワード化 にはBag-of-words (Bow)を用いている.ここ で,トピックは各プリミティブなモーション (DCS)を近似していると言える.各DCS内で 閾値を設けることで,小さなモーションからも ノイズを綺麗に除去できるという戦略であ る.最後にノイズを除去したDCSを統合する ことでDominant DT (DDT)を生成する.DDT をSVMで学習したものが最終的な識別器で ある. INRIA surgery, IXMAS, NTSEL, MPII cookingデータセット に対して実験を行った.DDTを用いた各結果は80.4%, 94.6%, 90.9%, 61.8%でこれはオリジナルのDTよりも+4.9%, +1.5%, +3.7%, +2.3%良好な結果である.さらに,MPII cookingに関しては共起特徴[Kataoka+, ACCV14]も用いて 68.9%にまで向上した. Links 論文 http://www.hirokatsukataoka.net/pdf/ cvprw16_kataoka_ddt.pdf プロジェクト
  • 63. Andrew Owens, Phillip Isola, Josh McDermott, Antonio Torralba, Edward H. Adelson, William T. Freeman, “Visually Indicated Sounds”, in CVPR, 2016. (oral) 【63】 Keywords: Sound Prediction 新規性・差分 手法 結果 概要 音の付いていない映像から音を推定する研究.音付きの映像 からその音声と映像の対応を学習し,音無しの映像に対して転 移させてテストする. 映像から音を割り当てるための研究を実現した.例えばドラム スティックを打つ映像からドラムの音を再現するといった感じに 無音の映像に音を割り当てることが可能となる. 学習はCNNやRNN(特に,LSTM)を用いて行う.CNNにより画像特徴を学習し, RNNにより時系列の映像や音声を割り当てる.データセットはGreatest Hits Volume 1 datasetを提案(下図).データセットには978のビデオが含まれ,トータル で46,620ものアクションとその音声が含まれる.材質も約20種含まれる. 右は提案モデルを使用した際 の音声推定率を示す.精度は さほど高くないように見えるが, ランダムよりもかなりよく,今後 の可能性がうかがえる. Links 論文 http://arxiv.org/pdf/1512.08512v1.pdf プロジェクト ビデオ https://www.youtube.com/watch?v=JpZUZ9ZDECE
  • 64. Patrick Bardow, Andrew Davidson, Stefan Leutenegger, “Simultaneous Optical Flow and Intensity Estimation from an Event Camera”, in CVPR, 2016. (oral) 【64】 Keywords: Sensor 手法 結果 概要 イベントカメラ(下図; Raw Input)から輝度(下図; Reconstruction) やオプティカルフロー(下図)を復元する研究である.空間的,時 間的に正規化を行ったコスト関数を導入してイベントカメラから の輝度値やフローの画像復元を試みた. 本提案では生物学的にインスパイアされたイベ ントカメラを用いる.イベントカメラでは前後フ レームで変化したピクセルのみを記録し画像を 取得する.前のフレームより輝度値が低(高)け れば負(正)のイベントが生起したとみなす. スライディングウィンドウにより分散を最適化す る. 下図のようなHigh Dynamic Rangeのシーンにおいても高い精度で復元ができてい る.また,輝度値と同時にフロー画像も復元した.GPUで再構成を行っており,リア ルタイムに近い復元を実現した. Links 論文 http://www.doc.ic.ac.uk/~pb2114/papers/1934.pdf プロジェクト http://wp.doc.ic.ac.uk/pb2114/publication/simultaneous-optical- flow-and-intensity-estimation-from-an-event-camera/ ビデオ https://www.youtube.com/watch?v=1zqJpiheaaI
  • 65. M. Harandi , M. Salzmann , and F. Porikli, “When VLAD met Hilbert”, in CVPR, 2016. 【65】 Keywords: VLAD, Kernelization, Kernel Approximation, Grassmann manifold, SPD 新規性・差分 手法 結果 概要 ・VLADは局所記述子のaggregationで使われる画像表現だが、局 所記述子を適切にベクトルで表現できない場合には非力 ・Kernelizationによりそのような場合でも有効に働くようにし、更にはよ り良い識別器の学習も可能に ・Kernel VLADの近似も提案 ・諸々の実験で先行研究と同程度もしくは上回る性能 ・VLADをkernelization (Kernel VLAD, kVLAD) ・kernelの局所的な近似手法も同時に提案 (sVLAD)、さらに Nystromの手法 (nVLAD, sVLADを局所的じゃなくしたもの), Random特徴 (fVLAD, Kernelがシフト不変(つまりk(x, y) = k(x- y))な場合にのみ適用可能)に基づいた近似も提案 ・VLADでおなじみのL2 power normalizationも可能、signed squared root normalizationはKernelのHilbert空間への射影が 自明じゃないと厳しいらしい [Kernel VLAD] ・k-means → kernel k-means ・codebook割り当て → ||Φ(x) - Φ(c)||^2 = k(x, c) - 2k(x, c) + k(c, c)を最小とする ようなcodebookに ・Kernel VLAD同士の積もカーネルだけで表現できる [sVLAD, Kernel VLADの近似] ・各codebookに割り振られた局所記述子を元にしてcodebookごとにNystromの方 法で近似用の射影を用意 ・Grassmann manifold上の点, 正定値対称行列などを局所記 述子とする場合の実験を行い既存手法を超える性能 ・VOC07での実験(SIFTとRBF kernel?)も良好(右上表)、 ECCV2014の教師付きVLADと近い性能 ・kVLADの方がsVLADより高速らしい (右下表) Links 論文 (camera review版ではない可能性あり) http:// infoscience.epfl.ch/record/217986/files/ HarandiSalzmannPorikliCVPR16.pdf