SlideShare a Scribd company logo
cvpaper.challenge
	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Alan M. Turing, “Computing Machinery and Intelligence”, in Mind 49: 433-460, 1950.
【1】
Keywords: Turing Test, Alan Turing
新規性・差分
概要
「コンピュータは考えるか?」について議論し、チューリングテストを提案した論⽂。チューリン
グテストでは計算機と⼈間に対して質問者が複数の問いを⾏い、傍観者が両者の⾒分けがつかない
場合に合格となる。ここで、チューリングテストに合格するためには、⼈間を模倣するための⾼度
な技術が必要となる。チューリングは⼈間を模倣することがコンピュータが発達する緊急の⽅法で
あると主張している。論⽂中ではコンピュータが考えることに対しての(1)神学的な議論、
(2)現実逃避、(3)数学的な議論、(4)意識の拡張、(5)種々の障害などの反論について
検証している。
・コンピュータが⼈間の模倣をする、という考えは現在でも通じるもので、論⽂を読んでいても1950
年に発⾏されたという感覚はなかった。
・模倣するコンピュータ(チューリングマシン)の概念から、学習する機械に⾄るまで記述がされて
いる
Links
論⽂
https://www.csee.umbc.edu/courses/471/papers/turing.pdf
⽇本語訳 http://www.unixuser.org/~euske/doc/turing-ja/
Jitendra Malik, Pablo Arbelaez, Joao Carreira, Katerina Fragkiadaki, Ross Girshick, Georgia Gkioxari,
Saurabh Gupta, Bharath Hariharan, Abhishek Kar, Shubham Tulsiani, “The three R’s of computer vision:
Recognition, reconstruction and reorganization”, in Pattern Recognition Letters, 2016.
【2】
Keywords: Computer Vision, Recognition, Reconstruction, Re-organization
概要
新規性・差分
・主に画像に写っているものをどう理解するのか、を俯瞰してまとめた論⽂であ
る。(⼤御所のJitendra Malikが執筆している)
Links
論⽂
https://pdfs.semanticscholar.org/d1cd/
6a085cb52df16d65253dccba5dab24a2ac8e.pdf
プロジェクト
コンピュータビジョンにおける⼤別3つーRecognition(認識), Reconstruction(再構成),
Re-organization(再組織化)ーやそれらの連携について述べた論⽂。具体例としては下記
の通りである。
Reorganization => Recognition: R-CNNなど候補領域抽出と物体検出
Recognition => Reorganization: Semantic segmentationなど
Recognition => Reconstruction: Viewpoint predictionのための物体認識
Reconstruction => Recognition: 3D Recognition
Reconstruction => Reorganization: Depthからの境界検出など
Reorganization => Reconstruction: セグメンテーションからの3Dポイントクラウド
8章のPutting it together では、例としてBerkeleyチームの[35](右下図)が挙げられ、
Reorganization(境界検出からの物体候補領域)やRecognition(物体検出・認識)から詳細
な3次元姿勢推定(Reconstruction)まで含めた理解を⾏うことができる。
Saurabh Gupta, Pablo Arbelaez, Ross Girshick, Jitendra Malik, “Aligning 3D Models to RGB-D Images of
Clustered Scenes”, in CVPR, 2015.
【3】
Keywords: RGB-D, 3D reconstruction
新規性・差分
概要
RGB-D画像から詳細な3次元再構成(3D⾃体+詳細な姿勢)を⾏う研究
である。Jitendra Malikの3R(Recognition, Reconstruction,
Reorganization)を体現した研究である。ここでは、Recognition(物体
検出、セグメンテーション)やReorganization(輪郭抽出、候補領域)
から詳細な3次元のReconstruction(姿勢推定や3Dモデル抽出)を⾏
う。
・3Dのモデルフィッティングを⾏うために、まずは物体
ラベルやセマンティックセグメンテーションを⾏うこと
が、姿勢推定に役⽴つことを⽰した。
・右下の表はNYUD2に対しての精度⽐較である。
Links
論⽂ https://people.eecs.berkeley.edu/~sgupta/pdf/rgbd-pose.pdf
ポスター https://people.eecs.berkeley.edu/~sgupta/pdf/rgbd-pose-poster.pdf
Abhishek Kar, Shubham Tulsiani, Joao Carreira, Jitendra Malik, “Category-Specific Object
Reconstruction from a Single Image”, in CVPR, 2015.
【4】
Keywords: RGB, 3D Reconstruction, Object Detection, Segmentation
新規性・差分
概要
RGBを⼊⼒とした3D再構成やDepth推定に対して、あらかじめ物体検出やセマ
ンティックグメンテーションを⾏う。復元した3Dモデル⾃体はラフではあるも
のの、RGBのみの⼊⼒からReconstructionを実現。本研究も、Jitendra Malikの
3R(Recognition, Reconstruction, Reorganization)を体現した研究である。
(2014 ~ 2015年あたりは3Rの循環を意識して研究していたのかもしれない)
・物体のカテゴリやセグメンテーション情報が存在すると
Viewpointの推定がしやすくなり、そのまま3D再構成や
Depth推定に⽤いることができることを実証した。
Links
論⽂
http://people.eecs.berkeley.edu/~akar/
categoryshapes.pdf
動画
https://www.youtube.com/watch?
v=5XDwkazszRE
Gül Varol, Ivan Laptev, Cordelia Schmid, “Long-term Temporal Convolutions for Action Recognition”,
in arXiv 1604.04494, 2016.
【5】
Keywords: 3D Convolution, CNN, Action Recognition
新規性・差分
概要
CNNベースの⼿法が⾏動認識において成功を収めている
が,従来の⼊⼒の時間的な⻑さは短いため,⾏動全体に渡
る⻑期的な時間情報は捉えられていない.この論⽂では⼊
⼒の時間⻑を⻑くしたときの⾏動認識における精度への影
響を調査した.実験の結果,C3DベースのCNNにおいて⼊
⼒の時間⻑が⻑くなるに連れて⾏動認識精度が向上するこ
とを確認できた.また,⼊⼒の違いによる影響も確認した
結果,⾼精度なOptical FLowのconvolutionが最も⾼い精度
を⽰すことがわかった.組み合わせも含めると最も⾼い精
度を⽰したのは,RGB, Flow, IDTの組み合わせであった.
⼊⼒の時間⻑の変化による影響を丁寧に実験で調査してお
り,それを明らかにした点に新規性がある.
Links
論⽂ https://arxiv.org/abs/1604.04494
プロジェクト https://www.di.ens.fr/willow/research/ltc/
Huijuan Xu, Abir Das, Kate Saenko, “R-C3D: Region Convolutional 3D Network for Temporal Activity
Detection”, in arXiv 1703.07814, 2017.
【6】
Keywords: CNN, C3D, Activity Detection, R-CNN
新規性・差分
概要
・Temporal Activity Detectionのための⼿法を提案.基本的
にはObject DetectionにおけるFaster R-CNNをActivity
Detectionに応⽤した⼿法.C3Dをベースとし,3D
Convolutionをして特徴マップを計算後,Region Proposals
NetworkでTemporal Regionsを推定,各Regionを
Classification Networkで識別する.THUMOS’14や
ActivityNetなどのデータでstate-of-the-artな精度を達成.
C3Dベースなこともあり,⾮常に⾼速な動作を実現できて
おり,1000fpsを達成している.
・映像に対してFaster  R-CNNの枠組みの適⽤を成功さ
せた点に新規性がある
・精度もDetectionの問題においてstate-of-the-artを達成し
た.
Links
論⽂  https://arxiv.org/abs/1703.07814
プロジェクト
Zheng Shou, Dongang Wang, Shih-Fu Chang, “Temporal Action Localization in Untrimeed Videos via
Multi-statge CNNs”, in CVPR, 2016.
【7】
Keywords: Temporal Action Localization, CNN
新規性・差分
概要
Temporal Action Localizationの従来⼿法ではSliding
Windowによる検出結果をNMSの後処理を通して出⼒する
事が多い.この場合正解との重なりが⼩さいがスコアは⾼
い検出が存在すると重なりは⼤きいがスコアは⼩さい検出
は消されてしまい,開始・終了時刻の推定精度が低下す
る.この研究では,Proposal, Classification, Localizationと
いう3種類のネットワークを段階的に適⽤することでこの
問題を解決する.最後に適⽤されるLocalization Networkは
重なりの度合いを推定するようなものである.この重なり
の度合いに基づいてNMSをすることで重なりが⼤きい検出
結果を残して出⼒することが可能となる.
・重なり度合いを推定するLocalization Networkと,それを
学習するための損失関数の提案に新規性がある.
・3つのネットワークの組み合わせにより従来⼿法よりも
⾼い検出精度を実現している.
Links
論⽂
http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/
Shou_Temporal_Action_Localization_CVPR_2016_paper.html
Github https://github.com/zhengshou/scnn
Zheng Shou, Jonathan Chan, Alireza Zareian, Kazuyuki Miyazawa, Shih-Fu Chang,
“CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed
Videos”, in arXiv 1703.01515, 2017.
【8】
Keywords: Temporal Action Localization, CNN
新規性・差分
概要
・従来のTemporal Action Localizationではセグメント
単位で⾏動を識別することでLocalizationをしていた.
それに対してこの研究ではframeごとに各クラスのスコ
アを求めてLocalizationする⼿法を提案する.そのため
に,Spatial ConvとTemporal Deconvを同時に⾏う
CDCフィルタを導⼊する.C3DベースのCNNで,C3D
でFC層があるところにCDCを⼊れる.Deconvにより
出⼒のフレーム数は⼊⼒映像と同じになるためフレー
ムごとのスコアが推定可能となる.これにより⾼精細
なTemporal Localizationを実現した.
・Deconvによりフレームごとのスコアを推定する
ネットワーク構造を新規に提案
・Spatial ConvとTemporal Deconvを同時に⾏う
CDCを新規に提案(Spatial Conv → Temporal
Deconvとするよりも精度が向上している)
Links
論⽂ https://arxiv.org/abs/1703.01515v1
プロジェクト
Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas Brox, “Chained Multi-stream
Networks Exploiting Pose, Motion, and Appearance for Action Classification and Detection”, in arXiv pre-
print 1704.00616, 2017.
【9】
Keywords: 3D CNN, Multi-stream convnet, Action Recognition
新規性・差分
概要
⼈物⾏動認識に対して、複数のモダリティ(Pose, Optical Flow, RGB)の⼊⼒を適⽤す
る。連続的な⼿がかりを加えて総合的に判断するためにMarkov chain modelを適⽤する。
姿勢推定にはFat-Net[27], 3D-CNNにはC3D[37]、オプティカルフローは基本的にTwo-
stream CNNを参考にした。Chained Multi-Stream 3D-CNNは後段にロスを伝えていく、各
⼯程で誤差学習ができるというところがミソである。Chained Multi-Stream 3D-CNNの出⼒
は後段に伝え、全結合層を経て次の出⼒が⾏われる。
・HMDB51(69.7%), J-HMDB(76.1%), NTU RGB
+D(80.8%)にて識別率、UCF101 (38.0%@IoU0.3)
やJ-HMDB(75.53%@IoU0.5)にて⾏動検出率が
state-of-the-art
・Markov ChainのOptical Flow, Pose, RGBの順番
は全通りを探索してもっとも良い順番にした
・Poseのモダリティによる⾏動識別では
55.7%@UCF101, 40.9%@HMDB51, 47.1%@J-
HMDBであった
Links
論⽂ https://arxiv.org/pdf/1704.00616.pdf
プロジェクト
Chained Multi-Stream 3D-
CNN。上から順列にPose,
Optical Flow, RGBと連なっ
ている。下の階層は上の階
層から情報を受け取り出⼒
を⾏う。ロスである
Y_poseやY_ofは学習には
使⽤され、最終的な出⼒で
あるY_rgbがラベルの推定
には使⽤される。
Hang Yan, Yebin Liu, Yasutaka Furukawa, “Turning an Urban Scene Video into a Cinemagraph”, in
CVPR, 2017.
【10】
Keywords: Cinemagraph
新規性・差分
概要
⾃動⾞など並進運動があるビデオから(マスクにより)ある部分のみが変化
するビデオ(これをCinemagraphと呼ぶ)を⾃動⽣成するための技術を提案
する。アプリケーションとしては例えば、Google Street Viewなどにて特定
の箇所だけ動きをつけたいときに⽤いる。⼊⼒動画からはStructure from
Motion (SfM)、Multi-View Stereo、Image Warpingにより再レンダリングを⾏
いWarped Videoを⽣成これによりエゴモーションではない動領域を抽出(マ
スクを抽出)できる。結果的にマスク領域のみが動いている動画像を⽣成す
る。
・⾃動⾞などエゴモーション(並進運動)がある動画像か
らCinemagraphを⽣成する
・Video Stabilization, 空間的・時間的な正規化を⾏い、よ
り鮮明な映像とした
・詳細にはビデオを参照
Links
論⽂ https://arxiv.org/abs/1612.01235
ビデオ https://www.youtube.com/watch?v=r3yyL6qrVX4
Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D. Wegner, Konrad Shindler, Marc Pollefeys,
“Semantic3D.NET: A New Large-Scale Point Cloud Classification Benchmark”, in arXiv, pre-print
1704.03847, 2017.
【11】
Keywords: Point Cloud, Semantic Label, CNN
新規性・差分
概要
40億のラベルづけされた点群のデータセットを提供することで、3D空間に
おけるCNNの学習セットとなることを⽬的とする。Lase Scannerにより密
に推定された3次元点群、詳細な意味のラベルづけがされており、3次元空
間の意味情報を直接的に推定することができる。ラベルには8カテゴリが採
⽤、広範な屋外環境(churches, streets, railroad tracks, squares, villages,
soccer fieldsand castles)から3次元空間を復元した。ベンチマークに対し
てベースラインや評価⽤システムも提供する。右上がベースラインであ
り、ポイントクラウドに対する3D畳み込みを⾏った。
・セマンティックラベル付きの点群データセットを提供す
ることでポイントクラウドに対するCNNのブレイクスルー
を狙う
・密な点群からセマンティックラベルを推定する⼿法を提
供、8種類のラベルを推定可能
Links
論⽂ https://arxiv.org/pdf/1704.03847.pdf
プロジェクト
Yurong You, Xinlei Pan, Ziyan Wang, Cewu Lu, “Virtual to Real Reinforcement Learning for Autonomous
Driving”, in arXiv 1704.03952, 2017.
【12】
Keywords: Autonomous Driving, Reinforcement Learning
新規性・差分
概要
ヴァーチャル空間にて⾃動運転の強化学習を⾏い、リアルな空間に転移学
習する。VR空間から実空間に空間を投影する際には、pix2pixにより画像変
換を⾏う。変換の際にはVirtual-to-Parse(セマンティックセグメンテーショ
ン)に変換し、Parse-to-Realで、2段階構成でヴァーチャル空間から実空間
の画像へ転換する。強化学習はAsynchronous Advantage Actor-Critic (A3C)
[18]を適⽤した。
・初めて、ヴァーチャル空間から実空間に画像変換して、ドライブシミュレータを⽤いて
⾃動運転のための強化学習を⾏うことができた
Links
論⽂ https://arxiv.org/pdf/1704.03952v1.pdf
プロジェクト
ヴァーチャル画像からリアル画像
への変換
Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, “Unpaired Image-to-Image Translation using
Cycle-Consistent Adversarial Networks”, in arXiv 1703.10593, 2017.
【13】
Keywords: Cycle GAN
新規性・差分
概要
CycleGANの提案。pix2pixのように、ピクセル同⼠が対応
付いている画像のペアが必ずしも⼿に⼊らない際の学習⽅
法について提案している。(右図)画像(X)の変換
(Y)、逆変換(X^)を⾏い、XとX^を⽐較して誤差
(Cycle-Consistency Loss)を得る。これにより、変換後
のピクセル対応の教師がなくても学習を可能とした。
・教師ありによるpix2pixに対して、教師なし学習のフレー
ムワークにより学習サンプルを増加させることができるフ
レームワーク”CycleGAN”を提案した。
・アイディアはシンプルで、原画像からの変換、逆変換に
より、原画像と逆変換画像の誤差を求める。
Links
論⽂ https://arxiv.org/pdf/1703.10593.pdf
GitHub1 https://github.com/junyanz/CycleGAN
GitHub2 https://github.com/hiwonjoon/cycle-gan-tf
プロジェクト https://junyanz.github.io/CycleGAN/
Rui Hou, Chen Chen, Mubarak Shah, “Tube Convolutional Neural Network (T-CNN) for Action Detection
in Videos”, in arXiv 1703.10664, 2017.
【14】
Keywords: Action Detection, Tube Detection, CNN, C3D
新規性・差分
概要
・Faster R-CNNを映像に拡張して時空間⾏動検出をする
T-CNNを提案.Temporal Detectionなどと違い⾏動中の各
フレームをBounding Boxまで推定する問題設定.Faster
R-CNNのRPNを参考にTube Proposal Network (TPN) を導
⼊.映像を8フレームごとのクリップに分割し,各クリッ
プに対してTPNによりProposal tubeを算出.クリップ間で
Tubeを結合し,結合されたTubeを識別することで⾏動を
検出する.Tubeに対するPoolingの⽅法としては,最初に
空間⽅向でRoI Pooingしてから時間⽅向でPooingする
(Tube of Interest Pooling (ToI Pooling)).
・Faster R-CNNを拡張して時空間⾏動検出を⾏うT-CNN
の実現に新規性.(T-CNNという名前は新規でない)
・TPNとToI Poolingの実装により映像への拡張を実現.
Links
論⽂ https://arxiv.org/abs/1703.10664
プロジェクト
Yuanjun Xiong, Yue Zhao, Limin Wang, Dahua Lin, Xiaoou Tang, “A Pursuit of Temporal Accuracy in
General Activity Detection”, in arXiv 1703.02716, 2017.
【15】
Keywords: Temporal Action Detection, CNN, Completeness, Action Proposals
新規性・差分
概要
・Untrimmed VideoにたいするTemporal Activity Detectionに
おいてTemporal Localizationの精度を⾼めるための⼿法を提
案.⼿法はProposal + Classifierという構成.Snippetsごとに
Actionness Scoreを算出 (CNN) してそれをbottom-upにmerge
することによりProposalを計算.ProposalをただCNNで識別
するだけでなく,そのProposalが⾏動全体を含んでいるかを
判断するCompleteness Filtersを導⼊.Completenessの計算
にはPorposalとその前後の領域のクラス確率をTemporal
Pyramidで特徴量化してSVMを利⽤.Completeness FIltering
により不完全な⾏動の検出を避けることでTemporal
Localizationの精度を向上させ,IoUのしきい値が⾼く厳しい
条件での検出精度を向上.
・スニペットごとのActionness Scoreをボトムアップにグルー
ピングする新たなActivity Proposalを提案
・Completeness Filteringというアイデアを新規に提案
 (とはいえMulti-stage CNNsのLocalization Networkに近い)
Links
論⽂ https://arxiv.org/abs/1703.02716
プロジェクト
Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Dahua Lin, Xiaoou Tang,
“Temporal Action Detection with Structured Segment Networks”, in arXiv 1704.06228, 2017.
【16】
Keywords: Temporal Action Detection, CNN, Completeness, Action Proposals
新規性・差分
概要
前ページの”A Pursuit of Temporal Accuracy …”の続報のよ
うな論⽂.あるProposalの領域をstarting, course, ending
に分割してTemporal Pyramid Poolingをする (Structured
Pyramid Pooling).これにより明⽰的に⾏動の各段階の特
徴を抽出する.この特徴ベクトルに対してクラス識別とク
ラスごとのCompleteness(⾏動全体を含んでいるかどう
か)の推定を⾏うことで⾏動を検出する.Proposalsは前
論⽂と同じくフレームごとのActionnessを算出してそれを
グルーピングするTemporal Actionnes Groupingを⽤いて
いて,特徴量はTwo-stream CNNベース.これらにより検
出の精度が更に向上している.(現在ActivityNet
Challenge 2016のActivity Detectionの課題で1位になってい
るのは数値と著者を⾒るとこの論⽂.CVPR2017とあるが
arXivに記載がないことを⾒るとリジェクトされた?)
・明⽰的にstarting, course, endingといった区間を定義し
てPyramid Poolingすることの有効性を⽰した点に新規性
・前論⽂を引⽤していないのでComplenetessもこの論⽂
の新規性となる?
Links
論⽂ https://arxiv.org/abs/1704.06228
プロジェクト
Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, Dimitris Metaxas,
“StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”, in
arXiv pre-print 1612.03242, 2016.
【17】
Keywords: stacked GAN
新規性・差分
概要
Generative Adversarial Network(GAN)を2段階にスタッ
キングすることで、⽣成する画像をよりリアルにした。ス
テージ1では⼤まかな形状や⾊のつながりを⽣成する低解
像の画像が⽣成され、ステージ2ではステージ1の結果
(やテキストによるキャプション)を⼊⼒として写真に近
いリアルな画像を出⼒する。
・学習済みの⽣成モデルはテキストを⼊⼒として画像を出
⼒するモデルになった(おそらく初めて)
・256x256, 128x128 [pixel]の画像出⼒に関してState-of-
the-Art。CUB(28.47%改善)やOxford-102(20.30%改
善)データセットに対して実験を⾏った
Links
論⽂ https://arxiv.org/pdf/1612.03242.pdf
プロジェクト
テキストによ
る⼊⼒をベー
スとして、2
ステージの学
習を⾏う。ス
テージ1で出
⼒された画像
はステージ2
の⼊⼒として
扱われる。ス
テージ1では
ラフだった低
解像画像が、
ステージ2で
は⾼解像な画
像に変換され
ている。
Georgia Gkioxari, Ross Girshick, Piotr Dollar, Kaiming He, “Detecting and Recognizing Human-Object
Interactions”, in arXiv pre-print 1704.07333, 2017.
【18】
Keywords: Object Detection, Human Detection, Human-Object Detection
新規性・差分
概要
⼈と物体とのインタラクションを検出・認識する研究。
Triplet <Human, Verb, Object>の検出を写真から⾏う。姿
勢、服装、⾏動などをヒントとして物体と合わせて検出を
実⾏する。詳細な評価により、Interaction(Triplet)の同時評
価、FPNの導⼊などが効果があることが判明した。
・各要素の関係性から、インタラクション⾃体を検出する
InteractionNetを提案した
・Verbs in COCO(Microsoft COCOのひとつのタスク)
に対して相対的に26%向上し、40.0 Average Precisionを
達成した。さらに、135ms/frameの処理速度を達成した
Links
論⽂
https://arxiv.org/pdf/
1704.07333.pdf
プロジェクト
Triplet Score(式
1のS_h,o^a)を
評価して最適化を
⾏う。物体、⼈
物、インタラク
ションスコアがい
ずれも⾼くないと
検出にならない。
Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action
Proposals for Action Understanding”, in ECCV, 2016.
【19】
Keywords: LSTM, Action Proposals
新規性・差分
概要
時系列⾏動検出(Temporal Action Detection)のための候補領域抽
出法について検討した。ここでの候補領域はDuration (Start, End)を
推定する課題である。LSTMを⽤いた候補領域抽出の結果、従来法
の10xの処理速度を達成した。Encoder(画像特徴)にはC3Dを、
Sequence Encoder(時系列の記述)にはLSTMを採⽤、異なる時間
幅の候補を出⼒するLocalization Module s_i、さらに候補領域 s_i
のスコアを評価するPrediction Module c_i を適⽤。
・複数の階層を持った時間幅で候補領域を抽出する
・134fpsともっとも⾼速に処理できる時系列⾏動候補領域
⼿法である
・評価はAverage Recall (AR)を適⽤。左下図の⽐較によ
り、APT, BoFrag, などよりも優れていることがわかっ
た。図は領域数とARの関係、tIOU(重なり率)と候補数
を1,000に固定した際のRecallの関係である。
Links
論⽂
https://ivul.kaust.edu.sa/Documents/Publications/
2016/DAPs%20Deep%20Action%20Proposals
%20for%20Action%20Understanding.pdf
プロジェクト
https://ivul.kaust.edu.sa/Pages/pub-Daps.aspx
GitHub https://github.com/escorciav/daps
式1を計算し、最適なx, θを求める。こ
こで、L_matchは候補領域セグメント
S(θ)がアノテーションAとマッチするか
(ユークリッド距離)、L_confは候補
領域のスコアC(θ)を(Cross-Entropy
で)⽰す。
実装の詳細として、C3Dは(Sports-1m
などで)学習済みのモデルを採⽤しfc7
層から特徴抽出、PCAにより500次元に
圧縮する。ADAGRADにより最適化を
実⾏。
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

More Related Content

What's hot

2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料
Hiroshi Fukui
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
20150930
2015093020150930
20150930
nlab_utokyo
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
Yusuke Uchida
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
Shingo Horiuchi
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
Hirokatsu Kataoka
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
Yusuke Uchida
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
cvpaper. challenge
 
深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術
孝昌 田中
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
nlab_utokyo
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
Seiji Hotta
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
Deep Learning JP
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
cvpaper. challenge
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
Takayoshi Yamashita
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
WEBFARMER. ltd.
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
NVIDIA Japan
 

What's hot (20)

2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
20150930
2015093020150930
20150930
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ最近のSingle Shot系の物体検出のアーキテクチャまとめ
最近のSingle Shot系の物体検出のアーキテクチャまとめ
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術深層学習 第4章 大規模深層学習の実現技術
深層学習 第4章 大規模深層学習の実現技術
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
 
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
[DL輪読会]Blind Video Temporal Consistency via Deep Video Prior
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
MIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearningMIRU2014 tutorial deeplearning
MIRU2014 tutorial deeplearning
 
Introduction to Deep Compression
Introduction to Deep CompressionIntroduction to Deep Compression
Introduction to Deep Compression
 
GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報GTC 2016 ディープラーニング最新情報
GTC 2016 ディープラーニング最新情報
 

Similar to 【2017.04】cvpaper.challenge 2017

いきなりAi tensor flow gpuによる画像分類と生成
いきなりAi tensor flow gpuによる画像分類と生成いきなりAi tensor flow gpuによる画像分類と生成
いきなりAi tensor flow gpuによる画像分類と生成
Yoshi Sakai
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2nlab_utokyo
 
Muramatsu Bachelor Thesis
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
pflab
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
Deep Learning JP
 
ChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
ChainerMNが即座に使える環境を提供するXTREME DNA HPC CloudChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
ChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
Hirono Jumpei
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
Ryosuke Okuta
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTK
maruyama097
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Hokuto Kagaya
 
(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ
Hiroki Kashiwazaki
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
Deep Learning JP
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料
Takuya Minagawa
 
Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説
Osamu Masutani
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
nlab_utokyo
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
Kazuki Adachi
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
Daiyu Hatakeyama
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
harmonylab
 

Similar to 【2017.04】cvpaper.challenge 2017 (20)

いきなりAi tensor flow gpuによる画像分類と生成
いきなりAi tensor flow gpuによる画像分類と生成いきなりAi tensor flow gpuによる画像分類と生成
いきなりAi tensor flow gpuによる画像分類と生成
 
SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2SSII2014 詳細画像識別 (FGVC) @OS2
SSII2014 詳細画像識別 (FGVC) @OS2
 
Muramatsu Bachelor Thesis
Muramatsu Bachelor ThesisMuramatsu Bachelor Thesis
Muramatsu Bachelor Thesis
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
ChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
ChainerMNが即座に使える環境を提供するXTREME DNA HPC CloudChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
ChainerMNが即座に使える環境を提供するXTREME DNA HPC Cloud
 
ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装ディープラーニングフレームワーク とChainerの実装
ディープラーニングフレームワーク とChainerの実装
 
TensorFlowとCNTK
TensorFlowとCNTKTensorFlowとCNTK
TensorFlowとCNTK
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
 
(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ(リソース情報の開示で) クラウドの新しい利用へ
(リソース情報の開示で) クラウドの新しい利用へ
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料非技術者でもわかる(?)コンピュータビジョン紹介資料
非技術者でもわかる(?)コンピュータビジョン紹介資料
 
Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説Clustering of time series subsequences is meaningless 解説
Clustering of time series subsequences is meaningless 解説
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning論文紹介:Dueling network architectures for deep reinforcement learning
論文紹介:Dueling network architectures for deep reinforcement learning
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
 

Recently uploaded

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
t m
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
Takayuki Nakayama
 

Recently uploaded (10)

ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
遺伝的アルゴリズムと知識蒸留による大規模言語モデル(LLM)の学習とハイパーパラメータ最適化
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援しますキンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
キンドリル ネットワークアセスメントサービスご紹介 今のネットワーク環境は大丈夫? 調査〜対策までご支援します
 

【2017.04】cvpaper.challenge 2017

  • 2. Alan M. Turing, “Computing Machinery and Intelligence”, in Mind 49: 433-460, 1950. 【1】 Keywords: Turing Test, Alan Turing 新規性・差分 概要 「コンピュータは考えるか?」について議論し、チューリングテストを提案した論⽂。チューリン グテストでは計算機と⼈間に対して質問者が複数の問いを⾏い、傍観者が両者の⾒分けがつかない 場合に合格となる。ここで、チューリングテストに合格するためには、⼈間を模倣するための⾼度 な技術が必要となる。チューリングは⼈間を模倣することがコンピュータが発達する緊急の⽅法で あると主張している。論⽂中ではコンピュータが考えることに対しての(1)神学的な議論、 (2)現実逃避、(3)数学的な議論、(4)意識の拡張、(5)種々の障害などの反論について 検証している。 ・コンピュータが⼈間の模倣をする、という考えは現在でも通じるもので、論⽂を読んでいても1950 年に発⾏されたという感覚はなかった。 ・模倣するコンピュータ(チューリングマシン)の概念から、学習する機械に⾄るまで記述がされて いる Links 論⽂ https://www.csee.umbc.edu/courses/471/papers/turing.pdf ⽇本語訳 http://www.unixuser.org/~euske/doc/turing-ja/
  • 3. Jitendra Malik, Pablo Arbelaez, Joao Carreira, Katerina Fragkiadaki, Ross Girshick, Georgia Gkioxari, Saurabh Gupta, Bharath Hariharan, Abhishek Kar, Shubham Tulsiani, “The three R’s of computer vision: Recognition, reconstruction and reorganization”, in Pattern Recognition Letters, 2016. 【2】 Keywords: Computer Vision, Recognition, Reconstruction, Re-organization 概要 新規性・差分 ・主に画像に写っているものをどう理解するのか、を俯瞰してまとめた論⽂であ る。(⼤御所のJitendra Malikが執筆している) Links 論⽂ https://pdfs.semanticscholar.org/d1cd/ 6a085cb52df16d65253dccba5dab24a2ac8e.pdf プロジェクト コンピュータビジョンにおける⼤別3つーRecognition(認識), Reconstruction(再構成), Re-organization(再組織化)ーやそれらの連携について述べた論⽂。具体例としては下記 の通りである。 Reorganization => Recognition: R-CNNなど候補領域抽出と物体検出 Recognition => Reorganization: Semantic segmentationなど Recognition => Reconstruction: Viewpoint predictionのための物体認識 Reconstruction => Recognition: 3D Recognition Reconstruction => Reorganization: Depthからの境界検出など Reorganization => Reconstruction: セグメンテーションからの3Dポイントクラウド 8章のPutting it together では、例としてBerkeleyチームの[35](右下図)が挙げられ、 Reorganization(境界検出からの物体候補領域)やRecognition(物体検出・認識)から詳細 な3次元姿勢推定(Reconstruction)まで含めた理解を⾏うことができる。
  • 4. Saurabh Gupta, Pablo Arbelaez, Ross Girshick, Jitendra Malik, “Aligning 3D Models to RGB-D Images of Clustered Scenes”, in CVPR, 2015. 【3】 Keywords: RGB-D, 3D reconstruction 新規性・差分 概要 RGB-D画像から詳細な3次元再構成(3D⾃体+詳細な姿勢)を⾏う研究 である。Jitendra Malikの3R(Recognition, Reconstruction, Reorganization)を体現した研究である。ここでは、Recognition(物体 検出、セグメンテーション)やReorganization(輪郭抽出、候補領域) から詳細な3次元のReconstruction(姿勢推定や3Dモデル抽出)を⾏ う。 ・3Dのモデルフィッティングを⾏うために、まずは物体 ラベルやセマンティックセグメンテーションを⾏うこと が、姿勢推定に役⽴つことを⽰した。 ・右下の表はNYUD2に対しての精度⽐較である。 Links 論⽂ https://people.eecs.berkeley.edu/~sgupta/pdf/rgbd-pose.pdf ポスター https://people.eecs.berkeley.edu/~sgupta/pdf/rgbd-pose-poster.pdf
  • 5. Abhishek Kar, Shubham Tulsiani, Joao Carreira, Jitendra Malik, “Category-Specific Object Reconstruction from a Single Image”, in CVPR, 2015. 【4】 Keywords: RGB, 3D Reconstruction, Object Detection, Segmentation 新規性・差分 概要 RGBを⼊⼒とした3D再構成やDepth推定に対して、あらかじめ物体検出やセマ ンティックグメンテーションを⾏う。復元した3Dモデル⾃体はラフではあるも のの、RGBのみの⼊⼒からReconstructionを実現。本研究も、Jitendra Malikの 3R(Recognition, Reconstruction, Reorganization)を体現した研究である。 (2014 ~ 2015年あたりは3Rの循環を意識して研究していたのかもしれない) ・物体のカテゴリやセグメンテーション情報が存在すると Viewpointの推定がしやすくなり、そのまま3D再構成や Depth推定に⽤いることができることを実証した。 Links 論⽂ http://people.eecs.berkeley.edu/~akar/ categoryshapes.pdf 動画 https://www.youtube.com/watch? v=5XDwkazszRE
  • 6. Gül Varol, Ivan Laptev, Cordelia Schmid, “Long-term Temporal Convolutions for Action Recognition”, in arXiv 1604.04494, 2016. 【5】 Keywords: 3D Convolution, CNN, Action Recognition 新規性・差分 概要 CNNベースの⼿法が⾏動認識において成功を収めている が,従来の⼊⼒の時間的な⻑さは短いため,⾏動全体に渡 る⻑期的な時間情報は捉えられていない.この論⽂では⼊ ⼒の時間⻑を⻑くしたときの⾏動認識における精度への影 響を調査した.実験の結果,C3DベースのCNNにおいて⼊ ⼒の時間⻑が⻑くなるに連れて⾏動認識精度が向上するこ とを確認できた.また,⼊⼒の違いによる影響も確認した 結果,⾼精度なOptical FLowのconvolutionが最も⾼い精度 を⽰すことがわかった.組み合わせも含めると最も⾼い精 度を⽰したのは,RGB, Flow, IDTの組み合わせであった. ⼊⼒の時間⻑の変化による影響を丁寧に実験で調査してお り,それを明らかにした点に新規性がある. Links 論⽂ https://arxiv.org/abs/1604.04494 プロジェクト https://www.di.ens.fr/willow/research/ltc/
  • 7. Huijuan Xu, Abir Das, Kate Saenko, “R-C3D: Region Convolutional 3D Network for Temporal Activity Detection”, in arXiv 1703.07814, 2017. 【6】 Keywords: CNN, C3D, Activity Detection, R-CNN 新規性・差分 概要 ・Temporal Activity Detectionのための⼿法を提案.基本的 にはObject DetectionにおけるFaster R-CNNをActivity Detectionに応⽤した⼿法.C3Dをベースとし,3D Convolutionをして特徴マップを計算後,Region Proposals NetworkでTemporal Regionsを推定,各Regionを Classification Networkで識別する.THUMOS’14や ActivityNetなどのデータでstate-of-the-artな精度を達成. C3Dベースなこともあり,⾮常に⾼速な動作を実現できて おり,1000fpsを達成している. ・映像に対してFaster  R-CNNの枠組みの適⽤を成功さ せた点に新規性がある ・精度もDetectionの問題においてstate-of-the-artを達成し た. Links 論⽂  https://arxiv.org/abs/1703.07814 プロジェクト
  • 8. Zheng Shou, Dongang Wang, Shih-Fu Chang, “Temporal Action Localization in Untrimeed Videos via Multi-statge CNNs”, in CVPR, 2016. 【7】 Keywords: Temporal Action Localization, CNN 新規性・差分 概要 Temporal Action Localizationの従来⼿法ではSliding Windowによる検出結果をNMSの後処理を通して出⼒する 事が多い.この場合正解との重なりが⼩さいがスコアは⾼ い検出が存在すると重なりは⼤きいがスコアは⼩さい検出 は消されてしまい,開始・終了時刻の推定精度が低下す る.この研究では,Proposal, Classification, Localizationと いう3種類のネットワークを段階的に適⽤することでこの 問題を解決する.最後に適⽤されるLocalization Networkは 重なりの度合いを推定するようなものである.この重なり の度合いに基づいてNMSをすることで重なりが⼤きい検出 結果を残して出⼒することが可能となる. ・重なり度合いを推定するLocalization Networkと,それを 学習するための損失関数の提案に新規性がある. ・3つのネットワークの組み合わせにより従来⼿法よりも ⾼い検出精度を実現している. Links 論⽂ http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/ Shou_Temporal_Action_Localization_CVPR_2016_paper.html Github https://github.com/zhengshou/scnn
  • 9. Zheng Shou, Jonathan Chan, Alireza Zareian, Kazuyuki Miyazawa, Shih-Fu Chang, “CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos”, in arXiv 1703.01515, 2017. 【8】 Keywords: Temporal Action Localization, CNN 新規性・差分 概要 ・従来のTemporal Action Localizationではセグメント 単位で⾏動を識別することでLocalizationをしていた. それに対してこの研究ではframeごとに各クラスのスコ アを求めてLocalizationする⼿法を提案する.そのため に,Spatial ConvとTemporal Deconvを同時に⾏う CDCフィルタを導⼊する.C3DベースのCNNで,C3D でFC層があるところにCDCを⼊れる.Deconvにより 出⼒のフレーム数は⼊⼒映像と同じになるためフレー ムごとのスコアが推定可能となる.これにより⾼精細 なTemporal Localizationを実現した. ・Deconvによりフレームごとのスコアを推定する ネットワーク構造を新規に提案 ・Spatial ConvとTemporal Deconvを同時に⾏う CDCを新規に提案(Spatial Conv → Temporal Deconvとするよりも精度が向上している) Links 論⽂ https://arxiv.org/abs/1703.01515v1 プロジェクト
  • 10. Mohammadreza Zolfaghari, Gabriel L. Oliveira, Nima Sedaghat, Thomas Brox, “Chained Multi-stream Networks Exploiting Pose, Motion, and Appearance for Action Classification and Detection”, in arXiv pre- print 1704.00616, 2017. 【9】 Keywords: 3D CNN, Multi-stream convnet, Action Recognition 新規性・差分 概要 ⼈物⾏動認識に対して、複数のモダリティ(Pose, Optical Flow, RGB)の⼊⼒を適⽤す る。連続的な⼿がかりを加えて総合的に判断するためにMarkov chain modelを適⽤する。 姿勢推定にはFat-Net[27], 3D-CNNにはC3D[37]、オプティカルフローは基本的にTwo- stream CNNを参考にした。Chained Multi-Stream 3D-CNNは後段にロスを伝えていく、各 ⼯程で誤差学習ができるというところがミソである。Chained Multi-Stream 3D-CNNの出⼒ は後段に伝え、全結合層を経て次の出⼒が⾏われる。 ・HMDB51(69.7%), J-HMDB(76.1%), NTU RGB +D(80.8%)にて識別率、UCF101 (38.0%@IoU0.3) やJ-HMDB(75.53%@IoU0.5)にて⾏動検出率が state-of-the-art ・Markov ChainのOptical Flow, Pose, RGBの順番 は全通りを探索してもっとも良い順番にした ・Poseのモダリティによる⾏動識別では 55.7%@UCF101, 40.9%@HMDB51, 47.1%@J- HMDBであった Links 論⽂ https://arxiv.org/pdf/1704.00616.pdf プロジェクト Chained Multi-Stream 3D- CNN。上から順列にPose, Optical Flow, RGBと連なっ ている。下の階層は上の階 層から情報を受け取り出⼒ を⾏う。ロスである Y_poseやY_ofは学習には 使⽤され、最終的な出⼒で あるY_rgbがラベルの推定 には使⽤される。
  • 11. Hang Yan, Yebin Liu, Yasutaka Furukawa, “Turning an Urban Scene Video into a Cinemagraph”, in CVPR, 2017. 【10】 Keywords: Cinemagraph 新規性・差分 概要 ⾃動⾞など並進運動があるビデオから(マスクにより)ある部分のみが変化 するビデオ(これをCinemagraphと呼ぶ)を⾃動⽣成するための技術を提案 する。アプリケーションとしては例えば、Google Street Viewなどにて特定 の箇所だけ動きをつけたいときに⽤いる。⼊⼒動画からはStructure from Motion (SfM)、Multi-View Stereo、Image Warpingにより再レンダリングを⾏ いWarped Videoを⽣成これによりエゴモーションではない動領域を抽出(マ スクを抽出)できる。結果的にマスク領域のみが動いている動画像を⽣成す る。 ・⾃動⾞などエゴモーション(並進運動)がある動画像か らCinemagraphを⽣成する ・Video Stabilization, 空間的・時間的な正規化を⾏い、よ り鮮明な映像とした ・詳細にはビデオを参照 Links 論⽂ https://arxiv.org/abs/1612.01235 ビデオ https://www.youtube.com/watch?v=r3yyL6qrVX4
  • 12. Timo Hackel, Nikolay Savinov, Lubor Ladicky, Jan D. Wegner, Konrad Shindler, Marc Pollefeys, “Semantic3D.NET: A New Large-Scale Point Cloud Classification Benchmark”, in arXiv, pre-print 1704.03847, 2017. 【11】 Keywords: Point Cloud, Semantic Label, CNN 新規性・差分 概要 40億のラベルづけされた点群のデータセットを提供することで、3D空間に おけるCNNの学習セットとなることを⽬的とする。Lase Scannerにより密 に推定された3次元点群、詳細な意味のラベルづけがされており、3次元空 間の意味情報を直接的に推定することができる。ラベルには8カテゴリが採 ⽤、広範な屋外環境(churches, streets, railroad tracks, squares, villages, soccer fieldsand castles)から3次元空間を復元した。ベンチマークに対し てベースラインや評価⽤システムも提供する。右上がベースラインであ り、ポイントクラウドに対する3D畳み込みを⾏った。 ・セマンティックラベル付きの点群データセットを提供す ることでポイントクラウドに対するCNNのブレイクスルー を狙う ・密な点群からセマンティックラベルを推定する⼿法を提 供、8種類のラベルを推定可能 Links 論⽂ https://arxiv.org/pdf/1704.03847.pdf プロジェクト
  • 13. Yurong You, Xinlei Pan, Ziyan Wang, Cewu Lu, “Virtual to Real Reinforcement Learning for Autonomous Driving”, in arXiv 1704.03952, 2017. 【12】 Keywords: Autonomous Driving, Reinforcement Learning 新規性・差分 概要 ヴァーチャル空間にて⾃動運転の強化学習を⾏い、リアルな空間に転移学 習する。VR空間から実空間に空間を投影する際には、pix2pixにより画像変 換を⾏う。変換の際にはVirtual-to-Parse(セマンティックセグメンテーショ ン)に変換し、Parse-to-Realで、2段階構成でヴァーチャル空間から実空間 の画像へ転換する。強化学習はAsynchronous Advantage Actor-Critic (A3C) [18]を適⽤した。 ・初めて、ヴァーチャル空間から実空間に画像変換して、ドライブシミュレータを⽤いて ⾃動運転のための強化学習を⾏うことができた Links 論⽂ https://arxiv.org/pdf/1704.03952v1.pdf プロジェクト ヴァーチャル画像からリアル画像 への変換
  • 14. Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”, in arXiv 1703.10593, 2017. 【13】 Keywords: Cycle GAN 新規性・差分 概要 CycleGANの提案。pix2pixのように、ピクセル同⼠が対応 付いている画像のペアが必ずしも⼿に⼊らない際の学習⽅ 法について提案している。(右図)画像(X)の変換 (Y)、逆変換(X^)を⾏い、XとX^を⽐較して誤差 (Cycle-Consistency Loss)を得る。これにより、変換後 のピクセル対応の教師がなくても学習を可能とした。 ・教師ありによるpix2pixに対して、教師なし学習のフレー ムワークにより学習サンプルを増加させることができるフ レームワーク”CycleGAN”を提案した。 ・アイディアはシンプルで、原画像からの変換、逆変換に より、原画像と逆変換画像の誤差を求める。 Links 論⽂ https://arxiv.org/pdf/1703.10593.pdf GitHub1 https://github.com/junyanz/CycleGAN GitHub2 https://github.com/hiwonjoon/cycle-gan-tf プロジェクト https://junyanz.github.io/CycleGAN/
  • 15. Rui Hou, Chen Chen, Mubarak Shah, “Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos”, in arXiv 1703.10664, 2017. 【14】 Keywords: Action Detection, Tube Detection, CNN, C3D 新規性・差分 概要 ・Faster R-CNNを映像に拡張して時空間⾏動検出をする T-CNNを提案.Temporal Detectionなどと違い⾏動中の各 フレームをBounding Boxまで推定する問題設定.Faster R-CNNのRPNを参考にTube Proposal Network (TPN) を導 ⼊.映像を8フレームごとのクリップに分割し,各クリッ プに対してTPNによりProposal tubeを算出.クリップ間で Tubeを結合し,結合されたTubeを識別することで⾏動を 検出する.Tubeに対するPoolingの⽅法としては,最初に 空間⽅向でRoI Pooingしてから時間⽅向でPooingする (Tube of Interest Pooling (ToI Pooling)). ・Faster R-CNNを拡張して時空間⾏動検出を⾏うT-CNN の実現に新規性.(T-CNNという名前は新規でない) ・TPNとToI Poolingの実装により映像への拡張を実現. Links 論⽂ https://arxiv.org/abs/1703.10664 プロジェクト
  • 16. Yuanjun Xiong, Yue Zhao, Limin Wang, Dahua Lin, Xiaoou Tang, “A Pursuit of Temporal Accuracy in General Activity Detection”, in arXiv 1703.02716, 2017. 【15】 Keywords: Temporal Action Detection, CNN, Completeness, Action Proposals 新規性・差分 概要 ・Untrimmed VideoにたいするTemporal Activity Detectionに おいてTemporal Localizationの精度を⾼めるための⼿法を提 案.⼿法はProposal + Classifierという構成.Snippetsごとに Actionness Scoreを算出 (CNN) してそれをbottom-upにmerge することによりProposalを計算.ProposalをただCNNで識別 するだけでなく,そのProposalが⾏動全体を含んでいるかを 判断するCompleteness Filtersを導⼊.Completenessの計算 にはPorposalとその前後の領域のクラス確率をTemporal Pyramidで特徴量化してSVMを利⽤.Completeness FIltering により不完全な⾏動の検出を避けることでTemporal Localizationの精度を向上させ,IoUのしきい値が⾼く厳しい 条件での検出精度を向上. ・スニペットごとのActionness Scoreをボトムアップにグルー ピングする新たなActivity Proposalを提案 ・Completeness Filteringというアイデアを新規に提案  (とはいえMulti-stage CNNsのLocalization Networkに近い) Links 論⽂ https://arxiv.org/abs/1703.02716 プロジェクト
  • 17. Yue Zhao, Yuanjun Xiong, Limin Wang, Zhirong Wu, Dahua Lin, Xiaoou Tang, “Temporal Action Detection with Structured Segment Networks”, in arXiv 1704.06228, 2017. 【16】 Keywords: Temporal Action Detection, CNN, Completeness, Action Proposals 新規性・差分 概要 前ページの”A Pursuit of Temporal Accuracy …”の続報のよ うな論⽂.あるProposalの領域をstarting, course, ending に分割してTemporal Pyramid Poolingをする (Structured Pyramid Pooling).これにより明⽰的に⾏動の各段階の特 徴を抽出する.この特徴ベクトルに対してクラス識別とク ラスごとのCompleteness(⾏動全体を含んでいるかどう か)の推定を⾏うことで⾏動を検出する.Proposalsは前 論⽂と同じくフレームごとのActionnessを算出してそれを グルーピングするTemporal Actionnes Groupingを⽤いて いて,特徴量はTwo-stream CNNベース.これらにより検 出の精度が更に向上している.(現在ActivityNet Challenge 2016のActivity Detectionの課題で1位になってい るのは数値と著者を⾒るとこの論⽂.CVPR2017とあるが arXivに記載がないことを⾒るとリジェクトされた?) ・明⽰的にstarting, course, endingといった区間を定義し てPyramid Poolingすることの有効性を⽰した点に新規性 ・前論⽂を引⽤していないのでComplenetessもこの論⽂ の新規性となる? Links 論⽂ https://arxiv.org/abs/1704.06228 プロジェクト
  • 18. Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, Dimitris Metaxas, “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks”, in arXiv pre-print 1612.03242, 2016. 【17】 Keywords: stacked GAN 新規性・差分 概要 Generative Adversarial Network(GAN)を2段階にスタッ キングすることで、⽣成する画像をよりリアルにした。ス テージ1では⼤まかな形状や⾊のつながりを⽣成する低解 像の画像が⽣成され、ステージ2ではステージ1の結果 (やテキストによるキャプション)を⼊⼒として写真に近 いリアルな画像を出⼒する。 ・学習済みの⽣成モデルはテキストを⼊⼒として画像を出 ⼒するモデルになった(おそらく初めて) ・256x256, 128x128 [pixel]の画像出⼒に関してState-of- the-Art。CUB(28.47%改善)やOxford-102(20.30%改 善)データセットに対して実験を⾏った Links 論⽂ https://arxiv.org/pdf/1612.03242.pdf プロジェクト テキストによ る⼊⼒をベー スとして、2 ステージの学 習を⾏う。ス テージ1で出 ⼒された画像 はステージ2 の⼊⼒として 扱われる。ス テージ1では ラフだった低 解像画像が、 ステージ2で は⾼解像な画 像に変換され ている。
  • 19. Georgia Gkioxari, Ross Girshick, Piotr Dollar, Kaiming He, “Detecting and Recognizing Human-Object Interactions”, in arXiv pre-print 1704.07333, 2017. 【18】 Keywords: Object Detection, Human Detection, Human-Object Detection 新規性・差分 概要 ⼈と物体とのインタラクションを検出・認識する研究。 Triplet <Human, Verb, Object>の検出を写真から⾏う。姿 勢、服装、⾏動などをヒントとして物体と合わせて検出を 実⾏する。詳細な評価により、Interaction(Triplet)の同時評 価、FPNの導⼊などが効果があることが判明した。 ・各要素の関係性から、インタラクション⾃体を検出する InteractionNetを提案した ・Verbs in COCO(Microsoft COCOのひとつのタスク) に対して相対的に26%向上し、40.0 Average Precisionを 達成した。さらに、135ms/frameの処理速度を達成した Links 論⽂ https://arxiv.org/pdf/ 1704.07333.pdf プロジェクト Triplet Score(式 1のS_h,o^a)を 評価して最適化を ⾏う。物体、⼈ 物、インタラク ションスコアがい ずれも⾼くないと 検出にならない。
  • 20. Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action Proposals for Action Understanding”, in ECCV, 2016. 【19】 Keywords: LSTM, Action Proposals 新規性・差分 概要 時系列⾏動検出(Temporal Action Detection)のための候補領域抽 出法について検討した。ここでの候補領域はDuration (Start, End)を 推定する課題である。LSTMを⽤いた候補領域抽出の結果、従来法 の10xの処理速度を達成した。Encoder(画像特徴)にはC3Dを、 Sequence Encoder(時系列の記述)にはLSTMを採⽤、異なる時間 幅の候補を出⼒するLocalization Module s_i、さらに候補領域 s_i のスコアを評価するPrediction Module c_i を適⽤。 ・複数の階層を持った時間幅で候補領域を抽出する ・134fpsともっとも⾼速に処理できる時系列⾏動候補領域 ⼿法である ・評価はAverage Recall (AR)を適⽤。左下図の⽐較によ り、APT, BoFrag, などよりも優れていることがわかっ た。図は領域数とARの関係、tIOU(重なり率)と候補数 を1,000に固定した際のRecallの関係である。 Links 論⽂ https://ivul.kaust.edu.sa/Documents/Publications/ 2016/DAPs%20Deep%20Action%20Proposals %20for%20Action%20Understanding.pdf プロジェクト https://ivul.kaust.edu.sa/Pages/pub-Daps.aspx GitHub https://github.com/escorciav/daps 式1を計算し、最適なx, θを求める。こ こで、L_matchは候補領域セグメント S(θ)がアノテーションAとマッチするか (ユークリッド距離)、L_confは候補 領域のスコアC(θ)を(Cross-Entropy で)⽰す。 実装の詳細として、C3Dは(Sports-1m などで)学習済みのモデルを採⽤しfc7 層から特徴抽出、PCAにより500次元に 圧縮する。ADAGRADにより最適化を 実⾏。