Papers

どんなもの？
先行研究と比べて何がすごい？
技術の手法や肝は？
URL
どうやって有効だと検証した？
次に読むべき論文は？
Fully Convolutional Networks for Semantic Segmentation
https://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-
CNN_ICCV_2017_paper.pdf
Fast/Faster R-CNNの実験に倣ってハイパーパラメータを設定した．
・RoIPoolが、結果抽出のために粗い空間量子化を実行していた。このずれを修正するた
めに、正確な空間位置を忠実に保持する、RoIAlignと呼ばれる簡単で量子化のないレイ
ヤーを提案している。
・マスクブランチはわずかな計算オーバーヘッドを追加するだけで、高速なシステムと
迅速な実験を可能にする。
・Mask R-CNNは他のタスクへの一般化が容易であり、例えば、同じフレームワークで人
間のポーズを推定することができる。
・インスタンスセグメンテーション、バウンディングボックスオブジェクト検出、人物
キーポイント検出を含むCOCO課題(microsoftが提供するデータセット)の3つのトラックす
べてでトップの結果を示している。
・Faster R-CNNフレームワークを使用しているため、実装やトレーニングが簡単で、幅広い柔軟なアーキテクチャ設計
が可能である。
・学習が簡単で、Faster R-CNNにわずかなオーバーヘッドを追加するだけで動作する。Faster R-CNNを拡張したもの
・既存の分類とバウンディングボックス回帰のためのブランチと並行して、各関心領域（RoI）上のセグメンテーショ
ンマスクを予測するためのブランチを追加している。
Mask R-CNN
2017 Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick
日付

どんなもの？
URL
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
実績のある分類アーキテクチャ(AlexNet,VGGnet,GoogLeNet)を畳み込み処理し,PASCAL VOC
2011のスコアをこれまでのモデルと比較した。
・分類ネットワークとしての AlexNet, VGG, GoogLeNet から遷移させている。
・クラス分類ネットを完全な畳み込みとして再解釈し、学習された表現から微調整する
ことで、これまでのクラス分類の成功を高密度予測に応用した。(これまでの研究では、
事前学習を行わずに小さな畳み込みネットを適用していた)
・PASCAL VOC、NYUDv2、SIFT Flowの最新のセグメンテーションを達成しており、典型的
な画像では推論にかかる時間は5分の1以下である。
・(全結合層がないという意味で) 畳み込み層中心にモデルを構築し end-to-end,
pixel-to-pixel にセグメンテーション・タスクを訓練/推論する。
・スキップ・アーキテクチャ – 通常の特徴出力に、より浅い層の出力を結合す
る。
Fully Convolutional Networks for Semantic Segmentation
2015 Jonathan Long, Evan Shelhamer, Trevor Darrell
日付

どんなもの？
URL
You Only Look Once
https://arxiv.org/pdf/1409.0473.pdf
・データセットにWMT'14を用いて、RNN Encoder–Decoder と提案モデルの精度を比較し
た。
・attention を用いたモデルでは、エンコーダーの隠れ層のうち、特定の入力単語やその
周辺の単語にフォーカスしたベクトルをデコーダで用いる。これにより、デコーダのあ
る時点で必要な情報にフォーカスして使用することができ、入力文の長さに関係なくデ
コードを効率よく行うことができる。
・長文での翻訳精度が上昇した。
・alignment(翻訳前の文と翻訳語の文の対照関係を分析する処理)でも有用な結果を生成
することができた。
・エンコーダ・デコーダーモデルでの翻訳処理に、attention を導入することによって、
翻訳前の文章が長文であっても精度よく翻訳処理が行えるようにしたもの。
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND
TRANSLATE
2014 Dzmitry Bahdanau,KyungHyun Cho,Yoshua Bengio
日付

どんなもの？
URL
Attention Is All You Need
・PASCAL VOCのデータセットを利用して検証を進めた。
・Fast/Faster R-CNN,R-CNNあたりと精度,速度を比べた。
・事前学習の後に、4層の畳み込み層と２層の全結合層を追加する形で本モデルを生成
した。
・シンプルな回帰問題に落とし込んだことで、複雑なパイプラインを考慮する必要がな
くなったため処理が早い。
・処理が早い
・Fast R-CNNは背景を物体だと誤検出することが多かったが、YOLOでは、画像全体の情
報から学習や検証を実施することができるので、誤検出がFast R-CNNの半分以下となっ
ている。
・汎化性能が高い
・画像認識を回帰問題に落とし込み、画像の領域推定と分類を同時に行うことを実現し
たもの。
・１つのCNNで完結するためシンプル
You Only Look Once
2016 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
日付

どんなもの？
URL
Faster R-CNN
・450万組の文章からなる標準的なWMT 2014年英独データセットを用いて学習を行な
い、PPL,BLEUスコアを比較した。
・並列化がかなりしやすく訓練時間がかなり削減できる
・WMT 2014 English-to-German翻訳タスクでBLEUスコア(28.4)という結果を出した。
・他のタスクにも汎用性が高い
・Transformerという、RNNやCNNを用いずAttentionのみを用いた
モデルである。
Attention Is All You Need
2017 Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.
Gomez,Łukasz Kaiser
日付

Papers

Recommended

Recommended

More Related Content

Similar to Papers

Similar to Papers (20)

Recently uploaded

Recently uploaded (8)

Papers