SlideShare a Scribd company logo
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
Fully Convolutional Networks for Semantic Segmentation
https://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R-
CNN_ICCV_2017_paper.pdf
Fast/Faster R-CNNの実験に倣ってハイパーパラメータを設定した.
・RoIPoolが、結果抽出のために粗い空間量子化を実行していた。このずれを修正するた
めに、正確な空間位置を忠実に保持する、RoIAlignと呼ばれる簡単で量子化のないレイ
ヤーを提案している。
・マスクブランチはわずかな計算オーバーヘッドを追加するだけで、高速なシステムと
迅速な実験を可能にする。
・Mask R-CNNは他のタスクへの一般化が容易であり、例えば、同じフレームワークで人
間のポーズを推定することができる。
・インスタンスセグメンテーション、バウンディングボックスオブジェクト検出、人物
キーポイント検出を含むCOCO課題(microsoftが提供するデータセット)の3つのトラックす
べてでトップの結果を示している。
・Faster R-CNNフレームワークを使用しているため、実装やトレーニングが簡単で、幅広い柔軟なアーキテクチャ設計
が可能である。
・学習が簡単で、Faster R-CNNにわずかなオーバーヘッドを追加するだけで動作する。Faster R-CNNを拡張したもの
・既存の分類とバウンディングボックス回帰のためのブランチと並行して、各関心領域(RoI)上のセグメンテーショ
ンマスクを予測するためのブランチを追加している。
Mask R-CNN
2017 Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/
Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf
実績のある分類アーキテクチャ(AlexNet,VGGnet,GoogLeNet)を畳み込み処理し,PASCAL VOC
2011のスコアをこれまでのモデルと比較した。
・分類ネットワークとしての AlexNet, VGG, GoogLeNet から遷移させている。
・クラス分類ネットを完全な畳み込みとして再解釈し、学習された表現から微調整する
ことで、これまでのクラス分類の成功を高密度予測に応用した。(これまでの研究では、
事前学習を行わずに小さな畳み込みネットを適用していた)
・PASCAL VOC、NYUDv2、SIFT Flowの最新のセグメンテーションを達成しており、典型的
な画像では推論にかかる時間は5分の1以下である。
・(全結合層がないという意味で) 畳み込み層中心にモデルを構築し end-to-end,
pixel-to-pixel にセグメンテーション・タスクを訓練/推論する。
・スキップ・アーキテクチャ – 通常の特徴出力に、より浅い層の出力を結合す
る。
Fully Convolutional Networks for Semantic Segmentation
2015 Jonathan Long, Evan Shelhamer, Trevor Darrell
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
You Only Look Once
https://arxiv.org/pdf/1409.0473.pdf
・データセットにWMT'14を用いて、RNN Encoder–Decoder と提案モデルの精度を比較し
た。
・attention を用いたモデルでは、エンコーダーの隠れ層のうち、特定の入力単語やその
周辺の単語にフォーカスしたベクトルをデコーダで用いる。これにより、デコーダのあ
る時点で必要な情報にフォーカスして使用することができ、入力文の長さに関係なくデ
コードを効率よく行うことができる。
・長文での翻訳精度が上昇した。
・alignment(翻訳前の文と翻訳語の文の対照関係を分析する処理)でも有用な結果を生成
することができた。
・エンコーダ・デコーダーモデルでの翻訳処理に、attention を導入することによって、
翻訳前の文章が長文であっても精度よく翻訳処理が行えるようにしたもの。
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND
TRANSLATE
2014 Dzmitry Bahdanau,KyungHyun Cho,Yoshua Bengio
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
Attention Is All You Need
https://arxiv.org/pdf/1506.02640.pdf
・PASCAL VOCのデータセットを利用して検証を進めた。
・Fast/Faster R-CNN,R-CNNあたりと精度,速度を比べた。
・事前学習の後に、4層の畳み込み層と2層の全結合層を追加する形で本モデルを生成
した。
・シンプルな回帰問題に落とし込んだことで、複雑なパイプラインを考慮する必要がな
くなったため処理が早い。
・処理が早い
・Fast R-CNNは背景を物体だと誤検出することが多かったが、YOLOでは、画像全体の情
報から学習や検証を実施することができるので、誤検出がFast R-CNNの半分以下となっ
ている。
・汎化性能が高い
・画像認識を回帰問題に落とし込み、画像の領域推定と分類を同時に行うことを実現し
たもの。
・1つのCNNで完結するためシンプル
You Only Look Once
2016 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
日付
どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
Faster R-CNN
https://arxiv.org/pdf/1706.03762.pdf
・450万組の文章からなる標準的なWMT 2014年英独データセットを用いて学習を行な
い、PPL,BLEUスコアを比較した。
・並列化がかなりしやすく訓練時間がかなり削減できる
・WMT 2014 English-to-German翻訳タスクでBLEUスコア(28.4)という結果を出した。
・他のタスクにも汎用性が高い
・Transformerという、RNNやCNNを用いずAttentionのみを用いた
モデルである。
Attention Is All You Need
2017 Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N.
Gomez,Łukasz Kaiser
日付

More Related Content

Similar to Papers

An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGALeapMind Inc
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17Masayoshi Kondo
 
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
「Oracle Database + Java + Linux」環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1「Oracle Database + Java + Linux」環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1Shogo Wakayama
 
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素Arichika TANIGUCHI
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築貴志 上坂
 
Service Chaining Current and Future
Service Chaining Current and FutureService Chaining Current and Future
Service Chaining Current and FutureKentaro Ebisawa
 
OPNFVのコンポーネントと調べ方
OPNFVのコンポーネントと調べ方OPNFVのコンポーネントと調べ方
OPNFVのコンポーネントと調べ方Mibu Ryota
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systemsharmonylab
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
PHPUnit でテスト駆動開発を始めよう
PHPUnit でテスト駆動開発を始めようPHPUnit でテスト駆動開発を始めよう
PHPUnit でテスト駆動開発を始めようYuya Takeyama
 
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detailYoshii Ryo
 
NSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションNSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションDaisuke Kotani
 
VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-Takeshi Yamamuro
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)cvpaper. challenge
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
Apache Mesosってなに
Apache MesosってなにApache Mesosってなに
Apache MesosってなにShingo Kitayama
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」Naonori Nagano
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはKoji Shinkubo
 

Similar to Papers (20)

Sprint17
Sprint17Sprint17
Sprint17
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17最先端NLP勉強会2017_ACL17
最先端NLP勉強会2017_ACL17
 
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
「Oracle Database + Java + Linux」環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1「Oracle Database + Java + Linux」環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
「Oracle Database + Java + Linux」 環境における性能問題の調査手法 ~ミッションクリティカルシステムの現場から~ Part.1
 
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素
Enterprise Cloud Design Pattern 前編:クラウドアーキテクチャ-の3要素
 
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
Enterprise cloud design pattern 大量データ処理アーキテクチャの構築
 
Service Chaining Current and Future
Service Chaining Current and FutureService Chaining Current and Future
Service Chaining Current and Future
 
OPNFVのコンポーネントと調べ方
OPNFVのコンポーネントと調べ方OPNFVのコンポーネントと調べ方
OPNFVのコンポーネントと調べ方
 
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded SystemsFastDepth: Fast Monocular Depth Estimation on Embedded Systems
FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
PHPUnit でテスト駆動開発を始めよう
PHPUnit でテスト駆動開発を始めようPHPUnit でテスト駆動開発を始めよう
PHPUnit でテスト駆動開発を始めよう
 
20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail20190604 aws well-architected_tool_seminar_detail
20190604 aws well-architected_tool_seminar_detail
 
NSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッションNSDI2015読み会 Correctness セッション
NSDI2015読み会 Correctness セッション
 
VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-VLDB’11勉強会 -Session 9-
VLDB’11勉強会 -Session 9-
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
Apache Mesosってなに
Apache MesosってなにApache Mesosってなに
Apache Mesosってなに
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとはdb tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
 

Recently uploaded

今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップToru Miyahara
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Toru Miyahara
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題についてMasatsugu Matsushita
 
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料Toru Miyahara
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例Kurata Takeshi
 
20240519 Nagoya Embeded Study session / About the development process.
20240519 Nagoya Embeded Study session / About the development process.20240519 Nagoya Embeded Study session / About the development process.
20240519 Nagoya Embeded Study session / About the development process.ShigekiInatama
 
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上mizukami4
 
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹Toru Miyahara
 

Recently uploaded (8)

今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
今年こそ始めたい!SQL超入門 セミナー資料 2024年5月22日 富士通クラウドミートアップ
 
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
Linuxサーバー構築 学習のポイントと環境構築 OSC2024名古屋 セミナー資料
 
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
本の感想共有会「データモデリングでドメインを駆動する」本が突きつける我々の課題について
 
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料今さら聞けない人のためのDevOps超入門 OSC2024名古屋  セミナー資料
今さら聞けない人のためのDevOps超入門 OSC2024名古屋 セミナー資料
 
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
人的資本経営のための地理情報インテリジェンス 作業パターン分析と心身状態把握に関する実証事例
 
20240519 Nagoya Embeded Study session / About the development process.
20240519 Nagoya Embeded Study session / About the development process.20240519 Nagoya Embeded Study session / About the development process.
20240519 Nagoya Embeded Study session / About the development process.
 
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上【登壇資料】スタートアップCTO経験からキャリアについて再考する  CTO・VPoEに聞く by DIGGLE CTO 水上
【登壇資料】スタートアップCTO経験からキャリアについて再考する CTO・VPoEに聞く by DIGGLE CTO 水上
 
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹
DB性能の基礎 DB性能高速化入門 〜基礎から列指向、GPU活用まで〜 宮原 徹
 

Papers

  • 1. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? URL どうやって有効だと検証した? 次に読むべき論文は? Fully Convolutional Networks for Semantic Segmentation https://openaccess.thecvf.com/content_ICCV_2017/papers/He_Mask_R- CNN_ICCV_2017_paper.pdf Fast/Faster R-CNNの実験に倣ってハイパーパラメータを設定した. ・RoIPoolが、結果抽出のために粗い空間量子化を実行していた。このずれを修正するた めに、正確な空間位置を忠実に保持する、RoIAlignと呼ばれる簡単で量子化のないレイ ヤーを提案している。 ・マスクブランチはわずかな計算オーバーヘッドを追加するだけで、高速なシステムと 迅速な実験を可能にする。 ・Mask R-CNNは他のタスクへの一般化が容易であり、例えば、同じフレームワークで人 間のポーズを推定することができる。 ・インスタンスセグメンテーション、バウンディングボックスオブジェクト検出、人物 キーポイント検出を含むCOCO課題(microsoftが提供するデータセット)の3つのトラックす べてでトップの結果を示している。 ・Faster R-CNNフレームワークを使用しているため、実装やトレーニングが簡単で、幅広い柔軟なアーキテクチャ設計 が可能である。 ・学習が簡単で、Faster R-CNNにわずかなオーバーヘッドを追加するだけで動作する。Faster R-CNNを拡張したもの ・既存の分類とバウンディングボックス回帰のためのブランチと並行して、各関心領域(RoI)上のセグメンテーショ ンマスクを予測するためのブランチを追加している。 Mask R-CNN 2017 Kaiming He Georgia Gkioxari Piotr Dollar Ross Girshick 日付
  • 2. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? URL どうやって有効だと検証した? 次に読むべき論文は? NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/ Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf 実績のある分類アーキテクチャ(AlexNet,VGGnet,GoogLeNet)を畳み込み処理し,PASCAL VOC 2011のスコアをこれまでのモデルと比較した。 ・分類ネットワークとしての AlexNet, VGG, GoogLeNet から遷移させている。 ・クラス分類ネットを完全な畳み込みとして再解釈し、学習された表現から微調整する ことで、これまでのクラス分類の成功を高密度予測に応用した。(これまでの研究では、 事前学習を行わずに小さな畳み込みネットを適用していた) ・PASCAL VOC、NYUDv2、SIFT Flowの最新のセグメンテーションを達成しており、典型的 な画像では推論にかかる時間は5分の1以下である。 ・(全結合層がないという意味で) 畳み込み層中心にモデルを構築し end-to-end, pixel-to-pixel にセグメンテーション・タスクを訓練/推論する。 ・スキップ・アーキテクチャ – 通常の特徴出力に、より浅い層の出力を結合す る。 Fully Convolutional Networks for Semantic Segmentation 2015 Jonathan Long, Evan Shelhamer, Trevor Darrell 日付
  • 3. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? URL どうやって有効だと検証した? 次に読むべき論文は? You Only Look Once https://arxiv.org/pdf/1409.0473.pdf ・データセットにWMT'14を用いて、RNN Encoder–Decoder と提案モデルの精度を比較し た。 ・attention を用いたモデルでは、エンコーダーの隠れ層のうち、特定の入力単語やその 周辺の単語にフォーカスしたベクトルをデコーダで用いる。これにより、デコーダのあ る時点で必要な情報にフォーカスして使用することができ、入力文の長さに関係なくデ コードを効率よく行うことができる。 ・長文での翻訳精度が上昇した。 ・alignment(翻訳前の文と翻訳語の文の対照関係を分析する処理)でも有用な結果を生成 することができた。 ・エンコーダ・デコーダーモデルでの翻訳処理に、attention を導入することによって、 翻訳前の文章が長文であっても精度よく翻訳処理が行えるようにしたもの。 NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE 2014 Dzmitry Bahdanau,KyungHyun Cho,Yoshua Bengio 日付
  • 4. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? URL どうやって有効だと検証した? 次に読むべき論文は? Attention Is All You Need https://arxiv.org/pdf/1506.02640.pdf ・PASCAL VOCのデータセットを利用して検証を進めた。 ・Fast/Faster R-CNN,R-CNNあたりと精度,速度を比べた。 ・事前学習の後に、4層の畳み込み層と2層の全結合層を追加する形で本モデルを生成 した。 ・シンプルな回帰問題に落とし込んだことで、複雑なパイプラインを考慮する必要がな くなったため処理が早い。 ・処理が早い ・Fast R-CNNは背景を物体だと誤検出することが多かったが、YOLOでは、画像全体の情 報から学習や検証を実施することができるので、誤検出がFast R-CNNの半分以下となっ ている。 ・汎化性能が高い ・画像認識を回帰問題に落とし込み、画像の領域推定と分類を同時に行うことを実現し たもの。 ・1つのCNNで完結するためシンプル You Only Look Once 2016 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi 日付
  • 5. どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? URL どうやって有効だと検証した? 次に読むべき論文は? Faster R-CNN https://arxiv.org/pdf/1706.03762.pdf ・450万組の文章からなる標準的なWMT 2014年英独データセットを用いて学習を行な い、PPL,BLEUスコアを比較した。 ・並列化がかなりしやすく訓練時間がかなり削減できる ・WMT 2014 English-to-German翻訳タスクでBLEUスコア(28.4)という結果を出した。 ・他のタスクにも汎用性が高い ・Transformerという、RNNやCNNを用いずAttentionのみを用いた モデルである。 Attention Is All You Need 2017 Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,Łukasz Kaiser 日付