3. どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
You Only Look Once
https://arxiv.org/pdf/1409.0473.pdf
・データセットにWMT'14を用いて、RNN Encoder–Decoder と提案モデルの精度を比較し
た。
・attention を用いたモデルでは、エンコーダーの隠れ層のうち、特定の入力単語やその
周辺の単語にフォーカスしたベクトルをデコーダで用いる。これにより、デコーダのあ
る時点で必要な情報にフォーカスして使用することができ、入力文の長さに関係なくデ
コードを効率よく行うことができる。
・長文での翻訳精度が上昇した。
・alignment(翻訳前の文と翻訳語の文の対照関係を分析する処理)でも有用な結果を生成
することができた。
・エンコーダ・デコーダーモデルでの翻訳処理に、attention を導入することによって、
翻訳前の文章が長文であっても精度よく翻訳処理が行えるようにしたもの。
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND
TRANSLATE
2014 Dzmitry Bahdanau,KyungHyun Cho,Yoshua Bengio
日付
4. どんなもの?
先行研究と比べて何がすごい?
技術の手法や肝は?
URL
どうやって有効だと検証した?
次に読むべき論文は?
Attention Is All You Need
https://arxiv.org/pdf/1506.02640.pdf
・PASCAL VOCのデータセットを利用して検証を進めた。
・Fast/Faster R-CNN,R-CNNあたりと精度,速度を比べた。
・事前学習の後に、4層の畳み込み層と2層の全結合層を追加する形で本モデルを生成
した。
・シンプルな回帰問題に落とし込んだことで、複雑なパイプラインを考慮する必要がな
くなったため処理が早い。
・処理が早い
・Fast R-CNNは背景を物体だと誤検出することが多かったが、YOLOでは、画像全体の情
報から学習や検証を実施することができるので、誤検出がFast R-CNNの半分以下となっ
ている。
・汎化性能が高い
・画像認識を回帰問題に落とし込み、画像の領域推定と分類を同時に行うことを実現し
たもの。
・1つのCNNで完結するためシンプル
You Only Look Once
2016 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
日付