Learning to summarize from human feedbackharmonylab
公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
第7回全日本コンピュータビジョン勉強会「CVPR2021読み会」(前編)の発表資料です
https://kantocv.connpass.com/event/216701/
You Only Look One-level Featureの解説と、YOLO系の雑談や、物体検出における関連する手法等を広く説明しています
2. Jason J. Yu, Adam W. Harley, Konstantinos G. Derpanis, “Back to Basics: Unsupervised Learning of Optical
Flow via Brightness Constancy and Motion Smoothness”, in ECCV Workshop on BNMW, 2016.
【1】
Keywords: Optical Flow, Unsupervised Learning
新規性・差分
概要
CNNをベースとして,Unsupervisedにオプティカルフローを学習する
FlowNetを提案.データセットに依存して学習するオプティカルフローではな
く,環境に合わせて学習できるように教師なし学習のオプティカルフローに
チャレンジした.損失関数をフォトメトリック項や平滑化項により定義して,
完全教師なし学習でオプティカルフローを推定.フォトメトリック項では順フ
ローと逆フローが一致すれば損失ゼロ.CNNに適用すると右図のようにな
る.畳み込み層と対応づけるUnconv層によりフローの再現性を向上させ
る.
・完全教師なし学習によるCNNベースのオプティカルフロー推
定を提案した
・損失関数を定義して,CNNに挿入した.
Links
論文 https://arxiv.org/pdf/1608.05842v1.pdf
プロジェクト
3. S. L. Pintea, J. C. van Gemert, “Making a Case for Learning Motion Representations with Phase”, in ECCV
Workshop on BNMW, 2016.
【2】
Keywords: Optical Flow, Eulerian Motion Representation
新規性・差分
概要
オプティカルフローから動作のフェーズを表現するEulerian
Motion Representationを導くことで,行動認識や行動予測,
モーション転移などに有効と主張した.フェーズごとにCNNの学
習を行うことで,フェーズにおけるモーションや変位の関係性を
記述できる.
・感覚的に,数フレーム単位のモーションの塊(フェーズ)を自動
で捉えることに成功した.フレーム数の変動に対応可能か?
・フェーズ学習というものを行動認識,モーション予測,,モー
ション転移に適用し,各CNNアーキテクチャを提案.
Links
論文 http://openreview.net/pdf/H1Hp-q2s.pdf
プロジェクト
http://silvialaurapintea.github.io/motion_transfer/index.html
4. Yu-Hui Huang, Jose Oramas M., Tinne Tuytelaars, Luc Van Gool, “Do Motion Boundaries Improve Semantic
Segmentation?”, in ECCV Workshop on BNMW, 2016.
【3】
Keywords: Semantic Segmentation
新規性・差分
概要
Semantic Segmentationに対して,オプティカルフローやモー
ションの境界は必要であるかを検証した.実験ではSegNetやオ
プティカルフロー,モーション境界を用いることでSegNetの精度
からセマンティックセグメンテーションの精度を向上させることに
成功した.シンプルであるが,効果的なアイディアである.
・オプティカルフローやモーション境界を用いることでSemantic
Segmentationの結果を向上させることに成功した.
Links
論文 http://openreview.net/pdf/H1q36jBj.pdf
プロジェクト
5. Joon Son Chung, Andrew Zisserman, “Signs in time: Encoding human motion as a temporal image”, in ECCV
Workshop on BNMW, 2016.
【4】
Keywords: Sign Language, Posture Estimation
新規性・差分
概要
手話認識のための新しいモーション表現方法を提案する.手法
としては,CNNを二段階に用いる.最初のステップではまず姿
勢推定のためのCNNを用いる.次のステップでは推定した姿勢
から関節位置の時系列軌跡を記録して新たにCNNに入力す
る.Back propagationにより,手話のローカライズも同時に行っ
た.
・手話認識の新しい表現方法を提案した.2段階に
CNNを用いることで性能が向上する.
Links
論文 https://arxiv.org/pdf/1608.02059v1.pdf
プロジェクト
6. Hao Zhou, Jose M. Alvarez, Fatih Porikli, “Less is More: Towards Compact CNNs”, in ECCV, 2016.
【5】
Keywords: Model Compression, Pruning, Neuron Reduction
概要
・目的関数にスパース化の制約を加えることで,CNNのニュー
ロン数を学習時に削減.
・AlexNetやVGG-13の最初のFC層の場合,top-1 accuracyを
下げることなく,ニューロン数を30%に削減可能.
Links
論文 https://www.nicta.com.au/pub-download/full/9476
ポスター http://www.eccv2016.org/files/posters/S-3A-09.pdf
新規性・差分
・学習時にニューロンを削減するため,削減前に予めネットワーク
を学習する必要が無い.
・ReLUがニューロン数削減に寄与することを示した.(ある特定の
ニューロン ŵlj を考え,他のニューロンを固定すると,式(1)は ŵlj=0
で極小値を持つ.)
・forward-backward splittingにより,スパース化制約の評価を誤差
逆伝搬時に省略する.
53. Justin Johnson, Alexandre Alahi, Li Fei-Fei, “Perceptual Losses for Real-Time Style Transfer and Super-
Resolution”, in ECCV, 2016.
【52】
Keywords: Style Transfer, Super Resolution
新規性・差分
概要
GatysらのStyle Transferと比較して,似たような結果で約1000
倍の高速化を図り,動画に対するStyle Transferを現実的なも
のにした.Perceptual Content Lossについて,Style Transfer時
にはターゲット画像と入力画像のロスを最小化し,超解像の際
にはGTとの誤差を最小化する.さらに,Style Transferには
Perceptual Style Lossを用いる.グラム行列におけるユークリッ
ド距離を計算して最小化.
・従来のStyle Transferと似たような結果でかつ約1000倍
の高速化を実現した.右の表や図に結果が示されている
・同じアーキテクチャで誤差関数の定義を変更すること
で,超解像もできることが判明した.
Links
論文
http://cs.stanford.edu/people/jcjohns/papers/eccv16/
JohnsonECCV16.pdf
コード https://github.com/jcjohnson/fast-neural-style
プロジェクト http://cs.stanford.edu/people/jcjohns/eccv16/
ポスター http://www.eccv2016.org/files/posters/P-1B-47.pdf
54. Qian-Yi Zhou, Jaesik Park, Vladlen Koltun, “Fast Global Registration”, in ECCV, 2016.
【53】
Keywords: ICP, Ransac, Global Matching
新規性・差分
概要
大域的な3次元サーフェイスのマッチングを実現した.初期化な
しで密な表面形状の最適化を行うことができる.右図は2Dポイ
ントの例である.青が正解の対応,赤が誤対応であるが,でき
る限りサンプリングや検証などの処理を省く最適化を考案し
た.
・ICPよりも数倍,RANSACよりも50倍高速な処理を実現した.
・エラーをRMSEにより計算した結果,下表に示すような結果が
得られた.
Links
論文 http://vladlen.info/papers/fast-global-registration.pdf
プロジェクト
55. Seong Joon Oh, Rodrigo Benenson, Mario Fritz, Bernt Schiele, “Faceless Person Recognition; Privacy
Implications in Social Media”, in ECCV, 2016.
【54】
Keywords: Person Detection, Faceless Detection
新規性・差分
概要
プライバシーを保証するために,顔を見ないで人物認証を行う
手法について検討した.頭部領域に対してブラーがかった画像
に対して人物認証を行うという問題になる.学習にはタグ付け
された顔画像入りの画像を用いることができるが,テスト時に
は顔を隠して認証を行う.認証にはCRFを用いた.
・Faceless Person Recognitionというフレームワークを提案し
た.
・右図はVisible, ブラー,黒抜きの比較である.黒抜きよりもブ
ラーの方が精度が高いことがわかる.
Links
論文 https://scalable.mpi-inf.mpg.de/files/2016/10/16.pdf
プロジェクト
ポスター http://www.eccv2016.org/files/posters/P-2A-12.pdf
56. Matthias Soler, Jean-Charles Bazin, Oliver Wang, Andreas Krause, Alexander Sorkine-Hornung, “Suggesting
Sounds for Images from Video Collections”, in ECCVW, 2016.
【55】
Keywords: Suggesting Sounds, Sounds Retrieval
新規性・差分
概要
画像から連想される音声・音楽をサジェストする手法を提案した.背景音
楽などノイズがあり必ずしも画像と音声は対応付けられるものではないが
提案手法ではクラスタリングベースの教師なし学習による方法でノイズを
出来る限り排除した.右図はビデオやオーディオとの対応を生成している
図である.オーディオ特徴にはMFCCを,ビデオ特徴としてはCNNの全結
合層を用いた.さらに,ビデオとオーディオの相関を元にして特徴表現を
行った,クラスタリングはkNNを使用.
・画像と音声,マルチモーダルを用いた研究として画像からの
音声検索を実現した.
・相関を用いる手法とそうでないものでは,両者の統合による
手法が良いことが判明した.(右下図)
Links
論文
http://www.ahornung.net/files/pub/2016-eccvws-
suggestingsounds-soler.pdf
プロジェクト
https://www.disneyresearch.com/publication/sounds-for-images/
57. Jonathan Krause, Benjamin Sapp, Andrew Howard, Howard Zhou, Alexander Toshev, Tom Duerig, James Pilbin,
Li Fei-Fei, “The Unreasonable Effectiveness of Noisy Data for Fine-Grained Recognition”, in ECCV, 2016.
【56】
Keywords: Scale up Fine-grained Category
新規性・差分
概要
詳細画像認識(Fine-grained Recognition)は大量の画像学習を
行うことでさらにスケールアップできると主張した.Cross-
domain noise, Cross-category noiseを含むデータセットである
が,Active Learningを行うことで,これらを含むデータであって
もクラスラベルを増加しても精度よくラベルを推定するに至っ
た.
・ノイズを含むデータからの学習により詳細画像認識のクラスを
増加することに成功
・正解ラベルなしに拡張することができた
・鳥の種類は10,000種類,蝶の種類は14,000にまで拡張した
Links
論文 https://arxiv.org/pdf/1511.06789v3.pdf
プロジェクト
ポスター http://www.eccv2016.org/files/posters/P-2A-29.pdf
58. Michael Opitz, Georg Waltner, Georg Poier, Horst Possegger, Horst Bischof, “Grid Loss: Detecting Occluded
Faces”, in ECCV, 2016.
【57】
Keywords: Face Detection, Occlusion, Grid Loss
新規性・差分
概要
CNNに対してGrid lossと呼ばれる,オクルージョン対応を行う誤
差関数を提案することにより顔認識の精度を向上させることが
できる.誤差関数は下式により示され,畳み込みレイヤ f をブ
ロックごとに分割 (f_i)し,ブロックごとに検出器 w_iを評価.共有
重みである wによりレイヤの特徴を表現する.
・オクルージョンを対応するための誤差関数であるGrid lossを
提案した.グリッドごとに特徴を取り出し検出器を評価すること
により,例として顔検出の精度を向上させることに成功した.
Links
論文 https://arxiv.org/pdf/1609.00129v1.pdf
ポスター http://www.eccv2016.org/files/posters/P-2A-34.pdf
59. Yunzhu Li, Benyuan Sun, Tianfu Wu, Yizhou Wang, “Face Detection with End-to-End Integration of a ConvNet
and a 3D Model”, in ECCV, 2016.
【58】
Keywords: Face Detection, Multi-task, 3D model
新規性・差分
概要
顔認識において3Dモデルの平均や2D画像の特徴量により認
識を実行する.3Dと2Dの共通特徴を学習するためにMulti-task
Lossを定義する.3Dモデルからの候補領域を抽出できること
や,Configuration poolingにより顔検出のための検証を行うこと
ができる.全体的なネットワークの構造は右図の通りである.
・2D画像のみならず,3Dの顔モデルを用いることで,例えば候
補領域の生成などにメリットがある
・マルチタスク学習により2Dと3Dの共通特徴を学習可能であ
る.
・ベンチマークであるFDDBやAFWにて良好な性能を達成した
Links
論文 https://arxiv.org/pdf/1606.00850v3.pdf
コード https://github.com/tfwu/FaceDetection-ConvNet-3D
ポスター http://www.eccv2016.org/files/posters/P-2A-36.pdf
60. Johannes L. Schonberger, Enliang Zheng, Marc Pollefeys, Jan-Michael Frahm, “Pixelwise View Selection for
Unstructured Multi-View Stereo”, in ECCV, 2016.
【59】
Keywords: Multi-View Stereo
新規性・差分
概要
多数の画像から対応点マッチングを行い,空間の3次元形状を
復元するMulti-View Stereoの問題設定.オクルージョン・立体
視・解像度・ビュー変換などの事前情報からピクセルレベルで
のビュー選択が可能になった.
・パッチのマッチング手法を新規に考案し,距離画像・法線・オ
クルージョンを同時推定できる枠組みを考案した.
・フォトメトリックや幾何的な事前情報によりPixelwiseにビュー推
定が可能となった.
・Multi-viewの幾何的な整合性を考慮.
・これらの相補的な作用により,従来よりも密な点群推定が可
能となった.
Links
論文
https://www.cs.unc.edu/~ezheng/resources/mvs_2016/
eccv2016.pdf
ポスター http://www.eccv2016.org/files/posters/P-2A-41.pdf
YouTube https://www.youtube.com/watch?v=GRW2APWn9wY
61. Victor Escorcia, Fabian Caba Heilbron, Juan Carlos Niebles, Bernard Ghanem, “DAPs: Deep Action Proposals
for Action Understanding”, in ECCV, 2016.
【60】
Keywords: Action Proposals
新規性・差分
概要
CNN-RNN連結による時系列解析により,高速な行動候補領域
の推定を実現した.画像特徴にはxytの畳み込みを採用した
CNNであるC3Dを,シーケンスの記述にはLSTMを用いることで
長期の候補領域を生成するに至った.
・C3DとLSTMのコンビネーションにより,高速(> 130fps)な人物
行動の候補領域生成に貢献した.
・THUMOS-14 datasetに対する候補領域数やRecallの対応表
は右に示す通りである.
Links
論文 https://ivul.kaust.edu.sa/Documents/Publications/2016/
DAPs Deep Action Proposals for Action Understanding.pdf
プロジェクト https://ivul.kaust.edu.sa/Pages/pub-Daps.aspx
ポスター http://www.eccv2016.org/files/posters/P-2B-10.pdf
62. T. Nathan Mundhenk, Goran Konjevod, Wesam A. Sakla, Kofi Boakye, “A Large Contextual Dataset for
Classification, Detection and Counting of Cars with Deep Learning”, in ECCV, 2016.
【61】
Keywords: Aerial Images, Car Detection
新規性・差分
概要
航空画像からの車両検出に対して,データセットを公開した.モ
デルとしてはGoogleNet-v4を参考にしてResCeption Layerを提
案して,高精度な航空画像における車両検出を実行した.
・航空画像における車両検出の問題
に対してデータを公開した.
・ResCeption Layerを提案
・比較結果は右表
Links
論文 https://arxiv.org/pdf/1609.04453v1.pdf
プロジェクト http://gdo-datasci.ucllnl.org/cowc/
ポスター http://www.eccv2016.org/files/posters/P-2B-11.pdf
63. Jun Liu, Amir Shahroudy, Dong Xu, Gang Wang, “Spatio-Temporal LSTM with Trust Gates for 3D Human
Action Recognition”, in ECCV, 2016.
【62】
Keywords: LSTM, 3D Action Recognition
新規性・差分
概要
LSTMを用いた,時系列行動認識に関する研究.人体スケルト
ンを入力として,LSTMにより認識を行うが,Trust Gateの提案
によりノイズに対して頑健な認識を行うことができる.信頼でき
る時間情報のみ再帰的な入力を行う.
・LSTMに対してTrust Gateの提案により信頼できるスケルトン
ベースの行動認識を行うことができた
・NTU RGBD,SBU Interaction,UT-Kinectなどのデータにて
State-of-the-artな精度
Links
論文 https://arxiv.org/pdf/1607.07043v1.pdf
プロジェクト http://www.eccv2016.org/files/posters/P-2B-13.pdf