2018/03-04に読んだ深層学習論文のまとめ

2018/03-04
読んだ深層学習論文まとめ
トピック：汎用技術、言語処理、マルチモーダ
ル（言語＋ビジョン、音声、etc.）
Arxiv26, NAACL 14, CVPR12, AAAI 4, ICLR 2, ICASSP 1,
KDD 1

Group Normalization (Facebook)
https://arxiv.org/abs/1803.08494
• Batch Normが小さいバッチで不安定な問題を解決．畳込のチャネ
ルをグループに分割して，グループ内で正規化．ImageNetを
ResNet-50，バッチサイズ2で学習した際，BNのエラーを10.6%改善．
Layer / Instance Normよりも高精度．RNNは今後の課題．

Adafactor (Google)
• 少メモリ最適化．AxBの行列の場合，AdaｍならAB個の2次モーメ
ント項を保持する所，AdafactorはA+B個でOK．さらに，勾配の代
わりに更新量を抑えるupdate clippingを提案．Adamと同程度の性
能を少メモリで実現．tensor2tensorで公
開 https://github.com/tensorflow/tensor2tensor/blob/master/tensor2t
ensor/utils/adafactor.py

Associative Compression Networks (DeepMind; Graves,
Menick, van den Oord)
• 新VAE．潜在zのpriorを入力のk近傍点の条件付にすることで表現
能力を上げる．近傍計算はzの期待値(codeと呼ぶ)で実施．他VAE
に比べ良い次元圧縮および特徴表現を獲得．ImageNetやCelebAで
実験．

Independently Recurrent Neural Network (IndRNN)
(Wollongong大)
https://arxiv.org/abs/1803.04831 CVPR18
• 新RNN．1層の中でRNNの隠れ細胞を独立化．各細胞は層間で接続．
ReLUやBN，畳込を併用可．多層化(>20)で精度向上．
TF https://github.com/batzner/indrnn pytorch https://github.com/batzn
er/indrnn

Learning to Guide Decoding for Image Captioning (Tencent)
https://arxiv.org/abs/1804.00887 AAAI18
• 画像キャプション生成のdecoderを入力側から"guide"する．ガイド
情報には，encoder(CNN)のsubregion表現＋global表現＋画像中に含
まれる予測単語表現を利用．Enc-Review-Dec構成に適用してさら
に性能向上．

Deep k-Nearest Neighbors: Towards Confident, Interpretable
and Robust Deep Learning (ペンシルバニア州立大)
• 学習済ネットワークを使って，層毎に訓練データに対するk-NNを
実施．解釈性が高く，敵対的サンプルにも強い．学習未利用の
データを用意して出力の信頼度も計算

PackNet: Adding Multiple Tasks to a Single Network by
Iterative Pruning (イリノイ大)
• 1つのNNで複数タスクを学習．畳込と全結合層の小さい重みを削
除→残りを再訓練して固定．削除した重みを次タスクの学習に利
用．単純で強力．

Self-Attention with Relative Position Representations
(Google)
https://arxiv.org/abs/1803.02155 NAACL18
• Transformer (Attention is all you need) のself-attentionに相対位置の表
現を加えると，絶対位置の表現の場合よりもWAT 2014 のBLEU向上．
一定以上離れた位置については同じ距離として扱う．

Learning Longer-term Dependencies in RNNs with Auxiliary
Losses (Google)
• 長期依存の系列の学習について．ランダムに決定した点から，過
去の部分系列を再構成する損失と，未来の部分系列を予測する損
失を，タスク用の教師あり損失と一緒に減らす．各種分類タスク
で評価

マルチモーダル
言語＋ビジョン

Image Generation from Scene Graphs (Stanford, Google)
• キャプションに基づくシーングラフ
https://nlp.stanford.edu/pubs/schuster-krishna-chang-feifei-manning-
vl15.pdf を入力として画像生成．グラフ畳込→シーンレイアウト
(物体のbox配置)→CRN https://arxiv.org/abs/1707.09405 をend-to-end
に学習．StackGANより高精度．

Neural Baby Talk (ジョージア工科大 & Facebook)
• 画像キャプショニングを物体認識と同時に実施．まず物体領域を
スロットとしたテンプレート生成を行って，スロットに入る物体
を決定する．新奇なドメイン，物体を含むキャプション生成が可
能．COCOとFlickr30kでSOTA．

Actor and Action Video Segmentation from a Sentence (ア
ムステルダム大)
https://arxiv.org/abs/1803.07485 CVPR18(oral)
• 自然文により動画から動作主＆動作をピクセルレベルで抽出．テ
キストは1D CNN，動画は時間次元を追加したInflated 3D
CNN https://arxiv.org/abs/1705.07750 を利用．複数解像度で教師有
学習．

Guide Me: Interacting with Deep Networks (ミュンヘン工
科大)
• 画像セグメンテーションの品質を自然言語の指示（ヒント）によ
り改善可能なモデル．ヒントのクエリは正解と予測の差分を基に
スロットフィリング的に自動生成して学習．汎用的に使えそうな
アイデア．CVPR18

Finding beans in burgers: Deep semantic-visual embedding
with localization (Sorbonne大)
• 画像とテキストを同じベクトル空間に埋込．正しい(画像,テキス
ト)の組合と誤った組合のランキングlossで学習．テキストによる
画像検索／画像中の物体位置の理解が可能．

Learning a Text-Video Embedding from Incomplete and
Heterogeneous Data (ENS)
• テキストと動画の同空間埋込．動画の画像，動き，顔，音声をマ
ルチモーダルに考慮．全モーダルが揃ってないデータからも学習
可．コード https://github.com/antoine77340/Mixture-of-Embedding-
Experts デモ http://willow-demo.inria.fr/

Text2Shape (Stanford)
• 自然言語から3Dモデルを生成/検索．textをCNN+GRUで，shapeを
3D CNNでエンコード．text-shape-text(TST)とSTSの変換と，同クラ
ス内のtext/shapeの距離についてlossを計算して学習．textとshape
の演算もできる．データセット http://text2shape.stanford.edu/

Multi-Oriented Scene Text Detection via Corner Localization
and Region Segmentation (Huazhong大)
• シーン画像からのテキスト抽出．テキスト領域の4コーナーの点
および領域を個別に予測．抽出点をグルーピングして候補領域の
スコア算出．COCO-Textや多言語のMLTで良い精度

Rotation-Sensitive Regression for Oriented Scene Text
Detection (Huazhong大)
• シーン画像からの任意角度なテキスト抽出．
ARF https://arxiv.org/abs/1701.01833 を使って複数角度に回転させ
た特徴から抽出領域の回帰．特徴をプーリングして回転を無視し
た分類も実施

Detecting Multi-Oriented Text with Corner-based Region
Proposals (電子科技大)
• これもテキスト抽出をコーナー点予測で実施．点の予測はテキス
ト方向にロバスト．候補領域抽出にはRotation ROI
pooling https://arxiv.org/abs/1703.01086 を使う．コー
ド https://github.com/xhzdeng/crpn

Two can play this Game: Visual Dialog with Discriminative
Question Generation and Answering (UIUC)
• 画像に関する対話的QAと次質問の生成(QG)．VisDial
http://openaccess.thecvf.com/content_cvpr_2017/papers/Das_Visual_
Dialog_CVPR_2017_paper.pdf を基に，QG用のVisDial-Qを作成．100
候補の中から正解を選択する識別モデルの提案．

Differential Attention for Visual Question Answering (IIT)
• VQAを実例により改善．別のVQAシステム https://github.com/GT-
Vision-Lab/VQA_LSTM_CNN を使って画像-質問の埋込空間で入力画
像に近い/遠い画像を利用．入力と近い(遠い)画像のattention loss
を小さく(大きく)するように学習．

How Images Inspire Poems (USTC)
• 画像から中国の詩（7文字×4行）を生成．画像の特徴量，前の行
の7文字，画像から物体認識して獲得したキーワードを基に，次
の行の7文字を生成．2.3M件の画像/詩のデータセットを自動構築
して学習に利用．良さげな詩ができてる．

Multimodal Emoji Prediction
(UPF) https://arxiv.org/abs/1803.02392 NAACL18(short)
• インスタの投稿に出現する絵文字をテキスト・画像から予測．
ResNetとfastTextでそれぞれ特徴量計算してlogistic回帰で各絵文字
の出現を予測．

Achieving Human Parity on Automatic Chinese to English
News Translation (Microsoft)
https://www.microsoft.com/en-us/research/publication/achieving-human-parity-on-automatic-chinese-to-
english-news-translation/
• 中英のニュース翻訳（WMT'17）で人間と同レベルの翻訳精度を
達成：(1) 翻訳の双対性を利用 (2) 逐次予測におけるエラー増大を
防ぐ (3) noisyなデータを使わない (4) 複数システムを結合
• (2) Left-to-rightでsequenceを予測するとエラーが増大していくので，
Deliberation Networks (NIPS17) https://papers.nips.cc/paper/6775-
deliberation-networks-sequence-generation-beyond-one-pass-
decoding… で2段階のdecodingをする．最初はdraftを粗く，次に最
終版を精細に行う．さらに，left-to-rightとright-to-leftのalignment
も取る

Neural Response Generation with Dynamic Vocabularies
(Beihang, Microsoft)
• デコーダの語彙が動的な生成モデル．入力Xから応答Yの生成モデ
ルP(Y|X,T)P(T|X)において，P(T|X)を動的な語彙選択モデル（{1,0}の
予測）とする．学習時はTをモンテカルロサンプリング．

Can Neural Machine Translation be Improved with User
Feedback? (eBay)
https://arxiv.org/abs/1804.05958 NAACL18 industrial
• eBayの商品タイトルの英⇔スペイン翻訳を強化学習で改善．報酬
はユーザの5つ星評価と，クロスリンガル検索時のクリックログ
を利用．星評価は品質が悪く失敗，クリックログは成功．

Deep contextualized word representations (AI2)
• 言語モデルを使ったコンテキスト考慮型埋め込みELMoの提案．入
力をL層の双方向LMに通した際の，各単語に対する隠れ状態を加
重平均した物．基本は通常の単語ベクトルとELMoを連結して使う．
読解，含意など6タスクでSOTA．

Universal Sentence Encoder (Google)
• 感情分類や質問タイプ分類など様々なタスクに汎用的に使える文
エンコーダの提供．高精度なTransformerと高速なDAN (単語平均
+FNN) https://aclanthology.info/papers/P15-1162/p15-1162 の学習済
モデルを用意．TF hub https://tfhub.dev/google/universal-sentence-
encoder/1 で公開

A Discourse-Aware Attention Model for Abstractive
Summarization of Long Documents (Georgetown大)
• 長い単一の文書の生成要約．arxivやpubmedで実験．セクション
（＝discourse）・単語の階層的なアテンション付きエンコーダを
利用．デコーダではコピー機構も利用．

Deep Communicating Agents for Abstractive Summarization
• 長文に対する生成型要約．長文を段落に分割して，協調的エン
コーダが各段落を担当．各エンコーダの同じ層の最終状態をメッ
セージとしてやり取り．エージェントに対するアテンション，コ
ピー機構など工夫．

SHAPED: Shared-Private Encoder-Decoder for Text Style
Adaptation (Google AI)
• 文書要約のスタイル適応．入力文書のスタイルを判別して，スタ
イルに沿った要約を実現．スタイル個別／共有のEncDecを学習．
実験はニュース配信社をスタイルとしてヘッドライン要約．

Delete, Retrieve, Generate (Tencent & Stanford)
• 文のスタイル変換． 1)特定スタイルに出現し易いn-gram（マー
カ）を文から削除 2)目標スタイルの類似した文を検索（TF-IDF/埋
込空間距離） 3)類似文とそのマーカからRNNで文を生成．レ
ビューやキャプションで実験．

Neural Models for Reasoning over Multiple Mentions using
Coreference (CMU)
• 共参照解析の結果を利用したニューラルQA．BerkeleyやStanfordの
外部ツール（精度：約60%）の解析結果に基づき，共参照関係を
GRUの状態更新時に直接考慮．babiやwikihopで精度向上．

Think you have Solved Question Answering? Try ARC, the
AI2 Reasoning Challenge (Allen AI)
• 新しいQAデータセットARC．7787の科学QA(4択)と14Mの関連文
コーパス．明らかに訓練データが少ないので，他データ／知識を
どう使うかが鍵．サイト http://data.allenai.org/arc/

CliCR (アントワープ
大) https://arxiv.org/abs/1803.09720 NAACL18
• 医療の読解データセット（穴埋め型, 105K）．BMJ case
reports http://casereports.bmj.com/ から作成．クエリは要点文の医
療エンティティを削って生成．高度な専門知識が必要．専門家で
もF1=53%と難問揃い．データ https://github.com/clips/clicr

MCScript: A Novel Dataset for Assessing Machine Comprehension Using
Script Knowledge (Saarland University)
https://arxiv.org/abs/1803.05223 LREC18
• SemEval 2018の読解データセット．13939の質問のうち，27.4%が
与えられたテキストだけでは理解できないcommonsenseを必要と
する問題．回答は2択．

HFL-RC System at SemEval-2018 Task 11
https://arxiv.org/abs/1803.05655 ．
• 日常のシナリオに関する読解コンペ優勝の論文．外部知識
(ConceptNet)を使ったYuanfudao https://arxiv.org/abs/1803.00191 に
比べると真っ向勝負してる感じだが，単語の部分一致を入力に明
示的に含めることで1〜2%の向上との報告あり

Yuanfudao at SemEval-2018 Task 11:
https://arxiv.org/abs/
• 1803.00191日常のシナリオに関する読解コンペ2位の手法．
ConceptNetのgraph embeddingを行って，relation（used_forなど）
のembeddingを利用る．学習データが少ない（9731件）ので有効
に働いてそう．コンペのペー
ジ https://competitions.codalab.org/competitions/17184

Search Engine Guided Neural Machine Translation (HKY)
• 翻訳時に訓練データを元文で検索し，検索結果の対訳を用例とし
て，アテンションのコンテキストをkeyに，訳文の単語をvalueと
したメモリに入れて利用．翻訳時のコンテキストでメモリを読ん
で次単語の予測に活用．

Equation Embeddings (コロンビア大)
• 数式の埋込．単語埋込と同様に数式の周りに出現する単語を考慮．
数式の際は単語より広い窓を使う．数式をユニットに分
解 https://www.cs.rit.edu/~rlaz/files/sigir-tangent.pdfして精度向上．
単語と数式を同空間に埋め込むので，単語で数式の検索が可

code2vec (Technion)
• Javaメソッドのabstract syntax treeのパス集合からその意味を表す
タグを出力するアテンションモデルの中でcodeを固定ベクトルに
変換．compare + toLower = compareIgnoreCase を理解可．10KのJava
GitHubリポジトリから抽出した14Mのメソッドで学習．

Modeling Semantic Plausibility by Injecting World
Knowledge (テキサス大)
• SVOのイベント（例：男性，飲み込む，ペイントボール）が実例
は少なくとも意味的には可能かを判定．サイズなどの外部知識を
利用して精度向上．MTurkでデータ作
成 https://github.com/suwangcompling/Modeling-Semantic-
Plausibility-NAACL18

Annotation Artifacts in Natural Language Inference Data (ワ
シントン大) https://arxiv.org/abs/1803.02155 NAACL18
• 含意認識データSNLI, MNLIのアノテーションの問題．仮説だけで分
類してもSNLIは67%正解可能（neverが出ると矛盾の傾向強い等）
なことを報告．仮説分類が成功するデータは含意認識も容易．

360° Stance Detection (Aylien Ltd.)
• メディア毎に話題に対して肯定的か否定的かのスタンスをニュー
ラルネットで予測．学習用に32Kのニュース記事を作成して学習．
モデルは従来手法（多段のBiLSTM）
https://arxiv.org/abs/1606.05464 を利用．デ
モ http://demo.stance.ms-ie.aylien.com/

マルチモーダル
音声、センサ、その他

Learning to Localize Sound Source in Visual Scenes (KAIST)
• 音と画像のペアから，音がどこで鳴っているかを教師なしで学習．
音声特徴から画像にアテンションして，アテンションから音声特
徴を再構築してlossを取るイメージ．
youtube https://www.youtube.com/watch?v=UyairkbzR_Y

Vision as an Interlingua: Learning Multilingual Semantic
Embeddings of Untranscribed Speech (MIT)
https://arxiv.org/abs/1804.03052 ICASSP18
• 画像と多言語キャプション音声を同じ空間に埋込．画像が中間言
語として働き，ASRや書起し無しに言語間の意味を理解．(画像,英
語,ヒンディー語)の3つ組から学習．

Watch, Listen, and Describe: Globally and Locally Aligned
Cross-Modal Attentions for Video Captioning (UCSB)
• 画と音を考慮した動画キャプション生成．画像はResNet, 音声は
VGGish https://research.google.com/pubs/pub45611.html… 特徴量を
階層LSTMでエンコード．デコードも階層的．

Spoken SQuAD (国立台湾大)
• テキストの読み上げ音声についての質問応答．質問はテキスト，
回答はテキスト/音声区間．音声データはテキストからGoogle
TTS→CMU Sphinxで人工的に作成．
https://github.com/chiahsuan156/Spoken-SQuAD 認識誤り対策とし
て音素・音節をsubwordとして使うことで精度向上

DeepMood: Modeling Mobile Phone Typing Dynamics for
Mood Detection (イリノイ大)
https://arxiv.org/abs/1803.08986 KDD17
• スマホ（Galaxy Note 4）のタイピング系列（英数字，特殊文字，
加速度）から，被験者20名の躁鬱状態（2値化した診断スコア，
週単位）を90.3%で推定．Multi-viewモデルで各入力を融合．

End-to-end deep image reconstruction from human brain
activity (ATR & 京大)
https://www.biorxiv.org/content/early/2018/02/27/272518
• 脳活動から人間が見た画像をGANで再構築．fMRI信号から画像生
成．真偽識別に画像分類のlossも追加，訓練済CNNを活用．文字や
単純図形はかなり良い結果．データ（6000件）が増えればさらに
有望．

Capsules for Object Segmentation (UCF)
• CapsNetによる画像セグメンテーション．カプセルの結合を局所的
に制限するルーティング法と，globalな結合性を保つdeconvカプセ
ルの提案．大きな画像(512x512)を処理可能．肺CT画像でSOTA精度
かつネットワークの大幅なサイズ減に成功

YOLOv3: An Incremental Improvement (ワシントン大)
https://pjreddie.com/media/files/papers/YOLOv3.pdf
• v3で加えた改善点＆試したけど上手く行かなかったことの報告．
同程度の性能のRetinaNetより3.8倍高速に物体認識．
youtube https://www.youtube.com/watch?v=MPU2HistivI code https://
pjreddie.com/darknet/yolo/

Spherical CNNs (Amsterdam大)
https://openreview.net/forum?id=Hkbd5xZRb ICLR18ベスト
• ドローンや自動運転時に撮影される球面画像，全方位画像に対す
るCNNの理論および実験．球面上のMNISTと3D形状の分類SHREC17
で実験，球面上での回転に強い．PyTorchコー
ド https://github.com/jonas-koehler/s2cnn

SO-Net: Self-Organizing Network for Point Cloud Analysis
(NUS)
• SOMを使って点群を表現．点群の分類，セグメンテーション，検
索などいろいろ使えるSO-Netを提案．

Continuous Adaptation via Meta-Learning in Nonstationary
and Competitive Environments (OpenAI)
https://openreview.net/forum?id=Sk2u1g-0- ICLR18ベスト
• 少サンプルしか得られない動的環境に適応するためのメタ学習モ
デル．RoboSumo環境（4/6/8本足エージェントによる相撲）での
実験動画 https://sites.google.com/view/adaptation-via-metalearning

DBPal: An End-to-end Neural Natural Language Interface for
Databases (ブラウン大)
• 自然言語からSQLへの変換．新しいDBに対してスロットフィリン
グ，言い換えを利用して*自動で*訓練データを生成（Join，
Nestedも対応）してseq2seqで学習．動作
例 https://vimeo.com/251178010

Model-Free Control for Distributed Stream Data Processing
using Deep Reinforcement Learning (Syracuse Univ)
https://arxiv.org/abs/1803.01016 VLDB18
• 分散データストリーム処理のスケジューリングを深層強化学習で
実現．Apache Stormのデフォルト設定，3タスクでSOTAモデルベー
ス手法より高性能．

A Capsule Network-based Embedding Model for Search
Personalization (Deakin大)
• CapsNetによる検索結果パーソナライズ．(クエリ,ユーザ,文書)を
同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNet
で3つ組のスコア算出．通常の検索結果やグラフ埋込に比べて高
精度

Neural Voice Cloning with a Few Samples (Baidu)
• 少サンプル(1~100)でその人の音声を合成．複数話者の生成モデル
と，話者の音声特徴から話者embeddingに変換するencoderを別に
学習．英国男性 + 平均女性 − 平均男性 = 英国女性が可能．
サンプル https://audiodemos.github.io/

Social GAN (Stanford)
• 複数人の移動軌跡の予測．物理的には尤もらしくても社会的にお
かしい（ぶつかる等）軌跡の予測を避ける．生成器をEncoder-
PoolingModule(PM)-Decoderの構成として，PMで複数人の相互作用
を考慮．PMはEncodingされた各人の状態と他人と相対位置を利用

2018/03-04に読んだ深層学習論文のまとめ

Recommended

Recommended

More Related Content

Similar to 2018/03-04に読んだ深層学習論文のまとめ

Similar to 2018/03-04に読んだ深層学習論文のまとめ (13)

Recently uploaded

Recently uploaded (14)

2018/03-04に読んだ深層学習論文のまとめ