SlideShare a Scribd company logo
1 of 23
論文紹介
Dilated Recurrent Neural
Networks
森山 直人
本資料で用いられる図及び表は論文より引用:https://arxiv.org/pdf/1710.02224.pdf
自己紹介
• 森山 直人(もりやま なおと)
• もともと中国国籍 ⇒ 帰化(国籍変更)して日本人に
• パーソルキャリア株式会社でデータ分析しています
• 仕事では大方勾配Boosting、プライベートで遊びで深層学習
• 自然言語処理が好きです
本日のお話
• 論文選定の理由及びポイント
• Recurrent neural networkの基本と問題点
• Dilated recurrent neural networksの仕組み
• パフォーマンス評価
• まとめ
論文のポイント
• RNNが抱える問題をシンプルな手法を用いて解決を図り、
幾つかの観点で既存の構造より優れることを提唱する
• NIPS論文としては数理的な複雑度が抑えられている
(それだけアイディアが良い?)
• 自然言語から画像認識など応用範囲が広く、既存のRNNを
用いたモデルへの移植がしやすい
以降通常のRNNの仕組みを整理したのち、本論文の概要を
説明致します
Recurrent Neural Network
出力層
入力層
隠れ層
隠れ層が再帰構造を
持つネットワーク
時系列に展開
t=0 t=1 t=2 t=3
任意の数
で初期化
Recurrent Neural Network
理論上ここには過去の全
情報が記憶されている
(記憶の計算結果として)
過去の全情報と最新の
情報を計算することで未
来の情報を得たい
問題点
• 中間層のみが過去の情報を表現するため、そこで短期・中期の
記憶を保持しながら長期記憶を保持するのは難しい
• 勾配計算時は過去の系列をすべて辿るため、計算が多くなり
勾配問題(爆発・消失)が発生し得る
-順伝搬時は重みが乗った入力を足し算。逆伝搬時は掛け算
• 学習は系列データを逐次処理するため、並列化が難しい
問題点
問題点に対してはこれまで多くの取り組みがされてきた
• LSTMやGRUを用いて勾配をコントロール
• Clockwork RNNsなどを用いて異なる時系列を処理
• 一定間隔で学習データを飛ばす処理を入れることで高速化
• その他gradient clippingなどの学習ルール
本論文ではWaveNetで用いられるアイディアをRNNに応用し、
前述の課題を解決する
Dilated Recurrent Neural Networks
(以下dilatedRNNとします)
• IBMとイリノイ大学の共同執筆
• 再帰構造を持つ隠れ層の再帰接続にスキップ機能を導入。
これにより少数の接続で長期の範囲と接続を持たせる
• 複数の隠れ層を構築し、それぞれ異なる時系列を参照
• 平均再帰長とパラメータ効率の概念を新たに提唱し、
モデルの優位性を分析
dilatedRNNのキーアイディア
層ごとに異
なるスキッ
プ幅を持つ
WaveNetと同様のスキップ幅を持つ⇒
スキップの幅は 𝑠 𝑙
= 𝑀 𝑙−1
(M:スキップを持つ隠れ層数、l: 隠れ層)https://deepmind.com/blog/wavenet-generative-model-raw-audio/
dilatedRNNのキーアイディア
通常のRNN dilatedRNN
dilatedRNNのキーアイディア
通常のRNN dilatedRNN
1回のスキップ幅を広げ
ることで、少ない接続で
長い系列を辿れる通常のRNNでは勾配問
題により長い系列を学
習出来ない
概念上、すべての層が
同じ時系列依存をする
層ごとに異なる時系列
依存関係となっている
全体のパラメータ数が
少なく、学習速度が早
い
全体のパラメータ
数が多く、学習に
時間がかかる
パラメータが少なければよいのか?
• パラメータ減により、長い時系列の学習や学習速度の向上は
実現できたが、性能向上の理論を検討する必要がある
• そのために、新たに平均再帰長の概念を提唱する
• メインの思想は、再帰の回数が長いほど、各データが持つ情報
が希薄する。ネットワークの記憶能力向上のため、平均再帰長
は少ないほど良い
※論文中で平均再帰数が少ないほど良いことを示す証明はされていない
平均再帰長 ※より小さい平均再帰長のほうが優秀
再帰長の定義
𝑑 =
1
𝑚
𝑛=1
𝑚
max
𝑖∈𝑉
𝑑𝑖(𝑛)
𝑑𝑖(𝑛): 時刻iからnにかけて、任意の
ノード間の距離
𝑚 : 再帰層数
RNNの平均再帰長 𝑑 =
𝑚−1
2
+ log2 𝑚 +
1
𝑚
+ 1
dilatedRNNの平均再帰長 𝑑 =
3𝑚−1
2𝑚 log2 𝑚
+
1
𝑚
+ 1
平均再帰長 ※より小さい平均再帰長のほうが優秀
RNNの平均再帰長 𝑑 =
𝑚−1
2
+ log2 𝑚 +
1
𝑚
+ 1
dilatedRNNの平均再帰長 𝑑 =
3𝑚−1
2𝑚 log2 𝑚
+
1
𝑚
+ 1
再帰層mが多いほど、dilatedRNNの理論平均再帰長が減少。
前述の理論に基づいてdilatedRNNの方がより情報を効率よく
記憶できる
パラメータ効率化
• 平均再帰長に加え、パラメータ効率化の概念を導入
• RNNの概念として、より少ないパラメータで長い再帰を行
いたい
• dilatedRNNのスキップ効果により、1つのパラメータで1以
上の再帰を行うことができるため、効率に優れるといえる
並列化
1以上のスキップ幅を持つ層は並列化が可能となる。
RNNの仕組み上、直前の情報がなければ計算は出来ないが、スキップ
する場合はスキップ幅分過去の情報を参照するため直前の情報が不要
となる。
そのため図のようにスキップ幅が4の場合は4データを並列して計算可
能となる
ベンチマークスコア
パフォーマンス評価のため、以下のタスクにて実験を行った
• メモリーコピー
• 手書き文字(MNIST)分類
• 文字レベル言語モデル(PennTreebank)
• 音声話者推定
比較対象はRNNをベースとしたモデルであり、dilatedRNN以外
にLSTMとGRUにおいてもdilatedを適応させ、それぞれ
dilatedLSTM、dilatedGRUとしてスコアを計算した
メモリコピー
dilated関連モデルが大幅に他のモデルを上回る。
Dilatedを適応させたLSTMやGRUよりもVanilla(一般的なRNN)が早
く収束した要因として、LSTMやGRUの構造が複雑であるため、学習に
時間を要したと推測される
手書き文字分類
ここでは通常の学習に加え入力系列を並べ替えて学習させる処理を行う
通常では最高性能はdilatedGRUとなった。並べ替えた際はdilatedCNN
が最も高いスコアとなった。
文字レベル言語モデル
文字レベル言語モデルではBPCが他のモデルに及ばなかった。
Dilatedではモデルの正則化効果を図るため入力層にドロップアウトを
設ける以外学習トリックを使わなかったことが影響と考察
また、パラメータ数では他のモデルを大幅に下回っている
音声話者推定
音声データの処理では一般的にMFCCのような一定区間の周波数を畳み
込む前処理が必要だが、これを利用しなかったdilatedベースのGRUは
スコアが劣るものの、同水準に達した
まとめ
• シンプルな実装によりRNNに長期時系列依存性を高めた
• パラメータの減少と並列化により学習速度が向上
• RNNにおける理論分析の指標を提供した

More Related Content

What's hot

What's hot (20)

【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advert...
【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search  Engine Advert...【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search  Engine Advert...
【DL輪読会】Aspect-based Analysis of Advertising Appeals for Search Engine Advert...
 
ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)ICLR2020の異常検知論文の紹介 (2019/11/23)
ICLR2020の異常検知論文の紹介 (2019/11/23)
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
CVPR 2015 読み会 "Understanding Deep Image Representations by Inverting Them"
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
U-Net: Convolutional Networks for Biomedical Image Segmentationの紹介
 
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
【DL輪読会】GradMax: Growing Neural Networks using Gradient Information
 
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
[DL輪読会]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
 
(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展(2022年3月版)深層学習によるImage Classificaitonの発展
(2022年3月版)深層学習によるImage Classificaitonの発展
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 

Similar to Dilated rnn

opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
Takuya Nishimoto
 

Similar to Dilated rnn (14)

[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ[ICLR2016] 採録論文の個人的まとめ
[ICLR2016] 採録論文の個人的まとめ
 
Neuroscience inspired artificial intelligence
Neuroscience inspired artificial intelligenceNeuroscience inspired artificial intelligence
Neuroscience inspired artificial intelligence
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
 
[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization[DL輪読会]Understanding deep learning requires rethinking generalization
[DL輪読会]Understanding deep learning requires rethinking generalization
 
CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目CVPR2017 参加報告 速報版 本会議 2日目
CVPR2017 参加報告 速報版 本会議 2日目
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
 
最近の自然言語処理
最近の自然言語処理最近の自然言語処理
最近の自然言語処理
 
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
[DL輪読会]"Improving Coherence and Consistency in Neural Sequence Models with Du...
 
関西CVPRML勉強会資料20150627
関西CVPRML勉強会資料20150627関西CVPRML勉強会資料20150627
関西CVPRML勉強会資料20150627
 
[DL輪読会]A Neural Representation of Sketch Drawings
[DL輪読会]A Neural Representation of Sketch Drawings[DL輪読会]A Neural Representation of Sketch Drawings
[DL輪読会]A Neural Representation of Sketch Drawings
 
opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2opensource and accessibility (Dec2000) Part 2
opensource and accessibility (Dec2000) Part 2
 
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
[Dl輪読会]bridging the gaps between residual learning, recurrent neural networks...
 
An efficient framework for learning sentence representations
An efficient framework for learning sentence representationsAn efficient framework for learning sentence representations
An efficient framework for learning sentence representations
 

More from naoto moriyama (7)

論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base論文紹介: Differentiable reasoning over a virtual knowledge base
論文紹介: Differentiable reasoning over a virtual knowledge base
 
Deep forest
Deep forestDeep forest
Deep forest
 
Differentiable neural conputers
Differentiable neural conputersDifferentiable neural conputers
Differentiable neural conputers
 
ニューラルチューリングマシン入門
ニューラルチューリングマシン入門ニューラルチューリングマシン入門
ニューラルチューリングマシン入門
 
自然言語処理 Word2vec
自然言語処理 Word2vec自然言語処理 Word2vec
自然言語処理 Word2vec
 
自然言語処理
自然言語処理自然言語処理
自然言語処理
 
ニューラルネットワーク入門
ニューラルネットワーク入門ニューラルネットワーク入門
ニューラルネットワーク入門
 

Recently uploaded

Recently uploaded (7)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

Dilated rnn