Submit Search
Upload
Long Short-term Memory
•
41 likes
•
89,561 views
N
nishio
Follow
Long Short-term Memory論文紹介
Read less
Read more
Education
Report
Share
Report
Share
1 of 25
Download now
Download to read offline
Recommended
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Recommended
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
Recurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
最適輸送の解き方
最適輸送の解き方
joisino
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
Kensho Hara
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
Makoto Takenaka
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
More Related Content
What's hot
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Fumihiko Takahashi
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
最適輸送の解き方
最適輸送の解き方
joisino
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
Kensho Hara
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Yusuke Uchida
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito
TensorFlowで逆強化学習
TensorFlowで逆強化学習
Mitsuhisa Ohta
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
Makoto Takenaka
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
What's hot
(20)
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
時系列予測にTransformerを使うのは有効か?
時系列予測にTransformerを使うのは有効か?
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
最適輸送の解き方
最適輸送の解き方
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
TensorFlowで逆強化学習
TensorFlowで逆強化学習
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
GAN(と強化学習との関係)
GAN(と強化学習との関係)
More from nishio
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
nishio
夏プロ報告
夏プロ報告
nishio
ITと経営
ITと経営
nishio
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
nishio
交渉力について
交渉力について
nishio
If文から機械学習への道
If文から機械学習への道
nishio
組織横断型研究室構想
組織横断型研究室構想
nishio
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
nishio
強化学習その5
強化学習その5
nishio
良いアイデアを出すための方法
良いアイデアを出すための方法
nishio
強化学習その4
強化学習その4
nishio
強化学習その3
強化学習その3
nishio
強化学習その2
強化学習その2
nishio
強化学習その1
強化学習その1
nishio
線形?非線形?
線形?非線形?
nishio
機械学習キャンバス0.1
機械学習キャンバス0.1
nishio
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
nishio
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
nishio
Wifiで位置推定
Wifiで位置推定
nishio
ESP8266EXで位置推定
ESP8266EXで位置推定
nishio
More from nishio
(20)
量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
夏プロ報告
夏プロ報告
ITと経営
ITと経営
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
交渉力について
交渉力について
If文から機械学習への道
If文から機械学習への道
組織横断型研究室構想
組織横断型研究室構想
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
強化学習その5
強化学習その5
良いアイデアを出すための方法
良いアイデアを出すための方法
強化学習その4
強化学習その4
強化学習その3
強化学習その3
強化学習その2
強化学習その2
強化学習その1
強化学習その1
線形?非線形?
線形?非線形?
機械学習キャンバス0.1
機械学習キャンバス0.1
首都大学東京「情報通信特別講義」2016年西尾担当分
首都大学東京「情報通信特別講義」2016年西尾担当分
勾配降下法の最適化アルゴリズム
勾配降下法の最適化アルゴリズム
Wifiで位置推定
Wifiで位置推定
ESP8266EXで位置推定
ESP8266EXで位置推定
Recently uploaded
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
Ken Fukui
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
Ken Fukui
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
inspirehighstaff03
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
Ken Fukui
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
inspirehighstaff03
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
inspirehighstaff03
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
inspirehighstaff03
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
yukisuga3
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
Ken Fukui
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
inspirehighstaff03
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
inspirehighstaff03
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
inspirehighstaff03
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
inspirehighstaff03
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
ssusere0a682
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
inspirehighstaff03
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
inspirehighstaff03
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
Ken Fukui
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
inspirehighstaff03
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
inspirehighstaff03
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
inspirehighstaff03
Recently uploaded
(20)
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 当日講座1(スタッフ共有用)『兵は詐をもって立つ』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
リアル戦国探究in米沢 事前講座1スライド(スタッフ共有用)『川中島の謎』についてのスライド
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
My Inspire High Award 2024「他者と自分、対立を防ぐには?」
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
リアル戦国探究in米沢 事前講座2スライド(スタッフ共有用)『両雄の強さの秘密』についてのスライド
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「AIと仲良くなるには?」
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「本当の『悪者』って何?」
My Inspire High Award 2024 「正義って存在するの?」
My Inspire High Award 2024 「正義って存在するの?」
TEAMIN Service overview for customer_20240422.pdf
TEAMIN Service overview for customer_20240422.pdf
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
リアル戦国探究in米沢 当日講座3スライド(スタッフ共有用)『糧は三度はさいせず』についてのスライド
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award2024「外国人が日本のテーブルマナーに驚く理由は?」
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024 「孤独は敵なのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「なぜ議会への関心が低いのか?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
My Inspire High Award 2024「スーパーマーケットで回収されたキャベツ外葉は廃棄されているの?」
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
【ゲーム理論入門】ChatGPTが作成した ゲーム理論の問題を解く #3 Slide
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024 「家族とは何か」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
My Inspire High Award 2024「なぜ人は他人と違うところがあってもそれをなかなか誇れないのか?」
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
リアル戦国探究in米沢 当日講座2スライド(スタッフ共有用)『人を致すも人に致されず』についてのスライド
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「Yakushima Islandってなんか変じゃない?」.pdf
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「なぜ、好きなことにいつかは飽きるの」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
My Inspire High Award 2024「世の中の流行はどのようにして生まれるのか」
Long Short-term Memory
1.
Long Short-term Memory 2015-07-31 サイボウズラボ機械学習勉強会 西尾泰和
2.
不定長の入力 自然言語で書かれた文章とか お客さんがある操作をして別の操作をして… という操作ログとか そういう不定長の入力を扱いたい 2
3.
Grid Long Short-term
Memory 面白そうな論文 ”Grid Long Short-term Memory” [Kalchbrenner+ 2015] Long Short-term Memory(LSTM)を縦横につなげ てやるとWikipediaの文字予測タスクでNN界最強 中国語英語翻訳でもphrase-based reference systemよりはるかに性能がいい これを理解するために遡っていく… 3 http://arxiv.org/abs/1507.01526
4.
LONG SHORT-TERM MEMORY 今回解説するのはこれ、LSTM元祖の論文 “LONG
SHORT-TERM MEMORY” [Hochreiter&Schmidhuber 1997] Recurrent Neural Networkの問題点を指摘し、 LSTMを考案した 4 http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf
5.
Recurrent Neural Network 「不定長の入力を受け付けたい」 「ならばNNの中にループを作ろう」 直前の自分の活性を入力として受け取ることに よって「記憶」のあるNNを実現、時系列入力と して与えることで不定長入力を可能にする 5
6.
Backpropagation Through Time ループのあるNNをどうやって学習するか? 時間軸方向に展開して 仮想の多層ネットワークの学習として扱う [Williams&Zipser
1992] 6
7.
問題 勾配を何度も掛け算→エラー情報が消滅or発散 振動したり、学習にとても時間がかかったりする エラー情報が消滅発散しないようにしよう! そこで… 7
8.
Constant Error Carrousel(CEC) 1つのニューロンが自分の出力を受け取ることを 考える、エラー情報が一定であるためには ・ニューロンの活性化関数が線形 ・他の入力がないとき活性は一定 が必要。この論文では以下の設定を用いる: ・活性化関数は
f(x) = x ・リカレント結合の重みは1.0 8 [Hochreiter&Schmidhuber 1997]
9.
問題: Input Weight
Conflict (著者曰く勾配ベースの手法すべてにある問題) ある情報を、必要になるまで覚えておきたい つまり、その情報が来たときに ニューロンの活性は変わってほしい しかし、他の情報が来たときに ニューロンの活性は変わってほしくない 変わるか変わらないかが重みの値で表現されてい る仕組みでは、この衝突が学習の妨げになる 9
10.
問題: Output Weight
Conflict 出力に関しても同様に 「覚えておいた値を使う」と 「必要になるまで使わない」とを 出力重みの値で表現するのはConflict 10
11.
解決策 書くのか書かないのか、読むのか読まないのか、 「記憶」に対する読み書きオペレーションが 重みという一つのスカラー値で決まるのではなく 入力に基づいてコントロールされるメカニズムが 必要である そこで… 11
12.
LSTM 記憶をつかさどるCECの前後に 入出力を管理するゲート素子を配置 12
13.
Memory Cell Block 1個のメモリセルは「ニューロン1個分」の1次元 の情報しか記憶できない →複数のメモリセルでゲートの重みを共有する 一時に複数の次元を記憶できるようになる 13
14.
Abuse Problem 学習序盤は、メモリセルを使わなくても 誤差が減少する なのでメモリセルを記憶以外のこと (定数オフセットなど)に使ってしまう問題 が起きる 一度そういう変な学習をすると、 解放されるまでに時間がかかる 14
15.
Abuse Problem 複数のメモリーセルが同じ内容を記憶してしまう 問題も起きる (Q: 出力に影響はないのでは?
A: せっかくのメモ リセルが有効活用されないのが問題) 15
16.
解決策 (1)ネットワークの学習が止まった時に ちょっとずつメモリーセルを足す (2)出力ゲートをマイナスのオフセットで初期化 出力ゲートが「出力OK」のシグナルを出せるよ うになるまで学習ステップが余計に必要になる ことで序盤にメモリセルが使われることを防ぐ 16
17.
Internal state drift メモリセルへの入力が正ばかり(または負) だと、メモリセルの値が一方的に大きくなり 勾配が消滅する(活性化関数がシグモイドとかだ と問題ないんだけど今回線形なんで) 序盤の間、入力ゲートの出力が0に近づくように バイアスする (学習がしばらく進むと他のニューロンがドリフ トを吸収するので、それまでの間耐え忍ぶ) 17
18.
Forget Gate [Gers+ 1999]
“Learning to Forget: Continual Prediction with” 従来のLSTMは手動で記憶をリセットしていたが それを自動でリセットできるようにしたよ、 という論文 http://citeseerx.ist.psu.edu/viewdoc/download?do i=10.1.1.55.5709&rep=rep1&type=pdf 18
19.
Forget Gate ↑これを ↑こうする これがLSTMの基本形
[Gers+ 1999] 19
20.
実装 [Hochreiter&Schmidhuber 1997]のp.23から ALGORITHM DETAILS Tomonari
MASADA先生による数式と実装* 実装はCで966行 Chainerでの実装** 228行 RNNLIBっていうC++実装もあるらしい。 単に使うだけならこれがよい?? 20 * http://diversity-mining.jp/wp/?p=407 ** https://github.com/pfnet/chainer/blob/master/chainer/functions/lstm.py
21.
数式読解 LSTMによる隠れ層がN層重なっている構造 21
22.
数式読解 Wは重み、下の添え字xιなどが「入力xから入力 ゲートιへの重み」をあらわしており、上の添え 字nが「n層目の重み」をあらわしている 𝑊ℎ− ι のハイフンはマイナスではなく「前の隠れ 層h-から入力ゲートιへの重み」という意味 22
23.
数式読解 𝜄 𝑡 𝑛 はn層目の時刻tの入力ゲートの出力で、Dn次元 のベクトル ι、φ、ωは重みが違うだけでほぼ同じ式。入力、 下の隠れ層の出力、自分の1時刻前の出力、CEC の出力、が使われている。 23
24.
数式読解 ωと小文字のwは別物。CECの出力ηを使う際に、 同じ層の他のLSTMのηは使わないので重み行列が 対角行列になり、その対角成分だけ取ってベクト ルになってるのでWが小文字になっている。 要素積してるのもベクトル形で書いたから。対角 行列なら普通の行列積になる。 24
25.
要するにこういうこと 元論文ではゲー トはメモリセル の外にある風 だったが、メモ リセル1個につ き1個ゲートが あって、そのメ モリセルの内部 状態(青線)だけ は見えるような ので中に描いた 25
Download now