SlideShare a Scribd company logo
1 of 16
深層学習による自然言語処理
第2章 ニューラルネットの基礎
東京大学大学院
情報理工学系研究科 M1
本田志温
自己紹介
• 医学系の研究室でAI創薬をしています
• NLP/CVを自主的に勉強中
• SFと神経科学が好き
• 勉強したことを発信しています!
• @shion_honda (#NowReadingで論文紹介)
• @shionhonda (深層強化学習まとめなど)
• @shionhonda (AlphaGoなど)
• 趣味: 音楽鑑賞, 料理, 旅行, サッカー, 水泳など
2019/1/19 NLP/CV 本田志温 2
概要
• ニューラルネットの共通知識
• RNN
• RNN/双方向RNN
• LSTM/GRU
• Tree-RNN
• 1D-CNN
2019/1/19 NLP/CV 本田志温 3
教師あり学習
• 訓練データの予測と正解から求まる損失関数の
最小化
• 損失関数
• 交差エントロピー損失
𝑙 𝜃 𝒙 𝑛 , 𝑦 𝑛 = −log
exp(𝑓𝜃 𝒙(𝑛), 𝑦(𝑛) )
𝑦∈𝑌 exp(𝑓𝜃 𝒙(𝑛), 𝑦 )
• ソフトマックスで表された確率モデルの負の対数尤度
• ロジスティック回帰で用いられる
• ヒンジ損失
𝑙 𝜃 𝒙 𝑛 , 𝑦 𝑛 = max(0, 1 − 𝑓𝜃 𝒙 𝑛 , 𝑦 𝑛 + max
𝑦∈𝑌∖𝑦 𝑛
𝑓𝜃 𝒙 𝑛 , 𝑦 )
• 正解𝑦 𝑛
と, それを除いてスコアを最大にする𝑦を利用
• SVMで用いられる
• どちらも0-1損失関数の上界
2019/1/19 NLP/CV 本田志温 4
各レイヤでの処理
• 順伝播型ニューラルネット
𝒉(𝑙) = 𝑎 𝑙 𝑾 𝑙 𝒉 𝑙−1 + 𝒃 𝑙
𝒉(0) = 𝒙
• 活性化関数𝑎
2019/1/19 NLP/CV 本田志温 5
重みの更新
• ミニバッチ学習で損失関数𝐿 𝜃 を最小化
𝜃 ← 𝜃 − 𝜂𝜕𝐿 𝜃
𝜕𝐿 𝜃 =
1
|𝐵|
𝑚∈𝐵
𝜕𝑙 𝜃(𝒙 𝑚 , 𝑦(𝑚))
• バッチ学習
• 一度の更新に全データの損失を使う
• データが大きいときに時間がかかる
• 確率的勾配降下法
• ランダムに選んだデータで損失
を計算し重み更新
• 分散が大きいと収束しにくい
• ミニバッチ学習はいいとこ取り
2019/1/19 NLP/CV 本田志温 6
誤差逆伝播
• 各層で重みを更新するため勾配𝜕𝐿 𝜃 を入力層
に向かって伝搬させる必要がある
• 誤差逆伝播
• 計算グラフに従って
勾配を後ろに伝えて
いく
→連鎖律を使う長い
式が不要!
• 連鎖律を使った微分
は教科書を見てくだ
さい
• 層が深くなると勾配が大きく/小さくなりすぎて後
ろに伝わらなくなる(勾配爆発/消失問題)
2019/1/19 NLP/CV 本田志温 7
RNN
• ループ構造を持ち, 可変長の系列入力に対応
• 入力: 前の層の出力と前の時刻の隠れ状態
• 誤差逆伝播は時間方向(BPTT)
2019/1/19 NLP/CV 本田志温 8
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
𝒉 𝑡
(𝑙)
= 𝑎(𝑙) 𝑾(𝑙)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡−1
(𝑙)
+ 𝒃(𝑙)
双方向RNN
• 入力: 前の層の出力と前後の時刻の隠れ状態
2019/1/19 NLP/CV 本田志温 9
2つ合わせて
Bidirectional RNN
𝒉 𝑡
(𝑙)
= 𝑎(𝑙)
𝑾(𝑙)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡
(𝑙−1)
𝒉 𝑡−1
(𝑙)
+ 𝒃(𝑙)
勾配消失・勾配爆発
• ResNet
• 残差ブロックで勾配消失を防ぐ
• 1000層以上の学習を実現!
𝒉(𝑙) = 𝑓(𝑙) 𝒉(𝑙−1) + 𝒉(𝑙−1)
• ゲート付き
• 残差ブロックの重み付き版
𝒉(𝑙) = 𝒈(𝑓)⨀𝑓(𝑙) 𝒉(𝑙−1) + 𝒈(ℎ) ⨀ 𝒉(𝑙−1)
• 重み𝒈もNNで学習する
𝒈(𝒉) = 𝑎 𝑔
(𝑾(𝑔)
𝒉 + 𝒃(𝑔)
)
2019/1/19 NLP/CV 本田志温 10
LSTM
• 隠れ状態と別に記憶セルを定義
• 様々なバリエーションがある
• Peeky
• Attention(第5章)
2019/1/19 NLP/CV 本田志温 11
記憶セルc
隠れ状態h
input gate
output gate
forget gate
GRU
• 記憶セルを使わない
• reset gateで前時刻の隠れ状態を減衰
• update gateで隠れ状態の更新率を調整
• LSTMより計算量・メモリ使用量が小さい
2019/1/19 NLP/CV 本田志温 12
update gatereset gate
Tree-RNN
• recursive neural network
• 分岐数を固定した木構造
• 葉ノードからルートノードに向かって順に隠れ状態
を計算
• 文は構文解析により文法木構造に変換できる
2019/1/19 NLP/CV 本田志温 13
1D-CNN
• 1次元のフィルタを時間方向に畳み込むCNN
• CNNと同様に定義できるもの
• パディング(サイズ調整に必要)
• ストライド
• プーリング
• 特徴マップ
• RNNと違って並列化しやすい
• WaveGANで使われている
2019/1/19 NLP/CV 本田志温 14
まとめ
• RNNはループ構造を持ち, 可変長の系列入力を
扱うことができる
• より長い系列に対応するため, LSTMやGRUな
どのゲート付きRNNが考案されている
• DeepなNLPではLSTMが使われることが多い
• (しかし最近はTransformerが主流)
2019/1/19 NLP/CV 本田志温 15
2層のBiLSTM
参考文献
2019/1/19 NLP/CV 本田志温 16
• 坪井 他, 深層学習による自然言語処理, 講談社, 2017.
• http://colah.github.io/posts/2015-08-Understanding-LSTMs/
• 斎藤 他, ゼロから作るDeep Learning 2 自然言語処理編, O’Reilly, 2018.
• Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers
for Language Understanding”, arXiv, 2018.

More Related Content

What's hot

Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
Yuya Unno
 

What's hot (20)

[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)ICASSP2017読み会 (acoustic modeling and adaptation)
ICASSP2017読み会 (acoustic modeling and adaptation)
 
画像認識と深層学習
画像認識と深層学習画像認識と深層学習
画像認識と深層学習
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
ディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみたディープラーニングで株価予測をやってみた
ディープラーニングで株価予測をやってみた
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
 
Chainer with natural language processing hands on
Chainer with natural language processing hands onChainer with natural language processing hands on
Chainer with natural language processing hands on
 
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
[DL輪読会]Depth Prediction Without the Sensors: Leveraging Structure for Unsuper...
 
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
 
マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例マシンパーセプション研究におけるChainer活用事例
マシンパーセプション研究におけるChainer活用事例
 
Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)Deep Residual Learning (ILSVRC2015 winner)
Deep Residual Learning (ILSVRC2015 winner)
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
Kameoka2016 miru08
Kameoka2016 miru08Kameoka2016 miru08
Kameoka2016 miru08
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 

Similar to 深層学習による自然言語処理 第2章 ニューラルネットの基礎

20230516 @Mix Leap Hirohiko_Suwa
20230516 @Mix Leap Hirohiko_Suwa20230516 @Mix Leap Hirohiko_Suwa
20230516 @Mix Leap Hirohiko_Suwa
Masashi Nakagawa
 

Similar to 深層学習による自然言語処理 第2章 ニューラルネットの基礎 (6)

全体セミナー20180124 final
全体セミナー20180124 final全体セミナー20180124 final
全体セミナー20180124 final
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日CVPR2018 参加報告(速報版)初日
CVPR2018 参加報告(速報版)初日
 
20230516 @Mix Leap Hirohiko_Suwa
20230516 @Mix Leap Hirohiko_Suwa20230516 @Mix Leap Hirohiko_Suwa
20230516 @Mix Leap Hirohiko_Suwa
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
[DL Hacks]“Spiking network optimized for noise robust word recognition approa...
 

More from Shion Honda

More from Shion Honda (10)

BERTをブラウザで動かしたい! ―MobileBERTとTensorFlow.js―
BERTをブラウザで動かしたい!―MobileBERTとTensorFlow.js―BERTをブラウザで動かしたい!―MobileBERTとTensorFlow.js―
BERTをブラウザで動かしたい! ―MobileBERTとTensorFlow.js―
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and Language
 
Graph U-Nets
Graph U-NetsGraph U-Nets
Graph U-Nets
 
Deep Learning Chap. 12: Applications
Deep Learning Chap. 12: ApplicationsDeep Learning Chap. 12: Applications
Deep Learning Chap. 12: Applications
 
Deep Learning Chap. 6: Deep Feedforward Networks
Deep Learning Chap. 6: Deep Feedforward NetworksDeep Learning Chap. 6: Deep Feedforward Networks
Deep Learning Chap. 6: Deep Feedforward Networks
 
画像認識 第9章 さらなる話題
画像認識 第9章 さらなる話題画像認識 第9章 さらなる話題
画像認識 第9章 さらなる話題
 
Towards Predicting Molecular Property by Graph Neural Networks
Towards Predicting Molecular Property by Graph Neural NetworksTowards Predicting Molecular Property by Graph Neural Networks
Towards Predicting Molecular Property by Graph Neural Networks
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
BERT: Pre-training of Deep Bidirectional Transformers for Language Understand...
 
IaGo: an Othello AI inspired by AlphaGo
IaGo: an Othello AI inspired by AlphaGoIaGo: an Othello AI inspired by AlphaGo
IaGo: an Othello AI inspired by AlphaGo
 
Planning chemical syntheses with deep neural networks and symbolic AI
Planning chemical syntheses with deep neural networks and symbolic AIPlanning chemical syntheses with deep neural networks and symbolic AI
Planning chemical syntheses with deep neural networks and symbolic AI
 

深層学習による自然言語処理 第2章 ニューラルネットの基礎