Convolutional Neural Netwoks で自然言語処理をする

全脳アーキテクチャ若⼿の会 カジュアルトーク (2017.1.31)
Convolutional Neural Networks
で⾃然⾔語処理をする
全脳アーキテクチャ若⼿の会
法政⼤学⼤学院 理⼯学研究科 修⼠課程
島⽥ ⼤樹
⾃⼰紹介
島⽥ ⼤樹 (SHIMADA Daiki)
@sheema_sheema (Twitter)
• 法政⼤学⼤学院 理⼯学研究科 M2
• 知的情報処理研究室(彌冨研)
• 画像解析による授業受講者の態度推定
• 画像の半教師あり学習
• ⾃然⾔語⾔語処理 (⽇本語)
• 全脳アーキテクチャ若⼿の会 副代表
• 会全体の運営 (運営メンバー⼤募集中!!)
1
前回までのあらすじ
l カジュアルにCNN系画像認識⽂献64本ノック!
http://www.slideshare.net/sheemap/convolutional-neural-networks-wbafl2
2016/02: Convolutional Neural Networks (CNN) の動向
2
l 2016年前半までのGANによる画像⽣成事例を紹介
http://www.slideshare.net/sheemap/adversarial-networks-wbafl3
2016/06: Generative Adversarial Nets (GAN) の画像⽣成
しかし,今回は ”⾃然⾔語処理 (NLP)” 特集…
今⽇のおはなし
l なんでNLPでCNNなのか
l 実際のところNLPでどれだけCNNが使えるのか
l 近年のCNN x NLPの動向をチェック
l どんなタスクがどれだけ上⼿くいっているのか
l ⽇本語は?
2017/01: ⾃然⾔語処理にCNNの波はやってくるか?
3
⽬次
全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31)
ConvNetで⾃然⾔語処理をする
1. Why CNN in NLP?
2. CNN x NLPの研究動向
3. ⽇本語NLPへのCNN適⽤の試み
4. まとめ
4
Why CNN in NLP?
l もともと画像を処理することを想定して提案された
l ⾃然⾔語処理では,1次元⽅向のみの畳み込みを⾏う
Convolutional Neural Networks
(LeCun & Bengio, 1995), (LeCun+, 1998)
5
Y. LeCun, et al.: Gradient Based Learning Applied to Document Recognition. Procs. of IEEE, 1998.
Y. LeCun and Y. Bengio.: Convolutional Networks for Images, Speech, and Time-Series. The handbook of brain theory
and neural networks, 1995.
2D-conv. 1D-conv.
Why CNN in NLP?
RNN vs. CNN
6
Recurrent Neural Networks Convolutional Neural Networks
l 前時間の隠れ状態をフィードバック
l 時間⽅向にforward / backward を
展開する (BPTT)
l 時間⽅向にカーネルを⾛査
l 計算の並列化がし易いため⾼速
l 時間的に離れた情報間の関係も学習出来る
⽬次
全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31)
ConvNetで⾃然⾔語処理をする
1. Why CNN in NLP?
2. CNN x NLPの研究動向
3. ⽇本語NLPへのCNN適⽤の試み
4. まとめ
7
CNN x NLPの研究動向
l 単語ベクトルをword2vecによって予め学習
l Sentence-levelの分類タスク7つについて評価
l 5 / 7で従来⼿法を上回る性能
Sentence Classification (Kim, 2014)
8
Y. Kim: Convolutional Neural Networks for Sentence Classification. EMNLP, 2014.
CNN x NLPの研究動向
l ⽂字レベルでテキストを扱った⽂書分類
l アルファベット, 数字, 記号を one-hot encoding
l シソーラスを使って類語で置換 (data augmentation)
Character-level Document Classification (Zhang+, 2015)
9
X. Xhang et al.: Character-level Convolutional Networks for Text Classification. NIPS, 2015.
CNNの畳み込み層のパラメータ
CNN x NLPの研究動向
Character-level Document Classification (Zhang+, 2015)
10
X. Xhang et al.: Character-level Convolutional Networks for Text Classification. NIPS, 2015.
Lg. :深いモデル
Sm. :浅いモデル
Th. :類語置換
w2v :word2vec
Lk. :lookup table
Full :⼤⽂字/⼩⽂字
CNN x NLPの研究動向
l RNNベースの画像⽣成⼿法を提案
l convolutionでRNNライクな計算をする⽅法の提案
l masked convolution
l 現時間より先の情報を畳み込んでしまわないように,
畳み込みカーネルをマスクする
Pixel Recurrent Neural Networks (Van den Oord+, 2016a)
11
A. Van den Oord, et al.: Pixel Recurrent Neural Networks. ICML, 2016.
CNN x NLPの研究動向
l ByteNet と呼ばれるCNNベースのニューラル翻訳モデル
l Dilated CNN による Encoder-Decoderモデル
Machine Translation (Van den Oord+, 2016b)
12
A. Van den Oord et al.: Neural Machine Translation in Liner Time. arXiv: 1610.10099, 2016.
Negative log-likelihood of bits/byte
on Hutter Prize Wikipedia
CNN x NLPの研究動向
l ByteNet と呼ばれるCNNベースのニューラル翻訳モデル
l 近年のRNN系の⼿法に近く,より⾼速に動作する
Machine Translation (Van den Oord+, 2016b)
13
A. Van den Oord et al.: Neural Machine Translation in Liner Time. arXiv: 1610.10099, 2016.
CNN x NLPの研究動向
l ゲート関数を導⼊したCNNを提案 (Gated CNN)
Language Modeling (Dauphin+, 2016)
14
Y. N. Dauphin et al.: Language Modeling with Gated Convolutional Networks. arXiv: 1612.08083, 2016.
ゲート⽤畳み込みフィルタを⽤意し,
他の畳み込み結果と要素毎に積を取る
CNN x NLPの研究動向
l ゲート関数を導⼊したCNNを提案 (Gated CNN)
l 他のRNN系⾔語モデルよりも良好な結果
Language Modeling (Dauphin+, 2016)
15
Y. N. Dauphin et al.: Language Modeling with Gated Convolutional Networks. arXiv: 1612.08083, 2016.
CNN x NLPの研究動向
l Gated CNN よりもLSTMライクなゲート関数がついたCNN
(fo-pooling)
Quasi-RNN (Bradbury & Merity+, 2016)
16
J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016.
CNN x NLPの研究動向
l Sentiment Classification
Quasi-RNN (Bradbury & Merity+, 2016)
17
J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016.
l Single model perplexity on Penn Treebank
CNN x NLPの研究動向
l そして,速い
Quasi-RNN (Bradbury & Merity+, 2016)
18
J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016.
LSTM (cuDNN)との速度⽐較Training Speed Comparision
⽬次
全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31)
ConvNetで⾃然⾔語処理をする
1. Why CNN in NLP?
2. CNN x NLPの研究動向
3. ⽇本語NLPへのCNN適⽤の試み
4. まとめ
19
⽇本語にCNN + NLPを使う
l ⽇本語をローマ字にしてCNNを⼊⼒
l データ数が多い場合に⾼い性能が出ることを確認
Character-level CNN の⽇本語ローマ字列への適⽤
(佐藤+, 2016)
20
佐藤ら:⽂字レベル深層学習によるテキスト分類と転移学習. ⼈⼯知能学会⼈⼯知能基本問題研究会, 2016.
⽇本語にCNN + NLPを使う
l Image-based Character Embedding
l Wildcard Training (単語分割不要な data augmentation)
Character-level CNN による⽇本語⽂書分類
(⼩⾕+, 2016), (Shimada+, 2016)
21
⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016.
D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training.
BigNLP in IEEE Big Data, 2016.
⽇本語にCNN + NLPを使う
l Image-based Character Embedding (画像⽂字表現)
l 従来のNLPでは⽂字の”⾒た⽬”は捨てちゃう
l ⽂字を表現するときに,⾒た⽬も使ってみる
Character-level CNN による⽇本語⽂書分類
(⼩⾕+, 2016), (Shimada+, 2016)
22
⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016.
D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training.
BigNLP in IEEE Big Data, 2016.
⽇本語にCNN + NLPを使う
Character-level CNN による⽇本語⽂書分類
(⼩⾕+, 2016), (Shimada+, 2016)
23
⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016.
D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training.
BigNLP in IEEE Big Data, 2016.
(1)Author Estimation of Japanese Novels
Methods Accuracy [%]
(proposed) CAE + CLCNN + WT 69.57
(proposed) CAE + CLCNN w/o WT 52.17
(proposed) Lookup Table + CLCNN + WT 69.57
Lookup Table + CLCNN w/o WT 65.22
Character-level 3-gram* + TF-IDF 56.52
Word segmentation* + TF-IDF 47.83
LSI (# topics = 60) 73.90
LDA (# topics = 30) 52.10
* 3-gram and Word segmentation use top-50,000 most frequently tokens.
⽇本語にCNN + NLPを使う
Character-level CNN による⽇本語⽂書分類
(⼩⾕+, 2016), (Shimada+, 2016)
24
⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016.
D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training.
BigNLP in IEEE Big Data, 2016.
(2) Publisher Estimation from Japanese Newspaper Articles
Methods Accuracy [%]
(proposed) CAE + CLCNN + WT 86.72
(proposed) CAE + CLCNN w/o WT 80.95
(proposed) Lookup Table + CLCNN + WT 79.66
Lookup Table + CLCNN w/o WT 73.13
Character-level 3-gram* + TF-IDF 84.27
Word segmentation** + TF-IDF 67.22
LSI (# topics = 2,000) 84.00
LDA (# topics = 70) 56.10
* 3-gram approach uses top-30,000 most frequently tokens.
** Word segmentation approach uses all of morphemes in training data.
⽬次
全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31)
ConvNetで⾃然⾔語処理をする
1. Why CNN in NLP?
2. CNN x NLPの研究動向
3. ⽇本語NLPへのCNN適⽤の試み
4. まとめ
25
まとめ
l Bag of Words (BoW) のようなNLPテクニックが
画像へ適⽤された歴史をみれば,画像→NLPもうまくいきそう
l テキスト分類だけでなく,⾔語モデリングや機械翻訳も
すでに⼀定の成果を挙げ始めている.
l ⽂字レベルで⽇本語NLPをCNNで攻略する⽅向も
l 画像・⾔語だけでなく⾳声のような信号処理もCNNで…!
l WaveNet (Van den Oord+, 2016c)
CNNでも⾃然⾔語処理が出来る(かも)!
26
A. Van den Oord et al.: WaveNet: A Generative Model for Raw Audio. arxiv: 1609.03499, 2016.
Fin.
27
1 of 28

Recommended

【論文読み会】Universal Language Model Fine-tuning for Text Classification by
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text ClassificationARISE analytics
1.9K views23 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K views21 slides
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介 by
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介株式会社メタップスホールディングス
37.8K views58 slides
自己教師学習(Self-Supervised Learning) by
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
12.8K views177 slides
機械学習で泣かないためのコード設計 by
機械学習で泣かないためのコード設計機械学習で泣かないためのコード設計
機械学習で泣かないためのコード設計Takahiro Kubo
62.3K views30 slides
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features by
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
7.8K views33 slides

More Related Content

What's hot

充足可能性問題のいろいろ by
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
7.3K views60 slides
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて by
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについてMasahiro Suzuki
5.1K views43 slides
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization by
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationTenki Lee
2.4K views80 slides
動作認識の最前線:手法,タスク,データセット by
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
3.3K views128 slides
動画認識サーベイv1(メタサーベイ ) by
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
2.9K views74 slides
Point net by
Point netPoint net
Point netFujimoto Keisuke
17.9K views29 slides

What's hot(20)

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて by Masahiro Suzuki
深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて深層生成モデルと世界モデル,深層生成モデルライブラリPixyzについて
深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
Masahiro Suzuki5.1K views
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization by Tenki Lee
SPADE :Semantic Image Synthesis with Spatially-Adaptive NormalizationSPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
SPADE :Semantic Image Synthesis with Spatially-Adaptive Normalization
Tenki Lee2.4K views
動作認識の最前線:手法,タスク,データセット by Toru Tamaki
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
Toru Tamaki3.3K views
動画認識サーベイv1(メタサーベイ ) by cvpaper. challenge
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
cvpaper. challenge2.9K views
機械学習モデルの判断根拠の説明(Ver.2) by Satoshi Hara
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara48K views
グラフニューラルネットワークとグラフ組合せ問題 by joisino
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
joisino4.5K views
[DL輪読会]Pay Attention to MLPs (gMLP) by Deep Learning JP
[DL輪読会]Pay Attention to MLPs	(gMLP)[DL輪読会]Pay Attention to MLPs	(gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP16.9K views
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜 by SSII
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII3.7K views
機械学習モデルの判断根拠の説明 by Satoshi Hara
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara98K views
[part 2]ナレッジグラフ推論チャレンジ・Tech Live! by KnowledgeGraph
[part 2]ナレッジグラフ推論チャレンジ・Tech Live![part 2]ナレッジグラフ推論チャレンジ・Tech Live!
[part 2]ナレッジグラフ推論チャレンジ・Tech Live!
KnowledgeGraph699 views
メタスタディ (Vision and Language) by Shintaro Yamamoto
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
Shintaro Yamamoto1.4K views
[DL輪読会]相互情報量最大化による表現学習 by Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP7.6K views
モデルアーキテクチャ観点からのDeep Neural Network高速化 by Yusuke Uchida
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida38.7K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views
物体検出エラーの分析ツール TIDE by GuoqingLiu9
物体検出エラーの分析ツール TIDE物体検出エラーの分析ツール TIDE
物体検出エラーの分析ツール TIDE
GuoqingLiu9427 views

Viewers also liked

全脳アーキテクチャ若手の会20170131 by
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131Hangyo Masatsugu
12.4K views32 slides
[DL輪読会]Convolutional Sequence to Sequence Learning by
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
5.2K views31 slides
強化学習@PyData.Tokyo by
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.TokyoNaoto Yoshida
11.3K views42 slides
TISにおける、研究開発のメソッド by
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッドTakahiro Kubo
9.3K views33 slides
ツイートの取得と解析の間 by
ツイートの取得と解析の間ツイートの取得と解析の間
ツイートの取得と解析の間nemupm
5.7K views35 slides
NL20161222invited by
NL20161222invitedNL20161222invited
NL20161222invitedTetsuya Sakai
8.2K views90 slides

Viewers also liked(15)

全脳アーキテクチャ若手の会20170131 by Hangyo Masatsugu
全脳アーキテクチャ若手の会20170131全脳アーキテクチャ若手の会20170131
全脳アーキテクチャ若手の会20170131
Hangyo Masatsugu12.4K views
[DL輪読会]Convolutional Sequence to Sequence Learning by Deep Learning JP
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
Deep Learning JP5.2K views
強化学習@PyData.Tokyo by Naoto Yoshida
強化学習@PyData.Tokyo強化学習@PyData.Tokyo
強化学習@PyData.Tokyo
Naoto Yoshida11.3K views
TISにおける、研究開発のメソッド by Takahiro Kubo
TISにおける、研究開発のメソッドTISにおける、研究開発のメソッド
TISにおける、研究開発のメソッド
Takahiro Kubo9.3K views
ツイートの取得と解析の間 by nemupm
ツイートの取得と解析の間ツイートの取得と解析の間
ツイートの取得と解析の間
nemupm5.7K views
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み by Yoji Kiyota
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
「HOME'Sデータセット」を活用した不動産物件画像への深層学習の適用の取り組み
Yoji Kiyota7.1K views
Layer Normalization@NIPS+読み会・関西 by Keigo Nishida
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida23.5K views
深層リカレントニューラルネットワークを用いた日本語述語項構造解析 by Hiroki Ouchi
深層リカレントニューラルネットワークを用いた日本語述語項構造解析深層リカレントニューラルネットワークを用いた日本語述語項構造解析
深層リカレントニューラルネットワークを用いた日本語述語項構造解析
Hiroki Ouchi57.1K views
Duolingo.pptx by syou6162
Duolingo.pptxDuolingo.pptx
Duolingo.pptx
syou61623.9K views
A3Cという強化学習アルゴリズムで遊んでみた話 by mooopan
A3Cという強化学習アルゴリズムで遊んでみた話A3Cという強化学習アルゴリズムで遊んでみた話
A3Cという強化学習アルゴリズムで遊んでみた話
mooopan20.8K views
Pythonではじめる OpenAI Gymトレーニング by Takahiro Kubo
Pythonではじめる OpenAI GymトレーニングPythonではじめる OpenAI Gymトレーニング
Pythonではじめる OpenAI Gymトレーニング
Takahiro Kubo36.2K views
画像処理ライブラリ OpenCV で 出来ること・出来ないこと by Norishige Fukushima
画像処理ライブラリ OpenCV で 出来ること・出来ないこと画像処理ライブラリ OpenCV で 出来ること・出来ないこと
画像処理ライブラリ OpenCV で 出来ること・出来ないこと
Norishige Fukushima221.7K views
論文紹介 Pixel Recurrent Neural Networks by Seiya Tokui
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui22.2K views

Similar to Convolutional Neural Netwoks で自然言語処理をする

コンピュータビジョンの研究開発状況 by
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況cvpaper. challenge
2.5K views38 slides
深層学習による自然言語処理の研究動向 by
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向STAIR Lab, Chiba Institute of Technology
37.6K views91 slides
子どもの言語獲得のモデル化とNN Language ModelsNN by
子どもの言語獲得のモデル化とNN Language ModelsNN 子どもの言語獲得のモデル化とNN Language ModelsNN
子どもの言語獲得のモデル化とNN Language ModelsNN Chiba Institute of Technology
2.8K views45 slides
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2... by
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
9.3K views112 slides
全力解説!Transformer by
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
9.6K views43 slides
Combinatorial optimization with graph convolutional networks and guided by
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guidedShuntaro Ohno
869 views31 slides

Similar to Convolutional Neural Netwoks で自然言語処理をする(20)

コンピュータビジョンの研究開発状況 by cvpaper. challenge
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
cvpaper. challenge2.5K views
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2... by cvpaper. challenge
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge9.3K views
全力解説!Transformer by Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.6K views
Combinatorial optimization with graph convolutional networks and guided by Shuntaro Ohno
Combinatorial optimization with graph convolutional networks and guidedCombinatorial optimization with graph convolutional networks and guided
Combinatorial optimization with graph convolutional networks and guided
Shuntaro Ohno869 views
Combinatorial optimization with graph convolutional networks and guided ver20... by Shuntaro Ohno
Combinatorial optimization with graph convolutional networks and guided ver20...Combinatorial optimization with graph convolutional networks and guided ver20...
Combinatorial optimization with graph convolutional networks and guided ver20...
Shuntaro Ohno688 views
深層学習フレームワーク Chainer の開発と今後の展開 by Seiya Tokui
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui26.9K views
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3 by Daiki Shimada
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Daiki Shimada9.2K views
Deep Learningの基礎と応用 by Seiya Tokui
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
Seiya Tokui34.4K views
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation by Takumi Ohkuma
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma245 views
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation by Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP1.5K views
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17 by Yuya Unno
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Jubatusのリアルタイム分散レコメンデーション@TokyoWebmining#17
Yuya Unno5.5K views
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来 by Preferred Networks
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
20171212 gtc pfn海野裕也_chainerで加速する深層学習とフレームワークの未来
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9 by Yuya Unno
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Jubatusのリアルタイム分散レコメンデーション@TokyoNLP#9
Yuya Unno13.7K views
DeNAにおける機械学習・深層学習活用 by Kazuki Fujikawa
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
Kazuki Fujikawa21.5K views
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins... by Yoshitaka Ushiku
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Yoshitaka Ushiku2.5K views
【チュートリアル】コンピュータビジョンによる動画認識 v2 by Hirokatsu Kataoka
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka4.9K views
R-CNNの原理とここ数年の流れ by Kazuki Motohashi
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
Kazuki Motohashi100.1K views
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016) by Toru Fujino
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Tree-to-Sequence Attentional Neural Machine Translation (ACL 2016)
Toru Fujino535 views

Recently uploaded

パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 by
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
10 views22 slides
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
66 views12 slides
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 by
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
109 views26 slides
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
28 views36 slides
光コラボは契約してはいけない by
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
28 views17 slides

Recently uploaded(7)

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga28 views

Convolutional Neural Netwoks で自然言語処理をする

  • 1. 全脳アーキテクチャ若⼿の会 カジュアルトーク (2017.1.31) Convolutional Neural Networks で⾃然⾔語処理をする 全脳アーキテクチャ若⼿の会 法政⼤学⼤学院 理⼯学研究科 修⼠課程 島⽥ ⼤樹
  • 2. ⾃⼰紹介 島⽥ ⼤樹 (SHIMADA Daiki) @sheema_sheema (Twitter) • 法政⼤学⼤学院 理⼯学研究科 M2 • 知的情報処理研究室(彌冨研) • 画像解析による授業受講者の態度推定 • 画像の半教師あり学習 • ⾃然⾔語⾔語処理 (⽇本語) • 全脳アーキテクチャ若⼿の会 副代表 • 会全体の運営 (運営メンバー⼤募集中!!) 1
  • 3. 前回までのあらすじ l カジュアルにCNN系画像認識⽂献64本ノック! http://www.slideshare.net/sheemap/convolutional-neural-networks-wbafl2 2016/02: Convolutional Neural Networks (CNN) の動向 2 l 2016年前半までのGANによる画像⽣成事例を紹介 http://www.slideshare.net/sheemap/adversarial-networks-wbafl3 2016/06: Generative Adversarial Nets (GAN) の画像⽣成 しかし,今回は ”⾃然⾔語処理 (NLP)” 特集…
  • 4. 今⽇のおはなし l なんでNLPでCNNなのか l 実際のところNLPでどれだけCNNが使えるのか l 近年のCNN x NLPの動向をチェック l どんなタスクがどれだけ上⼿くいっているのか l ⽇本語は? 2017/01: ⾃然⾔語処理にCNNの波はやってくるか? 3
  • 5. ⽬次 全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31) ConvNetで⾃然⾔語処理をする 1. Why CNN in NLP? 2. CNN x NLPの研究動向 3. ⽇本語NLPへのCNN適⽤の試み 4. まとめ 4
  • 6. Why CNN in NLP? l もともと画像を処理することを想定して提案された l ⾃然⾔語処理では,1次元⽅向のみの畳み込みを⾏う Convolutional Neural Networks (LeCun & Bengio, 1995), (LeCun+, 1998) 5 Y. LeCun, et al.: Gradient Based Learning Applied to Document Recognition. Procs. of IEEE, 1998. Y. LeCun and Y. Bengio.: Convolutional Networks for Images, Speech, and Time-Series. The handbook of brain theory and neural networks, 1995. 2D-conv. 1D-conv.
  • 7. Why CNN in NLP? RNN vs. CNN 6 Recurrent Neural Networks Convolutional Neural Networks l 前時間の隠れ状態をフィードバック l 時間⽅向にforward / backward を 展開する (BPTT) l 時間⽅向にカーネルを⾛査 l 計算の並列化がし易いため⾼速 l 時間的に離れた情報間の関係も学習出来る
  • 8. ⽬次 全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31) ConvNetで⾃然⾔語処理をする 1. Why CNN in NLP? 2. CNN x NLPの研究動向 3. ⽇本語NLPへのCNN適⽤の試み 4. まとめ 7
  • 9. CNN x NLPの研究動向 l 単語ベクトルをword2vecによって予め学習 l Sentence-levelの分類タスク7つについて評価 l 5 / 7で従来⼿法を上回る性能 Sentence Classification (Kim, 2014) 8 Y. Kim: Convolutional Neural Networks for Sentence Classification. EMNLP, 2014.
  • 10. CNN x NLPの研究動向 l ⽂字レベルでテキストを扱った⽂書分類 l アルファベット, 数字, 記号を one-hot encoding l シソーラスを使って類語で置換 (data augmentation) Character-level Document Classification (Zhang+, 2015) 9 X. Xhang et al.: Character-level Convolutional Networks for Text Classification. NIPS, 2015. CNNの畳み込み層のパラメータ
  • 11. CNN x NLPの研究動向 Character-level Document Classification (Zhang+, 2015) 10 X. Xhang et al.: Character-level Convolutional Networks for Text Classification. NIPS, 2015. Lg. :深いモデル Sm. :浅いモデル Th. :類語置換 w2v :word2vec Lk. :lookup table Full :⼤⽂字/⼩⽂字
  • 12. CNN x NLPの研究動向 l RNNベースの画像⽣成⼿法を提案 l convolutionでRNNライクな計算をする⽅法の提案 l masked convolution l 現時間より先の情報を畳み込んでしまわないように, 畳み込みカーネルをマスクする Pixel Recurrent Neural Networks (Van den Oord+, 2016a) 11 A. Van den Oord, et al.: Pixel Recurrent Neural Networks. ICML, 2016.
  • 13. CNN x NLPの研究動向 l ByteNet と呼ばれるCNNベースのニューラル翻訳モデル l Dilated CNN による Encoder-Decoderモデル Machine Translation (Van den Oord+, 2016b) 12 A. Van den Oord et al.: Neural Machine Translation in Liner Time. arXiv: 1610.10099, 2016. Negative log-likelihood of bits/byte on Hutter Prize Wikipedia
  • 14. CNN x NLPの研究動向 l ByteNet と呼ばれるCNNベースのニューラル翻訳モデル l 近年のRNN系の⼿法に近く,より⾼速に動作する Machine Translation (Van den Oord+, 2016b) 13 A. Van den Oord et al.: Neural Machine Translation in Liner Time. arXiv: 1610.10099, 2016.
  • 15. CNN x NLPの研究動向 l ゲート関数を導⼊したCNNを提案 (Gated CNN) Language Modeling (Dauphin+, 2016) 14 Y. N. Dauphin et al.: Language Modeling with Gated Convolutional Networks. arXiv: 1612.08083, 2016. ゲート⽤畳み込みフィルタを⽤意し, 他の畳み込み結果と要素毎に積を取る
  • 16. CNN x NLPの研究動向 l ゲート関数を導⼊したCNNを提案 (Gated CNN) l 他のRNN系⾔語モデルよりも良好な結果 Language Modeling (Dauphin+, 2016) 15 Y. N. Dauphin et al.: Language Modeling with Gated Convolutional Networks. arXiv: 1612.08083, 2016.
  • 17. CNN x NLPの研究動向 l Gated CNN よりもLSTMライクなゲート関数がついたCNN (fo-pooling) Quasi-RNN (Bradbury & Merity+, 2016) 16 J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016.
  • 18. CNN x NLPの研究動向 l Sentiment Classification Quasi-RNN (Bradbury & Merity+, 2016) 17 J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016. l Single model perplexity on Penn Treebank
  • 19. CNN x NLPの研究動向 l そして,速い Quasi-RNN (Bradbury & Merity+, 2016) 18 J. Bradbury, S. Merity, et al.: Quasi-Recurrent Neural Networks. arXiv: 1611.01576, 2016. LSTM (cuDNN)との速度⽐較Training Speed Comparision
  • 20. ⽬次 全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31) ConvNetで⾃然⾔語処理をする 1. Why CNN in NLP? 2. CNN x NLPの研究動向 3. ⽇本語NLPへのCNN適⽤の試み 4. まとめ 19
  • 21. ⽇本語にCNN + NLPを使う l ⽇本語をローマ字にしてCNNを⼊⼒ l データ数が多い場合に⾼い性能が出ることを確認 Character-level CNN の⽇本語ローマ字列への適⽤ (佐藤+, 2016) 20 佐藤ら:⽂字レベル深層学習によるテキスト分類と転移学習. ⼈⼯知能学会⼈⼯知能基本問題研究会, 2016.
  • 22. ⽇本語にCNN + NLPを使う l Image-based Character Embedding l Wildcard Training (単語分割不要な data augmentation) Character-level CNN による⽇本語⽂書分類 (⼩⾕+, 2016), (Shimada+, 2016) 21 ⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016. D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training. BigNLP in IEEE Big Data, 2016.
  • 23. ⽇本語にCNN + NLPを使う l Image-based Character Embedding (画像⽂字表現) l 従来のNLPでは⽂字の”⾒た⽬”は捨てちゃう l ⽂字を表現するときに,⾒た⽬も使ってみる Character-level CNN による⽇本語⽂書分類 (⼩⾕+, 2016), (Shimada+, 2016) 22 ⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016. D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training. BigNLP in IEEE Big Data, 2016.
  • 24. ⽇本語にCNN + NLPを使う Character-level CNN による⽇本語⽂書分類 (⼩⾕+, 2016), (Shimada+, 2016) 23 ⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016. D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training. BigNLP in IEEE Big Data, 2016. (1)Author Estimation of Japanese Novels Methods Accuracy [%] (proposed) CAE + CLCNN + WT 69.57 (proposed) CAE + CLCNN w/o WT 52.17 (proposed) Lookup Table + CLCNN + WT 69.57 Lookup Table + CLCNN w/o WT 65.22 Character-level 3-gram* + TF-IDF 56.52 Word segmentation* + TF-IDF 47.83 LSI (# topics = 60) 73.90 LDA (# topics = 30) 52.10 * 3-gram and Word segmentation use top-50,000 most frequently tokens.
  • 25. ⽇本語にCNN + NLPを使う Character-level CNN による⽇本語⽂書分類 (⼩⾕+, 2016), (Shimada+, 2016) 24 ⼩⾕ら: ⽂字画像によるCharacter-level Embeddingと⽂書分類. NLP若⼿の会シンポジウム, 2016. D. Shimada et al.: Document Classification through Image-Based Character Embedding and Wildcard Training. BigNLP in IEEE Big Data, 2016. (2) Publisher Estimation from Japanese Newspaper Articles Methods Accuracy [%] (proposed) CAE + CLCNN + WT 86.72 (proposed) CAE + CLCNN w/o WT 80.95 (proposed) Lookup Table + CLCNN + WT 79.66 Lookup Table + CLCNN w/o WT 73.13 Character-level 3-gram* + TF-IDF 84.27 Word segmentation** + TF-IDF 67.22 LSI (# topics = 2,000) 84.00 LDA (# topics = 70) 56.10 * 3-gram approach uses top-30,000 most frequently tokens. ** Word segmentation approach uses all of morphemes in training data.
  • 26. ⽬次 全脳アーキテクチャ若⼿の会 カジュアルトーク (17.1.31) ConvNetで⾃然⾔語処理をする 1. Why CNN in NLP? 2. CNN x NLPの研究動向 3. ⽇本語NLPへのCNN適⽤の試み 4. まとめ 25
  • 27. まとめ l Bag of Words (BoW) のようなNLPテクニックが 画像へ適⽤された歴史をみれば,画像→NLPもうまくいきそう l テキスト分類だけでなく,⾔語モデリングや機械翻訳も すでに⼀定の成果を挙げ始めている. l ⽂字レベルで⽇本語NLPをCNNで攻略する⽅向も l 画像・⾔語だけでなく⾳声のような信号処理もCNNで…! l WaveNet (Van den Oord+, 2016c) CNNでも⾃然⾔語処理が出来る(かも)! 26 A. Van den Oord et al.: WaveNet: A Generative Model for Raw Audio. arxiv: 1609.03499, 2016.