⾔言語と知識識の深層学習
(株)Preferred Infrastructure
海野  裕也
2015/08/31 認知科学サマースクール@箱根
⾃自⼰己紹介
海野  裕也
l  -2008 東⼤大情報理理⼯工修⼠士
l  ⾃自然⾔言語処理理
l  2008-2011 ⽇日本アイ・ビー・エム(株)東京基礎研
l  テキストマイニング、⾃自然⾔言語処理理の研究開発
l  2011- (株)プリファードインフラストラクチャー
l  ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイニングなど
の研究開発
l  研究開発系案件、コンサルティング
l  JubatusやChainerの開発
NLP若若⼿手の会共同委員⻑⾧長(2014-)
「オンライン機械学習」(2015, 講談社)
2
本⽇日の話の概要
l  ⾃自然⾔言語処理理における深層学習の⼿手法の概要を
お話します
l  現在、私が持っている課題感などもお話させて
いただけると幸いです
3
⾃自然⾔言語処理理とは
⾃自然⾔言語(⼈人の話す⾔言葉葉)をコンピュータで処理理させるた
めの技術
l  主な応⽤用:⽇日本語⼊入⼒力力、機械翻訳、⾃自動要約など
l  ⾔言語学、機械学習、最適化、統計などの技術と関わりが
深い
4	
古⽂文書            仕様書 電子カルテ            twitter
⾔言語処理理固有(?)の問題
1.  シーケンスの各要素の異異なり数は膨⼤大(単語)
2.  極めて規則的に各要素が選ばれる(⽂文法)
3.  外の情報や推論論がないと判断できないことも
(知識識・推論論)
5	
記号の規則的な列列である
本⽇日の概要
⾃自然⾔言語処理理における深層学習を3つに分け
て話します
l  埋め込みベクトルの学習
l  構造の学習
l  知識識、記憶、推論論の学習
6
その前に
7
おさらい:機械学習
多くの機械学習⼿手法は、
1.  ⽬目的関数の設計
2.  勾配の計算
3.  最⼩小化のための反復復計算
からなる
そうでない機械学習もある(例例:MCMC)
8
典型的な機械学習のイメージ
l  正しければ正しいほど⼩小さくなる関数fを、デー
タから設計する(例例えば正解率率率)
l  fの任意の地点での勾配(⼩小さくなる⽅方向)を計
算する⽅方法を⽤用意する
l  更更新を繰り返すとfの極⼩小点がわかる9	
http://www.denizyuret.com/2015/03/alec-radfords-animations-for.htmlより
機械学習の例例:分類学習の⽬目的関数
10	
argminw ∑(x, y) l(x, y; w) + r(w)
l  xは⼊入⼒力力ベクトル、yは予測ラベル
l  l(x, y)は予測が正しければ⼩小さく、間違えれば⼤大
きくなる値(損失関数)
l  r(w)はwが極端な値にならないような制約(正則
化項)
l  上記関数を最⼩小化するパラメータwを求めたい
機械学習の例例:分類学習のアルゴリズム
l  ⽬目的関数をパラメータwで微分した値(勾配)
を計算する⽅方法を⽤用意する
l  wを勾配の⽅方向に少しだけ動かす、を繰り返す
l  実際は更更新⽅方向の取り⽅方に⼯工夫が他数ある
11	
initialize w
until converge:
w := w - η d/dw L(x, y; w)
最急降降下法
応⽤用タスクでは関数の設計が焦点
l  勾配の計算と、最⼩小化の反復復計算は、ほとんど
⾃自動化できるようになった
l  重要な⼯工夫は他数あるが、今⽇日はしません(Dropout、
Batch normalization、ADAMなど)
l  応⽤用系の深層学習研究では、問題に合った⽬目的
関数を設計するところが主な焦点
l  RNN、CNN、skip-gramなど、全て⽬目的関数の形の
⼯工夫のはなし
12
お断り
l  細かい式と実装は紹介しません
l  式の意図や性質を中⼼心に解説します
l  勾配計算はライブラリに任せることが増
えています
13
埋め込みベクトルの学習
記号と意味の類似度度
l  同じ意味、似た意味、関連のある意味、など
l  記号列列が似ていても、関係が無いことが多い
15	
リンゴ
リンク
アップル
⾷食べる
みかん
リンス
⻘青リンゴ
分布仮説 (Distributional Hypothesis)
l  同じ⽂文脈で出現する単語は同じ意味を持つとい
うこと
l  データから単語の意味を学習する話は、少なか
らずこの仮説が元になっている
16	
The Distributional Hypothesis is that words
that occur in the same contexts tend to have
similar meanings (Harris, 1954). (ACL wikiより)
問題:???の単語は何でしょう?
17	
 [Evert10]より抜粋	
ヒント:この表は各単語同士の共起頻度を表している
問題:???の単語は何でしょう?
18	
 [Evert10]より抜粋	
ヒント2:catやpigと共起語が似ていて、knifeと似てない
正解:dog
19	
 [Evert10]より抜粋
word2vec [Mikolov+13]
l  各単語の「意味」を表現するベクトルを作るはなし
l  vec(Berlin) – vec(German) + vec(France) と⼀一番近い単
語を探したら、vec(Paris)だった
l  ベクトルの作り⽅方は次のスライドで説明
20	
Berlin	
German	
France	
Paris!!
Skip-gramモデル (word2vec) [Mikolov+13a]
l  周辺単語を予測するモデル
l  周辺単語から予測するモデル
(CBOW)も提案している
l  Analogical reasoningの精
度度が劇的に向上
l  ⾼高性能な実装が公開された
ため、⼤大流流⾏行行した
21	
[Mikolov+13a]より
Skip-gramモデル[Mikolov+13a]の⽬目的関数
l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語)
22	
これを最
⼤大化
vwは単語wを表現するようなベクトル(適当な
次元)で、これらを推定したい	
cは文脈サイズで5くらい
出⼒力力層を⼯工夫する
l  語彙数 x 隠れ層  の⾏行行列列を毎単語ごとに更更新す
る必要がある
l  語彙数が巨⼤大すぎる(10万〜~100万)
l  更更新量量を減らす⼯工夫が欲しい
23
⼯工夫1: Hierarchical Softmax (HSM) [Morin+05]
l  単語で⽊木を作り、ルートからその単語までの各ノードの
ベクトルと内積をとり、そのシグモイドの積にする
l  計算量量が語彙数の対数時間になる
l  学習時間が数⽇日から数分に24	
りんご みかん カレー ラーメン
n1 n2
n3
各ノードのベ
クトル
ルートからw
までの全ノー
ドで積をとる
σ(x)=1/(1 + exp(-x))
⼯工夫2: Negative Sampling [Mikolov+13b]
l  ∑の中の期待値計算は、k個のサンプルを取って
近似する
l  データが少ない時は5~20個、多ければ2~5個で充分
l  P(w)として、1-gram頻度度の3/4乗に⽐比例例させた
ときが⼀一番良良かった
25	
log P(wo|wI) =
Skip-gramの衝撃
l  式は異異様にシンプル
l  ある単語の出現が、周囲の単語の出現に影響を与え
ている、程度度の意味合い
l  想像以上に直感通りの実⾏行行結果
l  “1”に類似する単語は、順番に”2”, “3”, “4”, …
l  ベクトルのたし引きができる
26	
Berlin	
German	
France	
Paris!!
オープンソースで公開される
l  実装はかなりギリギリまでチューニングされて
いるので、CPUでも異異様に⾼高速に動く
l  公開後、エンジニア界隈でも流流⾏行行した
27	
https://code.google.com/p/word2vec/
意味の「程度度」がベクトル空間中に埋め込まれる
[Kim+13]
l  “good”と”best”の真ん中に、”better”が存在
28	
[Kim+13]より
⾔言語間の翻訳辞書ができる [Mikolov+13c]
l  単⾔言語のコーパスで作られた表現ベクトルは似ている
l  少ない対訳辞書で作った、表現ベクトル空間の線形変換
を作る
29	
英語	
 スペイン語	
[Mikolov+13c]より
複数の意味を持たせて、⽂文脈に応じて選択
[Neelakantan+14]
30	
文脈を認識	
 一番類似した意味を選択	
Skip-gramと同じ	
[Neelakantan+14]より
⽂文書のベクトル表現(Paragraph vector) [Le+14]
l  周囲の単語に加えて、⽂文書固有のベクトル
(Paragraph vector)も単語の予測に使う
l  このベクトルで⽂文書分類すると性能が向上する
31	
Continuous BoW	
Paragraph vector	
[Le+14]より
埋め込みベクトルの学習
l  単語の意味に相当するベクトルを学習する
l  周囲の単語を予測するモデル
l  不不思議な性質が次々に明らかになる
l  意味の⾜足し算や、⾔言語をまたいだ類似性など
l  関連する研究が次々に⾏行行われた
32
構造の学習
⾃自然⾔言語処理理の2⼤大構造
l  系列列構造
l  そもそも⽂文が⽂文字列列なので、系列列を使うのは⾃自然
l  cf. N-gram, HMM, linear-chain CRF…
l  ⽊木構造
l  伝統的に⾃自然⾔言語処理理は⽊木構造を多⽤用してきた
l  cf. PCFG, 係り受け解析…
34	
Recurrent Neural Network
Recursive Neural Network
Recurrent Neural Network (RNN)
l  系列列に対するネットワーク
l  隠れ層をコピーして、次の⼊入
⼒力力に使うところがポイント
l  必ずしも予測は必要ない
35	
⽂文字、単語
時刻  t-‐‑‒1  の隠れ層
隠れ層 予測
コピー
つなげて書くと・・・
36	
⽂文字1
時刻  0  の隠れ層
隠れ層
時刻1の
予測
⽂文字2
時刻2の
予測
⽂文字3
時刻3の
予測
フィードフォワードニューラルネットとの関係
l  横⽅方向に並べて書くことが多い
37	
ここだけみると、⽂文
⻑⾧長と同じ⻑⾧長さのニュー
ラルネットワーク
yt = f(ht)
ht+1 = g(xt, ht)
	
x1 x2 x3 x4
h1 h2 h3 h4
y1 y2 y3 y4
入力データ	
出力データ
補⾜足:Skip-gramとRNNの違い
l  Skip-gramでは、各単語は独⽴立立に、周囲の単語
から予想していた
l  RNNでは隠れ状態の遷移が次の単語出⼒力力に影響
を与える
38	
yt = f(ht), ht+1 = g(xt, ht)
yt = f(xt-2, xt-1, xt+1, xt+2)
Back Propagation Through Time (BPTT)で学習
l  時間⽅方向に展開した状態で誤差逆伝搬すると、時間をさ
かのぼって学習しているように⾒見見える
39
深いネットワークと同様の問題が発⽣生する
l  何度度も掛け算が発⽣生するので、重みが爆発したり、勾配
が消失する問題が発⽣生する
l  そのため、⻑⾧長い依存関係を学習できない
40
Long Short-Term Memory [Hochreiter+97]
l  勾配が消えないようにエラーを内部に貯めこむ構造に
なっている
l  ⼊入出⼒力力のゲートを作って、情報を選択的に流流すようにす
る(流流すタイミングを学習するイメージ)
41	
情報が貯まる
出⼒力力タイ
ミング
⼊入⼒力力タイ
ミング
gateの出⼒力力が1に近い時だけ影響する
LSTMをRNNのモジュールとして利利⽤用する
l  時間⽅方向の遷移をLSTMに置き換えることで、
⻑⾧長距離離の依存関係を学習できるようになる
42
統計的⾔言語モデル
l  ⽂文か否かを判定するのが⾔言語モデル
l  統計的⾔言語モデルは、記号列列に対して確率率率を与
える
l  正しい⽂文には⾼高い確率率率、⾮非⽂文に対しては低い確率率率
43	
P(今日は天気だ)>P(は天気だ今日)
RNNの⾔言語モデルへの利利⽤用 [Mikolov+10]
l  ⼊入⼒力力は単語列列、出⼒力力は次の単語
l  副次的に単語毎にベクトルが学習される
44	
今日	
 は	
 天気	
 だ	
は	
 天気	
 だ	
 <eos>	
単語毎に確率率率が出る
⾔言語モデルは何に使われるか?
l  ⽂文を⽣生成するあらゆるタスクに応⽤用できる
l  翻訳
l  ⽂文書要約
l  ⾳音声認識識
l  対話
l  例例えば⾳音声認識識結果の候補がいくつかあったと
きに、最も尤もらしい⽂文を選択するイメージ
45
従来の⾔言語モデルとRNN⾔言語モデルの⽐比較
l  N-gram⾔言語モデル
l  確率率率が直近N単語にのみ依存する
l  RNN⾔言語モデル
l  隠れ状態に必要な情報がエンコードされる
46	
P(xt | xt-1, …) = f(xt, xt-1, xt-2)
P(xt | xt-1, …) = f(xt, ht)
ht = g(ht-1, xt-1)
LSTM⾔言語モデルの強⼒力力さ [Graves13]
47	
閉じタグが正確に復復元タグの出現順も正しい
⽂文の構造も復復元
[Graves13]より
LSTMの成功から学ぶべきこと
l  条件分岐のようなものを学習できる
l  シグモイド関数の出⼒力力をかける
l  出⼒力力が1なら使う、0なら使わないことになる
l  内部記憶のようなものも再現できる
48	
微分可能な関数でかければ何でもできる!
昨年年後半からLSTMが⼤大流流⾏行行
l  ⽂文を⽣生成するタスクの標準的な⼿手法になる
l  ⾃自然⽂文以外でも、系列列を扱うタスクの標準にな
る
49
Show and Tell [Vinyals+15a]
l  画像を畳み込みニューラルネットワーク
(CNN)でエンコードして、そこからRNNで⽂文
を⽣生成する
l  画像を説明するような⽂文の⽣生成に成功
50	
[Vinyals+15a]より
Sequence-to-sequence learning (seq2seq)
l  ⼊入⼒力力⽂文をRNNでエンコードして、そこからRNN
で出⼒力力⽂文を⽣生成する
l  ⽂文から⽂文の変換を学習できる
51	
入力文	
出力文	
[Sutskever+14]より
seq2seqが複数のタスクで成果を上げる
l  機械翻訳  [Sutskever+14]
l  原⽂文から翻訳⽂文へ
l  構⽂文解析  [Vinyals+15b]
l  ⽂文から構⽂文⽊木(のS式表現)へ
l  対話  [Vinyals+15c]
l  相⼿手の発話から⾃自分の発話へ
52	
WSJの記事になった
RNNによる⽣生成はエンコードとデコードに別れる
l  ⼊入⼒力力データをエンコード
l  画像をCNNで、翻訳元の⽂文や質問⽂文をRNNで
l  できたベクトルからRNNで⽂文を⽣生成する
l  全体が1つのネットワークになる
53	
hencoder
⼊入⼒力力
RNN
出⼒力力⽂文
従来の⾔言語モデルとの⽐比較
l  従来は⾔言語モデルとタスク固有のモデル(翻訳
モデルや⾳音響モデル)は式の上で分離離した
l  RNN的なアプローチでは全部くっつけ学習する
54	
argmaxy P(y|x) = argmaxy P(x|y) P(y)	
翻訳モデル ⾔言語モデル
Recursive Neural Network (RNN)
l  2つの単語の表現ベクトルを組合せて、フレーズ
の表現ベクトルを構成する
l  再帰的に繰り返すことで、⽂文全体の表現ベクト
ルを作る
55	
x1 x2
p1
x3
p2
RNNによる構⽂文解析 [Socher+11]
l  隣隣接単語からフレーズを
構成する
l  構成を繰り返すことで、
⽊木ができる
l  画像の構造推定にも使え
る
56	
[Socher+13]より
Matrix-Vector RNN (MV-RNN) [Socher+12]
l  各フレーズは⾏行行列列とベクトルのペアで表現する
l  ⼀一⽅方のベクトルを、もう⼀一⽅方の⾏行行列列との積を
取ってから、ベクトルを合成する
57	
[Socher+12]より
Neural Tensor Network (NTN) [Socher+13]
l  3階のテンソルを使って、2つのベクトルから、
1つのベクトルを⽣生成する
58	
[Socher+13]より
RNNによる評判分析 [Socher+13]
l  構⽂文⽊木に沿って句句のベクトルを再帰的に構築し
て、ポジ・ネガ分類をする
l  各フレーズ単位でも判定ができる
59	
[Socher+13]より
Tree-LSTM [Tai+15]
l  ベクトルの合成にLSTMを利利⽤用する
l  実験結果を⾒見見ると、受け⾝身になった⽂文でも⽂文意
が変わらないことを学習できている
60	
c: メモリセル
h:隠れ状態
[Tai+15]より
Recurrent vs Recursive
l  Recurrentは単純だが強⼒力力
l  実装は単純、構⽂文解析器が必要ない
l  ⽂文の⽣生成結果も良良好
l  GPUによる並列列化がし易易い
l  ⾔言語の複雑な現象を説明するのにRecursiveの⽅方
がよい?
l  実際はRecurrentがかなり強いので⼀一概に⾔言いづらい
61
系列列的に処理理したからといって⽊木構造を扱えないわ
けではない
l  構⽂文解析におけるShift-Reduce法は、前から順番に⽂文を
読んでスタック操作で構⽂文⽊木を⽣生成できる
l  Recurrentも似たようことが起こっている?
62	
内部状態
構造の深層学習まとめ
l  構造は主に2種類の⼿手法がある
l  Recurrentは前から順番に単語を読む
l  LSTMが⾮非常に強⼒力力
l  翻訳や対話など、⽂文を⽣生成するタスクに期待
l  Recursiveは構⽂文⽊木に沿って処理理する
l  複雑な⾔言語現象を捉えやすそう
l  評判分析などに期待
l  両者は実は類似のことをしていないか?
63
知識識の深層学習
RNNだけで全ての問題が解決できるのか?
l  「今⽇日の天気は?」に答えられるかは、⾔言語モ
デルとは関係がない
l  RNNでできるのは、妥当な回答候補を絞り込む
ことだけ
h RNN 出⼒力力⽂文
知能に対する個⼈人的イメージ
66	
1. 知覚	
3. 思考	
4. 行動	
2. 認識
⾃自然⾔言語処理理における処理理のイメージ
67	
1. ◯◯解析	
3. 推論	
4. 文生成	
2. 意味表現
各処理理のイメージ
68	
1. ◯◯解析	
3. 推論	
4. 文生成	
2. 意味表現	
花形の研究
難しい さらに難しい
RNNが強⼒力力
三つ組(トリプル)モデル
l  2つのエンティティーと、その関係という3つの
情報を最⼩小単位とする
l  エンティティーを節、関係をラベル付きの枝と
する有向グラフとみなせる
l  RDFも三つ組で出来ている
69	
(x, r, y)	
x yr
既存の知識識ベースのほとんどが、三つ組モデルで表
現される
70
具体例例
l  「New York」の「略略語」は「NY」である
71
問題設定
⼊入⼒力力
l  {(xi, ri, yi)}: 知識識ベース中の三つ組集合
l  x, y: エンティティー
l  r: エンティティー間の関係
出⼒力力
l  x, yに対応するベクトル
l  rに対応するパラメータ
72
⼤大雑把な枠組み
l  三つ組に対するスコア関数を定義する
l  程度度の差はあるが、概ね知識識ベース中の全三つ
組に対するスコアが⼩小さく(あるいは⼤大きく)
なるようなパラメータを探す
73	
argmax ∑i f(xi, ri, yi)
Distance model (Structured Embedding) [Bordes
+11]
l  e は、単語からベクトルへの関数
l  Rleft, Rright は、関係から⾏行行列列への関数
l  それぞれ別々の変換を⾏行行う
l  学習データに対する f が⼩小さくなるように学習
74	
f(x, r, y) = || Rleft(r) e(x) – Rright(r) e(y) ||1
TransE model [Brodes+13]
l  関係  r は、ベクトル r を⾜足すだけというシンプ
ルなモデル
l  良良好な結果で、ベースライン的扱い
75	
f(x, r, y) = || e(x) + r – e(y) ||2
2
TransE modelの問題点
1対多関係、多対多関係の場合、TransEでは同じ
関係にある全ての埋め込みベクトルが同⼀一になる
ように学習してしまう
拡張
l  TransM: 広がりをもたせるように学習する
l  TransH: 射影された超平⾯面上で同⼀一になるよう
学習する
76
TransM model [Fan+14]
l  r に応じて、重みをつける
l  wr は、r の関係をもつ x, y の個数から決まる定数
77	
f(x, r, y) = wr|| e(x) + r – e(y) ||2
2
[Fan+14]より
TransH model [Wang+14]
l  関係毎に超平⾯面上に射影して、その上でTransE
と同じモデル化をする
78	
[Wang+14]より
評価⽅方法:Link prediction
l  エンティティーの内の1つを隠して当てる
l  ある種のQAタスクになっている
l  「孫悟空の⼦子供は誰?」
79	
(e1, r, e2)	
 (e1, r, ? )
⽐比較すると新しい⼿手法のほうが性能は良良い
80	
TransH
TransE
⾏行行列列分解
図は[Bordes&Weston14]より
さらに発展
l  ⾃自然⽂文も⼀一緒に扱うようになる
l  より⾃自然な質問応⽤用タスクに近づく
81
記憶、知識識、推論論
l  記憶、知識識、推論論に関わりそうな研究が注⽬目さ
れている
l  RNN-EM (Microsoft)
l  Memory Networks (Facebook)
l  Neural Reasoner (Huawei)
l  多くの研究が対話型質問応答システムを⽬目指し
ているように⾒見見える
82
DL Workshop@ICML2015のパネル討論論より
l  ⾃自然⽂文対話とQ&Aシステムが重要になると、
FacebookとGoogle DeepMindが指摘
83	
LeCun and Hassabis both picked Q&A and
natural language dialogue systems as next
big things.
https://sites.google.com/site/deepernn/home/blog/
briefsummaryofthepaneldiscussionatdlworkshopicml2015
RNN-EM [Peng+15a]
l  RNNに外部メモリ(External Memory)を追加
してより⻑⾧長い依存関係を学習
l  書き込み、読み込み操作も学習84	
⼊入⼒力力単語
出⼒力力単語
隠れ状態
外部メモリ
書き込み
読み込み
[Peng+15a]より
Memory networks [Weston+15][Sukhbaatar+15]
l  ⾃自然⽂文の知識識をエンコードして、質問⽂文から答
えを探し答えるまでを1つのネットワークに
85	
外部の⽂文献
知識識表現 質問⽂文
知識識の探索索
回答の⽣生成
[Sukhbaatar+15]より
Neural Reasoner [Peng+15b]
l  質問(q)と事実(fi)から、推論論を⾏行行うイメージ
l  この推論論を何回も⾏行行うと、結論論が得られる
86	
質問と事実をRNNでエンコード
1段の推論論
最後に回答
推論論を何度度も [Peng+15b]より
Deep Learningとは、「深い」ことだけではなく
なってきている
l  認識識系のDeep Learning
l  段数の「深い」多層パーセプトロン
l  段数の「深い」畳み込みニューラルネット
l  層の深さが重要だった
l  ⾔言語処理理のDeep Learning
l  微分可能関数をうまく組み合わせる⼯工夫合戦
l  深さよりも構造の⼯工夫の⽅方が⽬目⽴立立つ
87
知識識の深層学習のまとめ
l  知識識ベースの表現学習
l  三つ組による知識識ベースを、埋め込みベクトルで表
現する
l  簡単な質問応答ができるようになった
l  より⾃自然な知識識や記憶の獲得が流流⾏行行中
l  対話型の質問応答システムに向かっている
l  深さよりも問題特化した⼿手法が重要になってき
ている
88
この辺りから議論論
89
記号列列(⾔言語)のみで
意味を獲得できるのか?
90
Skip-thought vectors [Kiros+15]
l  RNNで⽂文をエンコードし、周囲の⽂文を推定する
l  Skip-gramモデルを⽂文に適⽤用したイメージ
91	
前の⽂文を予測
次の⽂文を予測
⽂文をエンコード
[Kiros+15]より
Skip-gramとseq2seqやSkip thought vectorの類似
性
l  Skip-gram
l  単語の意味(ベクトル)は、周囲に来やすい単語の
類似性によって決まる
l  seq2seq
l  ⽂文の意味(ベクトル)は、変換後の⽂文の類似性に
よって決まる
l  Skip thought vector
l  ⽂文の意味(ベクトル)は、周囲の⽂文の類似性によっ
て決まる
92
本当に記号内で完結するのか?
l  周囲の記号同⼠士の関係のみで埋め込みベクトル
を計算している
l  本当にこれだけで、「リンゴを絞るとジュース
になる」ことを理理解できるんだろうか?
93	
リンゴ
⾷食べる
カツ丼みかん
⾚赤い
連続な表現とのマッピングが必要?
l  記号の表現は不不連続
l  記号そのものは類似性を測れない
l  現状は埋め込みベクトルの類似度度と、共起関係
から間接的に類似度度を測っている
l  もっと直接的にコトバを覚えられないか?
l  コトバに対応した外部の刺刺激が必要?
l  ⾝身体性?
94
まとめ
l  埋め込みの学習
l  周囲の単語との共起を使って学習
l  Skip-gramが単純だが強⼒力力で、⼤大流流⾏行行している
l  構造の学習
l  系列列を扱うのがRecurrentで、LSTMが⾮非常に強⼒力力
l  ⽊木構造を扱うのがRecursive
l  知識識や記憶の学習
l  知識識ベースの三つ組を埋め込みベクトルにエンコー
ドする⼯工夫
l  ⾃自然分を使った、より⾃自然なモデルへと研究のトレ
ンドは移っている
95
参考⽂文献
l  [Evert10] Stefan Evert.
Distributional Semantic Models. NAACL 2010 Tutorial.
l  [Mikolov+13a] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey
Dean.
Efficient Estimation of Word Representations in Vector Space.
CoRR, 2013.
l  [Morin+05] Frederic Morin, Yoshua Bengio.
Hierarchical Probabilistic Neural Network Language Model.
AISTATS, 2005.
l  [Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory
S. Corrado, Jeffrey Dean.
Distributed Representations of Words and Phrases and their
Compositionality. NIPS, 2013.
97
参考⽂文献
l  [Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe.
Deriving adjectival scales from continuous space word
representations. EMNLP, 2013.
l  [Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever.
Exploiting Similarities among Languages for Machine
Translation. CoRR, 2013.
l  [Neelakantan+14] Arvind Neelakantan, Jeevan Shankar,
Alexandre Passos, Andrew McCallum.
Efficient Non-parametric Estimation of Multiple Embeddings
per Word in Vector Space. EMNLP, 2014.
l  [Le+14] Quoc Le, Tomas Mikolov.
Distributed Representations of Sentences and Documents.
ICML, 2014.
98
参考⽂文献
l  [Hochreiter+97] Sepp Hochreiter, Jurgen Schmidhunber.
Long Short-Term Memory. Neural Computation 9(8), 1997.
l  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan
Honza Cernocky, Sanjeev Khudanpur.
Recurrent neural network based language model.
Interspeech, 2010.
l  [Graves13] Alex Graves.
Generating Sequences With Recurrent Neural Networks. arXiv:
1308.0850, 2013.
l  [Vinyal+15a] Oriol Vinyals, Alexander Toshev, Samy Bengio,
Dumitru Erhan.
Show and tell: A neural image caption generator. CVPR, 2015.
99
参考⽂文献
l  [Sutskever+14] Ilya Sutskever, Oriol Vinyals, Quoc V. Le.
Sequence to Sequence Learning with Neural Networks.
NIPS 2014.
l  [Vinyals+15b] Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav
Petrov, Ilya Sutskever, Geoffrey Hinton.
Grammar as a foreign language.
ICLR 2015.
l  [Vinyals+15c] Oriol Vinyals, Quoc Le.
A Neural Conversational Model. ICML 2015.
100
参考⽂文献
l  [Socher+11] Richard Socher, Cliff Lin, Andrew Y. Ng, Christopher D.
Manning.
Parsing Natural Scenes and Natural Language with Recursive Neural
Networks. ICML 2011
l  [Socher+12] Richard Socher, Brody Huval, Christopher D. Manning,
Andrew Y. Ng.
Semantic Compositionality through Recursive Matrix-Vector Spaces.
EMNLP2012.
l  [Socher+13] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang,
Chris Manning, Andrew Ng, Chris Potts.
Recursive Deep Models for Semantic Compositionality Over a
Sentiment Treebank. EMNLP 2013.
l  [Tai+15] Kai Sheng Tai, Richard Socher, Christopher D. Manning.
Improved Semantic Representations From Tree-Structured Long
Short-Term Memory Networks. ACL 2015.
101
参考⽂文献
l  [Bordes+11] A. Bordes, J. Weston, R. Collobert, Y. Bengio.
Learning structured embeddings of knowledge bases. AAAI2011.
l  [Bordes+13] A. Bordes, N. Usunier, A. Garcia-Duran, J. Weston, O.
Yakhnenko.
Translating Embeddings for Modeling Multi-relational Data. NIPS
2013.
l  [Fan+14] M. Fan, Q. Shou, E. Chang, T. F. Zheng.
Transition-based Knowledge Graph Embedding with Relational
Mapping Properties. PACLIC 2014.
l  [Wang+14] Z. Wang, J. Zhang, J. Feng, Z. Chen.
Knowledge Graph Embedding by Translating on Hyperplanes. AAAI
2014.
l  [Bordes&Weston14] A. Bordes, J. Weston.
Embedding Methods for Natural Language Processing. EMNLP2014
tutorial.
102
参考⽂文献
l  [Peng+15a] Baolin Peng, Kaisheng Yao.
Recurrent Neural Networks with External Memory for Language
Understanding. arXiv:1506.00195, 2015.
l  [Weston+15] J. Weston, S. Chopra, A. Bordes.
Memory Networks. ICLR 2015.
l  [Sukhbaatar+15] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob
Fergus.
End-To-End Memory Networks. arXiv:1503.08895, 2015.
l  [Kumar+15] Ankit Kumar, Ozan Irsoy, Jonathan Su, James Bradbury, Robert
English, Brian Pierce, Peter Ondruska, Ishaan Gulrajani, Richard Socher.
Ask Me Anything: Dynamic Memory Networks for Natural Language
Processing. arXiv:1506.07285, 2015.
l  [Peng+15b] Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong.
Towards Neural Network-based Reasoning. arXiv:1508.05508, 2015.
l  [Kiros+15] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel,
Antonio Torralba, Raquel Urtasun, Sanja Fidler.
Skip-Thought Vectors. arXiv:1506.06726, 2015.
103

言語と知識の深層学習@認知科学会サマースクール