言語と知識の深層学習@認知科学会サマースクール

⾔言語と知識識の深層学習
（株）Preferred Infrastructure
海野　裕也
2015/08/31 認知科学サマースクール@箱根

⾃自⼰己紹介
海野裕也
l  -2008 東⼤大情報理理⼯工修⼠士
l  ⾃自然⾔言語処理理
l  2008-2011 ⽇日本アイ・ビー・エム（株）東京基礎研
l  テキストマイニング、⾃自然⾔言語処理理の研究開発
l  2011- （株）プリファードインフラストラクチャー
l  ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイニングなど
の研究開発
l  研究開発系案件、コンサルティング
l  JubatusやChainerの開発
NLP若若⼿手の会共同委員⻑⾧長（2014-）
「オンライン機械学習」（2015, 講談社）
2

本⽇日の話の概要
l  ⾃自然⾔言語処理理における深層学習の⼿手法の概要を
お話します
l  現在、私が持っている課題感などもお話させて
いただけると幸いです
3

⾃自然⾔言語処理理とは
⾃自然⾔言語（⼈人の話す⾔言葉葉）をコンピュータで処理理させるた
めの技術
l  主な応⽤用：⽇日本語⼊入⼒力力、機械翻訳、⾃自動要約など
l  ⾔言語学、機械学習、最適化、統計などの技術と関わりが
深い
4
古⽂文書　　　　　　仕様書電子カルテ　　　　　　twitter

⾔言語処理理固有（？）の問題
1.  シーケンスの各要素の異異なり数は膨⼤大（単語）
2.  極めて規則的に各要素が選ばれる（⽂文法）
3.  外の情報や推論論がないと判断できないことも
（知識識・推論論）
5
記号の規則的な列列である

本⽇日の概要
⾃自然⾔言語処理理における深層学習を3つに分け
て話します
l  埋め込みベクトルの学習
l  構造の学習
l  知識識、記憶、推論論の学習
6

おさらい：機械学習
多くの機械学習⼿手法は、
1.  ⽬目的関数の設計
2.  勾配の計算
3.  最⼩小化のための反復復計算
からなる
そうでない機械学習もある（例例：MCMC）
8

典型的な機械学習のイメージ
l  正しければ正しいほど⼩小さくなる関数fを、デー
タから設計する（例例えば正解率率率）
l  fの任意の地点での勾配（⼩小さくなる⽅方向）を計
算する⽅方法を⽤用意する
l  更更新を繰り返すとfの極⼩小点がわかる9
http://www.denizyuret.com/2015/03/alec-radfords-animations-for.htmlより

機械学習の例例：分類学習の⽬目的関数
10
argminw ∑(x, y) l(x, y; w) + r(w)
l  xは⼊入⼒力力ベクトル、yは予測ラベル
l  l(x, y)は予測が正しければ⼩小さく、間違えれば⼤大
きくなる値（損失関数）
l  r(w)はwが極端な値にならないような制約（正則
化項）
l  上記関数を最⼩小化するパラメータｗを求めたい

機械学習の例例：分類学習のアルゴリズム
l  ⽬目的関数をパラメータwで微分した値（勾配）
を計算する⽅方法を⽤用意する
l  wを勾配の⽅方向に少しだけ動かす、を繰り返す
l  実際は更更新⽅方向の取り⽅方に⼯工夫が他数ある
11
initialize w
until converge:
w := w - η d/dw L(x, y; w)
最急降降下法

応⽤用タスクでは関数の設計が焦点
l  勾配の計算と、最⼩小化の反復復計算は、ほとんど
⾃自動化できるようになった
l  重要な⼯工夫は他数あるが、今⽇日はしません（Dropout、
Batch normalization、ADAMなど）
l  応⽤用系の深層学習研究では、問題に合った⽬目的
関数を設計するところが主な焦点
l  RNN、CNN、skip-gramなど、全て⽬目的関数の形の
⼯工夫のはなし
12

お断り
l  細かい式と実装は紹介しません
l  式の意図や性質を中⼼心に解説します
l  勾配計算はライブラリに任せることが増
えています
13

埋め込みベクトルの学習

記号と意味の類似度度
l  同じ意味、似た意味、関連のある意味、など
l  記号列列が似ていても、関係が無いことが多い
15
リンゴ
リンク
アップル
⾷食べる
みかん
リンス
⻘青リンゴ

分布仮説 (Distributional Hypothesis)
l  同じ⽂文脈で出現する単語は同じ意味を持つとい
うこと
l  データから単語の意味を学習する話は、少なか
らずこの仮説が元になっている
16
The Distributional Hypothesis is that words
that occur in the same contexts tend to have
similar meanings (Harris, 1954). (ACL wikiより)

問題：???の単語は何でしょう？
17
[Evert10]より抜粋
ヒント：この表は各単語同士の共起頻度を表している

問題：???の単語は何でしょう？
18
ヒント2：catやpigと共起語が似ていて、knifeと似てない

正解：dog
19

word2vec [Mikolov+13]
l  各単語の「意味」を表現するベクトルを作るはなし
l  vec(Berlin) – vec(German) + vec(France) と⼀一番近い単
語を探したら、vec(Paris)だった
l  ベクトルの作り⽅方は次のスライドで説明
20
Berlin
German
France
Paris!!

Skip-gramモデル (word2vec) [Mikolov+13a]
l  周辺単語を予測するモデル
l  周辺単語から予測するモデル
（CBOW）も提案している
l  Analogical reasoningの精
度度が劇的に向上
l  ⾼高性能な実装が公開された
ため、⼤大流流⾏行行した
21
[Mikolov+13a]より

Skip-gramモデル[Mikolov+13a]の⽬目的関数
l  ⼊入⼒力力コーパス: w1, w2, …, wT 　（wiは単語）
22
これを最
⼤大化
vwは単語wを表現するようなベクトル（適当な
次元）で、これらを推定したい
cは文脈サイズで5くらい

出⼒力力層を⼯工夫する
l  語彙数 x 隠れ層　の⾏行行列列を毎単語ごとに更更新す
る必要がある
l  語彙数が巨⼤大すぎる（10万〜～100万）
l  更更新量量を減らす⼯工夫が欲しい
23

⼯工夫1: Hierarchical Softmax (HSM) [Morin+05]
l  単語で⽊木を作り、ルートからその単語までの各ノードの
ベクトルと内積をとり、そのシグモイドの積にする
l  計算量量が語彙数の対数時間になる
l  学習時間が数⽇日から数分に24
りんごみかんカレーラーメン
n1 n2
n3
各ノードのベ
クトル
ルートからw
までの全ノー
ドで積をとる
σ(x)=1/(1 + exp(-x))

⼯工夫2: Negative Sampling [Mikolov+13b]
l  ∑の中の期待値計算は、k個のサンプルを取って
近似する
l  データが少ない時は5~20個、多ければ2~5個で充分
l  P(w)として、1-gram頻度度の3/4乗に⽐比例例させた
ときが⼀一番良良かった
25
log P(wo|wI) =

Skip-gramの衝撃
l  式は異異様にシンプル
l  ある単語の出現が、周囲の単語の出現に影響を与え
ている、程度度の意味合い
l  想像以上に直感通りの実⾏行行結果
l  “1”に類似する単語は、順番に”2”, “3”, “4”, …
l  ベクトルのたし引きができる
26
Berlin
German
France
Paris!!

オープンソースで公開される
l  実装はかなりギリギリまでチューニングされて
いるので、CPUでも異異様に⾼高速に動く
l  公開後、エンジニア界隈でも流流⾏行行した
27
https://code.google.com/p/word2vec/

意味の「程度度」がベクトル空間中に埋め込まれる
[Kim+13]
l  “good”と”best”の真ん中に、”better”が存在
28
[Kim+13]より

⾔言語間の翻訳辞書ができる [Mikolov+13c]
l  単⾔言語のコーパスで作られた表現ベクトルは似ている
l  少ない対訳辞書で作った、表現ベクトル空間の線形変換
を作る
29
英語
スペイン語
[Mikolov+13c]より

複数の意味を持たせて、⽂文脈に応じて選択
[Neelakantan+14]
30
文脈を認識
一番類似した意味を選択
Skip-gramと同じ
[Neelakantan+14]より

⽂文書のベクトル表現（Paragraph vector） [Le+14]
l  周囲の単語に加えて、⽂文書固有のベクトル
（Paragraph vector）も単語の予測に使う
l  このベクトルで⽂文書分類すると性能が向上する
31
Continuous BoW
Paragraph vector
[Le+14]より

埋め込みベクトルの学習
l  単語の意味に相当するベクトルを学習する
l  周囲の単語を予測するモデル
l  不不思議な性質が次々に明らかになる
l  意味の⾜足し算や、⾔言語をまたいだ類似性など
l  関連する研究が次々に⾏行行われた
32

⾃自然⾔言語処理理の2⼤大構造
l  系列列構造
l  そもそも⽂文が⽂文字列列なので、系列列を使うのは⾃自然
l  cf. N-gram, HMM, linear-chain CRF…
l  ⽊木構造
l  伝統的に⾃自然⾔言語処理理は⽊木構造を多⽤用してきた
l  cf. PCFG, 係り受け解析…
34
Recurrent Neural Network
Recursive Neural Network

Recurrent Neural Network (RNN)
l  系列列に対するネットワーク
l  隠れ層をコピーして、次の⼊入
⼒力力に使うところがポイント
l  必ずしも予測は必要ない
35
⽂文字、単語
時刻 t-‐‑‒1 の隠れ層
隠れ層予測
コピー

つなげて書くと・・・
36
⽂文字1
時刻 0 の隠れ層
隠れ層
時刻1の
予測
⽂文字2
時刻2の
予測
⽂文字3
時刻3の
予測

フィードフォワードニューラルネットとの関係
l  横⽅方向に並べて書くことが多い
37
ここだけみると、⽂文
⻑⾧長と同じ⻑⾧長さのニュー
ラルネットワーク
yt = f(ht)
ht+1 = g(xt, ht)

x1 x2 x3 x4
h1 h2 h3 h4
y1 y2 y3 y4
入力データ
出力データ

補⾜足：Skip-gramとRNNの違い
l  Skip-gramでは、各単語は独⽴立立に、周囲の単語
から予想していた
l  RNNでは隠れ状態の遷移が次の単語出⼒力力に影響
を与える
38
yt = f(ht), ht+1 = g(xt, ht)
yt = f(xt-2, xt-1, xt+1, xt+2)

Back Propagation Through Time (BPTT)で学習
l  時間⽅方向に展開した状態で誤差逆伝搬すると、時間をさ
かのぼって学習しているように⾒見見える
39

深いネットワークと同様の問題が発⽣生する
l  何度度も掛け算が発⽣生するので、重みが爆発したり、勾配
が消失する問題が発⽣生する
l  そのため、⻑⾧長い依存関係を学習できない
40

Long Short-Term Memory [Hochreiter+97]
l  勾配が消えないようにエラーを内部に貯めこむ構造に
なっている
l  ⼊入出⼒力力のゲートを作って、情報を選択的に流流すようにす
る（流流すタイミングを学習するイメージ）
41
情報が貯まる
出⼒力力タイ
ミング
⼊入⼒力力タイ
ミング
gateの出⼒力力が1に近い時だけ影響する

LSTMをRNNのモジュールとして利利⽤用する
l  時間⽅方向の遷移をLSTMに置き換えることで、
⻑⾧長距離離の依存関係を学習できるようになる
42

統計的⾔言語モデル
l  ⽂文か否かを判定するのが⾔言語モデル
l  統計的⾔言語モデルは、記号列列に対して確率率率を与
える
l  正しい⽂文には⾼高い確率率率、⾮非⽂文に対しては低い確率率率
43
P（今日は天気だ）＞P（は天気だ今日）

RNNの⾔言語モデルへの利利⽤用 [Mikolov+10]
l  ⼊入⼒力力は単語列列、出⼒力力は次の単語
l  副次的に単語毎にベクトルが学習される
44
今日
は
天気
だ
は
天気
だ
<eos>
単語毎に確率率率が出る

⾔言語モデルは何に使われるか？
l  ⽂文を⽣生成するあらゆるタスクに応⽤用できる
l  翻訳
l  ⽂文書要約
l  ⾳音声認識識
l  対話
l  例例えば⾳音声認識識結果の候補がいくつかあったと
きに、最も尤もらしい⽂文を選択するイメージ
45

従来の⾔言語モデルとRNN⾔言語モデルの⽐比較
l  N-gram⾔言語モデル
l  確率率率が直近N単語にのみ依存する
l  RNN⾔言語モデル
l  隠れ状態に必要な情報がエンコードされる
46
P(xt | xt-1, …) = f(xt, xt-1, xt-2)
P(xt | xt-1, …) = f(xt, ht)
ht = g(ht-1, xt-1)

LSTM⾔言語モデルの強⼒力力さ [Graves13]
47
閉じタグが正確に復復元タグの出現順も正しい
⽂文の構造も復復元
[Graves13]より

LSTMの成功から学ぶべきこと
l  条件分岐のようなものを学習できる
l  シグモイド関数の出⼒力力をかける
l  出⼒力力が1なら使う、0なら使わないことになる
l  内部記憶のようなものも再現できる
48
微分可能な関数でかければ何でもできる！

昨年年後半からLSTMが⼤大流流⾏行行
l  ⽂文を⽣生成するタスクの標準的な⼿手法になる
l  ⾃自然⽂文以外でも、系列列を扱うタスクの標準にな
る
49

Show and Tell [Vinyals+15a]
l  画像を畳み込みニューラルネットワーク
（CNN）でエンコードして、そこからRNNで⽂文
を⽣生成する
l  画像を説明するような⽂文の⽣生成に成功
50
[Vinyals+15a]より

Sequence-to-sequence learning (seq2seq)
l  ⼊入⼒力力⽂文をRNNでエンコードして、そこからRNN
で出⼒力力⽂文を⽣生成する
l  ⽂文から⽂文の変換を学習できる
51
入力文
出力文
[Sutskever+14]より

seq2seqが複数のタスクで成果を上げる
l  機械翻訳 [Sutskever+14]
l  原⽂文から翻訳⽂文へ
l  構⽂文解析 [Vinyals+15b]
l  ⽂文から構⽂文⽊木（のS式表現）へ
l  対話 [Vinyals+15c]
l  相⼿手の発話から⾃自分の発話へ
52
WSJの記事になった

RNNによる⽣生成はエンコードとデコードに別れる
l  ⼊入⼒力力データをエンコード
l  画像をCNNで、翻訳元の⽂文や質問⽂文をRNNで
l  できたベクトルからRNNで⽂文を⽣生成する
l  全体が1つのネットワークになる
53
hencoder
⼊入⼒力力
RNN
出⼒力力⽂文

従来の⾔言語モデルとの⽐比較
l  従来は⾔言語モデルとタスク固有のモデル（翻訳
モデルや⾳音響モデル）は式の上で分離離した
l  RNN的なアプローチでは全部くっつけ学習する
54
argmaxy P(y|x) = argmaxy P(x|y) P(y)
翻訳モデル⾔言語モデル

Recursive Neural Network (RNN)
l  2つの単語の表現ベクトルを組合せて、フレーズ
の表現ベクトルを構成する
l  再帰的に繰り返すことで、⽂文全体の表現ベクト
ルを作る
55
x1 x2
p1
x3
p2

RNNによる構⽂文解析 [Socher+11]
l  隣隣接単語からフレーズを
構成する
l  構成を繰り返すことで、
⽊木ができる
l  画像の構造推定にも使え
る
56
[Socher+13]より

Matrix-Vector RNN (MV-RNN) [Socher+12]
l  各フレーズは⾏行行列列とベクトルのペアで表現する
l  ⼀一⽅方のベクトルを、もう⼀一⽅方の⾏行行列列との積を
取ってから、ベクトルを合成する
57
[Socher+12]より

Neural Tensor Network (NTN) [Socher+13]
l  3階のテンソルを使って、2つのベクトルから、
1つのベクトルを⽣生成する
58
[Socher+13]より

RNNによる評判分析 [Socher+13]
l  構⽂文⽊木に沿って句句のベクトルを再帰的に構築し
て、ポジ・ネガ分類をする
l  各フレーズ単位でも判定ができる
59
[Socher+13]より

Tree-LSTM [Tai+15]
l  ベクトルの合成にLSTMを利利⽤用する
l  実験結果を⾒見見ると、受け⾝身になった⽂文でも⽂文意
が変わらないことを学習できている
60
c: メモリセル
h:隠れ状態
[Tai+15]より

Recurrent vs Recursive
l  Recurrentは単純だが強⼒力力
l  実装は単純、構⽂文解析器が必要ない
l  ⽂文の⽣生成結果も良良好
l  GPUによる並列列化がし易易い
l  ⾔言語の複雑な現象を説明するのにRecursiveの⽅方
がよい？
l  実際はRecurrentがかなり強いので⼀一概に⾔言いづらい
61

系列列的に処理理したからといって⽊木構造を扱えないわ
けではない
l  構⽂文解析におけるShift-Reduce法は、前から順番に⽂文を
読んでスタック操作で構⽂文⽊木を⽣生成できる
l  Recurrentも似たようことが起こっている？
62
内部状態

構造の深層学習まとめ
l  構造は主に2種類の⼿手法がある
l  Recurrentは前から順番に単語を読む
l  LSTMが⾮非常に強⼒力力
l  翻訳や対話など、⽂文を⽣生成するタスクに期待
l  Recursiveは構⽂文⽊木に沿って処理理する
l  複雑な⾔言語現象を捉えやすそう
l  評判分析などに期待
l  両者は実は類似のことをしていないか？
63

RNNだけで全ての問題が解決できるのか？
l  「今⽇日の天気は？」に答えられるかは、⾔言語モ
デルとは関係がない
l  RNNでできるのは、妥当な回答候補を絞り込む
ことだけ
h RNN 出⼒力力⽂文

知能に対する個⼈人的イメージ
66
1. 知覚
3. 思考
4. 行動
2. 認識

⾃自然⾔言語処理理における処理理のイメージ
67
1. ◯◯解析
3. 推論
4. 文生成
2. 意味表現

各処理理のイメージ
68
1. ◯◯解析
3. 推論
4. 文生成
2. 意味表現
花形の研究
難しいさらに難しい
RNNが強⼒力力

三つ組（トリプル）モデル
l  2つのエンティティーと、その関係という3つの
情報を最⼩小単位とする
l  エンティティーを節、関係をラベル付きの枝と
する有向グラフとみなせる
l  RDFも三つ組で出来ている
69
(x, r, y)
x yr

既存の知識識ベースのほとんどが、三つ組モデルで表
現される
70

具体例例
l  「New York」の「略略語」は「NY」である
71

問題設定
⼊入⼒力力
l  {(xi, ri, yi)}: 知識識ベース中の三つ組集合
l  x, y: エンティティー
l  r: エンティティー間の関係
出⼒力力
l  x, yに対応するベクトル
l  rに対応するパラメータ
72

⼤大雑把な枠組み
l  三つ組に対するスコア関数を定義する
l  程度度の差はあるが、概ね知識識ベース中の全三つ
組に対するスコアが⼩小さく（あるいは⼤大きく）
なるようなパラメータを探す
73
argmax ∑i f(xi, ri, yi)

Distance model (Structured Embedding) [Bordes
+11]
l  e は、単語からベクトルへの関数
l  Rleft, Rright は、関係から⾏行行列列への関数
l  それぞれ別々の変換を⾏行行う
l  学習データに対する f が⼩小さくなるように学習
74
f(x, r, y) = || Rleft(r) e(x) – Rright(r) e(y) ||1

TransE model [Brodes+13]
l  関係 r は、ベクトル r を⾜足すだけというシンプ
ルなモデル
l  良良好な結果で、ベースライン的扱い
75
f(x, r, y) = || e(x) + r – e(y) ||2
2

TransE modelの問題点
1対多関係、多対多関係の場合、TransEでは同じ
関係にある全ての埋め込みベクトルが同⼀一になる
ように学習してしまう
拡張
l  TransM: 広がりをもたせるように学習する
l  TransH: 射影された超平⾯面上で同⼀一になるよう
学習する
76

TransM model [Fan+14]
l  r に応じて、重みをつける
l  wr は、r の関係をもつ x, y の個数から決まる定数
77
f(x, r, y) = wr|| e(x) + r – e(y) ||2
2
[Fan+14]より

TransH model [Wang+14]
l  関係毎に超平⾯面上に射影して、その上でTransE
と同じモデル化をする
78
[Wang+14]より

評価⽅方法：Link prediction
l  エンティティーの内の1つを隠して当てる
l  ある種のQAタスクになっている
l  「孫悟空の⼦子供は誰？」
79
(e1, r, e2)
(e1, r, ? )

⽐比較すると新しい⼿手法のほうが性能は良良い
80
TransH
TransE
⾏行行列列分解
図は[Bordes&Weston14]より

さらに発展
l  ⾃自然⽂文も⼀一緒に扱うようになる
l  より⾃自然な質問応⽤用タスクに近づく
81

記憶、知識識、推論論
l  記憶、知識識、推論論に関わりそうな研究が注⽬目さ
れている
l  RNN-EM (Microsoft)
l  Memory Networks (Facebook)
l  Neural Reasoner (Huawei)
l  多くの研究が対話型質問応答システムを⽬目指し
ているように⾒見見える
82

DL Workshop@ICML2015のパネル討論論より
l  ⾃自然⽂文対話とQ&Aシステムが重要になると、
FacebookとGoogle DeepMindが指摘
83
LeCun and Hassabis both picked Q&A and
natural language dialogue systems as next
big things.
https://sites.google.com/site/deepernn/home/blog/
briefsummaryofthepaneldiscussionatdlworkshopicml2015

RNN-EM [Peng+15a]
l  RNNに外部メモリ（External Memory）を追加
してより⻑⾧長い依存関係を学習
l  書き込み、読み込み操作も学習84
⼊入⼒力力単語
出⼒力力単語
隠れ状態
外部メモリ
書き込み
読み込み
[Peng+15a]より

Memory networks [Weston+15][Sukhbaatar+15]
l  ⾃自然⽂文の知識識をエンコードして、質問⽂文から答
えを探し答えるまでを1つのネットワークに
85
外部の⽂文献
知識識表現質問⽂文
知識識の探索索
回答の⽣生成
[Sukhbaatar+15]より

Neural Reasoner [Peng+15b]
l  質問(q)と事実(fi)から、推論論を⾏行行うイメージ
l  この推論論を何回も⾏行行うと、結論論が得られる
86
質問と事実をRNNでエンコード
1段の推論論
最後に回答
推論論を何度度も [Peng+15b]より

Deep Learningとは、「深い」ことだけではなく
なってきている
l  認識識系のDeep Learning
l  段数の「深い」多層パーセプトロン
l  段数の「深い」畳み込みニューラルネット
l  層の深さが重要だった
l  ⾔言語処理理のDeep Learning
l  微分可能関数をうまく組み合わせる⼯工夫合戦
l  深さよりも構造の⼯工夫の⽅方が⽬目⽴立立つ
87

知識識の深層学習のまとめ
l  知識識ベースの表現学習
l  三つ組による知識識ベースを、埋め込みベクトルで表
現する
l  簡単な質問応答ができるようになった
l  より⾃自然な知識識や記憶の獲得が流流⾏行行中
l  対話型の質問応答システムに向かっている
l  深さよりも問題特化した⼿手法が重要になってき
ている
88

この辺りから議論論
89

記号列列（⾔言語）のみで
意味を獲得できるのか？
90

Skip-thought vectors [Kiros+15]
l  RNNで⽂文をエンコードし、周囲の⽂文を推定する
l  Skip-gramモデルを⽂文に適⽤用したイメージ
91
前の⽂文を予測
次の⽂文を予測
⽂文をエンコード
[Kiros+15]より

Skip-gramとseq2seqやSkip thought vectorの類似
性
l  Skip-gram
l  単語の意味（ベクトル）は、周囲に来やすい単語の
類似性によって決まる
l  seq2seq
l  ⽂文の意味（ベクトル）は、変換後の⽂文の類似性に
よって決まる
l  Skip thought vector
l  ⽂文の意味（ベクトル）は、周囲の⽂文の類似性によっ
て決まる
92

本当に記号内で完結するのか？
l  周囲の記号同⼠士の関係のみで埋め込みベクトル
を計算している
l  本当にこれだけで、「リンゴを絞るとジュース
になる」ことを理理解できるんだろうか？
93
リンゴ
⾷食べる
カツ丼みかん
⾚赤い

連続な表現とのマッピングが必要？
l  記号の表現は不不連続
l  記号そのものは類似性を測れない
l  現状は埋め込みベクトルの類似度度と、共起関係
から間接的に類似度度を測っている
l  もっと直接的にコトバを覚えられないか？
l  コトバに対応した外部の刺刺激が必要？
l  ⾝身体性？
94

まとめ
l  埋め込みの学習
l  周囲の単語との共起を使って学習
l  Skip-gramが単純だが強⼒力力で、⼤大流流⾏行行している
l  構造の学習
l  系列列を扱うのがRecurrentで、LSTMが⾮非常に強⼒力力
l  ⽊木構造を扱うのがRecursive
l  知識識や記憶の学習
l  知識識ベースの三つ組を埋め込みベクトルにエンコー
ドする⼯工夫
l  ⾃自然分を使った、より⾃自然なモデルへと研究のトレ
ンドは移っている
95

参考⽂文献
l  [Evert10] Stefan Evert.
Distributional Semantic Models. NAACL 2010 Tutorial.
l  [Mikolov+13a] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey
Dean.
Efficient Estimation of Word Representations in Vector Space.
CoRR, 2013.
l  [Morin+05] Frederic Morin, Yoshua Bengio.
Hierarchical Probabilistic Neural Network Language Model.
AISTATS, 2005.
l  [Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory
S. Corrado, Jeffrey Dean.
Distributed Representations of Words and Phrases and their
Compositionality. NIPS, 2013.
97

参考⽂文献
l  [Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe.
Deriving adjectival scales from continuous space word
representations. EMNLP, 2013.
l  [Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever.
Exploiting Similarities among Languages for Machine
Translation. CoRR, 2013.
l  [Neelakantan+14] Arvind Neelakantan, Jeevan Shankar,
Alexandre Passos, Andrew McCallum.
Efficient Non-parametric Estimation of Multiple Embeddings
per Word in Vector Space. EMNLP, 2014.
l  [Le+14] Quoc Le, Tomas Mikolov.
Distributed Representations of Sentences and Documents.
ICML, 2014.
98

参考⽂文献
l  [Hochreiter+97] Sepp Hochreiter, Jurgen Schmidhunber.
Long Short-Term Memory. Neural Computation 9(8), 1997.
l  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan
Honza Cernocky, Sanjeev Khudanpur.
Recurrent neural network based language model.
Interspeech, 2010.
l  [Graves13] Alex Graves.
Generating Sequences With Recurrent Neural Networks. arXiv:
1308.0850, 2013.
l  [Vinyal+15a] Oriol Vinyals, Alexander Toshev, Samy Bengio,
Dumitru Erhan.
Show and tell: A neural image caption generator. CVPR, 2015.
99

参考⽂文献
l  [Sutskever+14] Ilya Sutskever, Oriol Vinyals, Quoc V. Le.
Sequence to Sequence Learning with Neural Networks.
NIPS 2014.
l  [Vinyals+15b] Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav
Petrov, Ilya Sutskever, Geoffrey Hinton.
Grammar as a foreign language.
ICLR 2015.
l  [Vinyals+15c] Oriol Vinyals, Quoc Le.
A Neural Conversational Model. ICML 2015.
100

参考⽂文献
l  [Socher+11] Richard Socher, Cliff Lin, Andrew Y. Ng, Christopher D.
Manning.
Parsing Natural Scenes and Natural Language with Recursive Neural
Networks. ICML 2011
l  [Socher+12] Richard Socher, Brody Huval, Christopher D. Manning,
Andrew Y. Ng.
Semantic Compositionality through Recursive Matrix-Vector Spaces.
EMNLP2012.
l  [Socher+13] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang,
Chris Manning, Andrew Ng, Chris Potts.
Recursive Deep Models for Semantic Compositionality Over a
Sentiment Treebank. EMNLP 2013.
l  [Tai+15] Kai Sheng Tai, Richard Socher, Christopher D. Manning.
Improved Semantic Representations From Tree-Structured Long
Short-Term Memory Networks. ACL 2015.
101

参考⽂文献
l  [Bordes+11] A. Bordes, J. Weston, R. Collobert, Y. Bengio.
Learning structured embeddings of knowledge bases. AAAI2011.
l  [Bordes+13] A. Bordes, N. Usunier, A. Garcia-Duran, J. Weston, O.
Yakhnenko.
Translating Embeddings for Modeling Multi-relational Data. NIPS
2013.
l  [Fan+14] M. Fan, Q. Shou, E. Chang, T. F. Zheng.
Transition-based Knowledge Graph Embedding with Relational
Mapping Properties. PACLIC 2014.
l  [Wang+14] Z. Wang, J. Zhang, J. Feng, Z. Chen.
Knowledge Graph Embedding by Translating on Hyperplanes. AAAI
2014.
l  [Bordes&Weston14] A. Bordes, J. Weston.
Embedding Methods for Natural Language Processing. EMNLP2014
tutorial.
102

参考⽂文献
l  [Peng+15a] Baolin Peng, Kaisheng Yao.
Recurrent Neural Networks with External Memory for Language
Understanding. arXiv:1506.00195, 2015.
l  [Weston+15] J. Weston, S. Chopra, A. Bordes.
Memory Networks. ICLR 2015.
l  [Sukhbaatar+15] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob
Fergus.
End-To-End Memory Networks. arXiv:1503.08895, 2015.
l  [Kumar+15] Ankit Kumar, Ozan Irsoy, Jonathan Su, James Bradbury, Robert
English, Brian Pierce, Peter Ondruska, Ishaan Gulrajani, Richard Socher.
Ask Me Anything: Dynamic Memory Networks for Natural Language
Processing. arXiv:1506.07285, 2015.
l  [Peng+15b] Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong.
Towards Neural Network-based Reasoning. arXiv:1508.05508, 2015.
l  [Kiros+15] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel,
Antonio Torralba, Raquel Urtasun, Sanja Fidler.
Skip-Thought Vectors. arXiv:1506.06726, 2015.
103

言語と知識の深層学習@認知科学会サマースクール

More Related Content

What's hot

Viewers also liked

Similar to 言語と知識の深層学習@認知科学会サマースクール

More from Yuya Unno

言語と知識の深層学習@認知科学会サマースクール