Successfully reported this slideshow.
Your SlideShare is downloading. ×

言語と知識の深層学習@認知科学会サマースクール

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Recurrent Neural Networks
Recurrent Neural Networks
Loading in …3
×

Check these out next

1 of 103 Ad

More Related Content

Slideshows for you (20)

Viewers also liked (10)

Advertisement

Similar to 言語と知識の深層学習@認知科学会サマースクール (20)

More from Yuya Unno (20)

Advertisement

Recently uploaded (20)

言語と知識の深層学習@認知科学会サマースクール

  1. 1. ⾔言語と知識識の深層学習 (株)Preferred Infrastructure 海野  裕也 2015/08/31 認知科学サマースクール@箱根
  2. 2. ⾃自⼰己紹介 海野  裕也 l  -2008 東⼤大情報理理⼯工修⼠士 l  ⾃自然⾔言語処理理 l  2008-2011 ⽇日本アイ・ビー・エム(株)東京基礎研 l  テキストマイニング、⾃自然⾔言語処理理の研究開発 l  2011- (株)プリファードインフラストラクチャー l  ⾃自然⾔言語処理理、情報検索索、機械学習、テキストマイニングなど の研究開発 l  研究開発系案件、コンサルティング l  JubatusやChainerの開発 NLP若若⼿手の会共同委員⻑⾧長(2014-) 「オンライン機械学習」(2015, 講談社) 2
  3. 3. 本⽇日の話の概要 l  ⾃自然⾔言語処理理における深層学習の⼿手法の概要を お話します l  現在、私が持っている課題感などもお話させて いただけると幸いです 3
  4. 4. ⾃自然⾔言語処理理とは ⾃自然⾔言語(⼈人の話す⾔言葉葉)をコンピュータで処理理させるた めの技術 l  主な応⽤用:⽇日本語⼊入⼒力力、機械翻訳、⾃自動要約など l  ⾔言語学、機械学習、最適化、統計などの技術と関わりが 深い 4 古⽂文書            仕様書 電子カルテ            twitter
  5. 5. ⾔言語処理理固有(?)の問題 1.  シーケンスの各要素の異異なり数は膨⼤大(単語) 2.  極めて規則的に各要素が選ばれる(⽂文法) 3.  外の情報や推論論がないと判断できないことも (知識識・推論論) 5 記号の規則的な列列である
  6. 6. 本⽇日の概要 ⾃自然⾔言語処理理における深層学習を3つに分け て話します l  埋め込みベクトルの学習 l  構造の学習 l  知識識、記憶、推論論の学習 6
  7. 7. その前に 7
  8. 8. おさらい:機械学習 多くの機械学習⼿手法は、 1.  ⽬目的関数の設計 2.  勾配の計算 3.  最⼩小化のための反復復計算 からなる そうでない機械学習もある(例例:MCMC) 8
  9. 9. 典型的な機械学習のイメージ l  正しければ正しいほど⼩小さくなる関数fを、デー タから設計する(例例えば正解率率率) l  fの任意の地点での勾配(⼩小さくなる⽅方向)を計 算する⽅方法を⽤用意する l  更更新を繰り返すとfの極⼩小点がわかる9 http://www.denizyuret.com/2015/03/alec-radfords-animations-for.htmlより
  10. 10. 機械学習の例例:分類学習の⽬目的関数 10 argminw ∑(x, y) l(x, y; w) + r(w) l  xは⼊入⼒力力ベクトル、yは予測ラベル l  l(x, y)は予測が正しければ⼩小さく、間違えれば⼤大 きくなる値(損失関数) l  r(w)はwが極端な値にならないような制約(正則 化項) l  上記関数を最⼩小化するパラメータwを求めたい
  11. 11. 機械学習の例例:分類学習のアルゴリズム l  ⽬目的関数をパラメータwで微分した値(勾配) を計算する⽅方法を⽤用意する l  wを勾配の⽅方向に少しだけ動かす、を繰り返す l  実際は更更新⽅方向の取り⽅方に⼯工夫が他数ある 11 initialize w until converge: w := w - η d/dw L(x, y; w) 最急降降下法
  12. 12. 応⽤用タスクでは関数の設計が焦点 l  勾配の計算と、最⼩小化の反復復計算は、ほとんど ⾃自動化できるようになった l  重要な⼯工夫は他数あるが、今⽇日はしません(Dropout、 Batch normalization、ADAMなど) l  応⽤用系の深層学習研究では、問題に合った⽬目的 関数を設計するところが主な焦点 l  RNN、CNN、skip-gramなど、全て⽬目的関数の形の ⼯工夫のはなし 12
  13. 13. お断り l  細かい式と実装は紹介しません l  式の意図や性質を中⼼心に解説します l  勾配計算はライブラリに任せることが増 えています 13
  14. 14. 埋め込みベクトルの学習
  15. 15. 記号と意味の類似度度 l  同じ意味、似た意味、関連のある意味、など l  記号列列が似ていても、関係が無いことが多い 15 リンゴ リンク アップル ⾷食べる みかん リンス ⻘青リンゴ
  16. 16. 分布仮説 (Distributional Hypothesis) l  同じ⽂文脈で出現する単語は同じ意味を持つとい うこと l  データから単語の意味を学習する話は、少なか らずこの仮説が元になっている 16 The Distributional Hypothesis is that words that occur in the same contexts tend to have similar meanings (Harris, 1954). (ACL wikiより)
  17. 17. 問題:???の単語は何でしょう? 17 [Evert10]より抜粋 ヒント:この表は各単語同士の共起頻度を表している
  18. 18. 問題:???の単語は何でしょう? 18 [Evert10]より抜粋 ヒント2:catやpigと共起語が似ていて、knifeと似てない
  19. 19. 正解:dog 19 [Evert10]より抜粋
  20. 20. word2vec [Mikolov+13] l  各単語の「意味」を表現するベクトルを作るはなし l  vec(Berlin) – vec(German) + vec(France) と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 20 Berlin German France Paris!!
  21. 21. Skip-gramモデル (word2vec) [Mikolov+13a] l  周辺単語を予測するモデル l  周辺単語から予測するモデル (CBOW)も提案している l  Analogical reasoningの精 度度が劇的に向上 l  ⾼高性能な実装が公開された ため、⼤大流流⾏行行した 21 [Mikolov+13a]より
  22. 22. Skip-gramモデル[Mikolov+13a]の⽬目的関数 l  ⼊入⼒力力コーパス: w1, w2, …, wT  (wiは単語) 22 これを最 ⼤大化 vwは単語wを表現するようなベクトル(適当な 次元)で、これらを推定したい cは文脈サイズで5くらい
  23. 23. 出⼒力力層を⼯工夫する l  語彙数 x 隠れ層  の⾏行行列列を毎単語ごとに更更新す る必要がある l  語彙数が巨⼤大すぎる(10万〜~100万) l  更更新量量を減らす⼯工夫が欲しい 23
  24. 24. ⼯工夫1: Hierarchical Softmax (HSM) [Morin+05] l  単語で⽊木を作り、ルートからその単語までの各ノードの ベクトルと内積をとり、そのシグモイドの積にする l  計算量量が語彙数の対数時間になる l  学習時間が数⽇日から数分に24 りんご みかん カレー ラーメン n1 n2 n3 各ノードのベ クトル ルートからw までの全ノー ドで積をとる σ(x)=1/(1 + exp(-x))
  25. 25. ⼯工夫2: Negative Sampling [Mikolov+13b] l  ∑の中の期待値計算は、k個のサンプルを取って 近似する l  データが少ない時は5~20個、多ければ2~5個で充分 l  P(w)として、1-gram頻度度の3/4乗に⽐比例例させた ときが⼀一番良良かった 25 log P(wo|wI) =
  26. 26. Skip-gramの衝撃 l  式は異異様にシンプル l  ある単語の出現が、周囲の単語の出現に影響を与え ている、程度度の意味合い l  想像以上に直感通りの実⾏行行結果 l  “1”に類似する単語は、順番に”2”, “3”, “4”, … l  ベクトルのたし引きができる 26 Berlin German France Paris!!
  27. 27. オープンソースで公開される l  実装はかなりギリギリまでチューニングされて いるので、CPUでも異異様に⾼高速に動く l  公開後、エンジニア界隈でも流流⾏行行した 27 https://code.google.com/p/word2vec/
  28. 28. 意味の「程度度」がベクトル空間中に埋め込まれる [Kim+13] l  “good”と”best”の真ん中に、”better”が存在 28 [Kim+13]より
  29. 29. ⾔言語間の翻訳辞書ができる [Mikolov+13c] l  単⾔言語のコーパスで作られた表現ベクトルは似ている l  少ない対訳辞書で作った、表現ベクトル空間の線形変換 を作る 29 英語 スペイン語 [Mikolov+13c]より
  30. 30. 複数の意味を持たせて、⽂文脈に応じて選択 [Neelakantan+14] 30 文脈を認識 一番類似した意味を選択 Skip-gramと同じ [Neelakantan+14]より
  31. 31. ⽂文書のベクトル表現(Paragraph vector) [Le+14] l  周囲の単語に加えて、⽂文書固有のベクトル (Paragraph vector)も単語の予測に使う l  このベクトルで⽂文書分類すると性能が向上する 31 Continuous BoW Paragraph vector [Le+14]より
  32. 32. 埋め込みベクトルの学習 l  単語の意味に相当するベクトルを学習する l  周囲の単語を予測するモデル l  不不思議な性質が次々に明らかになる l  意味の⾜足し算や、⾔言語をまたいだ類似性など l  関連する研究が次々に⾏行行われた 32
  33. 33. 構造の学習
  34. 34. ⾃自然⾔言語処理理の2⼤大構造 l  系列列構造 l  そもそも⽂文が⽂文字列列なので、系列列を使うのは⾃自然 l  cf. N-gram, HMM, linear-chain CRF… l  ⽊木構造 l  伝統的に⾃自然⾔言語処理理は⽊木構造を多⽤用してきた l  cf. PCFG, 係り受け解析… 34 Recurrent Neural Network Recursive Neural Network
  35. 35. Recurrent Neural Network (RNN) l  系列列に対するネットワーク l  隠れ層をコピーして、次の⼊入 ⼒力力に使うところがポイント l  必ずしも予測は必要ない 35 ⽂文字、単語 時刻  t-‐‑‒1  の隠れ層 隠れ層 予測 コピー
  36. 36. つなげて書くと・・・ 36 ⽂文字1 時刻  0  の隠れ層 隠れ層 時刻1の 予測 ⽂文字2 時刻2の 予測 ⽂文字3 時刻3の 予測
  37. 37. フィードフォワードニューラルネットとの関係 l  横⽅方向に並べて書くことが多い 37 ここだけみると、⽂文 ⻑⾧長と同じ⻑⾧長さのニュー ラルネットワーク yt = f(ht) ht+1 = g(xt, ht) x1 x2 x3 x4 h1 h2 h3 h4 y1 y2 y3 y4 入力データ 出力データ
  38. 38. 補⾜足:Skip-gramとRNNの違い l  Skip-gramでは、各単語は独⽴立立に、周囲の単語 から予想していた l  RNNでは隠れ状態の遷移が次の単語出⼒力力に影響 を与える 38 yt = f(ht), ht+1 = g(xt, ht) yt = f(xt-2, xt-1, xt+1, xt+2)
  39. 39. Back Propagation Through Time (BPTT)で学習 l  時間⽅方向に展開した状態で誤差逆伝搬すると、時間をさ かのぼって学習しているように⾒見見える 39
  40. 40. 深いネットワークと同様の問題が発⽣生する l  何度度も掛け算が発⽣生するので、重みが爆発したり、勾配 が消失する問題が発⽣生する l  そのため、⻑⾧長い依存関係を学習できない 40
  41. 41. Long Short-Term Memory [Hochreiter+97] l  勾配が消えないようにエラーを内部に貯めこむ構造に なっている l  ⼊入出⼒力力のゲートを作って、情報を選択的に流流すようにす る(流流すタイミングを学習するイメージ) 41 情報が貯まる 出⼒力力タイ ミング ⼊入⼒力力タイ ミング gateの出⼒力力が1に近い時だけ影響する
  42. 42. LSTMをRNNのモジュールとして利利⽤用する l  時間⽅方向の遷移をLSTMに置き換えることで、 ⻑⾧長距離離の依存関係を学習できるようになる 42
  43. 43. 統計的⾔言語モデル l  ⽂文か否かを判定するのが⾔言語モデル l  統計的⾔言語モデルは、記号列列に対して確率率率を与 える l  正しい⽂文には⾼高い確率率率、⾮非⽂文に対しては低い確率率率 43 P(今日は天気だ)>P(は天気だ今日)
  44. 44. RNNの⾔言語モデルへの利利⽤用 [Mikolov+10] l  ⼊入⼒力力は単語列列、出⼒力力は次の単語 l  副次的に単語毎にベクトルが学習される 44 今日 は 天気 だ は 天気 だ <eos> 単語毎に確率率率が出る
  45. 45. ⾔言語モデルは何に使われるか? l  ⽂文を⽣生成するあらゆるタスクに応⽤用できる l  翻訳 l  ⽂文書要約 l  ⾳音声認識識 l  対話 l  例例えば⾳音声認識識結果の候補がいくつかあったと きに、最も尤もらしい⽂文を選択するイメージ 45
  46. 46. 従来の⾔言語モデルとRNN⾔言語モデルの⽐比較 l  N-gram⾔言語モデル l  確率率率が直近N単語にのみ依存する l  RNN⾔言語モデル l  隠れ状態に必要な情報がエンコードされる 46 P(xt | xt-1, …) = f(xt, xt-1, xt-2) P(xt | xt-1, …) = f(xt, ht) ht = g(ht-1, xt-1)
  47. 47. LSTM⾔言語モデルの強⼒力力さ [Graves13] 47 閉じタグが正確に復復元タグの出現順も正しい ⽂文の構造も復復元 [Graves13]より
  48. 48. LSTMの成功から学ぶべきこと l  条件分岐のようなものを学習できる l  シグモイド関数の出⼒力力をかける l  出⼒力力が1なら使う、0なら使わないことになる l  内部記憶のようなものも再現できる 48 微分可能な関数でかければ何でもできる!
  49. 49. 昨年年後半からLSTMが⼤大流流⾏行行 l  ⽂文を⽣生成するタスクの標準的な⼿手法になる l  ⾃自然⽂文以外でも、系列列を扱うタスクの標準にな る 49
  50. 50. Show and Tell [Vinyals+15a] l  画像を畳み込みニューラルネットワーク (CNN)でエンコードして、そこからRNNで⽂文 を⽣生成する l  画像を説明するような⽂文の⽣生成に成功 50 [Vinyals+15a]より
  51. 51. Sequence-to-sequence learning (seq2seq) l  ⼊入⼒力力⽂文をRNNでエンコードして、そこからRNN で出⼒力力⽂文を⽣生成する l  ⽂文から⽂文の変換を学習できる 51 入力文 出力文 [Sutskever+14]より
  52. 52. seq2seqが複数のタスクで成果を上げる l  機械翻訳  [Sutskever+14] l  原⽂文から翻訳⽂文へ l  構⽂文解析  [Vinyals+15b] l  ⽂文から構⽂文⽊木(のS式表現)へ l  対話  [Vinyals+15c] l  相⼿手の発話から⾃自分の発話へ 52 WSJの記事になった
  53. 53. RNNによる⽣生成はエンコードとデコードに別れる l  ⼊入⼒力力データをエンコード l  画像をCNNで、翻訳元の⽂文や質問⽂文をRNNで l  できたベクトルからRNNで⽂文を⽣生成する l  全体が1つのネットワークになる 53 hencoder ⼊入⼒力力 RNN 出⼒力力⽂文
  54. 54. 従来の⾔言語モデルとの⽐比較 l  従来は⾔言語モデルとタスク固有のモデル(翻訳 モデルや⾳音響モデル)は式の上で分離離した l  RNN的なアプローチでは全部くっつけ学習する 54 argmaxy P(y|x) = argmaxy P(x|y) P(y) 翻訳モデル ⾔言語モデル
  55. 55. Recursive Neural Network (RNN) l  2つの単語の表現ベクトルを組合せて、フレーズ の表現ベクトルを構成する l  再帰的に繰り返すことで、⽂文全体の表現ベクト ルを作る 55 x1 x2 p1 x3 p2
  56. 56. RNNによる構⽂文解析 [Socher+11] l  隣隣接単語からフレーズを 構成する l  構成を繰り返すことで、 ⽊木ができる l  画像の構造推定にも使え る 56 [Socher+13]より
  57. 57. Matrix-Vector RNN (MV-RNN) [Socher+12] l  各フレーズは⾏行行列列とベクトルのペアで表現する l  ⼀一⽅方のベクトルを、もう⼀一⽅方の⾏行行列列との積を 取ってから、ベクトルを合成する 57 [Socher+12]より
  58. 58. Neural Tensor Network (NTN) [Socher+13] l  3階のテンソルを使って、2つのベクトルから、 1つのベクトルを⽣生成する 58 [Socher+13]より
  59. 59. RNNによる評判分析 [Socher+13] l  構⽂文⽊木に沿って句句のベクトルを再帰的に構築し て、ポジ・ネガ分類をする l  各フレーズ単位でも判定ができる 59 [Socher+13]より
  60. 60. Tree-LSTM [Tai+15] l  ベクトルの合成にLSTMを利利⽤用する l  実験結果を⾒見見ると、受け⾝身になった⽂文でも⽂文意 が変わらないことを学習できている 60 c: メモリセル h:隠れ状態 [Tai+15]より
  61. 61. Recurrent vs Recursive l  Recurrentは単純だが強⼒力力 l  実装は単純、構⽂文解析器が必要ない l  ⽂文の⽣生成結果も良良好 l  GPUによる並列列化がし易易い l  ⾔言語の複雑な現象を説明するのにRecursiveの⽅方 がよい? l  実際はRecurrentがかなり強いので⼀一概に⾔言いづらい 61
  62. 62. 系列列的に処理理したからといって⽊木構造を扱えないわ けではない l  構⽂文解析におけるShift-Reduce法は、前から順番に⽂文を 読んでスタック操作で構⽂文⽊木を⽣生成できる l  Recurrentも似たようことが起こっている? 62 内部状態
  63. 63. 構造の深層学習まとめ l  構造は主に2種類の⼿手法がある l  Recurrentは前から順番に単語を読む l  LSTMが⾮非常に強⼒力力 l  翻訳や対話など、⽂文を⽣生成するタスクに期待 l  Recursiveは構⽂文⽊木に沿って処理理する l  複雑な⾔言語現象を捉えやすそう l  評判分析などに期待 l  両者は実は類似のことをしていないか? 63
  64. 64. 知識識の深層学習
  65. 65. RNNだけで全ての問題が解決できるのか? l  「今⽇日の天気は?」に答えられるかは、⾔言語モ デルとは関係がない l  RNNでできるのは、妥当な回答候補を絞り込む ことだけ h RNN 出⼒力力⽂文
  66. 66. 知能に対する個⼈人的イメージ 66 1. 知覚 3. 思考 4. 行動 2. 認識
  67. 67. ⾃自然⾔言語処理理における処理理のイメージ 67 1. ◯◯解析 3. 推論 4. 文生成 2. 意味表現
  68. 68. 各処理理のイメージ 68 1. ◯◯解析 3. 推論 4. 文生成 2. 意味表現 花形の研究 難しい さらに難しい RNNが強⼒力力
  69. 69. 三つ組(トリプル)モデル l  2つのエンティティーと、その関係という3つの 情報を最⼩小単位とする l  エンティティーを節、関係をラベル付きの枝と する有向グラフとみなせる l  RDFも三つ組で出来ている 69 (x, r, y) x yr
  70. 70. 既存の知識識ベースのほとんどが、三つ組モデルで表 現される 70
  71. 71. 具体例例 l  「New York」の「略略語」は「NY」である 71
  72. 72. 問題設定 ⼊入⼒力力 l  {(xi, ri, yi)}: 知識識ベース中の三つ組集合 l  x, y: エンティティー l  r: エンティティー間の関係 出⼒力力 l  x, yに対応するベクトル l  rに対応するパラメータ 72
  73. 73. ⼤大雑把な枠組み l  三つ組に対するスコア関数を定義する l  程度度の差はあるが、概ね知識識ベース中の全三つ 組に対するスコアが⼩小さく(あるいは⼤大きく) なるようなパラメータを探す 73 argmax ∑i f(xi, ri, yi)
  74. 74. Distance model (Structured Embedding) [Bordes +11] l  e は、単語からベクトルへの関数 l  Rleft, Rright は、関係から⾏行行列列への関数 l  それぞれ別々の変換を⾏行行う l  学習データに対する f が⼩小さくなるように学習 74 f(x, r, y) = || Rleft(r) e(x) – Rright(r) e(y) ||1
  75. 75. TransE model [Brodes+13] l  関係  r は、ベクトル r を⾜足すだけというシンプ ルなモデル l  良良好な結果で、ベースライン的扱い 75 f(x, r, y) = || e(x) + r – e(y) ||2 2
  76. 76. TransE modelの問題点 1対多関係、多対多関係の場合、TransEでは同じ 関係にある全ての埋め込みベクトルが同⼀一になる ように学習してしまう 拡張 l  TransM: 広がりをもたせるように学習する l  TransH: 射影された超平⾯面上で同⼀一になるよう 学習する 76
  77. 77. TransM model [Fan+14] l  r に応じて、重みをつける l  wr は、r の関係をもつ x, y の個数から決まる定数 77 f(x, r, y) = wr|| e(x) + r – e(y) ||2 2 [Fan+14]より
  78. 78. TransH model [Wang+14] l  関係毎に超平⾯面上に射影して、その上でTransE と同じモデル化をする 78 [Wang+14]より
  79. 79. 評価⽅方法:Link prediction l  エンティティーの内の1つを隠して当てる l  ある種のQAタスクになっている l  「孫悟空の⼦子供は誰?」 79 (e1, r, e2) (e1, r, ? )
  80. 80. ⽐比較すると新しい⼿手法のほうが性能は良良い 80 TransH TransE ⾏行行列列分解 図は[Bordes&Weston14]より
  81. 81. さらに発展 l  ⾃自然⽂文も⼀一緒に扱うようになる l  より⾃自然な質問応⽤用タスクに近づく 81
  82. 82. 記憶、知識識、推論論 l  記憶、知識識、推論論に関わりそうな研究が注⽬目さ れている l  RNN-EM (Microsoft) l  Memory Networks (Facebook) l  Neural Reasoner (Huawei) l  多くの研究が対話型質問応答システムを⽬目指し ているように⾒見見える 82
  83. 83. DL Workshop@ICML2015のパネル討論論より l  ⾃自然⽂文対話とQ&Aシステムが重要になると、 FacebookとGoogle DeepMindが指摘 83 LeCun and Hassabis both picked Q&A and natural language dialogue systems as next big things. https://sites.google.com/site/deepernn/home/blog/ briefsummaryofthepaneldiscussionatdlworkshopicml2015
  84. 84. RNN-EM [Peng+15a] l  RNNに外部メモリ(External Memory)を追加 してより⻑⾧長い依存関係を学習 l  書き込み、読み込み操作も学習84 ⼊入⼒力力単語 出⼒力力単語 隠れ状態 外部メモリ 書き込み 読み込み [Peng+15a]より
  85. 85. Memory networks [Weston+15][Sukhbaatar+15] l  ⾃自然⽂文の知識識をエンコードして、質問⽂文から答 えを探し答えるまでを1つのネットワークに 85 外部の⽂文献 知識識表現 質問⽂文 知識識の探索索 回答の⽣生成 [Sukhbaatar+15]より
  86. 86. Neural Reasoner [Peng+15b] l  質問(q)と事実(fi)から、推論論を⾏行行うイメージ l  この推論論を何回も⾏行行うと、結論論が得られる 86 質問と事実をRNNでエンコード 1段の推論論 最後に回答 推論論を何度度も [Peng+15b]より
  87. 87. Deep Learningとは、「深い」ことだけではなく なってきている l  認識識系のDeep Learning l  段数の「深い」多層パーセプトロン l  段数の「深い」畳み込みニューラルネット l  層の深さが重要だった l  ⾔言語処理理のDeep Learning l  微分可能関数をうまく組み合わせる⼯工夫合戦 l  深さよりも構造の⼯工夫の⽅方が⽬目⽴立立つ 87
  88. 88. 知識識の深層学習のまとめ l  知識識ベースの表現学習 l  三つ組による知識識ベースを、埋め込みベクトルで表 現する l  簡単な質問応答ができるようになった l  より⾃自然な知識識や記憶の獲得が流流⾏行行中 l  対話型の質問応答システムに向かっている l  深さよりも問題特化した⼿手法が重要になってき ている 88
  89. 89. この辺りから議論論 89
  90. 90. 記号列列(⾔言語)のみで 意味を獲得できるのか? 90
  91. 91. Skip-thought vectors [Kiros+15] l  RNNで⽂文をエンコードし、周囲の⽂文を推定する l  Skip-gramモデルを⽂文に適⽤用したイメージ 91 前の⽂文を予測 次の⽂文を予測 ⽂文をエンコード [Kiros+15]より
  92. 92. Skip-gramとseq2seqやSkip thought vectorの類似 性 l  Skip-gram l  単語の意味(ベクトル)は、周囲に来やすい単語の 類似性によって決まる l  seq2seq l  ⽂文の意味(ベクトル)は、変換後の⽂文の類似性に よって決まる l  Skip thought vector l  ⽂文の意味(ベクトル)は、周囲の⽂文の類似性によっ て決まる 92
  93. 93. 本当に記号内で完結するのか? l  周囲の記号同⼠士の関係のみで埋め込みベクトル を計算している l  本当にこれだけで、「リンゴを絞るとジュース になる」ことを理理解できるんだろうか? 93 リンゴ ⾷食べる カツ丼みかん ⾚赤い
  94. 94. 連続な表現とのマッピングが必要? l  記号の表現は不不連続 l  記号そのものは類似性を測れない l  現状は埋め込みベクトルの類似度度と、共起関係 から間接的に類似度度を測っている l  もっと直接的にコトバを覚えられないか? l  コトバに対応した外部の刺刺激が必要? l  ⾝身体性? 94
  95. 95. まとめ l  埋め込みの学習 l  周囲の単語との共起を使って学習 l  Skip-gramが単純だが強⼒力力で、⼤大流流⾏行行している l  構造の学習 l  系列列を扱うのがRecurrentで、LSTMが⾮非常に強⼒力力 l  ⽊木構造を扱うのがRecursive l  知識識や記憶の学習 l  知識識ベースの三つ組を埋め込みベクトルにエンコー ドする⼯工夫 l  ⾃自然分を使った、より⾃自然なモデルへと研究のトレ ンドは移っている 95
  96. 96. 参考⽂文献 l  [Evert10] Stefan Evert. Distributional Semantic Models. NAACL 2010 Tutorial. l  [Mikolov+13a] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. CoRR, 2013. l  [Morin+05] Frederic Morin, Yoshua Bengio. Hierarchical Probabilistic Neural Network Language Model. AISTATS, 2005. l  [Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. NIPS, 2013. 97
  97. 97. 参考⽂文献 l  [Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe. Deriving adjectival scales from continuous space word representations. EMNLP, 2013. l  [Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation. CoRR, 2013. l  [Neelakantan+14] Arvind Neelakantan, Jeevan Shankar, Alexandre Passos, Andrew McCallum. Efficient Non-parametric Estimation of Multiple Embeddings per Word in Vector Space. EMNLP, 2014. l  [Le+14] Quoc Le, Tomas Mikolov. Distributed Representations of Sentences and Documents. ICML, 2014. 98
  98. 98. 参考⽂文献 l  [Hochreiter+97] Sepp Hochreiter, Jurgen Schmidhunber. Long Short-Term Memory. Neural Computation 9(8), 1997. l  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Honza Cernocky, Sanjeev Khudanpur. Recurrent neural network based language model. Interspeech, 2010. l  [Graves13] Alex Graves. Generating Sequences With Recurrent Neural Networks. arXiv: 1308.0850, 2013. l  [Vinyal+15a] Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan. Show and tell: A neural image caption generator. CVPR, 2015. 99
  99. 99. 参考⽂文献 l  [Sutskever+14] Ilya Sutskever, Oriol Vinyals, Quoc V. Le. Sequence to Sequence Learning with Neural Networks. NIPS 2014. l  [Vinyals+15b] Oriol Vinyals, Lukasz Kaiser, Terry Koo, Slav Petrov, Ilya Sutskever, Geoffrey Hinton. Grammar as a foreign language. ICLR 2015. l  [Vinyals+15c] Oriol Vinyals, Quoc Le. A Neural Conversational Model. ICML 2015. 100
  100. 100. 参考⽂文献 l  [Socher+11] Richard Socher, Cliff Lin, Andrew Y. Ng, Christopher D. Manning. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011 l  [Socher+12] Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP2012. l  [Socher+13] Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Chris Manning, Andrew Ng, Chris Potts. Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP 2013. l  [Tai+15] Kai Sheng Tai, Richard Socher, Christopher D. Manning. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015. 101
  101. 101. 参考⽂文献 l  [Bordes+11] A. Bordes, J. Weston, R. Collobert, Y. Bengio. Learning structured embeddings of knowledge bases. AAAI2011. l  [Bordes+13] A. Bordes, N. Usunier, A. Garcia-Duran, J. Weston, O. Yakhnenko. Translating Embeddings for Modeling Multi-relational Data. NIPS 2013. l  [Fan+14] M. Fan, Q. Shou, E. Chang, T. F. Zheng. Transition-based Knowledge Graph Embedding with Relational Mapping Properties. PACLIC 2014. l  [Wang+14] Z. Wang, J. Zhang, J. Feng, Z. Chen. Knowledge Graph Embedding by Translating on Hyperplanes. AAAI 2014. l  [Bordes&Weston14] A. Bordes, J. Weston. Embedding Methods for Natural Language Processing. EMNLP2014 tutorial. 102
  102. 102. 参考⽂文献 l  [Peng+15a] Baolin Peng, Kaisheng Yao. Recurrent Neural Networks with External Memory for Language Understanding. arXiv:1506.00195, 2015. l  [Weston+15] J. Weston, S. Chopra, A. Bordes. Memory Networks. ICLR 2015. l  [Sukhbaatar+15] Sainbayar Sukhbaatar, Arthur Szlam, Jason Weston, Rob Fergus. End-To-End Memory Networks. arXiv:1503.08895, 2015. l  [Kumar+15] Ankit Kumar, Ozan Irsoy, Jonathan Su, James Bradbury, Robert English, Brian Pierce, Peter Ondruska, Ishaan Gulrajani, Richard Socher. Ask Me Anything: Dynamic Memory Networks for Natural Language Processing. arXiv:1506.07285, 2015. l  [Peng+15b] Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong. Towards Neural Network-based Reasoning. arXiv:1508.05508, 2015. l  [Kiros+15] Ryan Kiros, Yukun Zhu, Ruslan Salakhutdinov, Richard S. Zemel, Antonio Torralba, Raquel Urtasun, Sanja Fidler. Skip-Thought Vectors. arXiv:1506.06726, 2015. 103

×