言語と画像の表現学習

9,163 views

Published on

全脳アーキテクチャ若手の会第13回勉強会の資料

Published in: Technology
1 Comment
63 Likes
Statistics
Notes
No Downloads
Views
Total views
9,163
On SlideShare
0
From Embeds
0
Number of Embeds
1,277
Actions
Shares
0
Downloads
211
Comments
1
Likes
63
Embeds 0
No embeds

No notes for slide
  • Elman, Jeffrey L.; et al. (1996). "Preface". Rethinking Innateness: A Connectionist Perspective on Development (Neural Network Modeling and Connectionism). A Bradford Book. ISBN 978-0262550307. connectionism (a term introduced by Donald Hebb in 1940s, and the name we adopt here)
  • もっと説明
  • いちぶんや
  • 日本語がちょっと変 前ページと統合して、

    自然言語処理の難しさ:言語・状況・環境・知覚の知識表現の複雑さ
    →単純なルールベースでは難しいことが分かってきた

    ディープニューラルネットワーク:分散表現の力により、曖昧だが豊富な情報を得ることができる
    →自然言語処理の分野にも、言葉のベクトル化という方法で参入

    とかどうだろう。少なくとも2ページに分けるほどの情報はないかな。
  • distributional semantics, statistical semantics
    distributional semantic model
    lexicon-based, corpus-based
    scalability
  • distributional semantics, statistical semantics
    distributional semantic model
    lexicon-based, corpus-based
    scalability
  • 今回は、100次元ベクトルに削減し、TSNEという別の アルゴリズムで可視化した (もっと綺麗に可視化する)
  • 3 days
  • 埋め込みベクトル
  • one-hot の説明
    note: one-hot ベクトルと埋め込み行列を普通に掛けると効率が悪いので、 引数で行列から行を引き出したほうがいい(行列を探索テーブルとして扱う)
  • (Bengio, 2003) で過去にもあった

    t-1 までの言葉から t の言葉を 予測させる
    Once upon a time...
  • 図に埋め込み行列も追加
  • T はコーパスにある単語の数 wi はコーパスの i番目の単語 c は文脈窓の大きさ
  • 「入力」と「出力」表現ベクトル
  • 語彙

  • 「あなたはきっと素敵な夜を過ごすでしょう」彼女は大げさなウィンクをしながら言った。 「君がパーティーに来てくれてよかったよ」彼は彼女に振り向いて言った。
  • 単に分類の場合、encoder-decoder ではない・必要ない?
  • GRU has a reset gate and an update gate
  • http://arxiv.org/pdf/1411.4555v2.pdf
  • sss
  • in the wild
  • 画像と言語の足し算引き算
  • BookCorpusデータセットの恋愛ジャンルを使用
  • BookCorpusデータセットの恋愛ジャンルを使用
  • BookCorpusデータセットの恋愛ジャンルを使用
  • 言語と画像の表現学習

    1. 1. 言語と画像の 表現学習 慶應義塾大学環境情報学部1年 野口裕貴 全脳アーキテクチャ若手の会 第13回勉強会
    2. 2. 自己紹介 野口裕貴 慶応大学環境情報学部1年 建築 → ゲームプログラミング → 汎用人工知能
    3. 3. 画像から恋愛物語を作るAI 「彼は心の奥で裸の男であった。彼が私にキスしようと肩に寄りか かってきたとき、私は悪態をついた。私が彼のボクサーを履いたら 美しいため、彼は私を締め付けようとしたのだ。」 Samim より
    4. 4. 画像から恋愛物語を作るAI 「会議の終わり、私たちは張り詰めた空気にあった。私は親友を見 上げた。もちろん、彼を放すつもりはなかった。他に何を言えばい いかわからないが、彼は一番美しい男だ。」
    5. 5. Neural Storytellerで用いられている技術 単語 の表現 文章 の表現 画像 の表現 文章と画像 の結合 画像から物語 の生成 Kiros 2015年11月
    6. 6. Neural Storytellerで用いられている技術 単語 の表現 文章 の表現 画像 の表現 文章と画像 の結合 画像から物語 の生成 Kiros 2015年11月 ニューラルネットワーク(NN)が支える [Mikolov+ 13] [Kiros+ 15] [Kiros+ 14] [Simonyan+ 14]
    7. 7. 本日のテーマ • NNの力の根源の一つ:分散表現 • NNに言語や画像を学習させる手法
    8. 8. コネクショニズム NNなどを用いて認知や行動をモデル化する立場 !認知 行動
    9. 9. 分散表現 [Hinton+ 1986] 1986年、「コネクショニスト」の一人、Geoffrey Hintonが、 ニューロンがどう概念を表しているかを説明するため、 分散表現(distributed representation)を提唱 分散表現
    10. 10. 目次 1.イントロダクション 2.分散表現の概要 3.自然言語処理の概要 4.言語のベクトル表現 5.encoder-decoder モデル 6.マルチモーダルモデル
    11. 11. 局所表現 vs 分散表現
    12. 12. 局所表現 一つのニューロン(の発火)で一つの概念を表す ベクトルで表すと one-hot vector 🐕 🐈 ⛵ [1, 0, 0, 0, 0] [0, 1, 0, 0, 0] [0, 0, 1, 0, 0] ... ... ...
    13. 13. 分散表現 複数のニューロン(の発火)で一つの概念を表す 🐕 🐈 ⛵ [0.5, 0.0, 1.0, 1.0, 0.3] [0.5, 0.0, 1.0, 1.0, 0.0] [0.2, 0.9, 0.5, 0.0, 1.0] ... ... ...
    14. 14. 分散表現 概念を特徴の組み合わせとして表せる 🐕 = 1ペット + 1ワンワン + 0ニャー + 0.1乗り物 + 0.1海 🐈 = 1ペット + 0ワンワン + 1ニャー + 0乗り物 + 0海 ⛵ = 0ペット + 0ワンワン + 0ニャー + 0.9乗り物 + 0.8海
    15. 15. 概念の類似 🐈 ⛵ 局所表現 分散表現 似ている!🐕
    16. 16. 分散表現の表現力は指数的 010 001 100 011 000 101 100 111 010 001 局所表現 分散表現
    17. 17. 文字認識の分散表現 ≈ + + ...0.8 0.9 0.1 ≈ + + ...0.7 0.5 0.6 係数 特徴
    18. 18. 下層の特徴が抽出され、中間層が分散表現になる ニューラルネットと分散表現 ... ... ...... 7 係数特徴
    19. 19. ディープニューラルネットワーク(DNN) 中間層を重ねて、さらに抽象的な特徴を抽出する [Lee+ 2009] より
    20. 20. ディープニューラルネットワーク 音声認識や画像認識を始め、多大な成果を産んでいる 更に最近は、自然言語処理にも到来してきている
    21. 21. 目次 1.イントロダクション 2.分散表現の概要 3.自然言語処理の概要 4.言語のベクトル表現 5.encoder-decoder モデル 6.マルチモーダルモデル
    22. 22. 自然言語処理(NLP) コンピュータ サイエンス 人工知能 言語学 自然言語処理 コンピュータサイエンス、人工知能と言語学の一分野
    23. 23. 自然言語処理(NLP) 機械に人間の言語を処理させること ...This is just a bunch of words to explain what natural language processing is and is not meant to be read. All I want to say is that it’s all about having machines do useful stuff with language... !
    24. 24. 自然言語処理のタスク 易 • スペルチェック • キーワード検索 • 類義語検知 • etc. 難 • 機械翻訳 • センチメント分析 • 質問応答システム • etc. 中 • ウェブサイトや書類の 形態素解析・構文解析 • etc.
    25. 25. 機械翻訳 He threw the ball 彼は 投げた ボール 彼は ボール を 投げた フレーズベース翻訳の例 言葉の曖昧性
    26. 26. センチメント分析 テキストから感情を判断する 「すごく面白い。いくら遊んでも飽きない」 → 0.86 「インストールするな。データのムダになるだけ」 → -0.68 「電車で時間を潰せるけど、よくクラッシュするのは直すべき」 → ? ? ? 「これヤバい」 → ? ? ?
    27. 27. 質問応答システム(QA システム) closed-domain - 定められた分野の質問に応答 「ラマは何科?」 → 「ラクダ科」 open-domain - ほぼ何の質問でも応答 「なぜ私は結婚できないのか?」 → 「...」
    28. 28. 自然言語処理の難しさ 言語・状況・環境・知覚の知識の学習や表現の複雑さ → ルールベースだけでは無理がある? DNNは分散表現の力により、 曖昧だが豊富な情報を得ることができる → 言葉のベクトル化から始まる
    29. 29. 目次 1.イントロダクション 2.分散表現の概要 3.自然言語処理の概要 4.言語のベクトル表現 5.encoder-decoder モデル 6.マルチモーダルモデル
    30. 30. 単語の局所表現 これじゃ単語の意味がまったく分からない... → 単語の意味を捉えるベクトルが欲しい [1, 0, 0, 0, 0] [0, 1, 0, 0, 0] [0, 0, 1, 0, 0] ... ねこ いぬ ひと...
    31. 31. 分布仮説 [Harris 1954, Firth 1957] “You shall know a word by the company it keeps” - J. R. Firth 似ている文脈を持つ言葉は似ている意味を持つ 現代の統計的自然言語処理で画期的な着想
    32. 32. Count-based vs Predictive methods 分布仮説に基づく手法は大きく2種類に分かれる  count-based methods  例:SVD (LSA)、HAL、etc.  単語文脈出現回数を数える手法  predictive methods  例:NPLM、word2vec、etc.  単語から文脈、あるいは文脈から単語を予測する手法
    33. 33. Count-based vs Predictive methods 今日はこの中の3つを見ていきます  count-based methods  例:SVD (LSA)、HAL、etc.  単語文脈出現回数を数える手法  predictive methods  例:NPLM、word2vec、etc.  単語から文脈、あるいは文脈から単語を予測する手法
    34. 34. 文脈(context)の定義 • 文脈窓(次のスライド) • 自分以外の○○中に出現する単語 • 文章 • 段落 • 文書
    35. 35. 文脈窓 大きさ 2k+1 の単語列をとる 周りの単語が文脈 k=4 の例 It was a bright cold day in April, and the clocks were striking thirteen.
    36. 36. 単語文脈行列(co-occurance matrix) 例:k=1(隣)の 文脈窓とした場合 |V| は語彙数 I enjoy technology. I like eating. I like to sleep. I enjoy technology like eating to sleep . I 0 1 0 2 0 0 0 0 enjoy 1 0 1 0 0 0 0 0 technology 0 1 0 0 0 0 0 1 like 2 0 0 0 1 1 0 0 eating 0 0 0 1 0 0 0 1 to 0 0 0 1 0 0 1 0 sleep 0 0 0 0 0 1 0 1 . 0 0 1 0 1 0 1 0 |V| |V|
    37. 37. 単語文脈行列 各行を単語ベクトルとして使える しかし、語彙数が大きくなると、 ベクトルも大きくなる(何十万次元とか) 語彙数 technology 0 1 0 0 0 0 0 1 like 2 0 0 0 1 1 0 0 eating 0 0 0 1 0 0 0 1
    38. 38. 密なベクトル 高次元のベクトルの「一番重要な情報」を保持して低次元・ 密なベクトルに圧縮したい(e.g. 何十万次元→数百次元) → 特異値分解(Singular Value Decomposition, SVD)
    39. 39. 特異値分解(SVD) X U VT 単語文脈行列 各列は XXT の 固有ベクトル 各行は XTX の 固有ベクトル 斜めの値は XXT か XTX の 固有値(大きい順) 対応する 固有値の 大きい順 で並べる |V| |V| Σ
    40. 40. 単語ベクトル U の各行を単語ベクトル として使える U の N列目まで使えばいい U 単語ベクトル 使わない
    41. 41. 最初の2列で可視化 1列目(x軸にする) 2列目(y軸にする) U 行列を構築 SVD 語彙
    42. 42. もう少し本格化 次は Brown Corpus を使ってみる 語数:約100万 語彙数:スペースで分けた結果、約8万 まず単語文脈行列を構築...あれ?
    43. 43. 語彙の削減 単語文脈行列が大きすぎた(語彙数8万→80000x80000) →出現頻度で1000位以下の単語をまとめて”<unk>”にした (語彙数1000→行列1001x1001)
    44. 44. 単語ベクトルの可視化 100次元のベクトル (Uの100列目まで 使った) ※今回はTSNEという別の アルゴリズムで可視化した (もっと綺麗に可視化され る)
    45. 45. 類似する単語 類似度が高め 類似度= wwar に近い単語ベクトル
    46. 46. 計算量の問題 新しいテキストデータを使うときは、単語文脈 行列を更新し、SVDをやり直さなければならない SVDの計算量は n×m行列の場合、O(mn2) (n < m) → すぐ語彙数に限界 実際に語彙数を増やした結果 100000 数日間 (推定)
    47. 47. ニューラル確率言語モデル [Bengio+ 2003] NNでつくった言語モデル → 言語モデルとは何か?
    48. 48. 言語モデル 単語列の文法と意味が正しいほど高い確率を計算するモデル PLM(ご飯を食べる) > PLM(食べるをご飯) 応用例:言葉入力や、スペルチェック、機械翻訳や音声認識 における複数の文章候補のスコアリング 彼は本を買った 彼は本をカッター ? 0.023% 0.002%
    49. 49. n-gram言語モデル 計算量に限界があるため、条件付き確率を近似する ある単語の出現確率は (n-1)語前にしか依存しない これをn-1次マルコフ過程という n=4 の場合 条件 ...man stood still as they slowly walked through the...
    50. 50. n-gram言語モデル unigram(n=1) P(He plays tennis.)=P(He)*P(plays)*P(tennis)*P(.) bigram(n=2) P(He plays tennis.) = P(He)*P(plays|He)*P(tennis|plays)*P(.|tennis) trigram(n=3) P(He plays tennis.) = P(He)*P(plays|He)*P(tennis|He plays)*P(.|plays tennis) ... 順序を全く考慮しない
    51. 51. n-gramで言語モデリング このまま n-gram の n を増やせる n を増やすと、データが足りていれば性能はよくなる しかし、単語の取りうる組み合わせが |V|n と指数的に 大きくなってしまう →指数的に学習データが必要になる(次元の呪い)
    52. 52. n-gramにおける次元の呪い Brown Corpusを3-gramで言語モデルを作ろうとする “he was happy”は6件出る
    53. 53. n-gramにおける次元の呪い “she was joyful”はゼロ →n-gramモデルだと確率0% →スムージングなどの工夫をすることがある しかし、問題は完全に解決されない 簡単な例 (add-one smoothing)
    54. 54. 分散表現の力 類似性を考慮できれば、汎化能力アップ これは分散表現にできること → NN 似ているhe was happy she was joyful 片方の確率が高ければ、 もう片方も高いはず
    55. 55. 埋め込み行列(embedding matrix) 単語ベクトル(埋め込みベクトル)の集合 この行列をNNに埋め込んで学習させたい i 行目が 単語 i のベクトル m |V| m は埋め込み ベクトルの大きさ (任意)
    56. 56. ニューラル確率言語モデル(NPLM) 単語列から次の単語を予測する (e.g. Apples are _____)
    57. 57. NPLM|結果 コーパス:Brown Corpus(〜100万語) 語彙数:〜16000 モデル perplexity(低いほど良い) n-gram 312 NPLM 268 NPLM + n-gram 252
    58. 58. NPLMと単語ベクトル NPLMの埋め込み行列Cの各行を単語ベクトルとして使える しかし、NPLMの第一目的は言語モデル 単語ベクトルは副産物 単語ベクトルを獲得するのが第一目標という手法が欲しい
    59. 59. word2vec [Mikolov+ 2013] CBOW(連続 bag-of-words)モデル • 文脈から単語を予測する • 小規模なデータセットに対して性能がよい skip-gramモデル • 単語から文脈を予測する • 大規模なデータセットにて用いられる skip-gramは性能がよくて速いので人気
    60. 60. Skip-gram It was a bright cold day in April, and the clocks were striking thirteen. p(bright|April) ... p(cold|April) p(were|April) April 単語から文脈語を予測する
    61. 61. 目標:p(文脈語|単語)を最大化する 学習するパラメータ:行列Wと行列W’ 各単語に2つベクトルが存在する:Wの行vwordとW’の列v’word Skip-gram|目的関数
    62. 62. Skip-gram|目的関数 内積が大きい → 確率が高い 内積が小さい → 確率が低い p(文脈語|単語)を最大化 → v’文脈語 Tv単語の最大化 & v’他 Tv単語の最小化
    63. 63. Skip-gram|Softmaxの問題 分母の計算量が多い(語彙数と比例) → Negative Sampling
    64. 64. Skip-gram Negative Sampling(SGNS) Pnからk回負例をサンプル Pnは何らかのユニグラム分布kは2〜20
    65. 65. 単語ベクトルの評価|類似度 コサイン類似度などで計算 モデル 時間 次元数 ninjutsuに近い単語 graffitiに近い単語 Collobert 2か月 50 reiki, konoha, karate cheesecake, gossip, dioramas Turian 数週間 200 N/A gunfire, emotion, impunity Mnih 一週間 100 N/A anaesthetics, monkeys, Jews Skip-gram 一日 1000 ninja, martial arts, swordsmanship spray paint, grafitti, taggers
    66. 66. 単語ベクトルの評価|類似度 コサイン類似度などで計算 モデル 時間 次元数 「忍術」に近い単語 「落書き」に近い単語 Collobert 2か月 50 霊気、木の葉、空手 チーズケーキ、噂話、 ジオラマ Turian 数週間 200 N/A 砲火、感情、罪の免責 Mnih 一週間 100 N/A 麻酔薬、サル、ユダヤ 人 Skip-gram 一日 1000 忍者、武術、剣術 スプレー塗料、落書き (つづり違い)、落書 きする人
    67. 67. 単語ベクトルの評価|類推 日本 ロシア ??? 東京 w東京 - w日本 = w??? - wロシア → w東京 - w日本 + wロシア = w??? 単語ベクトルで代入し、 w??? に一番類似(コサイン)する wxを埋め込み行列から検索する走る 走れる 食べる ??? semantic syntactic
    68. 68. word2vec|類推 全体的に性能が よく、学習も比 較的に速いので、 現在もよく使わ れている
    69. 69. 単語から文章へ 文章の表現学習をする手法: bag-of-words convolutional NN [Kalchbrenner+ 2014] recursive NN [Socher+ 2013] recurrent NN doc2vec [Le+ 2014] skip-thought vectors [Kiros+ 2015] (RNNを使う) 教師なし 表現学習 主に教師あり 表現学習 学習の必要なし
    70. 70. 単語から文章へ 文章の表現学習をする手法: bag-of-words convolutional NN recursive NN recurrent NN doc2vec skip-thought vectors 後のテーマとつながるので、 本日はこれを紹介します
    71. 71. Skip-Thought Vectors [Kiros+ 2015] skip-gram の文章版(文章→前後の文章) ... I got back home. I could see the cat on the steps. This was strange. … encoder RNNが文章の単語ベクトル を一つずつ読み込んでいく 内部状態を文章のベクトルとして使う 2つの decoder RNNがそのベクトルか ら前後の文章を生成
    72. 72. 最大対数尤度 ... I got back home. I could see the cat on the steps. This was strange. … 中心の文章が「I could see the cat on the steps.」の場合、 前文decoder が「I got back home.」と 後文decoder が「This was strange.」の出力確率を高くする 目標関数 後の文章 前の文章
    73. 73. Skip-Thought Vectors 似た前後の文章を持つ文章は、似たベクトルにエンコードさ れる School was over. He walked home. He was tired. Work was over. She drove home. She was exhausted.
    74. 74. Skip-Thought Vectors|結果 SICK semantic relatedness task skip-thought vector で様々なタス クで使えた(文章分類、パラフレー ズ検知、意味的類似度計算(右) など)
    75. 75. Skip-Thought Vectors|結果 「彼はコートの中を擦り、未開封の手紙の存在を確認し た。」 「彼は茶色い封筒の中に折られた紙があるコートとワイシャ ツの間に手を入れた。」
    76. 76. 目次 1.イントロダクション 2.分散表現の概要 3.自然言語処理の概要 4.言語のベクトル表現 5.encoder-decoder モデル 6.マルチモーダル
    77. 77. encoder-decoder モデル 紹介した skip-thought vector モデルの様に、 A を encoder でベクトル化し、そのベクトルを decoder で B を出力するというモデルが様々ある 画像 文章 音 映像 etc ベクトル表現 画像 文章 音 映像 etc よくやられているタスク encode decode
    78. 78. encoder-decoder モデル encoder 文章 → RNN 音声 → RNN 画像 → CNN 映像 → CNN+RNN or 3DCNN decoder 文章 → RNN 音声 → ... 画像 → ...
    79. 79. seq2seq 機械翻訳 [Sutskever+ 2014] シンプルな構造にしては精度の高い結果を出した encoder RNN は 言語Aの文章をベクトル化し、 decoder RNN がそのベクトルから言語Bの文章を生成する 文章ベクトル
    80. 80. seq2seq|英語からフランス語への翻訳 それほど手を加えてないのに、フレーズ翻訳など古典的な 統計的翻訳システムよりよい精度を出せた BLEU:正解文に「近い」ほど高いスコア
    81. 81. 目次 1.イントロダクション 2.分散表現の概要 3.自然言語処理の概要 4.言語のベクトル表現 5.encoder-decoder モデル 6.マルチモーダルモデル
    82. 82. 転移学習(transfer learning) “cat” タスクA で学習 (e.g.動物判別) タスクBに使う (e.g. かわいさ判定) kawaii level: 86.5
    83. 83. Show and Tell: NIC [Vinyals+ 2015] 画像から文章への「翻訳」
    84. 84. NIC|結果 他のデータセットでも高い精度(BLEU) MS COCO のキャプショニングで現在1位
    85. 85. zero-shot learning これは何? 空 リス モモンガ 枝 飛行機 木山 猫 ラット マウスビーバー 川
    86. 86. zero-shot learning これは何? 空 リス モモンガ 枝 飛行機 木山 猫 ラット マウスビーバー 川
    87. 87. zero-shot learning モモンガの画像を見たことないけど単語空間で推論 → zero-shot learning 単語空間の意味的情報を利用して汎化力アップ
    88. 88. DeViSE [Frome+ 2013] 空 リス モモンガ 枝 ラット 画像ベクトル 画像ベクトル 学習時、Mを学習
    89. 89. DeViSE 空 リス モモンガ 枝 ラット
    90. 90. DeViSE 空 リス モモンガ 枝 ラット 画像ベクトル テスト時、Mで画像ベクトルを単語空間に写像できる (理想)
    91. 91. DeViSE|損失関数 M が画像ベクトルを対応するラベル単語ベクトルに近くする (内積を高くする) 逆に関係ないペアは遠ざける 近くするペア 遠くするペア
    92. 92. DeViSE car Good
    93. 93. DeViSE banana Bad
    94. 94. DeViSE 通常の画像分類は1000クラスに限定されてしまうが、 word2vecなどで作った単語ベクトル空間へ写像すると、 クラス数をword2vecの語彙で拡張(e.g. 1000→15.5万) CNN 1000クラス 単語空間 (155000クラス)
    95. 95. DeViSE zero-shot テストデータ(まったく学習していないラベルの 画像データ) ベースラインは指定された1000クラス(ImageNet 2012) しか予測できないので0 徐々に ラベル範囲 を広く
    96. 96. DeViSE zero-shot テストデータ(太字が正解) トップ5予測 DeVise は 第一予測が 間違っていても、 意味的に近い予測 をする
    97. 97. DeViSE 画像認識で単語ベクトルを利用することにより、 モデルは意味的情報も考慮できる その結果、より汎化能力を持つモデルが出来上がる zero-shot learning の研究が one-shot learning (少なめなデータを学習)にもつながるかもしれない
    98. 98. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models [Kiros 2014] DeViseと似ている仕組み 言語モデル (文章生成)
    99. 99. Unifying Visual-Semantic Embeddings with MNLMs 言語モデルを用いて画像キ ャプショニングができる (NIC に負けたが)
    100. 100. Unifying Visual-Semantic Embeddings with MNLMs マルチモーダル空間を利用すると、単語だけではなく、単語 と画像で足しひきできる
    101. 101. Unifying Visual-Semantic Embeddings with MNLMs 単語ベクトルの様に、関係を示すベクトルも現れる
    102. 102. Neural Storyteller encoder-decoder、共通空間への写像など、言葉と画像を同 時に扱ういくつかの手法を紹介した では Neural Storyteller はどう動いているのか?
    103. 103. Neural Storyteller の仕組み githubページを見てみると... 紹介した (少し)紹介した RNN decoder(文章生 成)と同様
    104. 104. Neural Storyteller の仕組み 1.skip-thought vectors を何らかのコーパスで事前学習 2.恋愛小説の文章を skip-thought vector へ変換し、 元の文章を生成するdecoderを学習する skip-thought vectorI love you. decoder I love you.
    105. 105. Neural Storyteller の仕組み 3.画像と文章(キャプション)の共通空間を構築・学習 MS COCO を使った 画像・文章 共通空間 CNN 画像ベクトル 線形 変換 RNN 文章ベクトル 線形 変換
    106. 106. Neural Storyteller の仕組み 共通空間で画像から一番近い キャプションを検索できるように なった そして、skip-thought vector か ら恋愛文章生成decoderができた skip- thought 空間 恋愛小説っぽい テキスト 画像・文章 共通空間 画像 キャプション 文章
    107. 107. 画像から検索したキャプションをskip-thought encoderに 通してskip-thought vectorに変換しても、恋愛小説しか 学習していないdecoderには通じない Neural Storyteller の仕組み skip- thought 空間 画像・文章 共通空間 “Smiling businessmen walking together” x 恋愛小説っぽい テキスト
    108. 108. x に「恋愛小説っぽさ」を注入するため、 キャプションデータセットのskip-thought vectorの平均c (「普通のキャプションっぽさ」)を引き、 恋愛小説データセットのskip-thought vectorの平均b (「恋愛小説っぽさ」)を足す F(x) = x - c + b Kiros は、これを「style shifting」と呼んでいる Neural Storyteller の仕組み
    109. 109. Neural Storyteller の仕組み そしたら、画像→キャプション→恋愛小説 が成り立つ skip- thought 空間 画像・文章 共通空間 x F(x) = x - c + b F(x) “Smiling businessmen walking together” “...Of course, i had no intention of letting him go...”
    110. 110. まとめ 単語 の表現 文章 の表現 画像 の表現 文章と画像 の結合 画像から物語 の生成
    111. 111. 今後の展望
    112. 112. 展望 様々な「知覚」を統合し、概念空間をつくる 概念 画像 映像 音 テキスト etc
    113. 113. 展望 ものごとの抽象的な意味まで捉えられる表現を獲得しても、その後にそれをどう 利用・高次な処理をするかが問題になると思う(研究はもう始まっている) 適切な情報に注目する • 「attention」を用いたモデル 適切な記憶・知識を想起させ、それを問題解決のために操作する • Neural Turing Machines • Memory Networks • Neural Reasoner 行動やプランニング • 強化学習
    114. 114. 文献 • Y Bengio, R Ducharme, P Vincent, C Jauvin. 2003. A Neural Probabilistic Model. Journal of Machine Learning Research 3 (2003) 1137-1155. • J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis pp. 1-32 • A Frome, G Corrado, J Shlens, S Bengio, J Dean, M Ranzato, T Mikolov. 2013. DeViSE: A Deep Visual-Semantic Embedding Model • Z Harris. 1954. Distributional structure. Word, 10(23):146-162 • G Hinton, J McClelland, D Rumelhart. 1986. Distributed Representations. In Parallel distributed processing: Explorations in the microstructure of cognition, Volume I. Chapter 3, pp. 77-109, Cambridge, MA: MIT Press. • N Kalchbrenner, E Grefenstette, P Blunsom. A convolutional neural network for modelling sentences. ACL, 2014.
    115. 115. 文献 • R Kiros, R Salakhutdinov, R Zemel. 2014. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models. • R Kiros, Y Zhu, R Salakhutdinov, R Zemel, A Torralba, R Urtasun, S Fidler. 2015. Skip- Thought Vectors. • Q Le, T Mikolov. Distributed representations of sentences and documents. ICML, 2014. • H Lee, R Grosse, R Ranganath, A Ng. 2009. Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations. • O Levy, Y Goldberg, I Dagan. 2014. Improving Distributional Similarity with Lessons Learned from Word Embeddings. • T Mikolov, K Chen, G Corrado, J Dean. 2013. Efficient Estimation of Word Representations in Vector Space.
    116. 116. 文献 • M Norouzi, T Mikolov, S Bengio, Y Singer, J Shlens, A Frome, G Corrado, J Dean. 2013. Zero-shot Learning by Convex Combination of Semantic Embeddings • J Pennington, R Socher, C Manning. 2014. GloVe: Global Vectors for Word Representation. • R Richens. 1956. Preprogramming for Mechanical Translation. Mechanical Translation, vol.3, no.1, July 1956; pp. 20-25. • X Rong. 2014. word2vec Parameter Learning Explained. • R Socher, M Ganjoo, C Manning, A Ng. 2013. Zero-Shot Learning Through Cross-Modal Transfer • R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng, C Potts. Recursive deep models for semantic compositionality over a sentiment treebank. In EMNLP, 2013.
    117. 117. 文献 • I Sutskever, O Vinyals, Q Le. 2014. Sequence to Sequence Learning with Neural Networks. • O Vinyals, A toshev, S Bengio, D Erhan. 2014. Show and Tell: A Neural Image Caption Generator. • W Zou. 2013. Bilingual Word Embeddings for Phrase-Based Machine Translation.

    ×