SlideShare a Scribd company logo
1 of 117
Download to read offline
言語と画像の
表現学習
慶應義塾大学環境情報学部1年
野口裕貴
全脳アーキテクチャ若手の会
第13回勉強会
自己紹介
野口裕貴
慶応大学環境情報学部1年
建築 → ゲームプログラミング → 汎用人工知能
画像から恋愛物語を作るAI
「彼は心の奥で裸の男であった。彼が私にキスしようと肩に寄りか
かってきたとき、私は悪態をついた。私が彼のボクサーを履いたら
美しいため、彼は私を締め付けようとしたのだ。」 Samim より
画像から恋愛物語を作るAI
「会議の終わり、私たちは張り詰めた空気にあった。私は親友を見
上げた。もちろん、彼を放すつもりはなかった。他に何を言えばい
いかわからないが、彼は一番美しい男だ。」
Neural Storytellerで用いられている技術
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成
Kiros
2015年11月
Neural Storytellerで用いられている技術
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成
Kiros
2015年11月
ニューラルネットワーク(NN)が支える
[Mikolov+ 13] [Kiros+ 15]
[Kiros+ 14]
[Simonyan+ 14]
本日のテーマ
• NNの力の根源の一つ:分散表現
• NNに言語や画像を学習させる手法
コネクショニズム
NNなどを用いて認知や行動をモデル化する立場
!認知
行動
分散表現 [Hinton+ 1986]
1986年、「コネクショニスト」の一人、Geoffrey Hintonが、
ニューロンがどう概念を表しているかを説明するため、
分散表現(distributed representation)を提唱
分散表現
目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダルモデル
局所表現 vs 分散表現
局所表現
一つのニューロン(の発火)で一つの概念を表す
ベクトルで表すと one-hot vector
🐕
🐈
⛵
[1, 0, 0, 0, 0]
[0, 1, 0, 0, 0]
[0, 0, 1, 0, 0]
...
...
...
分散表現
複数のニューロン(の発火)で一つの概念を表す
🐕
🐈
⛵
[0.5, 0.0, 1.0, 1.0, 0.3]
[0.5, 0.0, 1.0, 1.0, 0.0]
[0.2, 0.9, 0.5, 0.0, 1.0]
...
...
...
分散表現
概念を特徴の組み合わせとして表せる
🐕 = 1ペット + 1ワンワン + 0ニャー + 0.1乗り物 + 0.1海
🐈 = 1ペット + 0ワンワン + 1ニャー + 0乗り物 + 0海
⛵ = 0ペット + 0ワンワン + 0ニャー + 0.9乗り物 + 0.8海
概念の類似
🐈
⛵
局所表現 分散表現
似ている!🐕
分散表現の表現力は指数的
010
001
100
011
000
101
100
111
010
001
局所表現 分散表現
文字認識の分散表現
≈ + + ...0.8 0.9 0.1
≈ + + ...0.7 0.5 0.6
係数
特徴
下層の特徴が抽出され、中間層が分散表現になる
ニューラルネットと分散表現
...
...
......
7
係数特徴
ディープニューラルネットワーク(DNN)
中間層を重ねて、さらに抽象的な特徴を抽出する
[Lee+ 2009] より
ディープニューラルネットワーク
音声認識や画像認識を始め、多大な成果を産んでいる
更に最近は、自然言語処理にも到来してきている
目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダルモデル
自然言語処理(NLP)
コンピュータ
サイエンス
人工知能 言語学
自然言語処理
コンピュータサイエンス、人工知能と言語学の一分野
自然言語処理(NLP)
機械に人間の言語を処理させること
...This is just a bunch of
words to explain what
natural language
processing is and is not
meant to be read. All I
want to say is that it’s
all about having
machines do useful
stuff with language...
!
自然言語処理のタスク
易
• スペルチェック
• キーワード検索
• 類義語検知
• etc.
難
• 機械翻訳
• センチメント分析
• 質問応答システム
• etc.
中
• ウェブサイトや書類の
形態素解析・構文解析
• etc.
機械翻訳
He threw the ball
彼は 投げた ボール
彼は ボール を 投げた
フレーズベース翻訳の例 言葉の曖昧性
センチメント分析
テキストから感情を判断する
「すごく面白い。いくら遊んでも飽きない」
→ 0.86
「インストールするな。データのムダになるだけ」
→ -0.68
「電車で時間を潰せるけど、よくクラッシュするのは直すべき」
→ ? ? ?
「これヤバい」
→ ? ? ?
質問応答システム(QA システム)
closed-domain - 定められた分野の質問に応答
「ラマは何科?」 → 「ラクダ科」
open-domain - ほぼ何の質問でも応答
「なぜ私は結婚できないのか?」 → 「...」
自然言語処理の難しさ
言語・状況・環境・知覚の知識の学習や表現の複雑さ
→ ルールベースだけでは無理がある?
DNNは分散表現の力により、
曖昧だが豊富な情報を得ることができる
→ 言葉のベクトル化から始まる
目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダルモデル
単語の局所表現
これじゃ単語の意味がまったく分からない...
→ 単語の意味を捉えるベクトルが欲しい
[1, 0, 0, 0, 0]
[0, 1, 0, 0, 0]
[0, 0, 1, 0, 0]
...
ねこ
いぬ
ひと...
分布仮説 [Harris 1954, Firth 1957]
“You shall know a word by the company it keeps”
- J. R. Firth
似ている文脈を持つ言葉は似ている意味を持つ
現代の統計的自然言語処理で画期的な着想
Count-based vs Predictive methods
分布仮説に基づく手法は大きく2種類に分かれる
 count-based methods
 例:SVD (LSA)、HAL、etc.
 単語文脈出現回数を数える手法
 predictive methods
 例:NPLM、word2vec、etc.
 単語から文脈、あるいは文脈から単語を予測する手法
Count-based vs Predictive methods
今日はこの中の3つを見ていきます
 count-based methods
 例:SVD (LSA)、HAL、etc.
 単語文脈出現回数を数える手法
 predictive methods
 例:NPLM、word2vec、etc.
 単語から文脈、あるいは文脈から単語を予測する手法
文脈(context)の定義
• 文脈窓(次のスライド)
• 自分以外の○○中に出現する単語
• 文章
• 段落
• 文書
文脈窓
大きさ 2k+1 の単語列をとる
周りの単語が文脈
k=4 の例
It was a bright cold day in April, and the clocks were striking thirteen.
単語文脈行列(co-occurance matrix)
例:k=1(隣)の
文脈窓とした場合
|V| は語彙数
I enjoy technology.
I like eating.
I like to sleep.
I enjoy technology like eating to sleep .
I 0 1 0 2 0 0 0 0
enjoy 1 0 1 0 0 0 0 0
technology 0 1 0 0 0 0 0 1
like 2 0 0 0 1 1 0 0
eating 0 0 0 1 0 0 0 1
to 0 0 0 1 0 0 1 0
sleep 0 0 0 0 0 1 0 1
. 0 0 1 0 1 0 1 0
|V|
|V|
単語文脈行列
各行を単語ベクトルとして使える
しかし、語彙数が大きくなると、
ベクトルも大きくなる(何十万次元とか)
語彙数
technology 0 1 0 0 0 0 0 1
like 2 0 0 0 1 1 0 0
eating 0 0 0 1 0 0 0 1
密なベクトル
高次元のベクトルの「一番重要な情報」を保持して低次元・
密なベクトルに圧縮したい(e.g. 何十万次元→数百次元)
→ 特異値分解(Singular Value Decomposition, SVD)
特異値分解(SVD)
X U VT
単語文脈行列
各列は XXT の
固有ベクトル
各行は XTX の
固有ベクトル
斜めの値は XXT か XTX の
固有値(大きい順)
対応する
固有値の
大きい順
で並べる
|V|
|V|
Σ
単語ベクトル
U の各行を単語ベクトル
として使える
U の N列目まで使えばいい U
単語ベクトル
使わない
最初の2列で可視化
1列目(x軸にする)
2列目(y軸にする)
U
行列を構築
SVD
語彙
もう少し本格化
次は Brown Corpus を使ってみる
語数:約100万
語彙数:スペースで分けた結果、約8万
まず単語文脈行列を構築...あれ?
語彙の削減
単語文脈行列が大きすぎた(語彙数8万→80000x80000)
→出現頻度で1000位以下の単語をまとめて”<unk>”にした
(語彙数1000→行列1001x1001)
単語ベクトルの可視化
100次元のベクトル
(Uの100列目まで
使った)
※今回はTSNEという別の
アルゴリズムで可視化した
(もっと綺麗に可視化され
る)
類似する単語
類似度が高め
類似度= wwar に近い単語ベクトル
計算量の問題
新しいテキストデータを使うときは、単語文脈
行列を更新し、SVDをやり直さなければならない
SVDの計算量は n×m行列の場合、O(mn2) (n < m)
→ すぐ語彙数に限界
実際に語彙数を増やした結果
100000
数日間
(推定)
ニューラル確率言語モデル [Bengio+ 2003]
NNでつくった言語モデル
→ 言語モデルとは何か?
言語モデル
単語列の文法と意味が正しいほど高い確率を計算するモデル
PLM(ご飯を食べる) > PLM(食べるをご飯)
応用例:言葉入力や、スペルチェック、機械翻訳や音声認識
における複数の文章候補のスコアリング
彼は本を買った
彼は本をカッター
?
0.023%
0.002%
n-gram言語モデル
計算量に限界があるため、条件付き確率を近似する
ある単語の出現確率は (n-1)語前にしか依存しない
これをn-1次マルコフ過程という
n=4 の場合
条件
...man stood still as they slowly walked through the...
n-gram言語モデル
unigram(n=1)
P(He plays tennis.)=P(He)*P(plays)*P(tennis)*P(.)
bigram(n=2)
P(He plays tennis.) = P(He)*P(plays|He)*P(tennis|plays)*P(.|tennis)
trigram(n=3)
P(He plays tennis.) = P(He)*P(plays|He)*P(tennis|He plays)*P(.|plays tennis)
...
順序を全く考慮しない
n-gramで言語モデリング
このまま n-gram の n を増やせる
n を増やすと、データが足りていれば性能はよくなる
しかし、単語の取りうる組み合わせが |V|n と指数的に
大きくなってしまう
→指数的に学習データが必要になる(次元の呪い)
n-gramにおける次元の呪い
Brown Corpusを3-gramで言語モデルを作ろうとする
“he was happy”は6件出る
n-gramにおける次元の呪い
“she was joyful”はゼロ
→n-gramモデルだと確率0%
→スムージングなどの工夫をすることがある
しかし、問題は完全に解決されない
簡単な例
(add-one smoothing)
分散表現の力
類似性を考慮できれば、汎化能力アップ
これは分散表現にできること → NN
似ているhe was happy
she was joyful
片方の確率が高ければ、
もう片方も高いはず
埋め込み行列(embedding matrix)
単語ベクトル(埋め込みベクトル)の集合
この行列をNNに埋め込んで学習させたい
i 行目が
単語 i のベクトル
m
|V|
m は埋め込み
ベクトルの大きさ
(任意)
ニューラル確率言語モデル(NPLM)
単語列から次の単語を予測する
(e.g. Apples are _____)
NPLM|結果
コーパス:Brown Corpus(〜100万語)
語彙数:〜16000
モデル perplexity(低いほど良い)
n-gram 312
NPLM 268
NPLM + n-gram 252
NPLMと単語ベクトル
NPLMの埋め込み行列Cの各行を単語ベクトルとして使える
しかし、NPLMの第一目的は言語モデル
単語ベクトルは副産物
単語ベクトルを獲得するのが第一目標という手法が欲しい
word2vec [Mikolov+ 2013]
CBOW(連続 bag-of-words)モデル
• 文脈から単語を予測する
• 小規模なデータセットに対して性能がよい
skip-gramモデル
• 単語から文脈を予測する
• 大規模なデータセットにて用いられる
skip-gramは性能がよくて速いので人気
Skip-gram
It was a bright cold day in April, and the clocks were striking thirteen.
p(bright|April)
...
p(cold|April)
p(were|April)
April
単語から文脈語を予測する
目標:p(文脈語|単語)を最大化する
学習するパラメータ:行列Wと行列W’
各単語に2つベクトルが存在する:Wの行vwordとW’の列v’word
Skip-gram|目的関数
Skip-gram|目的関数
内積が大きい → 確率が高い
内積が小さい → 確率が低い
p(文脈語|単語)を最大化 →
v’文脈語
Tv単語の最大化 & v’他
Tv単語の最小化
Skip-gram|Softmaxの問題
分母の計算量が多い(語彙数と比例)
→ Negative Sampling
Skip-gram Negative Sampling(SGNS)
Pnからk回負例をサンプル
Pnは何らかのユニグラム分布kは2〜20
単語ベクトルの評価|類似度
コサイン類似度などで計算
モデル 時間 次元数 ninjutsuに近い単語 graffitiに近い単語
Collobert 2か月 50 reiki, konoha,
karate
cheesecake, gossip,
dioramas
Turian 数週間 200 N/A gunfire, emotion,
impunity
Mnih 一週間 100 N/A anaesthetics,
monkeys, Jews
Skip-gram 一日 1000 ninja, martial arts,
swordsmanship
spray paint, grafitti,
taggers
単語ベクトルの評価|類似度
コサイン類似度などで計算
モデル 時間 次元数 「忍術」に近い単語 「落書き」に近い単語
Collobert 2か月 50 霊気、木の葉、空手 チーズケーキ、噂話、
ジオラマ
Turian 数週間 200 N/A 砲火、感情、罪の免責
Mnih 一週間 100 N/A 麻酔薬、サル、ユダヤ
人
Skip-gram 一日 1000 忍者、武術、剣術 スプレー塗料、落書き
(つづり違い)、落書
きする人
単語ベクトルの評価|類推
日本
ロシア
???
東京
w東京 - w日本 = w??? - wロシア
→ w東京 - w日本 + wロシア = w???
単語ベクトルで代入し、
w??? に一番類似(コサイン)する
wxを埋め込み行列から検索する走る
走れる
食べる
???
semantic
syntactic
word2vec|類推
全体的に性能が
よく、学習も比
較的に速いので、
現在もよく使わ
れている
単語から文章へ
文章の表現学習をする手法:
bag-of-words
convolutional NN [Kalchbrenner+ 2014]
recursive NN [Socher+ 2013]
recurrent NN
doc2vec [Le+ 2014]
skip-thought vectors [Kiros+ 2015] (RNNを使う)
教師なし
表現学習
主に教師あり
表現学習
学習の必要なし
単語から文章へ
文章の表現学習をする手法:
bag-of-words
convolutional NN
recursive NN
recurrent NN
doc2vec
skip-thought vectors
後のテーマとつながるので、
本日はこれを紹介します
Skip-Thought Vectors [Kiros+ 2015]
skip-gram の文章版(文章→前後の文章)
... I got back home. I could see the cat on the steps. This was strange. …
encoder RNNが文章の単語ベクトル
を一つずつ読み込んでいく
内部状態を文章のベクトルとして使う
2つの decoder RNNがそのベクトルか
ら前後の文章を生成
最大対数尤度
... I got back home. I could see the cat on the steps. This was strange. …
中心の文章が「I could see the cat on the steps.」の場合、
前文decoder が「I got back home.」と
後文decoder が「This was strange.」の出力確率を高くする
目標関数
後の文章 前の文章
Skip-Thought Vectors
似た前後の文章を持つ文章は、似たベクトルにエンコードさ
れる
School was over. He walked home. He was tired.
Work was over. She drove home. She was exhausted.
Skip-Thought Vectors|結果
SICK semantic relatedness task
skip-thought vector で様々なタス
クで使えた(文章分類、パラフレー
ズ検知、意味的類似度計算(右)
など)
Skip-Thought Vectors|結果
「彼はコートの中を擦り、未開封の手紙の存在を確認し
た。」
「彼は茶色い封筒の中に折られた紙があるコートとワイシャ
ツの間に手を入れた。」
目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダル
encoder-decoder モデル
紹介した skip-thought vector モデルの様に、
A を encoder でベクトル化し、そのベクトルを decoder で
B を出力するというモデルが様々ある
画像
文章
音
映像
etc
ベクトル表現
画像
文章
音
映像
etc
よくやられているタスク
encode decode
encoder-decoder モデル
encoder
文章 → RNN
音声 → RNN
画像 → CNN
映像 → CNN+RNN
or 3DCNN
decoder
文章 → RNN
音声 → ...
画像 → ...
seq2seq 機械翻訳 [Sutskever+ 2014]
シンプルな構造にしては精度の高い結果を出した
encoder RNN は 言語Aの文章をベクトル化し、
decoder RNN がそのベクトルから言語Bの文章を生成する
文章ベクトル
seq2seq|英語からフランス語への翻訳
それほど手を加えてないのに、フレーズ翻訳など古典的な
統計的翻訳システムよりよい精度を出せた
BLEU:正解文に「近い」ほど高いスコア
目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダルモデル
転移学習(transfer learning)
“cat”
タスクA
で学習
(e.g.動物判別) タスクBに使う
(e.g. かわいさ判定)
kawaii level: 86.5
Show and Tell: NIC [Vinyals+ 2015]
画像から文章への「翻訳」
NIC|結果
他のデータセットでも高い精度(BLEU)
MS COCO のキャプショニングで現在1位
zero-shot learning
これは何?
空
リス
モモンガ
枝
飛行機 木山
猫
ラット
マウスビーバー
川
zero-shot learning
これは何?
空
リス
モモンガ
枝
飛行機 木山
猫
ラット
マウスビーバー
川
zero-shot learning
モモンガの画像を見たことないけど単語空間で推論
→ zero-shot learning
単語空間の意味的情報を利用して汎化力アップ
DeViSE [Frome+ 2013]
空
リス
モモンガ
枝
ラット
画像ベクトル
画像ベクトル
学習時、Mを学習
DeViSE
空
リス
モモンガ
枝
ラット
DeViSE
空
リス
モモンガ
枝
ラット
画像ベクトル
テスト時、Mで画像ベクトルを単語空間に写像できる
(理想)
DeViSE|損失関数
M が画像ベクトルを対応するラベル単語ベクトルに近くする
(内積を高くする)
逆に関係ないペアは遠ざける
近くするペア
遠くするペア
DeViSE
car
Good
DeViSE
banana
Bad
DeViSE
通常の画像分類は1000クラスに限定されてしまうが、
word2vecなどで作った単語ベクトル空間へ写像すると、
クラス数をword2vecの語彙で拡張(e.g. 1000→15.5万)
CNN
1000クラス
単語空間
(155000クラス)
DeViSE
zero-shot テストデータ(まったく学習していないラベルの
画像データ)
ベースラインは指定された1000クラス(ImageNet 2012)
しか予測できないので0
徐々に
ラベル範囲
を広く
DeViSE
zero-shot テストデータ(太字が正解)
トップ5予測
DeVise は
第一予測が
間違っていても、
意味的に近い予測
をする
DeViSE
画像認識で単語ベクトルを利用することにより、
モデルは意味的情報も考慮できる
その結果、より汎化能力を持つモデルが出来上がる
zero-shot learning の研究が one-shot learning
(少なめなデータを学習)にもつながるかもしれない
Unifying Visual-Semantic Embeddings with Multimodal Neural
Language Models [Kiros 2014]
DeViseと似ている仕組み
言語モデル
(文章生成)
Unifying Visual-Semantic Embeddings with MNLMs
言語モデルを用いて画像キ
ャプショニングができる
(NIC に負けたが)
Unifying Visual-Semantic Embeddings with MNLMs
マルチモーダル空間を利用すると、単語だけではなく、単語
と画像で足しひきできる
Unifying Visual-Semantic Embeddings with MNLMs
単語ベクトルの様に、関係を示すベクトルも現れる
Neural Storyteller
encoder-decoder、共通空間への写像など、言葉と画像を同
時に扱ういくつかの手法を紹介した
では Neural Storyteller はどう動いているのか?
Neural Storyteller の仕組み
githubページを見てみると...
紹介した
(少し)紹介した
RNN decoder(文章生
成)と同様
Neural Storyteller の仕組み
1.skip-thought vectors を何らかのコーパスで事前学習
2.恋愛小説の文章を skip-thought vector へ変換し、
元の文章を生成するdecoderを学習する
skip-thought vectorI love you. decoder I love you.
Neural Storyteller の仕組み
3.画像と文章(キャプション)の共通空間を構築・学習
MS COCO を使った
画像・文章
共通空間
CNN
画像ベクトル
線形
変換
RNN
文章ベクトル
線形
変換
Neural Storyteller の仕組み
共通空間で画像から一番近い
キャプションを検索できるように
なった
そして、skip-thought vector か
ら恋愛文章生成decoderができた
skip-
thought
空間
恋愛小説っぽい
テキスト
画像・文章
共通空間
画像 キャプション
文章
画像から検索したキャプションをskip-thought encoderに
通してskip-thought vectorに変換しても、恋愛小説しか
学習していないdecoderには通じない
Neural Storyteller の仕組み
skip-
thought
空間
画像・文章
共通空間
“Smiling businessmen
walking together”
x
恋愛小説っぽい
テキスト
x に「恋愛小説っぽさ」を注入するため、
キャプションデータセットのskip-thought vectorの平均c
(「普通のキャプションっぽさ」)を引き、
恋愛小説データセットのskip-thought vectorの平均b
(「恋愛小説っぽさ」)を足す
F(x) = x - c + b
Kiros は、これを「style shifting」と呼んでいる
Neural Storyteller の仕組み
Neural Storyteller の仕組み
そしたら、画像→キャプション→恋愛小説 が成り立つ
skip-
thought
空間
画像・文章
共通空間
x
F(x) = x - c + b
F(x)
“Smiling businessmen
walking together”
“...Of course, i had no
intention of letting him go...”
まとめ
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成
今後の展望
展望
様々な「知覚」を統合し、概念空間をつくる
概念
画像
映像
音
テキスト
etc
展望
ものごとの抽象的な意味まで捉えられる表現を獲得しても、その後にそれをどう
利用・高次な処理をするかが問題になると思う(研究はもう始まっている)
適切な情報に注目する
• 「attention」を用いたモデル
適切な記憶・知識を想起させ、それを問題解決のために操作する
• Neural Turing Machines
• Memory Networks
• Neural Reasoner
行動やプランニング
• 強化学習
文献
• Y Bengio, R Ducharme, P Vincent, C Jauvin. 2003. A Neural Probabilistic Model. Journal of
Machine Learning Research 3 (2003) 1137-1155.
• J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis
pp. 1-32
• A Frome, G Corrado, J Shlens, S Bengio, J Dean, M Ranzato, T Mikolov. 2013. DeViSE: A
Deep Visual-Semantic Embedding Model
• Z Harris. 1954. Distributional structure. Word, 10(23):146-162
• G Hinton, J McClelland, D Rumelhart. 1986. Distributed Representations. In Parallel
distributed processing: Explorations in the microstructure of cognition, Volume I. Chapter
3, pp. 77-109, Cambridge, MA: MIT Press.
• N Kalchbrenner, E Grefenstette, P Blunsom. A convolutional neural network for modelling
sentences. ACL, 2014.
文献
• R Kiros, R Salakhutdinov, R Zemel. 2014. Unifying Visual-Semantic Embeddings with
Multimodal Neural Language Models.
• R Kiros, Y Zhu, R Salakhutdinov, R Zemel, A Torralba, R Urtasun, S Fidler. 2015. Skip-
Thought Vectors.
• Q Le, T Mikolov. Distributed representations of sentences and documents. ICML, 2014.
• H Lee, R Grosse, R Ranganath, A Ng. 2009. Convolutional Deep Belief Networks for
Scalable Unsupervised Learning of Hierarchical Representations.
• O Levy, Y Goldberg, I Dagan. 2014. Improving Distributional Similarity with Lessons
Learned from Word Embeddings.
• T Mikolov, K Chen, G Corrado, J Dean. 2013. Efficient Estimation of Word Representations
in Vector Space.
文献
• M Norouzi, T Mikolov, S Bengio, Y Singer, J Shlens, A Frome, G Corrado, J Dean. 2013.
Zero-shot Learning by Convex Combination of Semantic Embeddings
• J Pennington, R Socher, C Manning. 2014. GloVe: Global Vectors for Word Representation.
• R Richens. 1956. Preprogramming for Mechanical Translation. Mechanical Translation,
vol.3, no.1, July 1956; pp. 20-25.
• X Rong. 2014. word2vec Parameter Learning Explained.
• R Socher, M Ganjoo, C Manning, A Ng. 2013. Zero-Shot Learning Through Cross-Modal
Transfer
• R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng, C Potts. Recursive deep models
for semantic compositionality over a sentiment treebank. In EMNLP, 2013.
文献
• I Sutskever, O Vinyals, Q Le. 2014. Sequence to Sequence Learning with Neural Networks.
• O Vinyals, A toshev, S Bengio, D Erhan. 2014. Show and Tell: A Neural Image Caption
Generator.
• W Zou. 2013. Bilingual Word Embeddings for Phrase-Based Machine Translation.

More Related Content

What's hot

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたぱんいち すみもと
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Keigo Nishida
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」Hitomi Yanaka
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明Seiichi Uchida
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会正志 坪坂
 

What's hot (20)

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
Anomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
深層学習の非常に簡単な説明
深層学習の非常に簡単な説明深層学習の非常に簡単な説明
深層学習の非常に簡単な説明
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (9)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

言語と画像の表現学習

Editor's Notes

  1. Elman, Jeffrey L.; et al. (1996). "Preface". Rethinking Innateness: A Connectionist Perspective on Development (Neural Network Modeling and Connectionism). A Bradford Book. ISBN 978-0262550307. connectionism (a term introduced by Donald Hebb in 1940s, and the name we adopt here)
  2. もっと説明
  3. いちぶんや
  4. 日本語がちょっと変 前ページと統合して、 自然言語処理の難しさ:言語・状況・環境・知覚の知識表現の複雑さ →単純なルールベースでは難しいことが分かってきた ディープニューラルネットワーク:分散表現の力により、曖昧だが豊富な情報を得ることができる →自然言語処理の分野にも、言葉のベクトル化という方法で参入 とかどうだろう。少なくとも2ページに分けるほどの情報はないかな。
  5. distributional semantics, statistical semantics distributional semantic model lexicon-based, corpus-based scalability
  6. distributional semantics, statistical semantics distributional semantic model lexicon-based, corpus-based scalability
  7. 今回は、100次元ベクトルに削減し、TSNEという別の アルゴリズムで可視化した (もっと綺麗に可視化する)
  8. 3 days
  9. 埋め込みベクトル
  10. one-hot の説明 note: one-hot ベクトルと埋め込み行列を普通に掛けると効率が悪いので、 引数で行列から行を引き出したほうがいい(行列を探索テーブルとして扱う)
  11. (Bengio, 2003) で過去にもあった t-1 までの言葉から t の言葉を 予測させる Once upon a time...
  12. 図に埋め込み行列も追加
  13. T はコーパスにある単語の数 wi はコーパスの i番目の単語 c は文脈窓の大きさ
  14. 「入力」と「出力」表現ベクトル
  15. 語彙
  16. 「あなたはきっと素敵な夜を過ごすでしょう」彼女は大げさなウィンクをしながら言った。 「君がパーティーに来てくれてよかったよ」彼は彼女に振り向いて言った。
  17. 単に分類の場合、encoder-decoder ではない・必要ない?
  18. GRU has a reset gate and an update gate
  19. http://arxiv.org/pdf/1411.4555v2.pdf
  20. sss
  21. in the wild
  22. 画像と言語の足し算引き算
  23. BookCorpusデータセットの恋愛ジャンルを使用
  24. BookCorpusデータセットの恋愛ジャンルを使用
  25. BookCorpusデータセットの恋愛ジャンルを使用