言語と画像の表現学習

言語と画像の
表現学習
慶應義塾大学環境情報学部１年
野口裕貴
全脳アーキテクチャ若手の会
第13回勉強会

自己紹介
野口裕貴
慶応大学環境情報学部１年
建築 → ゲームプログラミング → 汎用人工知能

画像から恋愛物語を作るAI
「彼は心の奥で裸の男であった。彼が私にキスしようと肩に寄りか
かってきたとき、私は悪態をついた。私が彼のボクサーを履いたら
美しいため、彼は私を締め付けようとしたのだ。」 Samim より

画像から恋愛物語を作るAI
「会議の終わり、私たちは張り詰めた空気にあった。私は親友を見
上げた。もちろん、彼を放すつもりはなかった。他に何を言えばい
いかわからないが、彼は一番美しい男だ。」

Neural Storytellerで用いられている技術
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成
Kiros
2015年11月

Neural Storytellerで用いられている技術
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成
Kiros
2015年11月
ニューラルネットワーク（NN）が支える
[Mikolov+ 13] [Kiros+ 15]
[Kiros+ 14]
[Simonyan+ 14]

本日のテーマ
• NNの力の根源の一つ：分散表現
• NNに言語や画像を学習させる手法

コネクショニズム
NNなどを用いて認知や行動をモデル化する立場
!認知
行動

分散表現 [Hinton+ 1986]
1986年、「コネクショニスト」の一人、Geoffrey Hintonが、
ニューロンがどう概念を表しているかを説明するため、
分散表現（distributed representation）を提唱
分散表現

目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダルモデル

局所表現
一つのニューロン（の発火）で一つの概念を表す
ベクトルで表すと one-hot vector
🐕
🐈
⛵
[1, 0, 0, 0, 0]
[0, 1, 0, 0, 0]
[0, 0, 1, 0, 0]
...
...
...

分散表現
複数のニューロン（の発火）で一つの概念を表す
🐕
🐈
⛵
[0.5, 0.0, 1.0, 1.0, 0.3]
[0.5, 0.0, 1.0, 1.0, 0.0]
[0.2, 0.9, 0.5, 0.0, 1.0]
...
...
...

分散表現
概念を特徴の組み合わせとして表せる
🐕 ＝ 1ペット + 1ワンワン + 0ニャー + 0.1乗り物 + 0.1海
🐈 ＝ 1ペット + 0ワンワン + 1ニャー + 0乗り物 + 0海
⛵ ＝ 0ペット + 0ワンワン + 0ニャー + 0.9乗り物 + 0.8海

概念の類似
🐈
⛵
局所表現分散表現
似ている！🐕

分散表現の表現力は指数的
010
001
100
011
000
101
100
111
010
001
局所表現分散表現

文字認識の分散表現
≈ + + ...0.8 0.9 0.1
≈ + + ...0.7 0.5 0.6
係数
特徴

下層の特徴が抽出され、中間層が分散表現になる
ニューラルネットと分散表現
...
...
......
7
係数特徴

ディープニューラルネットワーク（DNN）
中間層を重ねて、さらに抽象的な特徴を抽出する
[Lee+ 2009] より

ディープニューラルネットワーク
音声認識や画像認識を始め、多大な成果を産んでいる
更に最近は、自然言語処理にも到来してきている

自然言語処理（NLP）
コンピュータ
サイエンス
人工知能言語学
自然言語処理
コンピュータサイエンス、人工知能と言語学の一分野

自然言語処理（NLP）
機械に人間の言語を処理させること
...This is just a bunch of
words to explain what
natural language
processing is and is not
meant to be read. All I
want to say is that it’s
all about having
machines do useful
stuff with language...
!

自然言語処理のタスク
易
• スペルチェック
• キーワード検索
• 類義語検知
• etc.
難
• 機械翻訳
• センチメント分析
• 質問応答システム
• etc.
中
• ウェブサイトや書類の
形態素解析・構文解析
• etc.

機械翻訳
He threw the ball
彼は投げたボール
彼はボールを投げた
フレーズベース翻訳の例言葉の曖昧性

センチメント分析
テキストから感情を判断する
「すごく面白い。いくら遊んでも飽きない」
→ 0.86
「インストールするな。データのムダになるだけ」
→ -0.68
「電車で時間を潰せるけど、よくクラッシュするのは直すべき」
→ ? ? ?
「これヤバい」
→ ? ? ?

質問応答システム（QA システム）
closed-domain - 定められた分野の質問に応答
「ラマは何科？」 → 「ラクダ科」
open-domain - ほぼ何の質問でも応答
「なぜ私は結婚できないのか？」 → 「...」

自然言語処理の難しさ
言語・状況・環境・知覚の知識の学習や表現の複雑さ
→ ルールベースだけでは無理がある？
DNNは分散表現の力により、
曖昧だが豊富な情報を得ることができる
→ 言葉のベクトル化から始まる

単語の局所表現
これじゃ単語の意味がまったく分からない...
→ 単語の意味を捉えるベクトルが欲しい
[1, 0, 0, 0, 0]
[0, 1, 0, 0, 0]
[0, 0, 1, 0, 0]
...
ねこ
いぬ
ひと...

分布仮説 [Harris 1954, Firth 1957]
“You shall know a word by the company it keeps”
- J. R. Firth
似ている文脈を持つ言葉は似ている意味を持つ
現代の統計的自然言語処理で画期的な着想

Count-based vs Predictive methods
分布仮説に基づく手法は大きく２種類に分かれる
 count-based methods
 例：SVD (LSA)、HAL、etc.
 単語文脈出現回数を数える手法
 predictive methods
 例：NPLM、word2vec、etc.
 単語から文脈、あるいは文脈から単語を予測する手法

Count-based vs Predictive methods
今日はこの中の３つを見ていきます
 count-based methods
 例：SVD (LSA)、HAL、etc.
 単語文脈出現回数を数える手法
 predictive methods
 例：NPLM、word2vec、etc.
 単語から文脈、あるいは文脈から単語を予測する手法

文脈（context）の定義
• 文脈窓（次のスライド）
• 自分以外の○○中に出現する単語
• 文章
• 段落
• 文書

文脈窓
大きさ 2k+1 の単語列をとる
周りの単語が文脈
k＝4 の例
It was a bright cold day in April, and the clocks were striking thirteen.

単語文脈行列（co-occurance matrix）
例：k=1（隣）の
文脈窓とした場合
|V| は語彙数
I enjoy technology.
I like eating.
I like to sleep.
I enjoy technology like eating to sleep .
I 0 1 0 2 0 0 0 0
enjoy 1 0 1 0 0 0 0 0
technology 0 1 0 0 0 0 0 1
like 2 0 0 0 1 1 0 0
eating 0 0 0 1 0 0 0 1
to 0 0 0 1 0 0 1 0
sleep 0 0 0 0 0 1 0 1
. 0 0 1 0 1 0 1 0
|V|
|V|

単語文脈行列
各行を単語ベクトルとして使える
しかし、語彙数が大きくなると、
ベクトルも大きくなる（何十万次元とか）
語彙数
technology 0 1 0 0 0 0 0 1
like 2 0 0 0 1 1 0 0
eating 0 0 0 1 0 0 0 1

密なベクトル
高次元のベクトルの「一番重要な情報」を保持して低次元・
密なベクトルに圧縮したい（e.g. 何十万次元→数百次元）
→ 特異値分解（Singular Value Decomposition, SVD)

特異値分解（SVD）
X U VT
単語文脈行列
各列は XXT の
固有ベクトル
各行は XTX の
固有ベクトル
斜めの値は XXT か XTX の
固有値（大きい順）
対応する
固有値の
大きい順
で並べる
|V|
|V|
Σ

単語ベクトル
U の各行を単語ベクトル
として使える
U の N列目まで使えばいい U
単語ベクトル
使わない

最初の２列で可視化
１列目（x軸にする）
２列目（y軸にする）
U
行列を構築
SVD
語彙

もう少し本格化
次は Brown Corpus を使ってみる
語数：約100万
語彙数：スペースで分けた結果、約8万
まず単語文脈行列を構築...あれ？

語彙の削減
単語文脈行列が大きすぎた（語彙数8万→80000x80000）
→出現頻度で1000位以下の単語をまとめて”<unk>”にした
（語彙数1000→行列1001x1001）

単語ベクトルの可視化
100次元のベクトル
（Uの100列目まで
使った）
※今回はTSNEという別の
アルゴリズムで可視化した
（もっと綺麗に可視化され
る）

類似する単語
類似度が高め
類似度＝ wwar に近い単語ベクトル

計算量の問題
新しいテキストデータを使うときは、単語文脈
行列を更新し、SVDをやり直さなければならない
SVDの計算量は n×m行列の場合、O(mn2) (n < m)
→ すぐ語彙数に限界
実際に語彙数を増やした結果
100000
数日間
（推定）

ニューラル確率言語モデル [Bengio+ 2003]
NNでつくった言語モデル
→ 言語モデルとは何か？

言語モデル
単語列の文法と意味が正しいほど高い確率を計算するモデル
PLM(ご飯を食べる) > PLM(食べるをご飯)
応用例：言葉入力や、スペルチェック、機械翻訳や音声認識
における複数の文章候補のスコアリング
彼は本を買った
彼は本をカッター
?
0.023%
0.002%

n-gram言語モデル
計算量に限界があるため、条件付き確率を近似する
ある単語の出現確率は (n-1)語前にしか依存しない
これをn-1次マルコフ過程という
n=4 の場合
条件
...man stood still as they slowly walked through the...

n-gramで言語モデリング
このまま n-gram の n を増やせる
n を増やすと、データが足りていれば性能はよくなる
しかし、単語の取りうる組み合わせが |V|n と指数的に
大きくなってしまう
→指数的に学習データが必要になる（次元の呪い）

n-gramにおける次元の呪い
Brown Corpusを3-gramで言語モデルを作ろうとする
“he was happy”は6件出る

n-gramにおける次元の呪い
“she was joyful”はゼロ
→n-gramモデルだと確率0%
→スムージングなどの工夫をすることがある
しかし、問題は完全に解決されない
簡単な例
（add-one smoothing）

分散表現の力
類似性を考慮できれば、汎化能力アップ
これは分散表現にできること → NN
似ているhe was happy
she was joyful
片方の確率が高ければ、
もう片方も高いはず

埋め込み行列（embedding matrix）
単語ベクトル（埋め込みベクトル）の集合
この行列をNNに埋め込んで学習させたい
i 行目が
単語 i のベクトル
m
|V|
m は埋め込み
ベクトルの大きさ
（任意）

ニューラル確率言語モデル（NPLM）
単語列から次の単語を予測する
（e.g. Apples are _____）

NPLM｜結果
コーパス：Brown Corpus（〜100万語）
語彙数：〜16000
モデル perplexity（低いほど良い）
n-gram 312
NPLM 268
NPLM + n-gram 252

NPLMと単語ベクトル
NPLMの埋め込み行列Cの各行を単語ベクトルとして使える
しかし、NPLMの第一目的は言語モデル
単語ベクトルは副産物
単語ベクトルを獲得するのが第一目標という手法が欲しい

word2vec [Mikolov+ 2013]
CBOW（連続 bag-of-words）モデル
• 文脈から単語を予測する
• 小規模なデータセットに対して性能がよい
skip-gramモデル
• 単語から文脈を予測する
• 大規模なデータセットにて用いられる
skip-gramは性能がよくて速いので人気

Skip-gram
It was a bright cold day in April, and the clocks were striking thirteen.
p(bright|April)
...
p(cold|April)
p(were|April)
April
単語から文脈語を予測する

目標：p(文脈語|単語)を最大化する
学習するパラメータ：行列Wと行列W’
各単語に2つベクトルが存在する：Wの行vwordとW’の列v’word
Skip-gram｜目的関数

Skip-gram｜目的関数
内積が大きい → 確率が高い
内積が小さい → 確率が低い
p(文脈語|単語)を最大化 →
v’文脈語
Tv単語の最大化 & v’他
Tv単語の最小化

Skip-gram｜Softmaxの問題
分母の計算量が多い（語彙数と比例）
→ Negative Sampling

Skip-gram Negative Sampling（SGNS）
Pnからk回負例をサンプル
Pnは何らかのユニグラム分布kは2〜20

単語ベクトルの評価｜類似度
コサイン類似度などで計算
モデル時間次元数 ninjutsuに近い単語 graffitiに近い単語
Collobert ２か月 50 reiki, konoha,
karate
cheesecake, gossip,
dioramas
Turian 数週間 200 N/A gunfire, emotion,
impunity
Mnih 一週間 100 N/A anaesthetics,
monkeys, Jews
Skip-gram 一日 1000 ninja, martial arts,
swordsmanship
spray paint, grafitti,
taggers

単語ベクトルの評価｜類似度
コサイン類似度などで計算
モデル時間次元数「忍術」に近い単語「落書き」に近い単語
Collobert ２か月 50 霊気、木の葉、空手チーズケーキ、噂話、
ジオラマ
Turian 数週間 200 N/A 砲火、感情、罪の免責
Mnih 一週間 100 N/A 麻酔薬、サル、ユダヤ
人
Skip-gram 一日 1000 忍者、武術、剣術スプレー塗料、落書き
（つづり違い）、落書
きする人

単語ベクトルの評価｜類推
日本
ロシア
???
東京
w東京 - w日本 = w??? - wロシア
→ w東京 - w日本 + wロシア = w???
単語ベクトルで代入し、
w??? に一番類似（コサイン）する
wxを埋め込み行列から検索する走る
走れる
食べる
???
semantic
syntactic

word2vec｜類推
全体的に性能が
よく、学習も比
較的に速いので、
現在もよく使わ
れている

単語から文章へ
文章の表現学習をする手法：
bag-of-words
convolutional NN [Kalchbrenner+ 2014]
recursive NN [Socher+ 2013]
recurrent NN
doc2vec [Le+ 2014]
skip-thought vectors [Kiros+ 2015] (RNNを使う)
教師なし
表現学習
主に教師あり
表現学習
学習の必要なし

単語から文章へ
文章の表現学習をする手法：
bag-of-words
convolutional NN
recursive NN
recurrent NN
doc2vec
skip-thought vectors
後のテーマとつながるので、
本日はこれを紹介します

Skip-Thought Vectors [Kiros+ 2015]
skip-gram の文章版（文章→前後の文章）
... I got back home. I could see the cat on the steps. This was strange. …
encoder RNNが文章の単語ベクトル
を一つずつ読み込んでいく
内部状態を文章のベクトルとして使う
２つの decoder RNNがそのベクトルか
ら前後の文章を生成

最大対数尤度
... I got back home. I could see the cat on the steps. This was strange. …
中心の文章が「I could see the cat on the steps.」の場合、
前文decoder が「I got back home.」と
後文decoder が「This was strange.」の出力確率を高くする
目標関数
後の文章前の文章

Skip-Thought Vectors
似た前後の文章を持つ文章は、似たベクトルにエンコードさ
れる
School was over. He walked home. He was tired.
Work was over. She drove home. She was exhausted.

Skip-Thought Vectors｜結果
SICK semantic relatedness task
skip-thought vector で様々なタス
クで使えた（文章分類、パラフレー
ズ検知、意味的類似度計算（右）
など）

Skip-Thought Vectors｜結果
「彼はコートの中を擦り、未開封の手紙の存在を確認し
た。」
「彼は茶色い封筒の中に折られた紙があるコートとワイシャ
ツの間に手を入れた。」

目次
1.イントロダクション
2.分散表現の概要
3.自然言語処理の概要
4.言語のベクトル表現
5.encoder-decoder モデル
6.マルチモーダル

encoder-decoder モデル
紹介した skip-thought vector モデルの様に、
A を encoder でベクトル化し、そのベクトルを decoder で
B を出力するというモデルが様々ある
画像
文章
音
映像
etc
ベクトル表現
画像
文章
音
映像
etc
よくやられているタスク
encode decode

encoder-decoder モデル
encoder
文章 → RNN
音声 → RNN
画像 → CNN
映像 → CNN+RNN
or 3DCNN
decoder
文章 → RNN
音声 → ...
画像 → ...

seq2seq 機械翻訳 [Sutskever+ 2014]
シンプルな構造にしては精度の高い結果を出した
encoder RNN は言語Aの文章をベクトル化し、
decoder RNN がそのベクトルから言語Bの文章を生成する
文章ベクトル

seq2seq｜英語からフランス語への翻訳
それほど手を加えてないのに、フレーズ翻訳など古典的な
統計的翻訳システムよりよい精度を出せた
BLEU：正解文に「近い」ほど高いスコア

転移学習（transfer learning）
“cat”
タスクＡ
で学習
(e.g.動物判別) タスクＢに使う
(e.g. かわいさ判定)
kawaii level: 86.5

Show and Tell: NIC [Vinyals+ 2015]
画像から文章への「翻訳」

NIC｜結果
他のデータセットでも高い精度（BLEU）
MS COCO のキャプショニングで現在1位

zero-shot learning
これは何？
空
リス
モモンガ
枝
飛行機木山
猫
ラット
マウスビーバー
川

zero-shot learning
モモンガの画像を見たことないけど単語空間で推論
→ zero-shot learning
単語空間の意味的情報を利用して汎化力アップ

DeViSE [Frome+ 2013]
空
リス
モモンガ
枝
ラット
画像ベクトル
画像ベクトル
学習時、Mを学習

DeViSE
空
リス
モモンガ
枝
ラット

DeViSE
空
リス
モモンガ
枝
ラット
画像ベクトル
テスト時、Mで画像ベクトルを単語空間に写像できる
(理想)

DeViSE｜損失関数
M が画像ベクトルを対応するラベル単語ベクトルに近くする
（内積を高くする）
逆に関係ないペアは遠ざける
近くするペア
遠くするペア

DeViSE
通常の画像分類は1000クラスに限定されてしまうが、
word2vecなどで作った単語ベクトル空間へ写像すると、
クラス数をword2vecの語彙で拡張（e.g. 1000→15.5万）
CNN
1000クラス
単語空間
(155000クラス)

DeViSE
zero-shot テストデータ（まったく学習していないラベルの
画像データ）
ベースラインは指定された1000クラス（ImageNet 2012）
しか予測できないので０
徐々に
ラベル範囲
を広く

DeViSE
zero-shot テストデータ（太字が正解）
トップ５予測
DeVise は
第一予測が
間違っていても、
意味的に近い予測
をする

DeViSE
画像認識で単語ベクトルを利用することにより、
モデルは意味的情報も考慮できる
その結果、より汎化能力を持つモデルが出来上がる
zero-shot learning の研究が one-shot learning
（少なめなデータを学習）にもつながるかもしれない

Unifying Visual-Semantic Embeddings with Multimodal Neural
Language Models [Kiros 2014]
DeViseと似ている仕組み
言語モデル
（文章生成）

Unifying Visual-Semantic Embeddings with MNLMs
言語モデルを用いて画像キ
ャプショニングができる
（NIC に負けたが）

マルチモーダル空間を利用すると、単語だけではなく、単語
と画像で足しひきできる

単語ベクトルの様に、関係を示すベクトルも現れる

Neural Storyteller
encoder-decoder、共通空間への写像など、言葉と画像を同
時に扱ういくつかの手法を紹介した
では Neural Storyteller はどう動いているのか？

Neural Storyteller の仕組み
githubページを見てみると...
紹介した
（少し）紹介した
RNN decoder（文章生
成）と同様

１．skip-thought vectors を何らかのコーパスで事前学習
２．恋愛小説の文章を skip-thought vector へ変換し、
元の文章を生成するdecoderを学習する
skip-thought vectorI love you. decoder I love you.

３．画像と文章（キャプション）の共通空間を構築・学習
MS COCO を使った
画像・文章
共通空間
CNN
画像ベクトル
線形
変換
RNN
文章ベクトル
線形
変換

共通空間で画像から一番近い
キャプションを検索できるように
なった
そして、skip-thought vector か
ら恋愛文章生成decoderができた
skip-
thought
空間
恋愛小説っぽい
テキスト
画像・文章
共通空間
画像キャプション
文章

画像から検索したキャプションをskip-thought encoderに
通してskip-thought vectorに変換しても、恋愛小説しか
学習していないdecoderには通じない
skip-
thought
空間
画像・文章
共通空間
“Smiling businessmen
walking together”
x
恋愛小説っぽい
テキスト

x に「恋愛小説っぽさ」を注入するため、
キャプションデータセットのskip-thought vectorの平均c
（「普通のキャプションっぽさ」）を引き、
恋愛小説データセットのskip-thought vectorの平均b
（「恋愛小説っぽさ」）を足す
F(x) = x - c + b
Kiros は、これを「style shifting」と呼んでいる

そしたら、画像→キャプション→恋愛小説が成り立つ
skip-
thought
空間
画像・文章
共通空間
x
F(x) = x - c + b
F(x)
“Smiling businessmen
walking together”
“...Of course, i had no
intention of letting him go...”

まとめ
単語
の表現
文章
の表現
画像
の表現
文章と画像
の結合
画像から物語
の生成

展望
様々な「知覚」を統合し、概念空間をつくる
概念
画像
映像
音
テキスト
etc

展望
ものごとの抽象的な意味まで捉えられる表現を獲得しても、その後にそれをどう
利用・高次な処理をするかが問題になると思う（研究はもう始まっている）
適切な情報に注目する
• 「attention」を用いたモデル
適切な記憶・知識を想起させ、それを問題解決のために操作する
• Neural Turing Machines
• Memory Networks
• Neural Reasoner
行動やプランニング
• 強化学習

文献
• Y Bengio, R Ducharme, P Vincent, C Jauvin. 2003. A Neural Probabilistic Model. Journal of
Machine Learning Research 3 (2003) 1137-1155.
• J Firth. 1957. A synopsis of linguistic theory 1930-1955. In Studies in Linguistic Analysis
pp. 1-32
• A Frome, G Corrado, J Shlens, S Bengio, J Dean, M Ranzato, T Mikolov. 2013. DeViSE: A
Deep Visual-Semantic Embedding Model
• Z Harris. 1954. Distributional structure. Word, 10(23):146-162
• G Hinton, J McClelland, D Rumelhart. 1986. Distributed Representations. In Parallel
distributed processing: Explorations in the microstructure of cognition, Volume I. Chapter
3, pp. 77-109, Cambridge, MA: MIT Press.
• N Kalchbrenner, E Grefenstette, P Blunsom. A convolutional neural network for modelling
sentences. ACL, 2014.

文献
• R Kiros, R Salakhutdinov, R Zemel. 2014. Unifying Visual-Semantic Embeddings with
Multimodal Neural Language Models.
• R Kiros, Y Zhu, R Salakhutdinov, R Zemel, A Torralba, R Urtasun, S Fidler. 2015. Skip-
Thought Vectors.
• Q Le, T Mikolov. Distributed representations of sentences and documents. ICML, 2014.
• H Lee, R Grosse, R Ranganath, A Ng. 2009. Convolutional Deep Belief Networks for
Scalable Unsupervised Learning of Hierarchical Representations.
• O Levy, Y Goldberg, I Dagan. 2014. Improving Distributional Similarity with Lessons
Learned from Word Embeddings.
• T Mikolov, K Chen, G Corrado, J Dean. 2013. Efficient Estimation of Word Representations
in Vector Space.

文献
• M Norouzi, T Mikolov, S Bengio, Y Singer, J Shlens, A Frome, G Corrado, J Dean. 2013.
Zero-shot Learning by Convex Combination of Semantic Embeddings
• J Pennington, R Socher, C Manning. 2014. GloVe: Global Vectors for Word Representation.
• R Richens. 1956. Preprogramming for Mechanical Translation. Mechanical Translation,
vol.3, no.1, July 1956; pp. 20-25.
• X Rong. 2014. word2vec Parameter Learning Explained.
• R Socher, M Ganjoo, C Manning, A Ng. 2013. Zero-Shot Learning Through Cross-Modal
Transfer
• R Socher, A Perelygin, J Wu, J Chuang, C Manning, A Ng, C Potts. Recursive deep models
for semantic compositionality over a sentiment treebank. In EMNLP, 2013.

文献
• I Sutskever, O Vinyals, Q Le. 2014. Sequence to Sequence Learning with Neural Networks.
• O Vinyals, A toshev, S Bengio, D Erhan. 2014. Show and Tell: A Neural Image Caption
Generator.
• W Zou. 2013. Bilingual Word Embeddings for Phrase-Based Machine Translation.

言語と画像の表現学習

More Related Content

Similar to 言語と画像の表現学習

Recently uploaded

言語と画像の表現学習

Editor's Notes