マルチモーダル深層学習の研究動向

Koichiro Mori
Koichiro MoriAI Engineer at DeNA Co., Ltd.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の研究動向
株式会社ディー・エヌ・エー
AIシステム部
森紘一郎
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
自己紹介
 森 紘一郎
 経歴
⁃ 2005年 株式会社東芝 研究開発センター
機械学習・データ(テキスト)マイニング(5年)
音声合成(7年)
⁃ 2017年 株式会社ディー・エヌ・エー
DEEP LEARNING(音声、コンピュータビジョン)
 プライベート
⁃ Twitter: aidiary(@sylvan5)
⁃ ブログ: 人工知能に関する断創録(2002〜)
⁃ 最近は生成系(音声・画像)と
マルチモーダルなDEEP LEARNINGに興味あり
2
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
目次
 マルチモーダルDEEP LEARNINGとは?
 どんなアプリケーションがある?
 研究上のチャレンジは?
 マルチモーダルタスクとアーキテクチャ
 まとめ
 この発表は以下の資料をベースに独自の調査内容を追加
⁃ [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning:
A Survey and Taxonomy, arXiv:1705.09406.
⁃ [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal
Machine Learning, ACL 2017.
3
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルとは何か?
4
嗅覚
視覚
触覚
味覚
聴覚
動物の5つの感覚
動物はこの5感によって世界を経験する
マルチモーダル = 複数のモダリティを含む処理
注意
記憶
嗜好
言語
行動
(制御)
Computer Vision
Natural Language Processing
Speech Synthesis
Speech Recognition
Audio Processing
Reinforcement Learning
?
?
?
脳波
[Morency 2017]Brain Machine Interface
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習とは
 マルチモーダル深層学習
⁃ 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル
を構築することを目的とする
⁃ 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る
⁃ それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep
Learningの登場により分野間の障壁が薄くなってきている
 マルチモーダルの重要性
⁃ 人は単一のモダリティに基づいて思考・記憶・判断していない
⁃ 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要!
⁃ 実は昔から研究自体はあった(例)記号とパターンの統合
5
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習は学際的な領域
6
非常に学際的で強力なポテンシャルを秘めた分野
だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状・・・
 心理学(Psychology)
 医療(Medical)
 音声(Speech)
 画像(Vision)
 言語(Language)
 マルチメディア(Multimedia)
 ロボティクス(Robotics)
 機械学習(Machine Learning)
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
3V: Verbal Vocal Visual
7
現在の研究で対象となる主なモダリティ
言語情報
書く・話す
音・音楽
パラ言語情報
画像・ビデオ
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition
 音声と画像(主に唇の動き)の両方の情報を用いて音声認識する
 Lip Reading: 唇の画像のみからテキストに変換する
 マルチモーダル処理の最初期の研究(1986年)
⁃ Deep Learningのマルチモーダル化もこのタスクから(ICML2011)
8
[Potamianos 2003]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (2) Glove-Talk
 人間の腕の動き(行動・センサー)を音声に変換する
 最近では手話を音声に変換する研究もある
9
Glove Talk II
https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (3) Talking Head
 テキスト情報を音声と顔画像に変換する
10
2013 Expressive Visual Text to Speech - Talking Head
https://www.youtube.com/watch?v=x8B7OxjB05k
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition
 音声と画像の両方の情報を使って人の感情を認識する
11
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダルアプリケーション (5) Multimedia Content Analysis
 画像や映像をテキストに変換する(Image captioning)
 テキストを画像・映像に変換する(Text2Image)
 画像や映像に関する質問や対話を自然言語で行う(VQA, Visual Dialog)
12
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の5つのチャレンジ (1)
1. Representation
⁃ マルチモーダル情報をどのように表現するか?
⁃ モーダル間の関連性をどのように定義するか?
2. Translation
⁃ あるモダリティを別のモダリティにどのように
変換するか?
⁃ 変換結果をどのように評価するか?
⁃ 超解像・声質変換・翻訳などはUnimodalなので対象外
3. Alignment
⁃ 複数のモダリティの要素をどのように関連付けるか?
⁃ 翻訳の単語の対応に似ているがそれのMultimodal版
13
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習の5つのチャレンジ (2)
4. Fusion
⁃ 複数のモダリティの情報を組み合わせて予測を行うには?
5. Co-learning
⁃ 複数のモダリティの間で知識を転移するには?
14
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
ユニモーダルのデータ表現
 画像・音声・テキストの表現方法
⁃ Hand-designedな表現からdata-drivenな表現への移行
• 画像:SIFTからCNNの隠れ層の表現へ
• 音声:MFCCからCNNやRNNやAutoencoderの隠れ層の表現へ
• テキスト:TF-IDFからWord Embeddingへ
• タスクに適した表現が自動的に獲得できる!
 DEEP LEARNINGとマルチモーダルの相性のよさ
⁃ 全てのモダリティがベクトル(テンソル)で表現できる
⁃ 訓練時に表現を学習できる
⁃ ベクトルを変換できる強力な非線型写像
15
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Representation
 Representation
⁃ マルチモーダル情報をどのように表現するか?
⁃ モーダル間の関連性をどのように定義するか?
 2つのアプローチ
⁃ Joint Representation – 各モーダルの特徴量を結合
⁃ Coordinated Representation – 類似性などの制約を導入
16
[Baltrusaitis 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例1)Multimodal Sentiment Analysis (Emotion Recognition)
 複数のモーダルの情報を用いて感情(喜び・怒り・悲しみなど)を認識する
⁃ 顔画像、音声、音声認識したテキストの全てを用いる
⁃ それぞれのモダリティからの情報は独自のニューラルネットを用いる
⁃ マルチモーダル表現空間は中間表現をconcat
⁃ その表現を用いて感情を分類
17
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例2)Visual Question Answering
 画像に対する質問をテキストですると回答してくれるシステム
 画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ
ルチモーダル表現空間を形成
18
[Agrawal 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例3)Audio-Visual Speech Recognition
 音声と唇の画像の両方を用いて音声を認識する
⁃ 出力は音素
⁃ Audioのみ PER (Phone Error Rate) 41%
⁃ Imageを加えると PER 35.83% と改善
⁃ 特に音声のノイズが大きい環境では画像が有益
19
[Mroueh 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例4)SoundNet
 音の深層表現を学習済の画像分類モデルを用いて学習する
⁃ 画像と音がペアであるビデオを使って学習
⁃ 画像ネットワークをTeacher Model、音のネットワークをStudent Model
として音の深層表現を学習する
20
Image Networkの出力分布と
Sound Networkの出力分布が
近くなるようにSoundNetの
パラメータを学習
[Aytar 2016]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例5)See, Hear, and Read: Deep Aligned Representations
 画像、音声、言語の3つのモダリティを統合する深層表現を学習
⁃ ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク
トルが互いに近くなる
 クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効
21
Teacher Loss + Pair Lossが最小になるように学習
[Aytar 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例6)Object Picking with Spoken Language
22
ロボットのピッキング対象を自然言語で指示する
画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する
ロボットの制御自体は学習対象ではない
[Hatori 2017]
自然言語で指示した物体がSSDで
切り出した物体のどれかを当てる
タスク
自然言語で指示した物体の
移動先がどこか当てるタスク
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Translation
 Multimodal Translation
⁃ あるモダリティを別のモダリティにどのように変換するか?
⁃ 変換結果をどのように評価するか?
 現在のマルチモーダル研究の中心
⁃ 長い研究の歴史がある
⁃ DEEP LEARNINGとマルチモーダルデータセットの普及で再定義が進む
• 画像  テキスト
• 画像  音声
• 音声  テキスト
• 画像  制御
• テキスト  制御
23
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
2つのアプローチ
 Example-based ≒ ノンパラメトリックモデル
⁃ 辞書ベースの変換(と言うよりもマルチモーダル検索)
⁃ SOURCEともっとも類似するTARGETを検索して返す
⁃ SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も
 Model-driven ≒ パラメトリックモデル
⁃ SOURCEとTARGETの組みから変換モデルを学習
⁃ SOURCEをモデルに入力してTARGETに変換する
⁃ DEEP LEARNINGの登場とテキスト・画像・音声の生成モデルの
発明以降はこちらが研究の中心に
24
(例)Imaginary Soundscape
(例)Visual-to-sound
[Morency 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
(例)Imaginary Soundscape vs. Visual-to-sound
 どちらの研究も風景画像からその風景にあった音声を再生するタスク
25
• 画像と音声を同一のマルチモーダル空間に写像
• マルチモーダル空間は、画像とそれに対応する音声間の距離が
近くなるように学習される
• 入力した画像と最も距離が近い音声を検索して再生する
Imaginary Soundscape Visual-to-sound
• Encoder-decoderモデル(seq2seq)
• ビデオを符号化するencoder
• 符号から音声を生成するdecoder(SampleRNN)
• 画像を入力すると音声波形を生成して再生する
[Zhou 2017]
[Kajihara 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Model-drivenアプローチ
 Deep Learningによる生成モデルの活用
⁃ 画像 GAN, PixelRNN
⁃ 音声 WaveNet, SampleRNN
⁃ テキスト LSTM
 変換モデルはEncoder-decoderモデルが最も一般的
⁃ ソースモダリティのデータをEncoderでベクトルに変換
⁃ Decoderでターゲットモダリティのデータを生成
⁃ Encoderはモダリティ特有のものが使われる(画像ならCNN、音声ならRNN)
⁃ DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN
⁃ Attentionが効果的
26
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Text: Image Captioning
27
画像を入力するとその画像の内容を表す
テキストを出力する
GoogLeNet
などのCNN
入力は画像
FC層の直前の
画像特徴量を
LSTMの隠れ状態の
初期値とする
LSTMで単語系列を生成
[Vinyals 2014]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Image Synthesis
28
テキストを入力するとそのテキストにあった画像が生成される
テキストをエンコード
テキスト符号はGeneratorの入力で
あるノイズに条件として付与
Conditional GANで画像を生成
Discriminatorにもテキスト符号は
入力してテキストと画像のミスマッチ
も識別する
[Reed 2016]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Speech: Tacotron
29
テキストを入力すると音声が生成される
いわゆる音声合成
Tacotronの場合は入力は文字の系列
音響パラメータの系列を出力
=> ボコーダーで音声を合成
Conv1D + RNN
でエンコード
RNNでデコード
https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Sound: Visually Indicated Sounds
30
http://vis.csail.mit.edu/
画像はグレースケールに変換後、
前後1フレーム分をチャネルとして
3チャンネルで入力する
画像特徴量の系列はLSTMで
処理して音響特徴量系列を生成
音響特徴量から音声に変換
または生成した音響特徴量と最も
類似する音声をDBから検索して
貼り付ける
画像(ビデオ)を入力として音声を生成する
ものをドラムスティックで叩いた時の音を生成している
[Owens 2015]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Video: Video Generation From Text
31
Gist Generator
gistと呼ばれる色と物体レイアウトを
大まかに記した画像を生成するCVAE
Video Generator
gistとテキストからビデオの
4Dテンソルを生成
Video Discriminator
本物のビデオと偽物を見分ける
テキストにマッチするか見分ける
ビデオの1フレーム目の画像とテキストの
両方を条件としてGistを生成
推論時はdecoderのみ使う
テキストからビデオを生成する
ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント
ビデオはGistとテキストを条件として生成される
[Li 2017]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Image-to-Control: DQN
32
https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html
ゲームの過去4フレーム分の画像から行動を生成
入力は4フレーム分の画像 入力の状態における各行動の
行動価値を出力
[Mnih 2013]
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Text-to-Control: Language Guided RL
33
自然言語による人の指示をもとに行動を出力
サブタスクを自然言語で与えるイメージ
1. 自然言語コマンドと状態の関連付け
2. 自然言語コマンドを達成するための最適行動の学習
入力は4フレーム分の画像と
自然言語による指示
画像はCNNで符号化 MLPで行動にマッピング
画像とテキストのマルチモーダル符号化
自然言語で指示されたコマンドが
満たされたら追加報酬が与えられる
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
例えばこんなアイデアは?
 手話の動画から音声を生成する
 顔写真やアニメイラストからもっともらしい声質を生成する
 画像から音楽を生成する
 ダンスの動画からビートを生成する
 歌詞のテキストからメロディを生成する
 サイレント映画に音をつける
 料理のレシピから味を生成する
 料理の写真から匂いを生成する
 物体の写真から触覚を生成する
34
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
まとめ
 この資料ではマルチモーダル深層学習に関する研究を主にRepresentation /
Translation タスクを中心にまとめた
 動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可
欠な技術(例)マルチモーダル連想記憶
 深層学習は複数のモダリティを結びつける非常に強力な方法
 現在の研究はテキスト、画像、音声の3つのモダリティが中心
 嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは?
 複数のモダリティにまたがるアプリケーションは(まだ)ブルーオーシャン
35
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
マルチモーダル深層学習
36
画像
音 テキスト
制御
Talking Head
SoundNet
Imageinary Soundscape
Visual-to-Sound
Image
Captioning
Text-to-Image
Synthesis
Text-to-Speech
Speech Recognition
Visual QA
Language Guided RL
See Here and Read
DQN
Audio-visual Speech Recognition
Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
参考文献
 [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.
 [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.
 [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of
IEEE, 91 (9), pp.1306-1326, 2003.
 [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.
 [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.
 [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.
 [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.
 [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions,
arXiv:1710.06280.
 [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments,
Workshop on ML for Creativity and Design (NIPS 2017)
 [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.
 [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.
 [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.
 [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.
 [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.
 [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.
 [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.
 [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539
37
1 of 37

Recommended

【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models by
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
2.6K views15 slides
画像生成・生成モデル メタサーベイ by
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
8.2K views118 slides
Curriculum Learning (関東CV勉強会) by
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
63.8K views43 slides
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜 by
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
3.8K views40 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K views21 slides
[DL輪読会]相互情報量最大化による表現学習 by
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
7.6K views43 slides

More Related Content

What's hot

【メタサーベイ】数式ドリブン教師あり学習 by
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
5.9K views33 slides
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向 by
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
2.1K views21 slides
実装レベルで学ぶVQVAE by
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAEぱんいち すみもと
12.6K views23 slides
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... by
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
2.4K views15 slides
GAN(と強化学習との関係) by
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
83K views77 slides
CV分野におけるサーベイ方法 by
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法Hirokatsu Kataoka
23.9K views29 slides

What's hot(20)

【メタサーベイ】数式ドリブン教師あり学習 by cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge5.9K views
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向 by SSII
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2.1K views
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,... by Deep Learning JP
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP2.4K views
GAN(と強化学習との関係) by Masahiro Suzuki
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki83K views
CV分野におけるサーベイ方法 by Hirokatsu Kataoka
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
Hirokatsu Kataoka23.9K views
[DL輪読会]Dense Captioning分野のまとめ by Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP2K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views
Active Learning 入門 by Shuyo Nakatani
Active Learning 入門Active Learning 入門
Active Learning 入門
Shuyo Nakatani51.8K views
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces by Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP4.8K views
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis by Deep Learning JP
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Deep Learning JP4.6K views
IIBMP2016 深層生成モデルによる表現学習 by Preferred Networks
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
Preferred Networks51.4K views
深層学習の不確実性 - Uncertainty in Deep Neural Networks - by tmtm otm
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm11.6K views
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De... by Deep Learning JP
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP9K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K views
backbone としての timm 入門 by Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K views
Domain Adaptation 発展と動向まとめ(サーベイ資料) by Yamato OKAMOTO
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Yamato OKAMOTO8.5K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features by ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K views
Transformerを多層にする際の勾配消失問題と解決法について by Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K views

Similar to マルチモーダル深層学習の研究動向

Interspeech2019読み会 音声生成 by
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成Kentaro Tachibana
1.8K views28 slides
DeNAのプログラミング教育の取り組み #denatechcon by
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechconDeNA
1.4K views48 slides
NIPS2017報告 SPEECH & AUDIO by
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIOKoichiro Mori
10.8K views33 slides
#ibis2017 Description: IBIS2017の企画セッションでの発表資料 by
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料Yahoo!デベロッパーネットワーク
5.2K views41 slides
ICASSP2020音声&音響読み会Mellotron by
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会MellotronKentaro Tachibana
1.5K views21 slides
Interspeech2022 参加報告 by
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
659 views52 slides

Similar to マルチモーダル深層学習の研究動向(20)

Interspeech2019読み会 音声生成 by Kentaro Tachibana
Interspeech2019読み会 音声生成Interspeech2019読み会 音声生成
Interspeech2019読み会 音声生成
Kentaro Tachibana1.8K views
DeNAのプログラミング教育の取り組み #denatechcon by DeNA
DeNAのプログラミング教育の取り組み #denatechconDeNAのプログラミング教育の取り組み #denatechcon
DeNAのプログラミング教育の取り組み #denatechcon
DeNA1.4K views
NIPS2017報告 SPEECH & AUDIO by Koichiro Mori
NIPS2017報告 SPEECH & AUDIONIPS2017報告 SPEECH & AUDIO
NIPS2017報告 SPEECH & AUDIO
Koichiro Mori10.8K views
ICASSP2020音声&音響読み会Mellotron by Kentaro Tachibana
ICASSP2020音声&音響読み会MellotronICASSP2020音声&音響読み会Mellotron
ICASSP2020音声&音響読み会Mellotron
Kentaro Tachibana1.5K views
Interspeech2022 参加報告 by Yuki Saito
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito659 views
Machine learning 15min TensorFlow hub by Junya Kamura
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
Junya Kamura309 views
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1 by Osaka University
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
ディープラーニングにみられるAi技術の進歩とそれがもたらす未来r1
Osaka University1.9K views
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- by Takahiro Kubo
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
Takahiro Kubo37.9K views
Interop2017 by tak9029
Interop2017Interop2017
Interop2017
tak90291.2K views
Deep learningの世界に飛び込む前の命綱 by Junya Kamura
Deep learningの世界に飛び込む前の命綱Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱
Junya Kamura7K views
20120416 3年後のeラーニング予想大会 中嶋さん by Visso株式会社
20120416 3年後のeラーニング予想大会 中嶋さん20120416 3年後のeラーニング予想大会 中嶋さん
20120416 3年後のeラーニング予想大会 中嶋さん
CVPR 2015 論文紹介(NTT研究所内勉強会用資料) by Yoshitaka Ushiku
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
CVPR 2015 論文紹介(NTT研究所内勉強会用資料)
Yoshitaka Ushiku7K views
言語と知識の深層学習@認知科学会サマースクール by Yuya Unno
言語と知識の深層学習@認知科学会サマースクール言語と知識の深層学習@認知科学会サマースクール
言語と知識の深層学習@認知科学会サマースクール
Yuya Unno26.9K views
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins... by Yoshitaka Ushiku
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Yoshitaka Ushiku2.5K views
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術! by Shingo Mori
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
MixedRealityでUI/UXが変わる! SIer視点で考えるHoloLensの活用術!
Shingo Mori987 views
営業現場で困らないためのディープラーニング by Satoru Yamamoto
営業現場で困らないためのディープラーニング営業現場で困らないためのディープラーニング
営業現場で困らないためのディープラーニング
Satoru Yamamoto4.2K views
大規模言語モデルとChatGPT by nlab_utokyo
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
nlab_utokyo4.2K views

Recently uploaded

3Dプリンタでロボット作るよ#1_黎明編 by
3Dプリンタでロボット作るよ#1_黎明編3Dプリンタでロボット作るよ#1_黎明編
3Dプリンタでロボット作るよ#1_黎明編Yoshihiro Shibata
20 views7 slides
Najah Matsuo Self Introduction by
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self IntroductionNajahMatsuo
7 views29 slides
図解で理解するvetKD by
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKDryoo toku
84 views22 slides
robotics42.pptx by
robotics42.pptxrobotics42.pptx
robotics42.pptxNatsutani Minoru
168 views18 slides
SSH超入門 by
SSH超入門SSH超入門
SSH超入門Toru Miyahara
194 views21 slides
lt.pptx by
lt.pptxlt.pptx
lt.pptxtomochamarika
51 views13 slides

Recently uploaded(8)

3Dプリンタでロボット作るよ#1_黎明編 by Yoshihiro Shibata
3Dプリンタでロボット作るよ#1_黎明編3Dプリンタでロボット作るよ#1_黎明編
3Dプリンタでロボット作るよ#1_黎明編
Najah Matsuo Self Introduction by NajahMatsuo
Najah Matsuo Self IntroductionNajah Matsuo Self Introduction
Najah Matsuo Self Introduction
NajahMatsuo7 views
図解で理解するvetKD by ryoo toku
図解で理解するvetKD図解で理解するvetKD
図解で理解するvetKD
ryoo toku84 views
how query cost affects search behavior translated in JP by Tobioka Ken
how query cost affects search behavior translated in JPhow query cost affects search behavior translated in JP
how query cost affects search behavior translated in JP
Tobioka Ken9 views
AIで始めるRustプログラミング #SolDevHub by K Kinzal
AIで始めるRustプログラミング #SolDevHubAIで始めるRustプログラミング #SolDevHub
AIで始めるRustプログラミング #SolDevHub
K Kinzal20 views

マルチモーダル深層学習の研究動向

  • 1. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の研究動向 株式会社ディー・エヌ・エー AIシステム部 森紘一郎 Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
  • 2. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 自己紹介  森 紘一郎  経歴 ⁃ 2005年 株式会社東芝 研究開発センター 機械学習・データ(テキスト)マイニング(5年) 音声合成(7年) ⁃ 2017年 株式会社ディー・エヌ・エー DEEP LEARNING(音声、コンピュータビジョン)  プライベート ⁃ Twitter: aidiary(@sylvan5) ⁃ ブログ: 人工知能に関する断創録(2002〜) ⁃ 最近は生成系(音声・画像)と マルチモーダルなDEEP LEARNINGに興味あり 2
  • 3. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 目次  マルチモーダルDEEP LEARNINGとは?  どんなアプリケーションがある?  研究上のチャレンジは?  マルチモーダルタスクとアーキテクチャ  まとめ  この発表は以下の資料をベースに独自の調査内容を追加 ⁃ [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406. ⁃ [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017. 3
  • 4. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルとは何か? 4 嗅覚 視覚 触覚 味覚 聴覚 動物の5つの感覚 動物はこの5感によって世界を経験する マルチモーダル = 複数のモダリティを含む処理 注意 記憶 嗜好 言語 行動 (制御) Computer Vision Natural Language Processing Speech Synthesis Speech Recognition Audio Processing Reinforcement Learning ? ? ? 脳波 [Morency 2017]Brain Machine Interface
  • 5. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習とは  マルチモーダル深層学習 ⁃ 複数のモダリティからの情報を統合的に処理し、それらを関連付けるモデル を構築することを目的とする ⁃ 深層学習を使わないアプローチもあるが、本発表では深層学習に的を絞る ⁃ それぞれのモダリティに関する研究分野が独自に進展してきたが、Deep Learningの登場により分野間の障壁が薄くなってきている  マルチモーダルの重要性 ⁃ 人は単一のモダリティに基づいて思考・記憶・判断していない ⁃ 人工知能のさらなる進展にはマルチモーダル信号を統合する技術が必要! ⁃ 実は昔から研究自体はあった(例)記号とパターンの統合 5
  • 6. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習は学際的な領域 6 非常に学際的で強力なポテンシャルを秘めた分野 だと確信してるが儲かるビジネスがあまり思い浮かばないのが現状・・・  心理学(Psychology)  医療(Medical)  音声(Speech)  画像(Vision)  言語(Language)  マルチメディア(Multimedia)  ロボティクス(Robotics)  機械学習(Machine Learning)
  • 7. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 3V: Verbal Vocal Visual 7 現在の研究で対象となる主なモダリティ 言語情報 書く・話す 音・音楽 パラ言語情報 画像・ビデオ [Morency 2017]
  • 8. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (1) Audio-Visual Speech Recognition  音声と画像(主に唇の動き)の両方の情報を用いて音声認識する  Lip Reading: 唇の画像のみからテキストに変換する  マルチモーダル処理の最初期の研究(1986年) ⁃ Deep Learningのマルチモーダル化もこのタスクから(ICML2011) 8 [Potamianos 2003]
  • 9. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (2) Glove-Talk  人間の腕の動き(行動・センサー)を音声に変換する  最近では手話を音声に変換する研究もある 9 Glove Talk II https://www.youtube.com/watch?v=hJpGkroFP3o&t=100s
  • 10. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (3) Talking Head  テキスト情報を音声と顔画像に変換する 10 2013 Expressive Visual Text to Speech - Talking Head https://www.youtube.com/watch?v=x8B7OxjB05k
  • 11. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (4) Audio-Visual Emotion Recognition  音声と画像の両方の情報を使って人の感情を認識する 11 [Morency 2017]
  • 12. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダルアプリケーション (5) Multimedia Content Analysis  画像や映像をテキストに変換する(Image captioning)  テキストを画像・映像に変換する(Text2Image)  画像や映像に関する質問や対話を自然言語で行う(VQA, Visual Dialog) 12 [Morency 2017]
  • 13. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の5つのチャレンジ (1) 1. Representation ⁃ マルチモーダル情報をどのように表現するか? ⁃ モーダル間の関連性をどのように定義するか? 2. Translation ⁃ あるモダリティを別のモダリティにどのように 変換するか? ⁃ 変換結果をどのように評価するか? ⁃ 超解像・声質変換・翻訳などはUnimodalなので対象外 3. Alignment ⁃ 複数のモダリティの要素をどのように関連付けるか? ⁃ 翻訳の単語の対応に似ているがそれのMultimodal版 13 [Morency 2017]
  • 14. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習の5つのチャレンジ (2) 4. Fusion ⁃ 複数のモダリティの情報を組み合わせて予測を行うには? 5. Co-learning ⁃ 複数のモダリティの間で知識を転移するには? 14 [Morency 2017]
  • 15. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. ユニモーダルのデータ表現  画像・音声・テキストの表現方法 ⁃ Hand-designedな表現からdata-drivenな表現への移行 • 画像:SIFTからCNNの隠れ層の表現へ • 音声:MFCCからCNNやRNNやAutoencoderの隠れ層の表現へ • テキスト:TF-IDFからWord Embeddingへ • タスクに適した表現が自動的に獲得できる!  DEEP LEARNINGとマルチモーダルの相性のよさ ⁃ 全てのモダリティがベクトル(テンソル)で表現できる ⁃ 訓練時に表現を学習できる ⁃ ベクトルを変換できる強力な非線型写像 15
  • 16. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Representation  Representation ⁃ マルチモーダル情報をどのように表現するか? ⁃ モーダル間の関連性をどのように定義するか?  2つのアプローチ ⁃ Joint Representation – 各モーダルの特徴量を結合 ⁃ Coordinated Representation – 類似性などの制約を導入 16 [Baltrusaitis 2017]
  • 17. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例1)Multimodal Sentiment Analysis (Emotion Recognition)  複数のモーダルの情報を用いて感情(喜び・怒り・悲しみなど)を認識する ⁃ 顔画像、音声、音声認識したテキストの全てを用いる ⁃ それぞれのモダリティからの情報は独自のニューラルネットを用いる ⁃ マルチモーダル表現空間は中間表現をconcat ⁃ その表現を用いて感情を分類 17 [Morency 2017]
  • 18. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例2)Visual Question Answering  画像に対する質問をテキストですると回答してくれるシステム  画像を処理するCNNの出力とテキストを処理するLSTMの出力を掛け合わせてマ ルチモーダル表現空間を形成 18 [Agrawal 2015]
  • 19. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例3)Audio-Visual Speech Recognition  音声と唇の画像の両方を用いて音声を認識する ⁃ 出力は音素 ⁃ Audioのみ PER (Phone Error Rate) 41% ⁃ Imageを加えると PER 35.83% と改善 ⁃ 特に音声のノイズが大きい環境では画像が有益 19 [Mroueh 2015]
  • 20. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例4)SoundNet  音の深層表現を学習済の画像分類モデルを用いて学習する ⁃ 画像と音がペアであるビデオを使って学習 ⁃ 画像ネットワークをTeacher Model、音のネットワークをStudent Model として音の深層表現を学習する 20 Image Networkの出力分布と Sound Networkの出力分布が 近くなるようにSoundNetの パラメータを学習 [Aytar 2016]
  • 21. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例5)See, Hear, and Read: Deep Aligned Representations  画像、音声、言語の3つのモダリティを統合する深層表現を学習 ⁃ ペアとなるプールの画像、プールの音、プールに関する文章の深層表現ベク トルが互いに近くなる  クロスモーダル検索やモダリティ間の分類器の転移などのタスクに有効 21 Teacher Loss + Pair Lossが最小になるように学習 [Aytar 2017]
  • 22. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例6)Object Picking with Spoken Language 22 ロボットのピッキング対象を自然言語で指示する 画像とテキストを入力としてロボット制御の対象となるオブジェクトと移動先を特定する ロボットの制御自体は学習対象ではない [Hatori 2017] 自然言語で指示した物体がSSDで 切り出した物体のどれかを当てる タスク 自然言語で指示した物体の 移動先がどこか当てるタスク
  • 23. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Translation  Multimodal Translation ⁃ あるモダリティを別のモダリティにどのように変換するか? ⁃ 変換結果をどのように評価するか?  現在のマルチモーダル研究の中心 ⁃ 長い研究の歴史がある ⁃ DEEP LEARNINGとマルチモーダルデータセットの普及で再定義が進む • 画像  テキスト • 画像  音声 • 音声  テキスト • 画像  制御 • テキスト  制御 23
  • 24. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 2つのアプローチ  Example-based ≒ ノンパラメトリックモデル ⁃ 辞書ベースの変換(と言うよりもマルチモーダル検索) ⁃ SOURCEともっとも類似するTARGETを検索して返す ⁃ SOURCEとTARGETの変換にDEEP LEARNINGを活用する研究も  Model-driven ≒ パラメトリックモデル ⁃ SOURCEとTARGETの組みから変換モデルを学習 ⁃ SOURCEをモデルに入力してTARGETに変換する ⁃ DEEP LEARNINGの登場とテキスト・画像・音声の生成モデルの 発明以降はこちらが研究の中心に 24 (例)Imaginary Soundscape (例)Visual-to-sound [Morency 2017]
  • 25. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. (例)Imaginary Soundscape vs. Visual-to-sound  どちらの研究も風景画像からその風景にあった音声を再生するタスク 25 • 画像と音声を同一のマルチモーダル空間に写像 • マルチモーダル空間は、画像とそれに対応する音声間の距離が 近くなるように学習される • 入力した画像と最も距離が近い音声を検索して再生する Imaginary Soundscape Visual-to-sound • Encoder-decoderモデル(seq2seq) • ビデオを符号化するencoder • 符号から音声を生成するdecoder(SampleRNN) • 画像を入力すると音声波形を生成して再生する [Zhou 2017] [Kajihara 2017]
  • 26. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Model-drivenアプローチ  Deep Learningによる生成モデルの活用 ⁃ 画像 GAN, PixelRNN ⁃ 音声 WaveNet, SampleRNN ⁃ テキスト LSTM  変換モデルはEncoder-decoderモデルが最も一般的 ⁃ ソースモダリティのデータをEncoderでベクトルに変換 ⁃ Decoderでターゲットモダリティのデータを生成 ⁃ Encoderはモダリティ特有のものが使われる(画像ならCNN、音声ならRNN) ⁃ DecoderはEncoderの出力ベクトルを初期の隠れ状態としたRNN ⁃ Attentionが効果的 26
  • 27. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Text: Image Captioning 27 画像を入力するとその画像の内容を表す テキストを出力する GoogLeNet などのCNN 入力は画像 FC層の直前の 画像特徴量を LSTMの隠れ状態の 初期値とする LSTMで単語系列を生成 [Vinyals 2014]
  • 28. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Image Synthesis 28 テキストを入力するとそのテキストにあった画像が生成される テキストをエンコード テキスト符号はGeneratorの入力で あるノイズに条件として付与 Conditional GANで画像を生成 Discriminatorにもテキスト符号は 入力してテキストと画像のミスマッチ も識別する [Reed 2016]
  • 29. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Speech: Tacotron 29 テキストを入力すると音声が生成される いわゆる音声合成 Tacotronの場合は入力は文字の系列 音響パラメータの系列を出力 => ボコーダーで音声を合成 Conv1D + RNN でエンコード RNNでデコード https://google.github.io/tacotron/publications/tacotron/index.html[Wang 2017]
  • 30. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Sound: Visually Indicated Sounds 30 http://vis.csail.mit.edu/ 画像はグレースケールに変換後、 前後1フレーム分をチャネルとして 3チャンネルで入力する 画像特徴量の系列はLSTMで 処理して音響特徴量系列を生成 音響特徴量から音声に変換 または生成した音響特徴量と最も 類似する音声をDBから検索して 貼り付ける 画像(ビデオ)を入力として音声を生成する ものをドラムスティックで叩いた時の音を生成している [Owens 2015]
  • 31. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Video: Video Generation From Text 31 Gist Generator gistと呼ばれる色と物体レイアウトを 大まかに記した画像を生成するCVAE Video Generator gistとテキストからビデオの 4Dテンソルを生成 Video Discriminator 本物のビデオと偽物を見分ける テキストにマッチするか見分ける ビデオの1フレーム目の画像とテキストの 両方を条件としてGistを生成 推論時はdecoderのみ使う テキストからビデオを生成する ビデオのシードとなる粗い画像(Gist)をテキストを条件として生成するのがポイント ビデオはGistとテキストを条件として生成される [Li 2017]
  • 32. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Image-to-Control: DQN 32 https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/deep_q_learning.html ゲームの過去4フレーム分の画像から行動を生成 入力は4フレーム分の画像 入力の状態における各行動の 行動価値を出力 [Mnih 2013]
  • 33. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. Text-to-Control: Language Guided RL 33 自然言語による人の指示をもとに行動を出力 サブタスクを自然言語で与えるイメージ 1. 自然言語コマンドと状態の関連付け 2. 自然言語コマンドを達成するための最適行動の学習 入力は4フレーム分の画像と 自然言語による指示 画像はCNNで符号化 MLPで行動にマッピング 画像とテキストのマルチモーダル符号化 自然言語で指示されたコマンドが 満たされたら追加報酬が与えられる
  • 34. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 例えばこんなアイデアは?  手話の動画から音声を生成する  顔写真やアニメイラストからもっともらしい声質を生成する  画像から音楽を生成する  ダンスの動画からビートを生成する  歌詞のテキストからメロディを生成する  サイレント映画に音をつける  料理のレシピから味を生成する  料理の写真から匂いを生成する  物体の写真から触覚を生成する 34
  • 35. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. まとめ  この資料ではマルチモーダル深層学習に関する研究を主にRepresentation / Translation タスクを中心にまとめた  動物の知能は本質的にマルチモーダルであるため人工知能のさらなる進歩には必要不可 欠な技術(例)マルチモーダル連想記憶  深層学習は複数のモダリティを結びつける非常に強力な方法  現在の研究はテキスト、画像、音声の3つのモダリティが中心  嗅覚、味覚、触覚を加えることでさらに面白い可能性が広がるのでは?  複数のモダリティにまたがるアプリケーションは(まだ)ブルーオーシャン 35
  • 36. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. マルチモーダル深層学習 36 画像 音 テキスト 制御 Talking Head SoundNet Imageinary Soundscape Visual-to-Sound Image Captioning Text-to-Image Synthesis Text-to-Speech Speech Recognition Visual QA Language Guided RL See Here and Read DQN Audio-visual Speech Recognition
  • 37. Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved. 参考文献  [Baltrusaitis 2017] Baltrusaitis, T. et al., Multimodal Machine Learning: A Survey and Taxonomy, arXiv:1705.09406.  [Morency 2017] Morency, L-P. and Baltrusaitis, T., Tutorial on Multimodal Machine Learning, ACL 2017.  [Potamianos 2003] Potamianos, G. et al., Recent Advances in the Automatic Recognition of Audiovisual Speech, Proc. of IEEE, 91 (9), pp.1306-1326, 2003.  [Agrawal 2015] Agrawal, A. et al., VQA: Visual Question Answering, arXiv:1505.00468.  [Mroueh 2015] Mroueh, Y. et al., Deep Multimodal Learning for Audio-Visual Speech Recognition, arXiv:1501.05396.  [Aytar 2016] Aytar, Y. et al., SoundNet: Learning Sound Representations from Unlabeled Video, arXiv:1610.09001.  [Aytar 2017] Aytar, Y. et al., See, Hear, and Read: Deep Aligned Representations, arXiv:1706.00932.  [Hatori 2017] Hatori, J. et al., Interactively Picking Real-World Objects with Unconstrained Spoken Language Instructions, arXiv:1710.06280.  [Kajihara 2017] Kajihara, Y. et al., Imaginary Soundscape : Cross-Modal Approach to Generate Pseudo Sound Environments, Workshop on ML for Creativity and Design (NIPS 2017)  [Zhou 2017] Zhou, Y. et al., Visual to Sound: Generating Natural Sound for Videos in the Wild, arXiv: 1712.01393.  [Vinyals 2014] Vinyals, O. et al., Show and Tell: A Neural Image Caption Generator, arXiv:1411.4555.  [Reed 2016] Reed, S. et al., Generative Adversarial Text to Image Synthesis, arXiv:1605.05396.  [Wang 2017] Wang, Y. et al., Tacotron: Toward End-to-End Speech Synthesis, arXiv:1703.10135.  [Owens 2015] Owens, A. et al., Visually Indicated Sounds, arXiv:1512.08512.  [Li 2017] Li, Y. et al., Video Generation from Text, arXiv:1710.00421.  [Mnih 2013] Mnih, V. et al., Playing Atari with Deep Reinforcement Learning, arXiv:1312.5602.  [Kaplan 2017] Kaplan, R. et al., Beating Atari with Natural Language Guided Reinforcement Learning, arXiv:1704.05539 37

Editor's Notes

  1. 嗅覚センサー、味覚センサー、触覚センサーが発展してもっと手軽にできるようになると面白いことができそう
  2. DQN自体はImage-to-Control
  3. 今回はマルチモーダルが中心だが同一モーダル内のアプリケーションもまとめると良いかも 口調:標準語 => キャラクター口調 翻訳:テキスト => テキスト 着色:画像 => 画像 声質変換: 音声 => 音声 Pose: ポーズ(モダリティ?) => 画像