[IBIS2017 講演] ディープラーニングによる画像変換

飯塚里志
早稲田大学
IBIS2017
2017/11/10

自己紹介
• 飯塚里志（IIZUKA Satoshi）
• 早稲田大学研究院講師
• 研究分野
• コンピュータグラフィクス、画像処理、コンピュータ
ビジョンなど
2
経年変化の再現白黒写真の自動色付け

今日お話しする内容
• 画像を対象としたコンピュータグラフィクス（CG）
へのディープラーニングの応用
• どんな問題に使われている？
• 課題と解決策
• 具体例を紹介
• 白黒写真の自動色付け
• 画像補完
• ラフスケッチの線画化
3

今どんなことができている？
4
白黒写真の自動着色
ラフスケッチの線画化
画風転写
超解像
画像補完
ヘイズ除去

ディープラーニングによる画像処理
5
𝐹
学習
ｂ
教師データ
…
ニューラルネットワーク
低解像度高解像度
入力出力

画像処理で重要な技術
• Fully Convolutional Neural Network
• すべての層が畳み込み層
• 目的の画像を直接出力
• Batch Normalization
• 各層をミニバッチ毎に正規化
• 深いネットワークの学習に必須
6
Semantic Segmentation [Noh+ CVPR ’15]

なぜ画像処理にCNN？
• 複雑な画像処理には高レベル特徴が重要
• 手動設計するのが困難
• CNNは複雑な特徴を学習可能
7
1層目 2層目 3層目 4層目
コーナー、エッジ、色
（低レベル特徴）
模様
（中レベル特徴）
犬の顔、鳥の足
（高レベル特徴）
“Visualizing and UnderstandingConvolutional Networks” [Zeiler+ ECCV ’14]

CNNの特徴マップを利用した画像変換手法も
8
入力画像
スタイル画像
𝐹
学習済みCNN
(ここでは学習を行わない)
各層の特徴マップの類似度を
考慮して入力画像を更新
更新
“Image Style Transfer Using Convolutional Neural Networks” [Gatys+ CVPR ’16]
入力
入力

目的の画像変換を実現するための課題
• モデル構造
• どんな変換？
• どんな特徴が必要？
• 学習方法
• 一般的なロス関数で学習
できない場合は？
• データセット
• データが少ない場合は？
• E.g., イラスト
9

• モデル構造
• 学習方法
10
白黒写真の自動着色

ディープラーニングによる画像着色
11
𝐿 𝑎𝑏
グレイスケール画像
輝度𝐿
カラー情報
彩度𝑎𝑏
CNN
𝑓

教師データの作成は容易
• カラー画像をグレイスケールに変換するだけ
• 自動で大規模なデータセットを作成可能
12
グレイスケール
変換
カラー画像
（いくらでも用意可能）
この変換を学習

自動着色を実現するためには
• 各領域が何であるか
• セグメンテーション＋認識
• それが何色であるか
• 葉っぱなら緑、空なら青など
• 大域的な情報も重要
• シーンの認識
13
空
木
水
壁
空？
天井？
これらを学習できる
モデルを考える
Fully CNNによる着色

大域特徴と局所特徴による自動着色
[Iizuka and Simo-Serra+ SIGGRAPH ’16]
• 大域特徴と局所特徴を同時に学習し、色付けを行う
畳み込みネットワークモデルを提案
14
入力画像
Fully CNN
（大域情報なし）
提案手法
Satoshi Iizuka*, Edgar Simo-Serra*, Hiroshi Ishikawa. "Let there be Color!: Joint End-to-end Learning of Global and Local Image
Priors for Automatic Image Colorization with Simultaneous Classification", SIGGRAPH 2016. (*equal contribution)

モデル構造
15
20.60% 庭園
16.13% アーチ
13.50% 修道院
7.07% 植物園
6.53% ゴルフ場
推定シーン
輝度マップ
（入力画像）
統合レイヤ
モデル出力
大域特徴ベクトル

統合レイヤ
• 特徴マップに大域特徴ベクトルを統合
• どんなサイズの特徴マップにも大域特徴を統合可能
16
統合レイヤ
中レベル特徴抽出
ネットワーク
大域特徴抽出ネットワーク
= 𝜎 𝐛 + 𝑊
𝐲 𝑢,𝑣
fusion
𝐲global
𝐲 𝑢,𝑣
mid
統合レイヤ

結果
17
Mount Moran, 1941年 Berry Field, 1904年 Burns Basement, 1910年Norris Dam, 1933年

ユーザ入力付きの着色
• ユーザが指定した色を出力に反映するように学習
• 対話的な編集が可能に
18
[Zhang+ SIGGRAPH ’17] [Sangkloy+ CVPR ’17]
＋ユーザ入力
出力出力スケッチ
＋ユーザ入力

ユーザ入力の学習
• 入力を「グレイスケール画像＋カラー点」に
• 4チャンネル（𝐿 + 𝑎 + 𝑏 + 𝑚𝑎𝑠𝑘）
• もしくは単純にRGB
• 学習時はランダムに色をサンプリング
19
入力出力
[Zhang+ SIGGRAPH ’17]

• モデル構造
• 学習方法
20
画像補完

画像補完
• 画像の一部を穴埋め
• 不要物体の除去、遮蔽領域の生成、…
• CG/CV分野で昔から研究されてきたテーマ
21
入力画像不要物体の指定画像補完

従来のアプローチ
• パッチベース [Criminisi+ ’04; Wexler+ ’07; Simakov+ ’08;
Barnes+ ’09; Darabi+ ’12; Huang+ ’14]
• 小さな画像パッチを合成
• 大域的な構造を考慮できない
• 新しい物体をつくれない
22
入力
パッチベースの画像補完 [Barnes+ ’09]
出力出力入力

普通に学習できるのでは？
23
欠損画像補完画像
Fully
CNN
そんなに甘くない！ 

一般的な学習方法だと…
• ぼやけた画像しか作れない
• 平均二乗誤差（Mean Squared Error, MSE）を最小化
• 複雑な画像生成は困難
24
入力画像出力画像

“Globally and Locally Consistent Image
Completion” [Iizuka+ SIGGRAPH ’17]
• 2つの補助ネットワークを用いた敵対的学習による
補完ネットワークを提案
• 大域的・局所的に自然な画像補完
• 新しい物体を生成することも可能
25
入力画像補完結果入力画像補完結果
Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa. "Globally and Locally Consistent Image Completion", SIGGRAPH 2017.

• Generative Adversarial Nets (GAN) [Goodfellow+ NIPS ’15]
• データの分布を推定
• 生成器𝐺と識別器𝐷を戦わせるようにして交互に更新
• 鮮明な画像を生成可能
27
敵対的学習
ランダム
ベクトル
生成器
𝐺
識別器
𝐷
本物
or
偽物
データ

提案モデル
28
𝐻
2
×
𝑊
2
大域識別ネットワーク
局所識別ネットワーク
補完ネットワーク
画像
+
マスク
本物
or
補完
モデル出力
補完画像
Dilated Convolution

学習フレームワーク
• 補完ネットワークと識別ネットワークを交互に更新
• 敵対的学習＋MSEロス
29
補完
ネットワーク
大域・局所
識別ネットワーク
「騙す」ように学習
本物か補完画像かを
識別するように学習

異なる識別ネットワークによる
学習結果の比較
30
入力画像
平均二乗誤差（MSE） MSE + 大域識別ネットワーク
MSE + 局所識別ネットワーク MSE + 局所識別ネットワーク
+ 大域識別ネットワーク

結果：自然画像の補完
31

物体除去
32
入力画像不要物体の指定出力画像

• モデル構造
• 学習方法
33
自動線画化

• ラフスケッチを自動できれいな線画に
• ラフと線画の複雑な対応関係をFully CNNで学習
34
ラフスケッチの自動線画化
[Simo-Serra and Iizuka+ SIGGRAPH ’16]
・・・
ラフ線画
対応関係の学習
Edgar Simo-Serra*, Satoshi Iizuka*, Kazuma Sasaki, Hiroshi Ishikawa. "Learning to Simplify: Fully Convolutional Networks
for Rough Sketch Cleanup", SIGGRAPH 2016. (*equal contribution)

• ラフと線画が合っていない
• 大量に用意するのが難しい
35
教師データの難しさ
ラフスケッチと線画（赤線）

• 逆方向データ作成
• 線画からラフスケッチを作成
• 5人のイラストレーター、68枚（全然足りない！）
36
データセットの作成
元のデータ逆方向データ作成

• ラフのパターンを自動で増加
• トーン調整、ぶれ、汚れ（＋スケーリング、回転、
反転）
37
Sketch Data Augmentation
元画像トーン調整ぶれ汚れ

• 23層のFully CNN
• 出力と正解の平均二乗誤差が小さくなるように
38
学習の様子
入力画像出力画像
（学習経過デモ）
正解画像

39
結果
入力画像 Potrace Adobe Live Trace [Simo-Serra+ ‘16]

しかし…
• 実世界には大量のイラストデータが存在
• なんとか対応していないデータを学習できないか
40
さまざまなラフスケッチと線画

Adversarial Augmentation
[Simo-Serra and Iizuka+ TOG ’17]
• 敵対的学習を使って線画化の精度を向上
• 鮮明な線画を出力
• 教師ありデータと教師なしデータを同時に学習
41
入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
Edgar Simo-Serra*, Satoshi Iizuka*, Hiroshi Ishikawa. "Mastering Sketching: Adversarial Augmentation for Structured Prediction",
ACM Transaction on Graphics, 2017. (*equal contribution)

提案フレームワーク
42
ラフスケッチ線画
識別ネット線画化ネット
MSE
教師ありデータ
偽物
偽物
本物
本物
ラフスケッチ線画

結果（後処理なし）
43入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法

まとめ
• ディープラーニングの画像変換への応用を紹介
• モデル構造、学習方法、データセットの重要性
• 具体的な研究事例を解説
• 今後はより難しい問題がテーマに？
• 扱いやすい研究テーマはどんどんやられている
• 実用化にはまだ課題も多い
44

• 質問や感想などありましたらお願いします
• Email: iizuka@aoni.waseda.jp
• ホームページ： http://hi.cs.waseda.ac.jp/~iizuka/
45
ご清聴ありがとうございました

[IBIS2017 講演] ディープラーニングによる画像変換

More Related Content

What's hot

Similar to [IBIS2017 講演] ディープラーニングによる画像変換

[IBIS2017 講演] ディープラーニングによる画像変換