飯塚里志
早稲田大学
IBIS2017
2017/11/10
自己紹介
• 飯塚里志(IIZUKA Satoshi)
• 早稲田大学 研究院講師
• 研究分野
• コンピュータグラフィクス、画像処理、コンピュータ
ビジョンなど
2
経年変化の再現 白黒写真の自動色付け
今日お話しする内容
• 画像を対象としたコンピュータグラフィクス(CG)
へのディープラーニングの応用
• どんな問題に使われている?
• 課題と解決策
• 具体例を紹介
• 白黒写真の自動色付け
• 画像補完
• ラフスケッチの線画化
3
今どんなことができている?
4
白黒写真の自動着色
ラフスケッチの線画化
画風転写
超解像
画像補完
ヘイズ除去
ディープラーニングによる画像処理
5
𝐹
学習
b
教師データ
…
ニューラルネットワーク
低解像度 高解像度
入力 出力
画像処理で重要な技術
• Fully Convolutional Neural Network
• すべての層が畳み込み層
• 目的の画像を直接出力
• Batch Normalization
• 各層をミニバッチ毎に正規化
• 深いネットワークの学習に必須
6
Semantic Segmentation [Noh+ CVPR ’15]
なぜ画像処理にCNN?
• 複雑な画像処理には高レベル特徴が重要
• 手動設計するのが困難
• CNNは複雑な特徴を学習可能
7
1層目 2層目 3層目 4層目
コーナー、エッジ、色
(低レベル特徴)
模様
(中レベル特徴)
犬の顔、鳥の足
(高レベル特徴)
“Visualizing and UnderstandingConvolutional Networks” [Zeiler+ ECCV ’14]
CNNの特徴マップを利用した画像変換手法も
8
入力画像
スタイル画像
𝐹
学習済みCNN
(ここでは学習を行わない)
各層の特徴マップの類似度を
考慮して入力画像を更新
更新
“Image Style Transfer Using Convolutional Neural Networks” [Gatys+ CVPR ’16]
入力
入力
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
9
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
10
白黒写真の自動着色
ディープラーニングによる画像着色
11
𝐿 𝑎𝑏
グレイスケール画像
輝度𝐿
カラー情報
彩度𝑎𝑏
CNN
𝑓
教師データの作成は容易
• カラー画像をグレイスケールに変換するだけ
• 自動で大規模なデータセットを作成可能
12
グレイスケール
変換
カラー画像
(いくらでも用意可能)
この変換を学習
グレイスケール画像
自動着色を実現するためには
• 各領域が何であるか
• セグメンテーション+認識
• それが何色であるか
• 葉っぱなら緑、空なら青など
• 大域的な情報も重要
• シーンの認識
13
空
木
水
壁
空?
天井?
これらを学習できる
モデルを考える
Fully CNNによる着色
大域特徴と局所特徴による自動着色
[Iizuka and Simo-Serra+ SIGGRAPH ’16]
• 大域特徴と局所特徴を同時に学習し、色付けを行う
畳み込みネットワークモデルを提案
14
入力画像
Fully CNN
(大域情報なし)
提案手法
Satoshi Iizuka*, Edgar Simo-Serra*, Hiroshi Ishikawa. "Let there be Color!: Joint End-to-end Learning of Global and Local Image
Priors for Automatic Image Colorization with Simultaneous Classification", SIGGRAPH 2016. (*equal contribution)
モデル構造
15
20.60% 庭園
16.13% アーチ
13.50% 修道院
7.07% 植物園
6.53% ゴルフ場
推定シーン
輝度マップ
(入力画像)
統合レイヤ
モデル出力
大域特徴ベクトル
統合レイヤ
• 特徴マップに大域特徴ベクトルを統合
• どんなサイズの特徴マップにも大域特徴を統合可能
16
統合レイヤ
中レベル特徴抽出
ネットワーク
大域特徴抽出ネットワーク
= 𝜎 𝐛 + 𝑊
𝐲 𝑢,𝑣
fusion
𝐲global
𝐲 𝑢,𝑣
mid
統合レイヤ
結果
17
Mount Moran, 1941年 Berry Field, 1904年 Burns Basement, 1910年Norris Dam, 1933年
ユーザ入力付きの着色
• ユーザが指定した色を出力に反映するように学習
• 対話的な編集が可能に
18
[Zhang+ SIGGRAPH ’17] [Sangkloy+ CVPR ’17]
グレイスケール画像
+ ユーザ入力
出力 出力スケッチ
+ ユーザ入力
ユーザ入力の学習
• 入力を「グレイスケール画像+カラー点」に
• 4チャンネル(𝐿 + 𝑎 + 𝑏 + 𝑚𝑎𝑠𝑘)
• もしくは単純にRGB
• 学習時はランダムに色をサンプリング
19
入力 出力
[Zhang+ SIGGRAPH ’17]
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
20
画像補完
画像補完
• 画像の一部を穴埋め
• 不要物体の除去、遮蔽領域の生成、…
• CG/CV分野で昔から研究されてきたテーマ
21
入力画像 不要物体の指定 画像補完
従来のアプローチ
• パッチベース [Criminisi+ ’04; Wexler+ ’07; Simakov+ ’08;
Barnes+ ’09; Darabi+ ’12; Huang+ ’14]
• 小さな画像パッチを合成
• 大域的な構造を考慮できない
• 新しい物体をつくれない
22
入力
パッチベースの画像補完 [Barnes+ ’09]
出力 出力入力
普通に学習できるのでは?
23
欠損画像 補完画像
Fully
CNN
そんなに甘くない! 
一般的な学習方法だと…
• ぼやけた画像しか作れない
• 平均二乗誤差(Mean Squared Error, MSE)を最小化
• 複雑な画像生成は困難
24
入力画像 出力画像
“Globally and Locally Consistent Image
Completion” [Iizuka+ SIGGRAPH ’17]
• 2つの補助ネットワークを用いた敵対的学習による
補完ネットワークを提案
• 大域的・局所的に自然な画像補完
• 新しい物体を生成することも可能
25
入力画像 補完結果 入力画像 補完結果
Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa. "Globally and Locally Consistent Image Completion", SIGGRAPH 2017.
デモ動画
26
• Generative Adversarial Nets (GAN) [Goodfellow+ NIPS ’15]
• データの分布を推定
• 生成器𝐺と識別器𝐷を戦わせるようにして交互に更新
• 鮮明な画像を生成可能
27
敵対的学習
ランダム
ベクトル
生成器
𝐺
識別器
𝐷
本物
or
偽物
データ
提案モデル
28
𝐻
2
×
𝑊
2
大域識別ネットワーク
局所識別ネットワーク
補完ネットワーク
画像
+
マスク
本物
or
補完
モデル出力
補完画像
Dilated Convolution
学習フレームワーク
• 補完ネットワークと識別ネットワークを交互に更新
• 敵対的学習+MSEロス
29
補完
ネットワーク
大域・局所
識別ネットワーク
「騙す」ように学習
本物か補完画像かを
識別するように学習
異なる識別ネットワークによる
学習結果の比較
30
入力画像
平均二乗誤差(MSE) MSE + 大域識別ネットワーク
MSE + 局所識別ネットワーク MSE + 局所識別ネットワーク
+ 大域識別ネットワーク
結果:自然画像の補完
31
物体除去
32
入力画像 不要物体の指定 出力画像
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
33
自動線画化
• ラフスケッチを自動できれいな線画に
• ラフと線画の複雑な対応関係をFully CNNで学習
34
ラフスケッチの自動線画化
[Simo-Serra and Iizuka+ SIGGRAPH ’16]
・・・
ラフ 線画
対応関係の学習
Edgar Simo-Serra*, Satoshi Iizuka*, Kazuma Sasaki, Hiroshi Ishikawa. "Learning to Simplify: Fully Convolutional Networks
for Rough Sketch Cleanup", SIGGRAPH 2016. (*equal contribution)
• ラフと線画が合っていない
• 大量に用意するのが難しい
35
教師データの難しさ
ラフスケッチと線画(赤線)
• 逆方向データ作成
• 線画からラフスケッチを作成
• 5人のイラストレーター、68枚(全然足りない!)
36
データセットの作成
元のデータ 逆方向データ作成
• ラフのパターンを自動で増加
• トーン調整、ぶれ、汚れ(+スケーリング、回転、
反転)
37
Sketch Data Augmentation
元画像 トーン調整 ぶれ 汚れ
• 23層のFully CNN
• 出力と正解の平均二乗誤差が小さくなるように
38
学習の様子
入力画像 出力画像
(学習経過デモ)
正解画像
39
結果
入力画像 Potrace Adobe Live Trace [Simo-Serra+ ‘16]
しかし…
• 実世界には大量のイラストデータが存在
• なんとか対応していないデータを学習できないか
40
さまざまなラフスケッチと線画
Adversarial Augmentation
[Simo-Serra and Iizuka+ TOG ’17]
• 敵対的学習を使って線画化の精度を向上
• 鮮明な線画を出力
• 教師ありデータと教師なしデータを同時に学習
41
入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
Edgar Simo-Serra*, Satoshi Iizuka*, Hiroshi Ishikawa. "Mastering Sketching: Adversarial Augmentation for Structured Prediction",
ACM Transaction on Graphics, 2017. (*equal contribution)
提案フレームワーク
42
ラフスケッチ 線画
識別ネット線画化ネット
MSE
教師ありデータ
偽物
偽物
本物
本物
ラフスケッチ 線画
結果(後処理なし)
43入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
まとめ
• ディープラーニングの画像変換への応用を紹介
• モデル構造、学習方法、データセットの重要性
• 具体的な研究事例を解説
• 今後はより難しい問題がテーマに?
• 扱いやすい研究テーマはどんどんやられている
• 実用化にはまだ課題も多い
44
• 質問や感想などありましたらお願いします
• Email: iizuka@aoni.waseda.jp
• ホームページ: http://hi.cs.waseda.ac.jp/~iizuka/
45
ご清聴ありがとうございました

[IBIS2017 講演] ディープラーニングによる画像変換