SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜イラストレーションやデザインの基礎から最新鋭の技術まで〜

SSII2022
コンテンツ制作を支援する
機械学習技術
2022.6.10
シモセラエドガー（早稲田大学）

自己紹介
https://esslab.jp
• 2015 年 7 月に BarcelonaTech で博士号を取得
• 2015 年 8 月から早稲田大学研究院助教
• 2017 年 4 月から同大学研究院講師
• 2018 年 4 月から科学技術振興機構さきがけ専任研究者
• 2018 年 9 月から早稲田大学情報理工学科
2

目次
• イラストレーションの課題
• ペン入れ
• データセットの作成方法
• 敵対的拡張
• 対話的ニューラルネットワーク
• 可変出力（ベクター画像）
• 彩色等
• 最適化
• デジタルパレット
• 陰影の近似
• 重要な技術
3

イラストレーションの課題

AI で生成されたアート
• Computers Do Not Make Art [Hertzmann 2020]
• アートはソーシャルアクティビティ
• コードやデータは人間が集める
• AI はアートを作れずにただのツール
• Christie で$432,500 の GAN を売買
4

なぜ・どうやって人が描く？
• ソーシャルアクティビティ
• 具体的なコンセプトを伝える
• 趣味や暇つぶし
• セラピー
• 仕事
• …
5

GAN の生成
• 制御しづらくて、思い通りに作れない
• イラストが難しくて汎化性能がない
6

問題と課題
• 評価方法（MSE 等が当てにならない）
• ユーザーの制御
• 高解像度
• 再現性・解釈性
• 高性能（ユーザーの希望に応える）
• リアルタイム（理想）
• 完成度
8

関連する技術
• 今日のチュートリアル
• 画像変換技術
• 微分可能レンダリング
• ヒューマンコンピュータインタラクション（HCI)
• 最適化
• 画像処理
9

線画化
ラフスケッチ目標線画ラフスケッチ目標線画
12

線画化の課題
• 課題
• 入力：ラフスケッチ、陰影、ベクター…
• 出力：ラスター画像出力とベクター画像出力、解像度…
• 手法：ニューラルネットワーク、グラフ …
• 評価方法： MSE、 SSIM、ユーザーテスト …
• 紹介する技術
• データセットの作成方法
• 敵対的拡張
• 対話的ニューラルネットワーク
• 可変出力（ベクター画像）
13

ペン入れ・データセットの作成方法

CNN で処理
• 23 層の全層畳み込みニューラルネットワーク
• エンコーダ・デコーダ型
Flat-convolution
Up-convolution
2
×
2
4
×
4
8
×
8 4
×
4
2
×
2
×
×
Down-convolution
14

通常のデータセットのの結果
• 簡単なモデルを定義
• データをちょっと揃えて学習させてみると
15

通常のデータセットのの結果
• 簡単なモデルを定義
• データをちょっと揃えて学習させてみるとぼやける
• ラフスケッチと正解データを合わせてみると
15

逆方向データ制作
• データの品質が重要
• ラフを線画化すると合わない（通常のデータ作成）
• 線画をラフ化するとぴったり（逆方向データ作成）
通常のデータ作成逆方向データ作成
16

データ拡大
• データセットは足りない
• 訓練データの画像をスケーリング
• 学習する間にランダムに回転と反転
• 入力画像をさらに加工：トーン調整、ぶれ、ノイズ
入力トーン調整ぶれノイズ
17

後処理のベクター化
• potrace でベクター化
• オープンソースのソフトウェア
• ハイパスフィルタと２値化
• 間違いを拡大する影響
入力出力ベクター
18

ペン入れ・敵対的拡張

データセットのビアス
学習データのペア一般のラフスケッチ
20

データセットのビアス
学習データのペア一般のラフスケッチ
• 教師ありデータ（線画とラフスケッチのペア）： ρx,y
• ラフスケッチデータ： ρx
• 線画データ： ρy
20

Generative Adversarial Network (GAN)
21

• D(·) は識別できるように最大化
max
D
Ey∗∼ρy
| {z }
本物データ
log D(y∗
) + Ez∼N(0,1)
| {z }
乱数
log(1 − D(G(z)))
21

• G(·) は D(·) を騙すように最小化
min
G
Ez∼N(0,1)
| {z }
乱数
log(1 − D(G(z)))
21

• G(·) は D(·) を騙すように最小化
• 順番で同時に学習
min
G
max
D
Ey∗∼ρy
| {z }
本物データ
log D(y∗
) + Ez∼N(0,1)
| {z }
乱数
log(1 − D(G(z)))
21

敵対的学習
min
S
教師あり
z }| {
E(x,y∗)∼ρx,y
通常教師ありロス
z }| {
kS(x) − y∗
k2
入力通常ロス
22

敵対的学習
min
S
max
D
教師あり
z }| {
E(x,y∗)∼ρx,y



z }| {
kS(x) − y∗
k2 +
教師あり敵対的ロス
z }| {
α log D(y∗
) + α log(1 − D(S(x)))



入力通常ロス + 敵対的ロス
22

敵対的学習
min
S
max
D
教師あり
z }| {
E(x,y∗)∼ρx,y



z }| {
kS(x) − y∗
k2 +
教師あり敵対的ロス
z }| {
α log D(y∗
) + α log(1 − D(S(x)))



+ β
線画
z }| {
Ey∼ρy [ log D(y) ] + β
ラフスケッチ
z }| {
Ex∼ρx [ log(1 − D(S(x))) ]
| {z }
教師なし敵対的ロス
入力通常ロス + 敵対的ロス + 教師なしロス
22

敵対的拡張
• 教師なしデータも使用可
• ハイパーパラメータ調整が困難
• Yan et al. 2020 のラフスケッチベンチマークで一位
0
0.001
0.002
0.003
0.004
0.005
0.006
0.007
DelaunayTriangulation
FidelitySimplicity
MasteringSketching
PolyVector
PolyVector
→StrokeAggregator
RealTimeInking
StrokeAggregator
TopologyDriven
TopologyDriven
→StrokeAggregator
Ours 23

ペン入れ・対話的ニューラルネット
ワーク

全自動の限界
入力従来手法
24

全自動の限界
入力従来手法
ユーザー編集通常消しゴム
24

全自動の限界
入力従来手法
ユーザー編集通常消しゴム提案手法
24

全自動の限界
“1. The inker’s main purpose is to translate the penciller’s graphite pencil lines
into reproducible, black, ink lines.
2. The inker must honor the penciller’s original intent while adjusting any obvious
mistakes.
3. The inker determines the look of the finished art.”
— Gary Martin, The Art of Comic Book Inking [1997]
24

対話的なニューラルネットワーク
Input Output
Model
25

対話的なニューラルネットワーク
Input Output
Model
User Edit
User
+
25

学習フレームワーク
1. 線画標準化
2. ユーザー編集のシミューレーション
Train
User Edit
Simulation
Smart
Inker
Training Data
Line
Normalization
0
0
Dataset
26

学習フレームワーク・線画標準化
1. 線画標準化
Train
User Edit
Simulation
Smart
Inker
Training Data
Line
Normalization
0
0
Dataset
27

ベクターデータから生成
学習
27

Input [Zhang and Suen 1984] Ours
27

• 敵対的学習を使わずにきれいな出力へ
Input No normalization Normalization
27

学習フレームワーク・ユーザー編集のシミューレーション
1. 線画標準化
Train
User Edit
Simulation
Smart
Inker
Training Data
Line
Normalization
0
0
Dataset
28

Input Data Pair
Line
Drawing
Rough
Sketch
28

Input Data Pair
Line
Drawing
Rough
Sketch
Sampled Regions 28

Input Data Pair
Line
Drawing
Rough
Sketch
Sampled Regions Add Edits and Noise 28

学習
L(y, y∗
) = |(y − y∗
)
| {z }
L1 loss

(1 + γ (1 − y∗
))
| {z }
Weight lines with γ
|
• L1 ロスを使用
• γ の重みで線に重視
103
104
105
103
104
105
103
104
105
103
104
105
Input [Simo-Serra+ 2016] Baseline Ours
©David Revoy www.davidrevoy.com 29

PCA でモデルの最適化
• PCA でそれぞれの層の出力を表示
• PCA の必要な次元数で層の必要なフィルター数を設定
• 最後の層より最初の層のほうが重要
1 2 3
64 96 128
1 2 3
128 256 512
1 2 3
64 96 128
layer3
layer7
layer11
1 2 3 1 2 3 1 2 3
Input Output
30

モデル
• エンコーダー・ディコーダー型 [Simo-Serra+ 2016]
• 24 レイヤーの全層畳み込みニューラルネットワーク
• フィルターの数を減少
• 約三倍の加速
Approach Parameters 10242
px 15122
px 20482
px 25602
px
Baseline 44,551,425 238.8ms 562.4ms 984.7ms 1.59s
Ours 12,795,169 89.9ms 225.5ms 382.7ms 592.9ms
31

データセット
• 288 枚のラフスケッチの線画のペアー
• 前の研究より難しいラフスケッチ
32

ユーザーテスト
• CLIP STUDIO PAINT EX との比較（作業時間）
• 10 人のユーザーに１０枚のラフスケッチずつ
• ぞれぞれのツール（CS、提案手法）で五枚処理
• 一人に付き 2.8 時間
• 提案手法が 1.8× 加速
ユーザーテストで使ったラフスケッチ
34

PT Ours
0
1000
2000
3000
Time
(s)
PT Ours
0
200
400
600
800
1000
Time
(s)
Time Input Amateur Experienced Edit Ours
©David Revoy www.davidrevoy.com
34

PT Ours
0
200
400
600
800
1000
Time
(s)
PT Ours
0
200
400
600
800
1000
Time
(s)
Time Input Amateur Experienced Edit Ours
©Krenz Cushart
34

対話的ニューラルネットワークのリミテーション
Input Automatic Edit Ours
35

ペン入れ・可変出力（ベクター画像）

ベクター画像
• 形を数学で定義
• 解像度を上げてもぼやけない
• 形を直接変更することが可能
• 問題点：作成が困難
36

提案手法
• 様々な画像に対応できるベクター線画化のフレームワーク
37

主なコントリビューション
• ラスター画像でのみ学習できるベクター線画家のフレームワーク
• どの解像度にも対応できるバーチャルペン
• ストローク正則化でベクター表現の単純化
38

フレームワーク
• 入力：ラスター画像
• 出力：ベクター画像（曲線のパラメータの集合）
• 問題：通常の CNN だと入力解像度が固定される
Neural
Network
Raster image Vector stroke parameters
39

ストロークとは
• 二次ベジェ曲線
B(τ) = (1 − τ)2
P0 + 2(1 − τ)τP1 + τ2
P2, τ ∈ [0, 1] (1)
• (0, 0) から描くので、 P0 = 0
• モデルの出力
at = xc, yc, ∆x, ∆y, w
| {z }
曲線のパラメータと幅 w
, ∆s, p

t
, t = 1, 2, ..., T (2)
• [−1, +1] の座標系
• ∆s は Canvas のスケール変更
• p ∈ [0, 1] は線を描くか移動だけするか決める変数
40

詳細
Stroke
Generation
Render
Input image Canvas
Stroke
parameters
Crop
Paste
41

バーチャルペン
Input image Canvas
42

バーチャルペン
Input image Canvas
No undrawn
pixels inside
42

微分可能コピーペーストとクロップ
• 座標は連続値なのに、画素は離散値
• 座標変更の後に RoIAlign [He et al. 2017] で解決
0 1 2 3 4 5
1
2
3
4
5
0 1 2
1
2
(a) Misaligned Cropping (c) Differentiable Pasting
(b) Aligned Cropping
0 1 2 3 4 5
1
2
3
4
5
43

微分化レンダーリング
• ベクターストロークからラスター画像を生成
• VGG16 を使用 [Simonyan and Zisserman 2015]
Neural
Network
Neural
Renderer
Raster
Loss
Input image Stroke parameters Rendered image
44

ラスターの損失関数
• VGG16 を使用 [Simonyan and Zisserman 2015]
Loss Network (VGG-16)
Rendered
image
Target
image
45

ストローク正則化
• ストロークを描くと pt = 1、ペンを動くだけだと pt = 0
• ストローク正則化： Lref = 1
T
PT
t=1 pt
• 損失関数に重みつけて足す： Ltotal = Lras + λregL
Target (a long line)
Output-1: short segments
Output-2: overlapped strokes
1 1 1 1 1 1 1 1 0 0 1 1
1 1
46

ベクター化の結果
75s 69s 29s (GPU)
Fidelity-vs-Simplicity
[Favreau et al. 2016]
PolyVectorization
[Bessmeltsev et al. 2019] Our results (vector)
Dracolion (1024px)
48

ベクター化の結果
Fidelity-vs-Simplicity
[Favreau et al. 2016]
PolyVectorization
[Bessmeltsev et al. 2019] Our results (vector)
Mouse (1024px)
89s 61s 23s (GPU)
48

ペン入れの結果
PolyVectorization
[Bessmeltsev et al. 2019]
Sketch Simplification (pixel)
[Simo-Serra et al. 2018]
+ PolyVectorization
Our results (vector)
Bird (384px)
50

ペン入れの結果
PolyVectorization
[Bessmeltsev et al. 2019]
Sketch Simplification (pixel)
[Simo-Serra et al. 2018]
+ PolyVectorization
Our results (vector)
Hand (433px)
50

顔写真の結果
Our results
(vector)
Input Learning-To-
Paint
[Huang et al.
2019]
Photo-Sketching
(pixel) +
PolyVectorization
Our results
(vector)
Input Learning-To-
Paint
[Huang et al.
2019]
Photo-Sketching
(pixel) +
PolyVectorization
52

• かぶっているストロークの減少
Input image
53

• ストロークの単純化
Input image
54

彩色の基礎
六色のパレット
線画彩色陰影
55

Lazy Brush
• 最適化問題として定義
E(c) =
X
{p,q}∈N
Vp,q(cp, cq)
| {z }
隣同士の画素の連続性
+
X
p∈P
Dp(cp)
| {z }
ユーザーヒント
• Multiway-cut で最適化
• ユーザー入力が正しいとしない前提
57

彩色・デジタルパレット

アーティストのパレット
• 最初に使用する色の選択
• 色を混ぜると新しい色を作れる
• 混ぜないと別々に保つ
58

オーバービュー
1. ユーザーの入力をクラスタリングで分ける（パレット作る）
2. 別々の色で自動彩色
3. 彩色の結果をまとめて統合する
59

モデル
32
64
128
256
512
1024
512
256
128
64
32
512
256
128
64
32
512
256
128
64 32
Line
drawing
X
( w ×h )
Split user
scribble
Ui
( w ×h ×4 )
Split user
scribble mask
Mi
( w ×h )
Flat
colour map
Y
( w ×h ×3 )
Flat merging
weight
Wi
*
( w ×h )
Region
skeleton map
S
( w ×h )
Convolution layer ReLU
Average pooling layer
Up-sampling layer
line drawing
X
split scribble
Ui
scribble mask
Mi
Y
Ci
Wi
*
Wi
S
Si
MSE
MSE
MSE
Weight
decoder
Region
decoder
Layer
decoder
Colourlayer
Mergingweight
Regionskeleton
60

実際の例①
(a) Input (b) Output
(c) Scribble
(d)
(e)
(f)
61

実際の例②
(e) Input (f) Output
(a) Scribble
(b)
(c)
(d)
62

モチベーション
Stroke Density Lighting Effects
35:24 200:01
Measured Estimated Ours Artist (Conditioned)
Original Image Stroke History
44:13 241:37
Artist (Unconditioned)
29:11 187:54
63

概要
Artists’ workflow
(b) Measured
stroke density
(c) Artist’s coarse
effect layer
(g) Effect created
with another style
(d) Artist’s refined
effect layer
(e) Visualization of
painted patches
(f) Artist’s final
lighting effect
Low Density Patches
High Density Patches
33:24 241:59
(a) Artist’s real
stroke history
(h) Original image
(R)
(i) Extracted palette
(M)
(j) Estimated stroke
density (K)
(k) Normalized
channel intensity (N)
(l) coarse
lighting effect (E)
(m) Refined lighting
effect (S)
(n) Output
(I)
Proposed algorithm
64

リミテーション
Lighting effects Ours
Original image
67

まとめに
• イラストレーションの支援が中々難しい
• ユーザーの制御
• 高解像度
• 再現性・解釈性
• 高性能（ユーザーの希望に応える）
• リアルタイム（理想）
• 完成度
• アプリケーションによる開発が必要
• CV や ML の技術の導入可
• 紹介したテーマ
• ペン入れ
• 彩色
68

SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜イラストレーションやデザインの基礎から最新鋭の技術まで〜

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜イラストレーションやデザインの基礎から最新鋭の技術まで〜

Similar to SSII2022 [TS3] コンテンツ制作を支援する機械学習技術〜イラストレーションやデザインの基礎から最新鋭の技術まで〜 (20)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (7)