Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
飯塚里志
早稲田大学
IBIS2017
2017/11/10
自己紹介
• 飯塚里志(IIZUKA Satoshi)
• 早稲田大学 研究院講師
• 研究分野
• コンピュータグラフィクス、画像処理、コンピュータ
ビジョンなど
2
経年変化の再現 白黒写真の自動色付け
今日お話しする内容
• 画像を対象としたコンピュータグラフィクス(CG)
へのディープラーニングの応用
• どんな問題に使われている?
• 課題と解決策
• 具体例を紹介
• 白黒写真の自動色付け
• 画像補完
• ラフスケッチの線画化
3
今どんなことができている?
4
白黒写真の自動着色
ラフスケッチの線画化
画風転写
超解像
画像補完
ヘイズ除去
ディープラーニングによる画像処理
5
𝐹
学習
b
教師データ
…
ニューラルネットワーク
低解像度 高解像度
入力 出力
画像処理で重要な技術
• Fully Convolutional Neural Network
• すべての層が畳み込み層
• 目的の画像を直接出力
• Batch Normalization
• 各層をミニバッチ毎に正規化
• 深いネットワー...
なぜ画像処理にCNN?
• 複雑な画像処理には高レベル特徴が重要
• 手動設計するのが困難
• CNNは複雑な特徴を学習可能
7
1層目 2層目 3層目 4層目
コーナー、エッジ、色
(低レベル特徴)
模様
(中レベル特徴)
犬の顔、鳥の足
(...
CNNの特徴マップを利用した画像変換手法も
8
入力画像
スタイル画像
𝐹
学習済みCNN
(ここでは学習を行わない)
各層の特徴マップの類似度を
考慮して入力画像を更新
更新
“Image Style Transfer Using Convo...
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
9
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
10
白黒写真の自...
ディープラーニングによる画像着色
11
𝐿 𝑎𝑏
グレイスケール画像
輝度𝐿
カラー情報
彩度𝑎𝑏
CNN
𝑓
教師データの作成は容易
• カラー画像をグレイスケールに変換するだけ
• 自動で大規模なデータセットを作成可能
12
グレイスケール
変換
カラー画像
(いくらでも用意可能)
この変換を学習
グレイスケール画像
自動着色を実現するためには
• 各領域が何であるか
• セグメンテーション+認識
• それが何色であるか
• 葉っぱなら緑、空なら青など
• 大域的な情報も重要
• シーンの認識
13
空
木
水
壁
空?
天井?
これらを学習できる
モデルを...
大域特徴と局所特徴による自動着色
[Iizuka and Simo-Serra+ SIGGRAPH ’16]
• 大域特徴と局所特徴を同時に学習し、色付けを行う
畳み込みネットワークモデルを提案
14
入力画像
Fully CNN
(大域情報な...
モデル構造
15
20.60% 庭園
16.13% アーチ
13.50% 修道院
7.07% 植物園
6.53% ゴルフ場
推定シーン
輝度マップ
(入力画像)
統合レイヤ
モデル出力
大域特徴ベクトル
統合レイヤ
• 特徴マップに大域特徴ベクトルを統合
• どんなサイズの特徴マップにも大域特徴を統合可能
16
統合レイヤ
中レベル特徴抽出
ネットワーク
大域特徴抽出ネットワーク
= 𝜎 𝐛 + 𝑊
𝐲 𝑢,𝑣
fusion
𝐲global
𝐲...
結果
17
Mount Moran, 1941年 Berry Field, 1904年 Burns Basement, 1910年Norris Dam, 1933年
ユーザ入力付きの着色
• ユーザが指定した色を出力に反映するように学習
• 対話的な編集が可能に
18
[Zhang+ SIGGRAPH ’17] [Sangkloy+ CVPR ’17]
グレイスケール画像
+ ユーザ入力
出力 出力スケッチ...
ユーザ入力の学習
• 入力を「グレイスケール画像+カラー点」に
• 4チャンネル(𝐿 + 𝑎 + 𝑏 + 𝑚𝑎𝑠𝑘)
• もしくは単純にRGB
• 学習時はランダムに色をサンプリング
19
入力 出力
[Zhang+ SIGGRAPH ’17]
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
20
画像補完
画像補完
• 画像の一部を穴埋め
• 不要物体の除去、遮蔽領域の生成、…
• CG/CV分野で昔から研究されてきたテーマ
21
入力画像 不要物体の指定 画像補完
従来のアプローチ
• パッチベース [Criminisi+ ’04; Wexler+ ’07; Simakov+ ’08;
Barnes+ ’09; Darabi+ ’12; Huang+ ’14]
• 小さな画像パッチを合成
• 大域的な構造...
普通に学習できるのでは?
23
欠損画像 補完画像
Fully
CNN
そんなに甘くない! 
一般的な学習方法だと…
• ぼやけた画像しか作れない
• 平均二乗誤差(Mean Squared Error, MSE)を最小化
• 複雑な画像生成は困難
24
入力画像 出力画像
“Globally and Locally Consistent Image
Completion” [Iizuka+ SIGGRAPH ’17]
• 2つの補助ネットワークを用いた敵対的学習による
補完ネットワークを提案
• 大域的・局所的に...
デモ動画
26
• Generative Adversarial Nets (GAN) [Goodfellow+ NIPS ’15]
• データの分布を推定
• 生成器𝐺と識別器𝐷を戦わせるようにして交互に更新
• 鮮明な画像を生成可能
27
敵対的学習
ラン...
提案モデル
28
𝐻
2
×
𝑊
2
大域識別ネットワーク
局所識別ネットワーク
補完ネットワーク
画像
+
マスク
本物
or
補完
モデル出力
補完画像
Dilated Convolution
学習フレームワーク
• 補完ネットワークと識別ネットワークを交互に更新
• 敵対的学習+MSEロス
29
補完
ネットワーク
大域・局所
識別ネットワーク
「騙す」ように学習
本物か補完画像かを
識別するように学習
異なる識別ネットワークによる
学習結果の比較
30
入力画像
平均二乗誤差(MSE) MSE + 大域識別ネットワーク
MSE + 局所識別ネットワーク MSE + 局所識別ネットワーク
+ 大域識別ネットワーク
結果:自然画像の補完
31
物体除去
32
入力画像 不要物体の指定 出力画像
目的の画像変換を実現するための課題
• モデル構造
• どんな変換?
• どんな特徴が必要?
• 学習方法
• 一般的なロス関数で学習
できない場合は?
• データセット
• データが少ない場合は?
• E.g., イラスト
33
自動線画化
• ラフスケッチを自動できれいな線画に
• ラフと線画の複雑な対応関係をFully CNNで学習
34
ラフスケッチの自動線画化
[Simo-Serra and Iizuka+ SIGGRAPH ’16]
・・・
ラフ 線画
対応関係の学習
E...
• ラフと線画が合っていない
• 大量に用意するのが難しい
35
教師データの難しさ
ラフスケッチと線画(赤線)
• 逆方向データ作成
• 線画からラフスケッチを作成
• 5人のイラストレーター、68枚(全然足りない!)
36
データセットの作成
元のデータ 逆方向データ作成
• ラフのパターンを自動で増加
• トーン調整、ぶれ、汚れ(+スケーリング、回転、
反転)
37
Sketch Data Augmentation
元画像 トーン調整 ぶれ 汚れ
• 23層のFully CNN
• 出力と正解の平均二乗誤差が小さくなるように
38
学習の様子
入力画像 出力画像
(学習経過デモ)
正解画像
39
結果
入力画像 Potrace Adobe Live Trace [Simo-Serra+ ‘16]
しかし…
• 実世界には大量のイラストデータが存在
• なんとか対応していないデータを学習できないか
40
さまざまなラフスケッチと線画
Adversarial Augmentation
[Simo-Serra and Iizuka+ TOG ’17]
• 敵対的学習を使って線画化の精度を向上
• 鮮明な線画を出力
• 教師ありデータと教師なしデータを同時に学習
41
入力画像 ...
提案フレームワーク
42
ラフスケッチ 線画
識別ネット線画化ネット
MSE
教師ありデータ
偽物
偽物
本物
本物
ラフスケッチ 線画
結果(後処理なし)
43入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
まとめ
• ディープラーニングの画像変換への応用を紹介
• モデル構造、学習方法、データセットの重要性
• 具体的な研究事例を解説
• 今後はより難しい問題がテーマに?
• 扱いやすい研究テーマはどんどんやられている
• 実用化にはまだ課題も多...
• 質問や感想などありましたらお願いします
• Email: iizuka@aoni.waseda.jp
• ホームページ: http://hi.cs.waseda.ac.jp/~iizuka/
45
ご清聴ありがとうございました
Upcoming SlideShare
Loading in …5
×

8

Share

Download to read offline

[IBIS2017 講演] ディープラーニングによる画像変換

Download to read offline

第20回情報論的学習理論ワークショップ(IBIS2017)の企画セッション「画像処理への機械学習の応用」での講演資料です。

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

[IBIS2017 講演] ディープラーニングによる画像変換

  1. 1. 飯塚里志 早稲田大学 IBIS2017 2017/11/10
  2. 2. 自己紹介 • 飯塚里志(IIZUKA Satoshi) • 早稲田大学 研究院講師 • 研究分野 • コンピュータグラフィクス、画像処理、コンピュータ ビジョンなど 2 経年変化の再現 白黒写真の自動色付け
  3. 3. 今日お話しする内容 • 画像を対象としたコンピュータグラフィクス(CG) へのディープラーニングの応用 • どんな問題に使われている? • 課題と解決策 • 具体例を紹介 • 白黒写真の自動色付け • 画像補完 • ラフスケッチの線画化 3
  4. 4. 今どんなことができている? 4 白黒写真の自動着色 ラフスケッチの線画化 画風転写 超解像 画像補完 ヘイズ除去
  5. 5. ディープラーニングによる画像処理 5 𝐹 学習 b 教師データ … ニューラルネットワーク 低解像度 高解像度 入力 出力
  6. 6. 画像処理で重要な技術 • Fully Convolutional Neural Network • すべての層が畳み込み層 • 目的の画像を直接出力 • Batch Normalization • 各層をミニバッチ毎に正規化 • 深いネットワークの学習に必須 6 Semantic Segmentation [Noh+ CVPR ’15]
  7. 7. なぜ画像処理にCNN? • 複雑な画像処理には高レベル特徴が重要 • 手動設計するのが困難 • CNNは複雑な特徴を学習可能 7 1層目 2層目 3層目 4層目 コーナー、エッジ、色 (低レベル特徴) 模様 (中レベル特徴) 犬の顔、鳥の足 (高レベル特徴) “Visualizing and UnderstandingConvolutional Networks” [Zeiler+ ECCV ’14]
  8. 8. CNNの特徴マップを利用した画像変換手法も 8 入力画像 スタイル画像 𝐹 学習済みCNN (ここでは学習を行わない) 各層の特徴マップの類似度を 考慮して入力画像を更新 更新 “Image Style Transfer Using Convolutional Neural Networks” [Gatys+ CVPR ’16] 入力 入力
  9. 9. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 9
  10. 10. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 10 白黒写真の自動着色
  11. 11. ディープラーニングによる画像着色 11 𝐿 𝑎𝑏 グレイスケール画像 輝度𝐿 カラー情報 彩度𝑎𝑏 CNN 𝑓
  12. 12. 教師データの作成は容易 • カラー画像をグレイスケールに変換するだけ • 自動で大規模なデータセットを作成可能 12 グレイスケール 変換 カラー画像 (いくらでも用意可能) この変換を学習 グレイスケール画像
  13. 13. 自動着色を実現するためには • 各領域が何であるか • セグメンテーション+認識 • それが何色であるか • 葉っぱなら緑、空なら青など • 大域的な情報も重要 • シーンの認識 13 空 木 水 壁 空? 天井? これらを学習できる モデルを考える Fully CNNによる着色
  14. 14. 大域特徴と局所特徴による自動着色 [Iizuka and Simo-Serra+ SIGGRAPH ’16] • 大域特徴と局所特徴を同時に学習し、色付けを行う 畳み込みネットワークモデルを提案 14 入力画像 Fully CNN (大域情報なし) 提案手法 Satoshi Iizuka*, Edgar Simo-Serra*, Hiroshi Ishikawa. "Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification", SIGGRAPH 2016. (*equal contribution)
  15. 15. モデル構造 15 20.60% 庭園 16.13% アーチ 13.50% 修道院 7.07% 植物園 6.53% ゴルフ場 推定シーン 輝度マップ (入力画像) 統合レイヤ モデル出力 大域特徴ベクトル
  16. 16. 統合レイヤ • 特徴マップに大域特徴ベクトルを統合 • どんなサイズの特徴マップにも大域特徴を統合可能 16 統合レイヤ 中レベル特徴抽出 ネットワーク 大域特徴抽出ネットワーク = 𝜎 𝐛 + 𝑊 𝐲 𝑢,𝑣 fusion 𝐲global 𝐲 𝑢,𝑣 mid 統合レイヤ
  17. 17. 結果 17 Mount Moran, 1941年 Berry Field, 1904年 Burns Basement, 1910年Norris Dam, 1933年
  18. 18. ユーザ入力付きの着色 • ユーザが指定した色を出力に反映するように学習 • 対話的な編集が可能に 18 [Zhang+ SIGGRAPH ’17] [Sangkloy+ CVPR ’17] グレイスケール画像 + ユーザ入力 出力 出力スケッチ + ユーザ入力
  19. 19. ユーザ入力の学習 • 入力を「グレイスケール画像+カラー点」に • 4チャンネル(𝐿 + 𝑎 + 𝑏 + 𝑚𝑎𝑠𝑘) • もしくは単純にRGB • 学習時はランダムに色をサンプリング 19 入力 出力 [Zhang+ SIGGRAPH ’17]
  20. 20. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 20 画像補完
  21. 21. 画像補完 • 画像の一部を穴埋め • 不要物体の除去、遮蔽領域の生成、… • CG/CV分野で昔から研究されてきたテーマ 21 入力画像 不要物体の指定 画像補完
  22. 22. 従来のアプローチ • パッチベース [Criminisi+ ’04; Wexler+ ’07; Simakov+ ’08; Barnes+ ’09; Darabi+ ’12; Huang+ ’14] • 小さな画像パッチを合成 • 大域的な構造を考慮できない • 新しい物体をつくれない 22 入力 パッチベースの画像補完 [Barnes+ ’09] 出力 出力入力
  23. 23. 普通に学習できるのでは? 23 欠損画像 補完画像 Fully CNN そんなに甘くない! 
  24. 24. 一般的な学習方法だと… • ぼやけた画像しか作れない • 平均二乗誤差(Mean Squared Error, MSE)を最小化 • 複雑な画像生成は困難 24 入力画像 出力画像
  25. 25. “Globally and Locally Consistent Image Completion” [Iizuka+ SIGGRAPH ’17] • 2つの補助ネットワークを用いた敵対的学習による 補完ネットワークを提案 • 大域的・局所的に自然な画像補完 • 新しい物体を生成することも可能 25 入力画像 補完結果 入力画像 補完結果 Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa. "Globally and Locally Consistent Image Completion", SIGGRAPH 2017.
  26. 26. デモ動画 26
  27. 27. • Generative Adversarial Nets (GAN) [Goodfellow+ NIPS ’15] • データの分布を推定 • 生成器𝐺と識別器𝐷を戦わせるようにして交互に更新 • 鮮明な画像を生成可能 27 敵対的学習 ランダム ベクトル 生成器 𝐺 識別器 𝐷 本物 or 偽物 データ
  28. 28. 提案モデル 28 𝐻 2 × 𝑊 2 大域識別ネットワーク 局所識別ネットワーク 補完ネットワーク 画像 + マスク 本物 or 補完 モデル出力 補完画像 Dilated Convolution
  29. 29. 学習フレームワーク • 補完ネットワークと識別ネットワークを交互に更新 • 敵対的学習+MSEロス 29 補完 ネットワーク 大域・局所 識別ネットワーク 「騙す」ように学習 本物か補完画像かを 識別するように学習
  30. 30. 異なる識別ネットワークによる 学習結果の比較 30 入力画像 平均二乗誤差(MSE) MSE + 大域識別ネットワーク MSE + 局所識別ネットワーク MSE + 局所識別ネットワーク + 大域識別ネットワーク
  31. 31. 結果:自然画像の補完 31
  32. 32. 物体除去 32 入力画像 不要物体の指定 出力画像
  33. 33. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 33 自動線画化
  34. 34. • ラフスケッチを自動できれいな線画に • ラフと線画の複雑な対応関係をFully CNNで学習 34 ラフスケッチの自動線画化 [Simo-Serra and Iizuka+ SIGGRAPH ’16] ・・・ ラフ 線画 対応関係の学習 Edgar Simo-Serra*, Satoshi Iizuka*, Kazuma Sasaki, Hiroshi Ishikawa. "Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup", SIGGRAPH 2016. (*equal contribution)
  35. 35. • ラフと線画が合っていない • 大量に用意するのが難しい 35 教師データの難しさ ラフスケッチと線画(赤線)
  36. 36. • 逆方向データ作成 • 線画からラフスケッチを作成 • 5人のイラストレーター、68枚(全然足りない!) 36 データセットの作成 元のデータ 逆方向データ作成
  37. 37. • ラフのパターンを自動で増加 • トーン調整、ぶれ、汚れ(+スケーリング、回転、 反転) 37 Sketch Data Augmentation 元画像 トーン調整 ぶれ 汚れ
  38. 38. • 23層のFully CNN • 出力と正解の平均二乗誤差が小さくなるように 38 学習の様子 入力画像 出力画像 (学習経過デモ) 正解画像
  39. 39. 39 結果 入力画像 Potrace Adobe Live Trace [Simo-Serra+ ‘16]
  40. 40. しかし… • 実世界には大量のイラストデータが存在 • なんとか対応していないデータを学習できないか 40 さまざまなラフスケッチと線画
  41. 41. Adversarial Augmentation [Simo-Serra and Iizuka+ TOG ’17] • 敵対的学習を使って線画化の精度を向上 • 鮮明な線画を出力 • 教師ありデータと教師なしデータを同時に学習 41 入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法 Edgar Simo-Serra*, Satoshi Iizuka*, Hiroshi Ishikawa. "Mastering Sketching: Adversarial Augmentation for Structured Prediction", ACM Transaction on Graphics, 2017. (*equal contribution)
  42. 42. 提案フレームワーク 42 ラフスケッチ 線画 識別ネット線画化ネット MSE 教師ありデータ 偽物 偽物 本物 本物 ラフスケッチ 線画
  43. 43. 結果(後処理なし) 43入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
  44. 44. まとめ • ディープラーニングの画像変換への応用を紹介 • モデル構造、学習方法、データセットの重要性 • 具体的な研究事例を解説 • 今後はより難しい問題がテーマに? • 扱いやすい研究テーマはどんどんやられている • 実用化にはまだ課題も多い 44
  45. 45. • 質問や感想などありましたらお願いします • Email: iizuka@aoni.waseda.jp • ホームページ: http://hi.cs.waseda.ac.jp/~iizuka/ 45 ご清聴ありがとうございました
  • DaisukeHirahara

    Jul. 3, 2019
  • none53

    Oct. 28, 2018
  • cindyflower

    Mar. 21, 2018
  • NaokiOkabe

    Dec. 19, 2017
  • tamanobi

    Nov. 27, 2017
  • youtga

    Nov. 22, 2017
  • Tyee

    Nov. 21, 2017
  • YutaroUeno1

    Nov. 21, 2017

第20回情報論的学習理論ワークショップ(IBIS2017)の企画セッション「画像処理への機械学習の応用」での講演資料です。

Views

Total views

4,353

On Slideshare

0

From embeds

0

Number of embeds

255

Actions

Downloads

51

Shares

0

Comments

0

Likes

8

×