Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[IBIS2017 講演] ディープラーニングによる画像変換

2,253 views

Published on

第20回情報論的学習理論ワークショップ(IBIS2017)の企画セッション「画像処理への機械学習の応用」での講演資料です。

Published in: Technology

[IBIS2017 講演] ディープラーニングによる画像変換

  1. 1. 飯塚里志 早稲田大学 IBIS2017 2017/11/10
  2. 2. 自己紹介 • 飯塚里志(IIZUKA Satoshi) • 早稲田大学 研究院講師 • 研究分野 • コンピュータグラフィクス、画像処理、コンピュータ ビジョンなど 2 経年変化の再現 白黒写真の自動色付け
  3. 3. 今日お話しする内容 • 画像を対象としたコンピュータグラフィクス(CG) へのディープラーニングの応用 • どんな問題に使われている? • 課題と解決策 • 具体例を紹介 • 白黒写真の自動色付け • 画像補完 • ラフスケッチの線画化 3
  4. 4. 今どんなことができている? 4 白黒写真の自動着色 ラフスケッチの線画化 画風転写 超解像 画像補完 ヘイズ除去
  5. 5. ディープラーニングによる画像処理 5 𝐹 学習 b 教師データ … ニューラルネットワーク 低解像度 高解像度 入力 出力
  6. 6. 画像処理で重要な技術 • Fully Convolutional Neural Network • すべての層が畳み込み層 • 目的の画像を直接出力 • Batch Normalization • 各層をミニバッチ毎に正規化 • 深いネットワークの学習に必須 6 Semantic Segmentation [Noh+ CVPR ’15]
  7. 7. なぜ画像処理にCNN? • 複雑な画像処理には高レベル特徴が重要 • 手動設計するのが困難 • CNNは複雑な特徴を学習可能 7 1層目 2層目 3層目 4層目 コーナー、エッジ、色 (低レベル特徴) 模様 (中レベル特徴) 犬の顔、鳥の足 (高レベル特徴) “Visualizing and UnderstandingConvolutional Networks” [Zeiler+ ECCV ’14]
  8. 8. CNNの特徴マップを利用した画像変換手法も 8 入力画像 スタイル画像 𝐹 学習済みCNN (ここでは学習を行わない) 各層の特徴マップの類似度を 考慮して入力画像を更新 更新 “Image Style Transfer Using Convolutional Neural Networks” [Gatys+ CVPR ’16] 入力 入力
  9. 9. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 9
  10. 10. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 10 白黒写真の自動着色
  11. 11. ディープラーニングによる画像着色 11 𝐿 𝑎𝑏 グレイスケール画像 輝度𝐿 カラー情報 彩度𝑎𝑏 CNN 𝑓
  12. 12. 教師データの作成は容易 • カラー画像をグレイスケールに変換するだけ • 自動で大規模なデータセットを作成可能 12 グレイスケール 変換 カラー画像 (いくらでも用意可能) この変換を学習 グレイスケール画像
  13. 13. 自動着色を実現するためには • 各領域が何であるか • セグメンテーション+認識 • それが何色であるか • 葉っぱなら緑、空なら青など • 大域的な情報も重要 • シーンの認識 13 空 木 水 壁 空? 天井? これらを学習できる モデルを考える Fully CNNによる着色
  14. 14. 大域特徴と局所特徴による自動着色 [Iizuka and Simo-Serra+ SIGGRAPH ’16] • 大域特徴と局所特徴を同時に学習し、色付けを行う 畳み込みネットワークモデルを提案 14 入力画像 Fully CNN (大域情報なし) 提案手法 Satoshi Iizuka*, Edgar Simo-Serra*, Hiroshi Ishikawa. "Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification", SIGGRAPH 2016. (*equal contribution)
  15. 15. モデル構造 15 20.60% 庭園 16.13% アーチ 13.50% 修道院 7.07% 植物園 6.53% ゴルフ場 推定シーン 輝度マップ (入力画像) 統合レイヤ モデル出力 大域特徴ベクトル
  16. 16. 統合レイヤ • 特徴マップに大域特徴ベクトルを統合 • どんなサイズの特徴マップにも大域特徴を統合可能 16 統合レイヤ 中レベル特徴抽出 ネットワーク 大域特徴抽出ネットワーク = 𝜎 𝐛 + 𝑊 𝐲 𝑢,𝑣 fusion 𝐲global 𝐲 𝑢,𝑣 mid 統合レイヤ
  17. 17. 結果 17 Mount Moran, 1941年 Berry Field, 1904年 Burns Basement, 1910年Norris Dam, 1933年
  18. 18. ユーザ入力付きの着色 • ユーザが指定した色を出力に反映するように学習 • 対話的な編集が可能に 18 [Zhang+ SIGGRAPH ’17] [Sangkloy+ CVPR ’17] グレイスケール画像 + ユーザ入力 出力 出力スケッチ + ユーザ入力
  19. 19. ユーザ入力の学習 • 入力を「グレイスケール画像+カラー点」に • 4チャンネル(𝐿 + 𝑎 + 𝑏 + 𝑚𝑎𝑠𝑘) • もしくは単純にRGB • 学習時はランダムに色をサンプリング 19 入力 出力 [Zhang+ SIGGRAPH ’17]
  20. 20. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 20 画像補完
  21. 21. 画像補完 • 画像の一部を穴埋め • 不要物体の除去、遮蔽領域の生成、… • CG/CV分野で昔から研究されてきたテーマ 21 入力画像 不要物体の指定 画像補完
  22. 22. 従来のアプローチ • パッチベース [Criminisi+ ’04; Wexler+ ’07; Simakov+ ’08; Barnes+ ’09; Darabi+ ’12; Huang+ ’14] • 小さな画像パッチを合成 • 大域的な構造を考慮できない • 新しい物体をつくれない 22 入力 パッチベースの画像補完 [Barnes+ ’09] 出力 出力入力
  23. 23. 普通に学習できるのでは? 23 欠損画像 補完画像 Fully CNN そんなに甘くない! 
  24. 24. 一般的な学習方法だと… • ぼやけた画像しか作れない • 平均二乗誤差(Mean Squared Error, MSE)を最小化 • 複雑な画像生成は困難 24 入力画像 出力画像
  25. 25. “Globally and Locally Consistent Image Completion” [Iizuka+ SIGGRAPH ’17] • 2つの補助ネットワークを用いた敵対的学習による 補完ネットワークを提案 • 大域的・局所的に自然な画像補完 • 新しい物体を生成することも可能 25 入力画像 補完結果 入力画像 補完結果 Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa. "Globally and Locally Consistent Image Completion", SIGGRAPH 2017.
  26. 26. デモ動画 26
  27. 27. • Generative Adversarial Nets (GAN) [Goodfellow+ NIPS ’15] • データの分布を推定 • 生成器𝐺と識別器𝐷を戦わせるようにして交互に更新 • 鮮明な画像を生成可能 27 敵対的学習 ランダム ベクトル 生成器 𝐺 識別器 𝐷 本物 or 偽物 データ
  28. 28. 提案モデル 28 𝐻 2 × 𝑊 2 大域識別ネットワーク 局所識別ネットワーク 補完ネットワーク 画像 + マスク 本物 or 補完 モデル出力 補完画像 Dilated Convolution
  29. 29. 学習フレームワーク • 補完ネットワークと識別ネットワークを交互に更新 • 敵対的学習+MSEロス 29 補完 ネットワーク 大域・局所 識別ネットワーク 「騙す」ように学習 本物か補完画像かを 識別するように学習
  30. 30. 異なる識別ネットワークによる 学習結果の比較 30 入力画像 平均二乗誤差(MSE) MSE + 大域識別ネットワーク MSE + 局所識別ネットワーク MSE + 局所識別ネットワーク + 大域識別ネットワーク
  31. 31. 結果:自然画像の補完 31
  32. 32. 物体除去 32 入力画像 不要物体の指定 出力画像
  33. 33. 目的の画像変換を実現するための課題 • モデル構造 • どんな変換? • どんな特徴が必要? • 学習方法 • 一般的なロス関数で学習 できない場合は? • データセット • データが少ない場合は? • E.g., イラスト 33 自動線画化
  34. 34. • ラフスケッチを自動できれいな線画に • ラフと線画の複雑な対応関係をFully CNNで学習 34 ラフスケッチの自動線画化 [Simo-Serra and Iizuka+ SIGGRAPH ’16] ・・・ ラフ 線画 対応関係の学習 Edgar Simo-Serra*, Satoshi Iizuka*, Kazuma Sasaki, Hiroshi Ishikawa. "Learning to Simplify: Fully Convolutional Networks for Rough Sketch Cleanup", SIGGRAPH 2016. (*equal contribution)
  35. 35. • ラフと線画が合っていない • 大量に用意するのが難しい 35 教師データの難しさ ラフスケッチと線画(赤線)
  36. 36. • 逆方向データ作成 • 線画からラフスケッチを作成 • 5人のイラストレーター、68枚(全然足りない!) 36 データセットの作成 元のデータ 逆方向データ作成
  37. 37. • ラフのパターンを自動で増加 • トーン調整、ぶれ、汚れ(+スケーリング、回転、 反転) 37 Sketch Data Augmentation 元画像 トーン調整 ぶれ 汚れ
  38. 38. • 23層のFully CNN • 出力と正解の平均二乗誤差が小さくなるように 38 学習の様子 入力画像 出力画像 (学習経過デモ) 正解画像
  39. 39. 39 結果 入力画像 Potrace Adobe Live Trace [Simo-Serra+ ‘16]
  40. 40. しかし… • 実世界には大量のイラストデータが存在 • なんとか対応していないデータを学習できないか 40 さまざまなラフスケッチと線画
  41. 41. Adversarial Augmentation [Simo-Serra and Iizuka+ TOG ’17] • 敵対的学習を使って線画化の精度を向上 • 鮮明な線画を出力 • 教師ありデータと教師なしデータを同時に学習 41 入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法 Edgar Simo-Serra*, Satoshi Iizuka*, Hiroshi Ishikawa. "Mastering Sketching: Adversarial Augmentation for Structured Prediction", ACM Transaction on Graphics, 2017. (*equal contribution)
  42. 42. 提案フレームワーク 42 ラフスケッチ 線画 識別ネット線画化ネット MSE 教師ありデータ 偽物 偽物 本物 本物 ラフスケッチ 線画
  43. 43. 結果(後処理なし) 43入力画像 [Simo-Serra and Iizuka+ ’16] 提案手法
  44. 44. まとめ • ディープラーニングの画像変換への応用を紹介 • モデル構造、学習方法、データセットの重要性 • 具体的な研究事例を解説 • 今後はより難しい問題がテーマに? • 扱いやすい研究テーマはどんどんやられている • 実用化にはまだ課題も多い 44
  45. 45. • 質問や感想などありましたらお願いします • Email: iizuka@aoni.waseda.jp • ホームページ: http://hi.cs.waseda.ac.jp/~iizuka/ 45 ご清聴ありがとうございました

×