SlideShare a Scribd company logo
1 of 26
SANSAN DSOC主催
画像処理 勉強会
サイバーエージェント
下田 和
自己紹介
● CyberAgent, AI lab
○ 下田 和
● 経歴
○ 電気通信大学 柳生研究室 B4~D3
○ 学術振興会 特別研究員 DC1
○ 今年度4月からサイバーエージェント入社
● 専門
○ Computer Vision
■ 弱教師あり領域分割
■ 食事画像認識
ECCV 2016
Distinct class specific saliency map
Backward可視化+弱教師あり領域分割
ICCV 2019
Self-supervised difference detection
自己教師あり変化領域の推論+弱教師あり領域分割
CyberAgentでの研究
● クリエイティブリサーチグループ所属
● 経済学グループ
● 対話ロボットグループ
● クリエイティブリサーチグループ
○ 広告に関連する研究
■ 画像認識
■ 動画認識
■ 3Dモデルから動画生成
■ 音声認識
近年のクリエイティブに関連する研究
● 生成系
○ DCGAN
■ ICLR 2016
○ BigGAN
■ ICLR 2019
○ GauGAN(Spade)
■ CVPR 2019
■ コントローラブルな生成モデルへ
DCGAN BigGAN
GauGAN
注目している生成系に関連する研究の動向
● Vector representation
○ Controllable, Editable, Scalable
● Raster image
○ ピクセルの集合による画像表現
● Vector image
○ 図形などによる幾何的な表現の集合による画像表現
注目している生成系に関連する研究の動向
● Image vectorization
○ 直線検出
■ ハフ変換
○ Ardeco(parametric gradients)
■ Symposium on Rendering, 2006
○ Photo2ClipArt
■ SIGGRAPH Asia 2017
Ardeco
Photo2ClipArt
注目している生成系に関連する研究の動向
● Deep SVG
○ SVG
■ Scalable vector graphics
■ XMLベースの二次元ベクターデータ
○ Vector representationの生成モデル
DeepSVG: A Hierarchical Generative Network for
Vector Graphics Animation
Alexandre Carlier and Martin Danelljan and Alexandre Alahi and Radu Timofte
ETH Zurich
https://arxiv.org/abs/2007.11301
NIPS 2021 採択
Vector graphicsについての生成モデル
VAEでPathを生成する潜在空間を学習
Previous work: autoregressive(SketchRNN)
- 逐次的な処理によりパスを生成
This work: non-autoregressive
- 一発でパスを生成
Approach
SVG-Icons8 dataset
From https://icons8.com/
100,000 アイコン, 56 カテゴリ
シンプルなPathとして描画可能なように処理済み
SVG data structure
Vector graphics :pathの集合.
V = {P1, P2, …, PN}
Pathの表現
P = (S, f, v)
● S = {C1, C2, …, CN}: drawing commands (移動、繋げる、閉じるなど)
● f ∈ {0, 1, 2}: fill property(消す、塗る、枠だけ)
● v ∈ {0, 1}: visibility(パスの描画の有無)
SVG drawing commands: C = (command, args)
SVG representation
SVG embedding
Command embedding
drawing commandsの種類
6-d categorical
● move-to, line-to, ...
Coordinate embedding
座標についての情報
concat of 6 * (256 + 1)-d
categorical
● x, y, qx1, qy1, ...
Index embedding
順序についての情報
one-hot for j-th element
● dj
DeepSVG概要
Encoder
E(1): pathを個別にエンコード
E(2): Average pooling+パスの集合をエンコード
position encoding +
average pool to consider
permutation invarianceTransformer-blocks x4
Decoder
Index embeddings
Latent vector
Transformer-blocks x4
Cross entropy losses
ロス
visibility loss fill loss command loss arguments loss
全体のロス関数
デコードしたPathとGround truthの対応について
Strategy 1: Ordered assignment
(事前に定義)
Lexicographic order of the starting location of
the paths
Strategy 2: Hungarian assignment
(自動でマッチング)
Find the best possible assignment π in terms
of loss
Experiment
Human study: 内挿のクオリティ
Autoregressive baseline
One-stage baseline
DeepSVG (Hungarian)
DeepSVG (Ordered)
Autoregressive baseline
One-stage baseline
DeepSVG (Hungarian)
DeepSVG (Ordered)
Human study
潜在空間の内挿によるアニメーション
Between a pair of icons Between two user-drawn
frames
Latent space algebra
(“create” & “squarify”)
GIF animations from https://blog.alexandrecarlier.com/deepsvg/
Font生成
SVG-Fonts datasetにおけるフォントの生成結果
Fill property可視化
Summary
DeepSVG: Hierarchical generative model for vector graphics
● SVG-Icons8 dataset
● SVGフォーマットにおけるPathの生成モデルを提案
● 提案手法を実験的に評価
Github: https://github.com/alexandre01/deepsvg
Project site: https://blog.alexandrecarlier.com/deepsvg/

More Related Content

Similar to deep svgの紹介

ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するTakahito Tejima
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationYamato OKAMOTO
 
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjp
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjpExcel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjp
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjpTakeshi Komiya
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-Xcvpaper. challenge
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
実務者のためのかんたんScalaz
実務者のためのかんたんScalaz実務者のためのかんたんScalaz
実務者のためのかんたんScalazTomoharu ASAMI
 
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017Kazuyuki Arimatsu
 
SVGでつくるインタラクティブWebアプリケーション
SVGでつくるインタラクティブWebアプリケーションSVGでつくるインタラクティブWebアプリケーション
SVGでつくるインタラクティブWebアプリケーションKohei Kadowaki
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 

Similar to deep svgの紹介 (12)

ピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築するピクサー USD 入門 新たなコンテンツパイプラインを構築する
ピクサー USD 入門 新たなコンテンツパイプラインを構築する
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
SEA-KANSAI #43
SEA-KANSAI #43SEA-KANSAI #43
SEA-KANSAI #43
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic Segmentation
 
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjp
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjpExcel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjp
Excel 方眼紙撲滅委員会 活動報告 2012.09 #pyconjp
 
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
【CVPR 2020 メタサーベイ】3D From a Single Image and Shape-From-X
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
実務者のためのかんたんScalaz
実務者のためのかんたんScalaz実務者のためのかんたんScalaz
実務者のためのかんたんScalaz
 
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017
TensorFlow Object Detection API を使った取り組み@つくばチャレンジ2017
 
SVGでつくるインタラクティブWebアプリケーション
SVGでつくるインタラクティブWebアプリケーションSVGでつくるインタラクティブWebアプリケーション
SVGでつくるインタラクティブWebアプリケーション
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 

deep svgの紹介