Toward Disentanglement through Understand ELBOKai-Wen Zhao
Disentangled representation is the holy grail for representation learning which factorizes human-understandable factors in unsupervised way what help us move forward to interpretable machine learning.
StarGAN is a method for multi-domain image-to-image translation using a single model. It uses an adversarial loss with gradient penalty to train the discriminator. The generator is trained to translate images to different domains based on a target label, reconstruct the original image, and minimize classification and adversarial losses. StarGAN can be trained on multiple datasets by using mask vectors to ignore unknown domain labels. It achieves high quality image translation across different facial attributes and expressions.
About Unsupervised Image-to-Image TranslationMehdi Shibahara
Short introduction I did at work of Nvidia's paper on Unsupervised Image-to-Image Translation. Use VAE-GAN to transform daytime images to night time, or cats to tigers!
발표자: 박태성 (UC Berkeley 박사과정)
발표일: 2017.6.
Taesung Park is a Ph.D. student at UC Berkeley in AI and computer vision, advised by Prof. Alexei Efros.
His research interest lies between computer vision and computational photography, such as generating realistic images or enhancing photo qualities. He received B.S. in mathematics and M.S. in computer science from Stanford University.
개요:
Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs.
However, for many tasks, paired training data will not be available.
We present an approach for learning to translate an image from a source domain X to a target domain Y in the absence of paired examples.
Our goal is to learn a mapping G: X → Y such that the distribution of images from G(X) is indistinguishable from the distribution Y using an adversarial loss.
Because this mapping is highly under-constrained, we couple it with an inverse mapping F: Y → X and introduce a cycle consistency loss to push F(G(X)) ≈ X (and vice versa).
Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc.
Quantitative comparisons against several prior methods demonstrate the superiority of our approach.
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
Deep Q-learning from Demonstrations DQfDAmmar Rashed
Deep Q-learning from Demonstrations (DQfD) is a method that leverages expert demonstrations to accelerate deep Q-learning. It pre-trains the Q-network solely on demonstration data using supervised learning and reinforcement learning losses. During interaction with the environment, it continues to update the network using demonstration data in the replay buffer. DQfD outperformed the worst and best demonstrations in many games and achieved state-of-the-art performance in some games, demonstrating that it can leverage demonstrations to solve problems more efficiently than alternative methods.
SinGAN - Learning a Generative Model from a Single Natural ImageJishnu P
SinGAN is a generative adversarial network (GAN) that can learn the distribution of a single natural image and generate new realistic samples from that image distribution. Unlike other GANs that require large datasets, SinGAN only needs a single image for training. It uses a multi-scale architecture with multiple generators and discriminators at different scales. SinGAN was shown to generate high quality samples for tasks like super resolution, image editing, and animation from a single image. It also has some failure cases like generating unrealistic samples at the boundaries.
Toward Disentanglement through Understand ELBOKai-Wen Zhao
Disentangled representation is the holy grail for representation learning which factorizes human-understandable factors in unsupervised way what help us move forward to interpretable machine learning.
StarGAN is a method for multi-domain image-to-image translation using a single model. It uses an adversarial loss with gradient penalty to train the discriminator. The generator is trained to translate images to different domains based on a target label, reconstruct the original image, and minimize classification and adversarial losses. StarGAN can be trained on multiple datasets by using mask vectors to ignore unknown domain labels. It achieves high quality image translation across different facial attributes and expressions.
About Unsupervised Image-to-Image TranslationMehdi Shibahara
Short introduction I did at work of Nvidia's paper on Unsupervised Image-to-Image Translation. Use VAE-GAN to transform daytime images to night time, or cats to tigers!
발표자: 박태성 (UC Berkeley 박사과정)
발표일: 2017.6.
Taesung Park is a Ph.D. student at UC Berkeley in AI and computer vision, advised by Prof. Alexei Efros.
His research interest lies between computer vision and computational photography, such as generating realistic images or enhancing photo qualities. He received B.S. in mathematics and M.S. in computer science from Stanford University.
개요:
Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs.
However, for many tasks, paired training data will not be available.
We present an approach for learning to translate an image from a source domain X to a target domain Y in the absence of paired examples.
Our goal is to learn a mapping G: X → Y such that the distribution of images from G(X) is indistinguishable from the distribution Y using an adversarial loss.
Because this mapping is highly under-constrained, we couple it with an inverse mapping F: Y → X and introduce a cycle consistency loss to push F(G(X)) ≈ X (and vice versa).
Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc.
Quantitative comparisons against several prior methods demonstrate the superiority of our approach.
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
Deep Q-learning from Demonstrations DQfDAmmar Rashed
Deep Q-learning from Demonstrations (DQfD) is a method that leverages expert demonstrations to accelerate deep Q-learning. It pre-trains the Q-network solely on demonstration data using supervised learning and reinforcement learning losses. During interaction with the environment, it continues to update the network using demonstration data in the replay buffer. DQfD outperformed the worst and best demonstrations in many games and achieved state-of-the-art performance in some games, demonstrating that it can leverage demonstrations to solve problems more efficiently than alternative methods.
SinGAN - Learning a Generative Model from a Single Natural ImageJishnu P
SinGAN is a generative adversarial network (GAN) that can learn the distribution of a single natural image and generate new realistic samples from that image distribution. Unlike other GANs that require large datasets, SinGAN only needs a single image for training. It uses a multi-scale architecture with multiple generators and discriminators at different scales. SinGAN was shown to generate high quality samples for tasks like super resolution, image editing, and animation from a single image. It also has some failure cases like generating unrealistic samples at the boundaries.
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
오사카 대학 박사과정인 Takato Horii군이 작성한 자료
데이터 생성 모델로 우수한 GAN을 이용하여 비지도학습을 통해
"알기쉬게" 이미지의 정보를 표현하는 특징량을 "간단하게"획득하기
* 특징이 서로 얽혀있는 Physical space에서 서로 독립적인 Eigen space로 변환하는 것과 같은 원리
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...Taiji Suzuki
Presentation slide of our ICLR2021 paper "Benefit of deep learning with non-convex noisy gradient descent: Provable excess risk bound and superiority to kernel methods."
Abstract:
Establishing a theoretical analysis that explains why deep learning can outperform shallow learning such as kernel methods is one of the biggest issues in the deep learning literature. Towards answering this question, we evaluate excess risk of a deep learning estimator trained by a noisy gradient descent with ridge regularization on a mildly overparameterized neural network, and discuss its superiority to a class of linear estimators that includes neural tangent kernel approach, random feature model, other kernel methods, k-NN estimator and so on. We consider a teacher-student regression model, and eventually show that {\it any} linear estimator can be outperformed by deep learning in a sense of the minimax optimal rate especially for a high dimension setting. The obtained excess bounds are so-called fast learning rate which is faster than O(1/\sqrt{n}) that is obtained by usual Rademacher complexity analysis. This discrepancy is induced by the non-convex geometry of the model and the noisy gradient descent used for neural network training provably reaches a near global optimal solution even though the loss landscape is highly non-convex. Although the noisy gradient descent does not employ any explicit or implicit sparsity inducing regularization, it shows a preferable generalization performance that dominates linear estimators.
The document summarizes the policy gradient theorem, which provides a way to perform policy improvement in reinforcement learning using gradient ascent on the expected returns with respect to the policy parameters. It begins by motivating policy gradients as a way to do policy improvement when the action space is large or continuous. It then defines the necessary notation, expected returns objective function, and discounted state visitation measure. The main part of the document proves the policy gradient theorem, which expresses the policy gradient as an expectation over the discounted state visitation measure and action-value function. It notes that in practice the action-value function must be estimated, and proves the compatible function approximation theorem, which ensures the policy gradient is computed correctly when using an estimated action-value
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
Generative Adversarial Networks (GANs) are a class of machine learning frameworks where two neural networks contest with each other in a game. A generator network generates new data instances, while a discriminator network evaluates them for authenticity, classifying them as real or generated. This adversarial process allows the generator to improve over time and generate highly realistic samples that can pass for real data. The document provides an overview of GANs and their variants, including DCGAN, InfoGAN, EBGAN, and ACGAN models. It also discusses techniques for training more stable GANs and escaping issues like mode collapse.
PR-409: Denoising Diffusion Probabilistic ModelsHyeongmin Lee
이번 논문은 요즘 핫한 Diffusion을 처음으로 유행시킨 Denoising Diffusion Probabilistic Models (DDPM) 입니다. ICML 2015년에 처음 제안된 Diffusion의 여러 실용적인 측면들을 멋지게 해결하여 그 유행의 시작을 알린 논문인데요, Generative Model의 여러 분야와 Diffusion, 그리고 DDPM에서는 무엇이 바뀌었는지 알아보도록 하겠습니다.
논문 링크: https://arxiv.org/abs/2006.11239
영상 링크: https://youtu.be/1j0W_lu55nc
A short presentation on the emerging research on normalizing flows. The presentations follows two recent survey papers on the topic:
[1] Kobyzev, Ivan, Simon Prince, and Marcus Brubaker. Normalizing flows: An introduction and review of current methods, T-PAMI 2020.
[2] Papamakarios, George, Eric Nalisnick, Danilo Jimenez Rezende, Shakir Mohamed, and Balaji Lakshminarayanan. Normalizing flows for probabilistic modeling and inference, arXiv preprint arXiv:1912.02762 (2019).
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
Mask R-CNN extends Faster R-CNN by adding a branch for predicting segmentation masks in parallel with bounding box recognition and classification. It introduces a new layer called RoIAlign to address misalignment issues in the RoIPool layer of Faster R-CNN. RoIAlign improves mask accuracy by 10-50% by removing quantization and properly aligning extracted features. Mask R-CNN runs at 5fps with only a small overhead compared to Faster R-CNN.
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...Deep Learning JP
1. The document discusses a research paper on speech enhancement using a convolutional gated recurrent network (CGRN) and ordered neuron long short-term memory (ON-LSTM).
2. The proposed method aims to improve speech quality by incorporating both time and frequency dependencies using CGRN, and handling noise with varying change rates using ON-LSTM.
3. CGRN replaces fully-connected layers with convolutions, allowing it to capture local spatial structures in the frequency domain. ON-LSTM groups neurons based on the change rate of internal information to model hierarchical representations.
발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
오사카 대학 박사과정인 Takato Horii군이 작성한 자료
데이터 생성 모델로 우수한 GAN을 이용하여 비지도학습을 통해
"알기쉬게" 이미지의 정보를 표현하는 특징량을 "간단하게"획득하기
* 특징이 서로 얽혀있는 Physical space에서 서로 독립적인 Eigen space로 변환하는 것과 같은 원리
[ICLR2021 (spotlight)] Benefit of deep learning with non-convex noisy gradien...Taiji Suzuki
Presentation slide of our ICLR2021 paper "Benefit of deep learning with non-convex noisy gradient descent: Provable excess risk bound and superiority to kernel methods."
Abstract:
Establishing a theoretical analysis that explains why deep learning can outperform shallow learning such as kernel methods is one of the biggest issues in the deep learning literature. Towards answering this question, we evaluate excess risk of a deep learning estimator trained by a noisy gradient descent with ridge regularization on a mildly overparameterized neural network, and discuss its superiority to a class of linear estimators that includes neural tangent kernel approach, random feature model, other kernel methods, k-NN estimator and so on. We consider a teacher-student regression model, and eventually show that {\it any} linear estimator can be outperformed by deep learning in a sense of the minimax optimal rate especially for a high dimension setting. The obtained excess bounds are so-called fast learning rate which is faster than O(1/\sqrt{n}) that is obtained by usual Rademacher complexity analysis. This discrepancy is induced by the non-convex geometry of the model and the noisy gradient descent used for neural network training provably reaches a near global optimal solution even though the loss landscape is highly non-convex. Although the noisy gradient descent does not employ any explicit or implicit sparsity inducing regularization, it shows a preferable generalization performance that dominates linear estimators.
The document summarizes the policy gradient theorem, which provides a way to perform policy improvement in reinforcement learning using gradient ascent on the expected returns with respect to the policy parameters. It begins by motivating policy gradients as a way to do policy improvement when the action space is large or continuous. It then defines the necessary notation, expected returns objective function, and discounted state visitation measure. The main part of the document proves the policy gradient theorem, which expresses the policy gradient as an expectation over the discounted state visitation measure and action-value function. It notes that in practice the action-value function must be estimated, and proves the compatible function approximation theorem, which ensures the policy gradient is computed correctly when using an estimated action-value
This document introduces the deep reinforcement learning model 'A3C' by Japanese.
Original literature is "Asynchronous Methods for Deep Reinforcement Learning" written by V. Mnih, et. al.
Generative Adversarial Networks (GANs) are a class of machine learning frameworks where two neural networks contest with each other in a game. A generator network generates new data instances, while a discriminator network evaluates them for authenticity, classifying them as real or generated. This adversarial process allows the generator to improve over time and generate highly realistic samples that can pass for real data. The document provides an overview of GANs and their variants, including DCGAN, InfoGAN, EBGAN, and ACGAN models. It also discusses techniques for training more stable GANs and escaping issues like mode collapse.
PR-409: Denoising Diffusion Probabilistic ModelsHyeongmin Lee
이번 논문은 요즘 핫한 Diffusion을 처음으로 유행시킨 Denoising Diffusion Probabilistic Models (DDPM) 입니다. ICML 2015년에 처음 제안된 Diffusion의 여러 실용적인 측면들을 멋지게 해결하여 그 유행의 시작을 알린 논문인데요, Generative Model의 여러 분야와 Diffusion, 그리고 DDPM에서는 무엇이 바뀌었는지 알아보도록 하겠습니다.
논문 링크: https://arxiv.org/abs/2006.11239
영상 링크: https://youtu.be/1j0W_lu55nc
A short presentation on the emerging research on normalizing flows. The presentations follows two recent survey papers on the topic:
[1] Kobyzev, Ivan, Simon Prince, and Marcus Brubaker. Normalizing flows: An introduction and review of current methods, T-PAMI 2020.
[2] Papamakarios, George, Eric Nalisnick, Danilo Jimenez Rezende, Shakir Mohamed, and Balaji Lakshminarayanan. Normalizing flows for probabilistic modeling and inference, arXiv preprint arXiv:1912.02762 (2019).
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
Mask R-CNN extends Faster R-CNN by adding a branch for predicting segmentation masks in parallel with bounding box recognition and classification. It introduces a new layer called RoIAlign to address misalignment issues in the RoIPool layer of Faster R-CNN. RoIAlign improves mask accuracy by 10-50% by removing quantization and properly aligning extracted features. Mask R-CNN runs at 5fps with only a small overhead compared to Faster R-CNN.
【DL輪読会】Incorporating group update for speech enhancement based on convolutio...Deep Learning JP
1. The document discusses a research paper on speech enhancement using a convolutional gated recurrent network (CGRN) and ordered neuron long short-term memory (ON-LSTM).
2. The proposed method aims to improve speech quality by incorporating both time and frequency dependencies using CGRN, and handling noise with varying change rates using ON-LSTM.
3. CGRN replaces fully-connected layers with convolutions, allowing it to capture local spatial structures in the frequency domain. ON-LSTM groups neurons based on the change rate of internal information to model hierarchical representations.
발표자: 곽동현(서울대 박사과정, 현 NAVER Clova)
강화학습(Reinforcement learning)의 개요 및 최근 Deep learning 기반의 RL 트렌드를 소개합니다.
발표영상:
http://tv.naver.com/v/2024376
https://youtu.be/dw0sHzE1oAc
- Lock-based and timestamp-based protocols are two main approaches for concurrency control in database systems to achieve atomicity, consistency, isolation, and durability (ACID) properties of transactions.
- Lock-based protocols use locking mechanisms to control concurrent access to data and can cause deadlocks between transactions waiting for locks. Timestamp-based protocols assign timestamps to transactions and check for conflicts based on timestamp ordering to guarantee serializability without waits but lack recoverability.
- Deadlocks are addressed through prevention, detection using wait-for graphs, and resolution by rolling back the minimum number of transactions to break cycles while avoiding starvation.
The document discusses different types of indexing and hashing techniques used in databases. It covers ordered indices like B-trees and B+ trees, which store search keys in order. It also covers hashing techniques like static hashing and dynamic hashing using extendable hash structures. The document provides examples of how these indexing structures work and compares the performance and characteristics of ordered indexing versus hashing. Bitmap indices are also introduced as an efficient technique for multi-attribute queries.
This document discusses multilayer perceptrons (MLPs), also known as neural networks. It covers the architecture of MLPs including fully connected layers and commonly used activation functions. It also discusses error functions like mean squared error and cross-entropy that are used in MLPs to optimize weights during training. Gradient descent is introduced as an algorithm to apply to MLPs for optimizing weights to minimize the error function.
Coursera Machine Learning으로 기계학습 배우기 : week1Kwangsik Lee
필자가 코세라 강의를 정주행 하였는데 학습과정에서 한글로 정리한 슬라이드를 공유할까 합니다. 목적은 영어로 강의하는 코세라 강의를 보실 때 참고하시거나 강의를 따로 안보시더라도 슬라이드 내용만으로도 참고하시면 좋을듯 합니다.
온라인 발행물로는 아래 링크 참고하시면 됩니다.
http://www.kwangsiklee.com/2017/07/corsera-machine-learning-week1-%EC%A0%95%EB%A6%AC/
15. pix2pix의 한계점 #2
흑백사진 -> 컬러도 마찬가지임
이런 현상이 발생하는 이유는 loss를 막기 위해 흑백이 아닌 색
깔을 모델이 선택을 하는데 이때 색깔값에 대한 가이드라인이
따로 없기 때문에 모델이 중간값을 고르는 경향이 나타남
16. pix2pix의 Intuition
여기서 중요한 Intuition은 아래와 같다.
사람이 보기에는 output과 Ground Truth의 차이가 명확히 눈에
보인다. 즉 사람은 결과의 구별(discrimination)할 수 있다.
사람이 구별할 수 있으면 딥러닝으로도 구별할수 있지 않을까?
사람 대신에 다른 뉴럴 네트워크가 이 역할을 하게 만들어보자.
18. 우리가 GAN을 사용하는 목적
우리의 목적은 흑백사진 입력을 컬러사진으로 만드는 것이고
이 때 Generator 네트워크를 이용한다.
Generator를 G라 부른다.
19. GAN 네트워크 구성
GAN에서는 D를 새로 만들어 G가 real인지 fake인지 구별하게끔
만든다.
즉 두 네 트워크의 미션은 아래와 같다.
D는 fake를 구별하려 한다.
G는 fake image로 D를 속이려 한다.
20. GAN 네트워크 수식 정의 : D함수
D의 입장에서 0에 가까우면 real, 1에 가까우면 fake로 구별한다.
그러면 D의 입장에서 loss 정의는 아래와 같이 할 수 있다.
logD(G(x))를 통해 G가 만들어내는 결과는 1(fake)에 가
깝게 만든다
log(1 − D(y))를 통해 실제 정답 이미지는 0(real)에 가깝
게 만든다.
21. GAN 네트워크 수식 정의 : G함수
마찬가지로 G의 입장에서는 D와 반대로 argMin을 하면 된다.
logD(G(x))를 통해 G가 만들어내는 결과는 0(real)에 가깝게
만든다
log(1 − D(y))를 통해 실제 정답 이미지는 1(fake)에 가깝게
만든다.
22. GAN 네트워크 수식 정의 : 전체수식
수식을 함께 적으면 아래와 같다.
G 입장에서는 D를 가장 잘 속이는 이미지를 만들어내야 한다.
23. GAN에 대한 간단한 이해
G의 관점에는 D가 loss function이다.
이를 통해 G와 D를 경쟁관계로 만드는게 GAN의 장점이다.
26. pix2pix의 또다른 한계점
pix2pix처럼 흑백을 컬러사진으로 바꾸는 것은 데이터셋을 구성
하기 쉽다.
하지만 현실세계에서는 항상 학습을 위한 데이터셋을 구성하기
쉬운게 아니다.
(예를 들어 모네의 실제 그림과 실물 이미지를 1000장 구성하려
면?)
27. CycleGAN이 하고자 하는 것
예를 들어 모네의 그림과 실제 사진으로 바꾸는 작업을 학습시
킨다고 해보자.
완전히 똑같이 않은 원하는 style의 사진은 쉽게 구할 수 있다.
28. 기존의 GAN Loss를 CycleGAN에서도 사용할수 있을까?
생각해보면 GAN Loss는 동일하게 사용할 수 있음
29. GAN Loss만 사용했을때의 문제점
하지만 서로 다른 사진이 같은 target 이미지로 generation 될수
있는 여지를 막을 수 없음
즉 아래의 2가지 문제점이 있음
Input의 특성이 무시되고
같은 Output으로 매몰될 여지가 있음
30. CycleGAN의 Loss 컨셉
핵심 컨셉 : 따라서 추가적인 loss의 조건은 원본 이미지로
reconstruct 되게끔 강제하는 것이다.
즉, 이 의미는 사진의 style을 바꾸는데 다시 원래 그림으로 복구
가능한 정도로만 바꾸라는 뜻이다.
31. CycleGAN의 Loss 함수
기존 GAN Loss는 유지한다.
추가적으로 생긴 loss는 가짜이미지를 다시 genration한 이미지
와 기존 원본 이미지 x의 loss가 최소화 되어야 한다는 것이다.
마치 pix2pix의 pixel level difference를 추가해준 개념이다.
32. 자 따라서 아래의 loss 함수로 위의 역할을 수행할 수 있게 되었
다.
다음 슬라이드에서 조금만 더 Loss에 대해 생각해보자.
33. 반대방향 학습
같은 맥락으로 반대 방향의 학습도 가능하다. F가 G의 역함수 개
념이니까 이게 가능하다.
예를들어, 바로 위의 학습이 모네 그림 -> 실사 이미지의 학습이
라면 이번에는 실사 이미지 -> 모네 그림으로의 학습을 수행하
는 것이다.
34. CycleGAN loss함수의 완성
따라서 위의 두 방향의 학습을 합치면 loss가 아래와 같이 된다.
Cycle GAN은 이 두 방향의 loss를 합친다.
Cycle GAN 연구Lab에 따르면 실제로 두 방향이 한 방향으로만
학습을 시켜보면 결과가 좋지 않았다고 한다.
37. CycleGAN 적용 사례 #1
loss를 이것저것 뺐을 때 어떤 결과가 있는지 실험을 해보았다.
city scape 데이터셋을 살펴보자. 정답지는 사람이 직접 색깔로
label해 놓은 데이터셋이다.
GAN만 사용하면 input으로 돌아오지 못하고 거의 같은 이미지
로 수렴한다.(label 데이터)
실험 시 가장 좋은 성능은 CycleGAN을 사용했을때였다.
38. CycleGAN 적용 사례 #2
되돌아오는 이미지는 아래와 같다.
원본은 GTA 스크린샷, 정답지는 자율주행 차량 사진이다.
39. CycleGAN 설계 특징
Generator 아키텍쳐
Cycle GAN연구에서 G의 아키텍쳐를 세우는게 매우 중요한 것
을 발견하였다.
Disco GAN은 아래와 같은 G 아키텍쳐를 지닌다.
40. CycleGAN의 첫번쨰 아키텍처
최초의 Cycle GAN은 U-Net을 사용하였다.
장점은 skip connection으로 인해 디테일이 훨씬 더 많이 간직된
다는 장점이 있지만
단점은 두가지의 컨텐츠가 비슷한 경우 Skip Connecton을 최대
한 사용하려고 하여 성능이 좋지 못했다고 한다.
41. CycleGAN의 마지막 아키텍처
ResNet을 사용하였 장점은 이미지 퀄리티 입장에서 좋았는데
단점은 메모리를 많이 사용한다고 한다.
학습 파라미터가 적어 많은 변형을 일으킬 수 없다는 특징이 있
다.
42. GAN Loss 함수의 변경
CycleGAN에서는 cross entropy 사용시 vanishing gradient 문제
가 발생했다.
따라서 대신에 LSGAN을 사용할 때 성능이 잘 나와서 이를 사용
하였다고 한다.
44. L1 loss의 추가의 어려움
CycleGAN은 아래 이미지를 얼룩말로 바꾸는 정답이 없기 때문에 직
접적인 L1 loss를 구하기 어려움
45. CycleGAN의 간접적 L1 loss #1
얼룩말을 말처럼 바꾼 이미지를 이용하여 가짜 L1 로스(여기서
얼룩말이 정답지)를 넣어서 효과를 보았음
F(y)로 이미지를 생성한 뒤 이를 G()를 적용하여 정답지 y와 비교
46. CycleGAN의 간접적 L1 loss #2
당연한 얘기지만 얼룩말을 넣었을때 얼룩말이 나오게끔 나오는
loss를 G에 추가하는 것도 도움이 된다.(identity loss)
47. L1 loss를 추가한 결과물
L1 loss가 더 안정적인 가이드 라인이 되어준다.
그림-> 사진 에서 더 안정적인 결과물이 나왔다.
48. Replay Buffer
GAN 트레이닝을 진행하며 똑같은 샘플별로 성능을 살펴보면
트레이닝을 돌릴때마다 성능이 천차만별이다.
이 불안정성을 해결하기 위해 주기적으로 Generator가 만들어
놓은 사진을 다시 discriminator에게 보여줌, 이 부분은
Discriminator에게만 적용함
55. GTA를 통한 자율주행 모델링
실사에 가까운 GTA 게임에서 Object Detection을 훈련시키고 실제
도로에서 검증한다.
56. GTA를 통한 자율주행 모델링의 한계점
하지만 GTA에서 학습된 모델로 실제 환경에서 돌렸을 때 정확
도가 그렇게 높지가 않다.
Per-class accuracy는 object 인식의 확률의 평균(가로등은 몇%,
자동차는 몇% 등)이고 per-pixel accuracy는 픽셀단위 인식의 정
확도를 의미한다.