PR-376: Softmax Splatting for Video Frame InterpolationHyeongmin Lee
This document proposes a method called softmax splatting for video frame interpolation. It summarizes previous approaches like averaging frames and using optical flow. Softmax splatting uses optical flow to warp input frames and applies a softmax function to interpolate pixel values, assigning higher weights to pixels with smaller displacement. This allows pixels to be interpolated from multiple locations instead of just their forward flow mapping. The method uses a neural network to estimate optical flow and perform softmax splatting for high quality frame interpolation between input video frames.
A Beginner's Guide to Monocular Depth EstimationRyo Takahashi
Mono-depth estimation uses a single camera to produce depth maps. Recent works have made progress using self-supervised learning from video. Key methods include SfMLearner which pioneered this approach, struct2depth which models object motion explicitly, and Depth from Videos in the Wild which learns camera intrinsics from YouTube videos. PackNet directly estimates depth in metric units using a 3D packing network that preserves spatial details better than traditional upsampling. TRI has achieved state-of-the-art results using these techniques.
Unsupervised Video Summarization via Attention-Driven Adversarial LearningVasileiosMezaris
"Unsupervised Video Summarization via Attention-Driven Adversarial Learning", by E. Apostolidis, E. Adamantidou, A. Metsai, V. Mezaris, I. Patras. Proceedings of the 26th Int. Conf. on Multimedia Modeling (MMM2020), Daejeon, Korea, Jan. 2020.
ZUIX is a design system created by Zigbang's CTO team to standardize design across all of Zigbang's services. It uses React Native for responsive, multi-platform components and includes tools like Storybook for development and a design review infrastructure for validation. The deployment process involves code reviews, CI/CD pipelines, and publishing to a npm registry. Training and documentation is provided through tools like Google Classroom and Notion. The team aims to further develop ZUIX by improving the design review tools, adding end-to-end testing, and analyzing component usage. The goal is to solve Zigbang's unique challenges through an agile, collaborative approach between designers and developers.
Misha Bilenko, Principal Researcher, Microsoft at MLconf SEA - 5/01/15MLconf
Many Shades of Scale: Big Learning Beyond Big Data: In the machine learning research community, much of the attention devoted to ‘big data’ in recent years has been manifested as development of new algorithms and systems for distributed training on many examples. This focus has led to significant advances in the field, from basic but operational implementations on popular platforms to highly sophisticated prototypes in the literature. In the meantime, other aspects of scaling up learning have received relatively little attention, although they are often more pressing in practice. The talk will survey these less-studied facets of big learning: scaling to an extremely large number of features, to many components in predictive pipelines, and to multiple data scientists collaborating on shared experiments.
The current revolution in the music industry represents great opportunities and challenges for music recommendation systems. Recommendation systems are now central to music streaming platforms, which are rapidly increasing in listenership and becoming the top source of revenue for the music industry. It is increasingly more common for a music listener to simply access music than to purchase and own it in a personal collection. In this scenario, recommendation calls no longer for a one-shot recommendation for the purpose of a track or album purchase, but for a recommendation of a listening experience, comprising a very wide range of challenges, such as sequential recommendation, or conversational and contextual recommendations. Recommendation technologies now impact all actors in the rich and complex music industry ecosystem (listeners, labels, music makers and producers, concert halls, advertisers, etc.).
Autoencoders Tutorial | Autoencoders In Deep Learning | Tensorflow Training |...Edureka!
The document discusses autoencoders, an unsupervised machine learning technique where the target values are equal to the inputs. It covers the need for autoencoders, their properties and training, different types including convolutional, sparse, and deep autoencoders, and applications such as dimensionality reduction, denoising images, and watermark removal.
PR-376: Softmax Splatting for Video Frame InterpolationHyeongmin Lee
This document proposes a method called softmax splatting for video frame interpolation. It summarizes previous approaches like averaging frames and using optical flow. Softmax splatting uses optical flow to warp input frames and applies a softmax function to interpolate pixel values, assigning higher weights to pixels with smaller displacement. This allows pixels to be interpolated from multiple locations instead of just their forward flow mapping. The method uses a neural network to estimate optical flow and perform softmax splatting for high quality frame interpolation between input video frames.
A Beginner's Guide to Monocular Depth EstimationRyo Takahashi
Mono-depth estimation uses a single camera to produce depth maps. Recent works have made progress using self-supervised learning from video. Key methods include SfMLearner which pioneered this approach, struct2depth which models object motion explicitly, and Depth from Videos in the Wild which learns camera intrinsics from YouTube videos. PackNet directly estimates depth in metric units using a 3D packing network that preserves spatial details better than traditional upsampling. TRI has achieved state-of-the-art results using these techniques.
Unsupervised Video Summarization via Attention-Driven Adversarial LearningVasileiosMezaris
"Unsupervised Video Summarization via Attention-Driven Adversarial Learning", by E. Apostolidis, E. Adamantidou, A. Metsai, V. Mezaris, I. Patras. Proceedings of the 26th Int. Conf. on Multimedia Modeling (MMM2020), Daejeon, Korea, Jan. 2020.
ZUIX is a design system created by Zigbang's CTO team to standardize design across all of Zigbang's services. It uses React Native for responsive, multi-platform components and includes tools like Storybook for development and a design review infrastructure for validation. The deployment process involves code reviews, CI/CD pipelines, and publishing to a npm registry. Training and documentation is provided through tools like Google Classroom and Notion. The team aims to further develop ZUIX by improving the design review tools, adding end-to-end testing, and analyzing component usage. The goal is to solve Zigbang's unique challenges through an agile, collaborative approach between designers and developers.
Misha Bilenko, Principal Researcher, Microsoft at MLconf SEA - 5/01/15MLconf
Many Shades of Scale: Big Learning Beyond Big Data: In the machine learning research community, much of the attention devoted to ‘big data’ in recent years has been manifested as development of new algorithms and systems for distributed training on many examples. This focus has led to significant advances in the field, from basic but operational implementations on popular platforms to highly sophisticated prototypes in the literature. In the meantime, other aspects of scaling up learning have received relatively little attention, although they are often more pressing in practice. The talk will survey these less-studied facets of big learning: scaling to an extremely large number of features, to many components in predictive pipelines, and to multiple data scientists collaborating on shared experiments.
The current revolution in the music industry represents great opportunities and challenges for music recommendation systems. Recommendation systems are now central to music streaming platforms, which are rapidly increasing in listenership and becoming the top source of revenue for the music industry. It is increasingly more common for a music listener to simply access music than to purchase and own it in a personal collection. In this scenario, recommendation calls no longer for a one-shot recommendation for the purpose of a track or album purchase, but for a recommendation of a listening experience, comprising a very wide range of challenges, such as sequential recommendation, or conversational and contextual recommendations. Recommendation technologies now impact all actors in the rich and complex music industry ecosystem (listeners, labels, music makers and producers, concert halls, advertisers, etc.).
Autoencoders Tutorial | Autoencoders In Deep Learning | Tensorflow Training |...Edureka!
The document discusses autoencoders, an unsupervised machine learning technique where the target values are equal to the inputs. It covers the need for autoencoders, their properties and training, different types including convolutional, sparse, and deep autoencoders, and applications such as dimensionality reduction, denoising images, and watermark removal.
발표자: 이활석 (Naver Clova)
발표일: 2017.11.
(현) NAVER Clova Vision
(현) TFKR 운영진
개요:
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨지고 있습니다.
특히 컴퓨터 비전 기술 분야에서는 지도학습에 해당하는 이미지 내에 존재하는 정보를 찾는 인식 기술에서,
비지도학습에 해당하는 특정 정보를 담는 이미지를 생성하는 기술인 생성 기술로 연구 동향이 바뀌어 가고 있습니다.
본 세미나에서는 생성 기술의 두 축을 담당하고 있는 VAE(variational autoencoder)와 GAN(generative adversarial network) 동작 원리에 대해서 간략히 살펴 보고, 관련된 주요 논문들의 결과를 공유하고자 합니다.
딥러닝에 대한 지식이 없더라도 생성 모델을 학습할 수 있는 두 방법론인 VAE와 GAN의 개념에 대해 이해하고
그 기술 수준을 파악할 수 있도록 강의 내용을 구성하였습니다.
Open Source codes of trajectory prediction & behavior planningYu Huang
This document lists open source codes for trajectory prediction and behavior planning algorithms. It includes over 20 GitHub links with descriptions of projects related to predicting pedestrian and vehicle motion, modeling social interactions, and forecasting trajectories in crowded or multi-agent environments.
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
발표 영상 : https://youtu.be/klnfWhPGPRs
코드 : https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
음성 합성 데모 : http://carpedm20.github.io/tacotron
발표 소개 : https://deview.kr/2017/schedule/182
딥러닝을 활용한 음성 합성 기술을 소개하고 개발 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
An Autoencoder is a type of Artificial Neural Network used to learn efficient data codings in an unsupervised manner. The aim of an autoencoder is to learn a representation (encoding) for a set of data, typically for dimensionality reduction, by training the network to ignore signal “noise.”
1. Autoencoders are unsupervised neural networks that are useful for dimensionality reduction and clustering. They compress the input into a latent-space representation then reconstruct the output from this representation.
2. Deep autoencoders stack multiple autoencoder layers to learn hierarchical representations of the data. Each layer is trained sequentially.
3. Variational autoencoders use probabilistic encoders and decoders to learn a Gaussian latent space. They can generate new samples from the learned data distribution.
The document discusses recent advances in generative adversarial networks (GANs) for image generation. It summarizes two influential GAN models: ProgressiveGAN (Karras et al., 2018) and BigGAN (Brock et al., 2019). ProgressiveGAN introduced progressive growing of GANs to produce high resolution images. BigGAN scaled up GAN training through techniques like large batch sizes and regularization methods to generate high fidelity natural images. The document also discusses using GANs to generate full-body, high-resolution anime characters and adding motion through structure-conditional GANs.
1. The document discusses energy-based models (EBMs) and how they can be applied to classifiers. It introduces noise contrastive estimation and flow contrastive estimation as methods to train EBMs.
2. One paper presented trains energy-based models using flow contrastive estimation by passing data through a flow-based generator. This allows implicit modeling with EBMs.
3. Another paper argues that classifiers can be viewed as joint energy-based models over inputs and outputs, and should be treated as such. It introduces a method to train classifiers as EBMs using contrastive divergence.
This document discusses techniques for music recommendation including matrix factorization, word2vec, and deep learning on audio data. It describes analyzing a dataset of 5 million songs classified by genre and segmented by attributes like popularity, loudness, and whether they are from the top 1000 songs. Models like matrix factorization and word2vec are used to generate song vectors and map songs in low dimensional space to power music recommendations.
Image classification using convolutional neural networkKIRAN R
For separating the images from a large collection of images or from a large dataset this classifier can be used, Here deep neural network is used for training and classifying the images. The convolutional neural network is the most suitable algorithm for classifier images. This Classifier is a machine learning model, so the more you train it the more will be the accuracy.
Spotify Discover Weekly: The machine learning behind your music recommendationsSophia Ciocca
In this presentation, I give an overview of the machine learning algorithms behind Spotify’s extraordinarily popular Discover Weekly playlist. I provide a brief introduction to what the playlist is, explain how music recommendation engines have evolved over time, then break down the three main algorithm types powering Spotify’s recommendations: (1) collaborative filtering, (2) Natural Language Processing (NLP), and (3) Raw audio analysis.
Video of the presentation can be found here: https://www.youtube.com/watch?v=PUtYNjInopA
발표자: 이활석 (Naver Clova)
발표일: 2017.11.
(현) NAVER Clova Vision
(현) TFKR 운영진
개요:
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨지고 있습니다.
특히 컴퓨터 비전 기술 분야에서는 지도학습에 해당하는 이미지 내에 존재하는 정보를 찾는 인식 기술에서,
비지도학습에 해당하는 특정 정보를 담는 이미지를 생성하는 기술인 생성 기술로 연구 동향이 바뀌어 가고 있습니다.
본 세미나에서는 생성 기술의 두 축을 담당하고 있는 VAE(variational autoencoder)와 GAN(generative adversarial network) 동작 원리에 대해서 간략히 살펴 보고, 관련된 주요 논문들의 결과를 공유하고자 합니다.
딥러닝에 대한 지식이 없더라도 생성 모델을 학습할 수 있는 두 방법론인 VAE와 GAN의 개념에 대해 이해하고
그 기술 수준을 파악할 수 있도록 강의 내용을 구성하였습니다.
Open Source codes of trajectory prediction & behavior planningYu Huang
This document lists open source codes for trajectory prediction and behavior planning algorithms. It includes over 20 GitHub links with descriptions of projects related to predicting pedestrian and vehicle motion, modeling social interactions, and forecasting trajectories in crowded or multi-agent environments.
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
발표 영상 : https://youtu.be/klnfWhPGPRs
코드 : https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
음성 합성 데모 : http://carpedm20.github.io/tacotron
발표 소개 : https://deview.kr/2017/schedule/182
딥러닝을 활용한 음성 합성 기술을 소개하고 개발 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
An Autoencoder is a type of Artificial Neural Network used to learn efficient data codings in an unsupervised manner. The aim of an autoencoder is to learn a representation (encoding) for a set of data, typically for dimensionality reduction, by training the network to ignore signal “noise.”
1. Autoencoders are unsupervised neural networks that are useful for dimensionality reduction and clustering. They compress the input into a latent-space representation then reconstruct the output from this representation.
2. Deep autoencoders stack multiple autoencoder layers to learn hierarchical representations of the data. Each layer is trained sequentially.
3. Variational autoencoders use probabilistic encoders and decoders to learn a Gaussian latent space. They can generate new samples from the learned data distribution.
The document discusses recent advances in generative adversarial networks (GANs) for image generation. It summarizes two influential GAN models: ProgressiveGAN (Karras et al., 2018) and BigGAN (Brock et al., 2019). ProgressiveGAN introduced progressive growing of GANs to produce high resolution images. BigGAN scaled up GAN training through techniques like large batch sizes and regularization methods to generate high fidelity natural images. The document also discusses using GANs to generate full-body, high-resolution anime characters and adding motion through structure-conditional GANs.
1. The document discusses energy-based models (EBMs) and how they can be applied to classifiers. It introduces noise contrastive estimation and flow contrastive estimation as methods to train EBMs.
2. One paper presented trains energy-based models using flow contrastive estimation by passing data through a flow-based generator. This allows implicit modeling with EBMs.
3. Another paper argues that classifiers can be viewed as joint energy-based models over inputs and outputs, and should be treated as such. It introduces a method to train classifiers as EBMs using contrastive divergence.
This document discusses techniques for music recommendation including matrix factorization, word2vec, and deep learning on audio data. It describes analyzing a dataset of 5 million songs classified by genre and segmented by attributes like popularity, loudness, and whether they are from the top 1000 songs. Models like matrix factorization and word2vec are used to generate song vectors and map songs in low dimensional space to power music recommendations.
Image classification using convolutional neural networkKIRAN R
For separating the images from a large collection of images or from a large dataset this classifier can be used, Here deep neural network is used for training and classifying the images. The convolutional neural network is the most suitable algorithm for classifier images. This Classifier is a machine learning model, so the more you train it the more will be the accuracy.
Spotify Discover Weekly: The machine learning behind your music recommendationsSophia Ciocca
In this presentation, I give an overview of the machine learning algorithms behind Spotify’s extraordinarily popular Discover Weekly playlist. I provide a brief introduction to what the playlist is, explain how music recommendation engines have evolved over time, then break down the three main algorithm types powering Spotify’s recommendations: (1) collaborative filtering, (2) Natural Language Processing (NLP), and (3) Raw audio analysis.
Video of the presentation can be found here: https://www.youtube.com/watch?v=PUtYNjInopA
210801 hierarchical long term video frame prediction without supervisiontaeseon ryu
안녕하세요 딥러닝 논문읽기 모임입니다! 오늘 소개드릴 논문은 'Hierarchical Long-term Video Frame Prediction without Supervision' 라는 제목의 논문 입니다!
오늘 소개드릴 논문은 VIDEO PREDICTION에 관한 논문입니다.
VIDEO PREDICTION이란, 첫번째 frame부터 특정시점 까지의 Frame을 보고, 특정 시점 이후 까지의 동작에 대해서 예측을 하며 동시에 Frame을 생성하는 테스크를 의미합니다. 논문 주제만 보더라도 매우 흥미로운대요, 오늘 해당 논문을 이미지처리팀
홍은기님이 자세한 리뷰 도와주셨습니다 오늘도 많은 관심 미리 감사드립니다 !
https://youtu.be/q15QO9LXYlI
Designing more efficient convolution neural networkNAVER Engineering
CNN은 여러 기술에 적용되어 높은 성능을 보여주고 있지만, 여전히 실제 상용 서비스나 모바일 플랫폼에 적용하기에는 하드웨어적 비용이 큰 경우가 많다.
본 발표에서는 기존 CNN의 높은 성능은 유지하면서도 훨씬 가볍고 빠른 모델을 설계하고 학습하는 방법들을 소개한다. 기존 컨볼루션 레이어의 문제점들을 보완하기위해 제안된 다양한 테크닉들을 소개하고, 최신 논문들이 이런 테크닉들을 어떻게 활용하고 있는지 사례별로 자세히 알아본다.
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
본 논문에서는 Hidden layer 뒤에 추가적인 새로운 시각중지 벡터
(visual sentinel vector)를 갖는 LSTM의 확장형을 채택함으로서
- 시각신호로부터 필요 시 언어모델로 전환이 가능한
Adaptive attention encoder-decoder framework을 제안하였고
- 이로 인하여 “white”, “bird”, “stop,”과 같은 시각적 단어에 대해서는 좀 더 이미지에 집중하고, “top”, “of”, “on.”의 경우에는 시각중지를 사용함으로서 Image Captioning의 정확도를 향상
Deep Learning Into Advance - 1. Image, ConvNetHyojun Kim
[본 자료는 AB180 사내 스터디의 일환으로 제작되었습니다.]
딥러닝에 대한 기초적인 이해 및 적용 예시를 알아보고, 인사이트를 공유하기 위해 만들었습니다. 첫번째로 딥러닝이 이미지 프로세싱에 적용된 방식 및, Convolutional Neural Network (ConvNet)의 기초에 대해 다루었습니다.
* 본 스터디 자료는 Stanford 강좌인 CS231n (http://cs231n.stanford.edu)의 내용을 참고했습니다.
PR-455: CoTracker: It is Better to Track TogetherHyeongmin Lee
이번 영상에서는 제가 PR 278번째로 소개드린 적 있었던 RAFT의 Point Tracking 버전 논문입니다. 보통 Object Traking은 주어진 bounding box를 track하는 task를 말하는데 본 논문에서는 첫 프레임에 주어진 point를 따라가는 task를 다루고 있습니다. 논문 제목에서 이야기 하듯이, 주어진 point 하나를 따라가는 것보다 여러 point를 함께 따라가면서 서로 정보를 주고받는 등의 interaction을 하는 것이 tracking 성능 향상에 도움이 된다는 것이 이 논문의 main idea입니다.
논문 링크: https://arxiv.org/abs/2307.07635
영상 링크: https://youtu.be/BDfTSm3_hys
PR-430: CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retri...Hyeongmin Lee
This document summarizes research on using CLIP to perform end-to-end video clip retrieval. It presents CLIP4Clip, which uses a CLIP backbone pretrained on large image-text datasets to encode video clips and text queries into a shared embedding space. CLIP4Clip flattens patches from a video encoder into vectors and calculates similarity between video and text embeddings for retrieval. It is trained on HowTo100M video clips and outperforms prior work on benchmark datasets like MSR-VTT, achieving state-of-the-art video clip retrieval results.
PR-420: Scalable Model Compression by Entropy Penalized ReparameterizationHyeongmin Lee
제가 이번에 소개드릴 논문은 Scalable Model Compression by Entropy Penalized Reparameterization이라는 논문입니다. 이전에 꾸준히 Deep Learning을 이용한 이미지 및 비디오 압축에 대해 설명드렸던 바가 있는데, 이번에는 Neural Network의 Model Parameter들을 압축하는 방법에 관한 논문입니다.
논문 링크: https://arxiv.org/abs/1906.06624
영상 링크: https://youtu.be/LJ8WD5MKA2o
PR-409: Denoising Diffusion Probabilistic ModelsHyeongmin Lee
이번 논문은 요즘 핫한 Diffusion을 처음으로 유행시킨 Denoising Diffusion Probabilistic Models (DDPM) 입니다. ICML 2015년에 처음 제안된 Diffusion의 여러 실용적인 측면들을 멋지게 해결하여 그 유행의 시작을 알린 논문인데요, Generative Model의 여러 분야와 Diffusion, 그리고 DDPM에서는 무엇이 바뀌었는지 알아보도록 하겠습니다.
논문 링크: https://arxiv.org/abs/2006.11239
영상 링크: https://youtu.be/1j0W_lu55nc
PR-395: Variational Image Compression with a Scale HyperpriorHyeongmin Lee
제가 이번에 소개드릴 논문은 Variational Image Compression with a Scale Hyperprior라는 논문입니다. 지난 328번째 발표에 이어서 두번째 Deep Learning-based Image Compression이고, 지난번 발표때 다루지 못했던 Variational Autoencoder와의 관계와 이번 논문에서의 새 Contribution까지, Deep Learning을 이용한 Image Compression연구는 어떤 고민을 주로 하고 있는지 등을 전달해드리고자 노력하였습니다.
논문 링크: https://arxiv.org/abs/1802.01436
영상 링크: https://youtu.be/ne9ieHRsfCc
PR-386: Light Field Networks: Neural Scene Representations with Single-Evalua...Hyeongmin Lee
제가 이번에 소개드릴 논문은 NeRF와 같이 view synthesis를 하는 논문입니다. NeRF 이후로 NeRF의 문제점을 보완하기 위해 여러 방법들이 쏟아져 나왔는데요, 다른 한편으로는 발상의 전환을 통해 NeRF와 다른 방법을 활용하고자 하는 시도들도 있는 편입니다. 그러한 가장 대표적인 방법중 하나인 Neural Light Field Rendering 방식에 대해 설명드리겠습니다.
논문 링크: https://arxiv.org/abs/2106.02634
영상 링크: https://youtu.be/gxag8uvA2Sc
PR-365: Fast object detection in compressed videoHyeongmin Lee
이번 PR12 365번째 논문으로 소개드릴 내용은 조금 특이한 접근법입니다. 우리가 실생활에서 접하는 대부분의 비디오는 Compressed 된 형태의 Video인데요, 실제 Computer Vision Task에서 input이 Compressed Video라는 가정을 하게 되면 생각보다 큰 이점을 얻을 수 있습니다. 바로 Compressed Video에는 Motion Vector가 포함되어있다는 점입니다. 이를 이용하면 생각보다 많은 것들을 할 수 있게 됩니다. 그 예시로 Object Detection의 연산량을 크게 줄인 case를 하나 소개드려보고자 합니다.
paper link: https://openaccess.thecvf.com/content_ICCV_2019/html/Wang_Fast_Object_Detection_in_Compressed_Video_ICCV_2019_paper.html
video link: https://youtu.be/9n6OtHtJvJ0
PR-340: DVC: An End-to-end Deep Video Compression FrameworkHyeongmin Lee
이번 PR12 340번째 논문으로 소개드릴 내용은 Deep Learning을 이용한 Video Compression에 관한 내용입니다. 바로 이전 논문으로 Deep Learning을 이용한 Image Compression에 대해 설명드렸었는데요, 시간 여유가 있으신 분들께서는 이전 영상 먼저 보시고 오는 것을 추천드립니다 :)
이전 영상: https://www.youtube.com/watch?v=rtuJqQDWmIA
paper link: https://arxiv.org/abs/1812.00101
youtube link: https://youtu.be/Dd8Gj2ZITkA
PR-328: End-to-End OptimizedImage CompressionHyeongmin Lee
PR 328번째 논문은 ICLR 2017에 발표된 "End-to-End OptimizedImage Compression"이라는 논문입니다.
이미지 압축에 대해 들어보신 적이 있으신가요? 이미지를 더 적은 비트, 즉 더 적은 용량의 데이터로 표현하기 위해 다양한 압축 방법이 제안되어 왔습니다. 가장 대표적인 기술이 JPEG이라고 할 수 있겠는데요, 이 논문에서는 End-to-End Deep Learning을 이용하여 이미지를 압축하는 기법을 제안합니다. 이 논문에서 제안한 방법과 더불어 이미지 압축에 필요한 기본 개념들까지 함께 정리하였으니 이미지 압축이라는 분야가 단순히 무엇인지 궁금하신 분들께서도 앞에서부터 차근차근 봐주시면 감사드리겠습니다 :)
paper link: https://arxiv.org/abs/1611.01704
youtube link: https://youtu.be/rtuJqQDWmIA
PR-315: Taming Transformers for High-Resolution Image SynthesisHyeongmin Lee
요즘 Transformer 구조를 language랑 vision 관계 없이 여기저기 적용해보려는 시도가 매우 다양하게 이루어지고 있는데요, 그래서 이번주 제 발표에서는 이를 High-resolution image synthesis에 활용한, CVPR 2021 Oral Session에서 발표될 논문 하나를 소개해보려고 합니다!
** 방송 기기 문제로 이번 영상은 아이패드 필기 없이 진행됩니다!! **
논문 링크: https://arxiv.org/abs/2012.09841
영상 링크: https://youtu.be/GcbT0IGt0xE
PR-302: NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisHyeongmin Lee
드디어 PR12 Season 4가 시작되었습니다! 제가 이번 시즌에서 발표하게 된 첫 논문은 ""NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"라는 논문입니다. View Synthesis라는 Task는 몇 개의 시점에서 대상을 찍은 영상이 주어지면 주어지지 않은 위치와 방향에서 바라본 대상의 영상을 합성해내는 기술입니다. 이를 위해서 본 논문에서는 대상의 3D 정보를 통째로 Neural Network가 외우게 하는 방법을 선택했는데요, 이 방식은 Implicit Neural Representation이라는 이름으로 유명해지고 있는 추세고, 2D 이미지에 대해서도 적용하려는 접근들이 늘고 있습니다.
영상 링크: https://youtu.be/zkeh7Tt9tYQ
논문 링크: https://arxiv.org/abs/2003.08934
PR-278: RAFT: Recurrent All-Pairs Field Transforms for Optical FlowHyeongmin Lee
이번 논문은 ECCV2020에서 Best Paper를 받은 논문으로, 기존 방법들과는 다르게 반복적인 Update를 통해 Optical Flow를 예측하여 꽤나 높은 성능을 기록한 논문입니다.
paper link: https://arxiv.org/pdf/2003.12039.pdf
video link: https://youtu.be/OnZIDatotZ4
이번에 다룰 논문은 "Learning by Analogy: Reliable Supervision From Transformations for Unsupervised Optical Flow Estimation"이라는 논문입니다. 얼마 전에 발표드렸던 FlowNet 논문처럼 이 논문도 Deep Learning을 통해 Optical Flow를 학습하는 방법입니다. 다른 점이 하나 있다면, Unsupervised 방식으로 학습이 진행된다는 점입니다. Supervised 방식 만큼이나 Unsupervised 방식으로 Optical Flow를 학습하는 연구 역시 이미 많이 진행이 되어 왔는데요, 오늘 소개 드릴 논문에서는 Data Augmentation을 통한 Consistency를 활용하여 성능을 높이는 방식을 채용한 경우를 소개드리고자 합니다.
영상 링크: 이번에 다룰 논문은 "Learning by Analogy: Reliable Supervision From Transformations for Unsupervised Optical Flow Estimation"이라는 논문입니다. 얼마 전에 발표드렸던 FlowNet 논문처럼 이 논문도 Deep Learning을 통해 Optical Flow를 학습하는 방법입니다. 다른 점이 하나 있다면, Unsupervised 방식으로 학습이 진행된다는 점입니다. Supervised 방식 만큼이나 Unsupervised 방식으로 Optical Flow를 학습하는 연구 역시 이미 많이 진행이 되어 왔는데요, 오늘 소개 드릴 논문에서는 Data Augmentation을 통한 Consistency를 활용하여 성능을 높이는 방식을 채용한 경우를 소개드리고자 합니다.
PR-252: Making Convolutional Networks Shift-Invariant AgainHyeongmin Lee
이번 논문은 Convolutional Neural Network에서 발생하는 Aliasing 문제를 지적하고, 이를 고전적인 신호처리 기법을 이용하여 해결하는 논문입니다.
Paper Link: https://arxiv.org/abs/1904.11486
Youtube Link: https://youtu.be/oTIBFH6M7YM
PR-240: Modulating Image Restoration with Continual Levels viaAdaptive Featu...Hyeongmin Lee
이번 논문은 Modulating Image Restoration with Continual Levels via Adaptive Feature Modification Layers로, Image Processing을 위해 학습된 Network가 여러 Noise Level에 대하여 동작할 수 있도록 Control 가능한 Parameter를 추가하는 방법론을 소개하는 논문입니다.
동영상 링크: https://youtu.be/WXGqYbKQzWY
PR-228: Geonet: Unsupervised learning of dense depth, optical flow and camera...Hyeongmin Lee
이번 논문은, Video로부터 Unsupervised 방식을 통해 Flow, Depth, Camera Ego-motion까지 뽑아내는 GeoNet이라는 알고리즘입니다. Computer Vision에서 다루는 3D Geometry에 대해 간략히 설명 드린 후에 GeoNet 알고리즘을 소개하는 영상입니다.
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksHyeongmin Lee
제 PR12 첫번째 발표 논문은 FlowNet이라는 논문입니다.
Optical Flow는 비디오의 인접한 Frame에 대하여 각 Pixel이 첫 번째 Frame에서 두 번째 Frame으로 얼마나 이동했는지의 Vector를 모든 위치에 대하여 나타낸 Map입니다. Video에 Motion을 분석하는 일은 매우 중요하기 때문에, 이러한 Optical Flow 역시 굉장히 중요한 요소 중 하나인데요, 이번 영상에서는 고전적인 Computer Vision에서 쓰였던 다양한 Optical Flow 알고리즘들과, Deep Learning Based로 Optical Flow를 구하는 Neural Network인 FlowNet에 대하여 알아보겠습니다.
감사합니다!!
영상 링크: https://youtu.be/Z_t0shK98pM
논문 링크: http://openaccess.thecvf.com/content_iccv_2015/html/Dosovitskiy_FlowNet_Learning_Optical_ICCV_2015_paper.html
[PR12] Making Convolutional Networks Shift-Invariant AgainHyeongmin Lee
This document discusses anti-aliasing techniques for convolutional neural networks to improve shift-invariance. It first explains the concept of shift-invariance and how aliasing can occur from operations like max pooling and strided convolutions, making networks shift-variant. It then proposes applying anti-aliasing by blurring feature maps before pooling or downsampling to remove high-frequency components and make the representations more shift-equivariant and ultimately shift-invariant. Experimental results show this anti-aliasing approach improves consistency, accuracy, and performance on image translation tasks.
[Paper Review] A spatio -Temporal Descriptor Based on 3D -GradientsHyeongmin Lee
This document describes a spatio-temporal descriptor for extracting features from video. It extends the traditional Histogram of Oriented Gradients (HoG) feature used for images to the video domain. Pixels are grouped into cuboids spanning space and time, and a gradient-based descriptor is calculated for each cuboid by projecting pixel gradients onto a set of basis vectors, thresholding, and normalization. These cuboid descriptors are then aggregated into blocks to form the final video feature representation.
8. Middlebury Benchmark
Baker, Simon, et al. "A database and evaluation methodology for optical flow." International Journal of Computer Vision 92.1 (2011): 1-31.
• Optical Flow의 Evaluation을 위해 쓰여진 논문
• 여러 Evaluation 방법 중, Optical Flow를 이용한 Frame Interpolation 성능을 기준으로 평가하는 방법 존재
• Optical Flow를 평가하기 위한 목적으로 Optical Flow Based Frame Interpolation 알고리즘을 부산물로 제안
Frame Interpolation 논문으로도 평가받고 있다.
10. Middlebury Benchmark
• 두 이미지 𝐼0, 𝐼1와 둘 사이의 Optical Flow 𝑢0 존재
• Optical Flow 𝑢0 를 이용하면 0~1 사이 임의의 시점 t에서의 Optical Flow 𝑢 𝑡를 얻을 수 있다.
𝑢 𝑡 round x + tu0 x = u0(x)
• 분명히 𝑢 𝑡의 어떤 지점에는 u0의 값 둘 이상이 몰릴 수 있고, 어떤 지점에는 아무도 배정되지 않을 수 있다.
• u0(x1)과 u0(x2)가 경쟁할 경우, |𝐼0 𝑥 − 𝐼1(𝑥 + 𝑢0(𝑥))|의 값이 작은 쪽을 채택한다.
• 비어 있는 곳은 Outside-in strategy를 이용한다.
Frame Wraping
“Optical Flow에 따라서 input image의 픽셀 값들을 이동시킨다”
11. Middlebury Benchmark
• Occlusion Mask 𝑂0 𝑥 , 𝑂1(𝑥)를 구한다. 𝑂𝑖 𝑥 = 1이라는 뜻은 𝐼𝑖(𝑥)픽셀이 반대편에서는 보이지 않는다는 뜻이다.
𝑢 𝑡 round x + tu0 x = u0(x)에 𝑡 = 1을 대입하면 u1을 구할 수 있는데, 이때 생긴 hole 들을 𝑂1 𝑥 = 1로 놓을 수 있다.
𝑂0 𝑥 의 경우, 𝑢0 𝑥 − 𝑢1 𝑥 + 𝑢0 𝑥 > 0.5이면 𝑂0 𝑥 = 1로 놓는다.
• 이제 𝐼𝑡(𝑥)픽셀 값을 구하기 위해 참조할 𝐼0에서의 위치 𝑥0와 𝐼1에서의 위치 𝑥1를 구해야 한다. 즉 𝐼0(𝑥0)와 𝐼1(𝑥1)을 참
조할 것이다.
𝑥0 = 𝑥 − 𝑡𝑢 𝑡(𝑥)
𝑥1 = 𝑥 + 1 − 𝑡 𝑢𝑡(𝑥)
• 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1)
• 만약 𝑂0 𝑥0 = 1이라면 𝐼𝑡(𝑥) = 𝐼0 𝑥0 반대 경우도 마찬가지
Frame Wraping
12. Middlebury Benchmark
• 우리는 Frame 0 에서의 Flow 𝐹0을 갖고 있다.
• 𝐹0을 Wraping 하면 시점 𝑡에서의 Flow 𝐹𝑡를 구할 수 있다.
• 𝐹𝑡를 이용하면 현재 생성할 Frame의 픽셀이 Frame 1에서는 어느 위치에 해당하는 지 구할 수 있다.(Forward Flow)
• −𝐹𝑡를 이용하면 Frame 0에 대해서도 마찬가지(Backward Flow)
• Forward, Backward Flow를 이용하여 Frame 0과 1을 각각 Warping한다.
• 두 Warping된 이미지를 Linear Combination
Frame Wraping(요
약)
21. MIND(Matching by INverting Deep Neural Network)
• U-Net 형태의 Encoder-Decoder 구조
• 정말 단순히 “CNN을 학습시키자”는 아이디어
• Output이 Blur하다는 단점 존재
Long, Gucan, et al. "Learning image matching by simply watching video." European Conference on Computer Vision. Springer, Cham, 2016.
22. Adaptive Convolution
Target Pixel에서 필요로 하는 정보는 앞뒤 프레임의 근처 픽셀들이 갖고 있을 거야!!
앞뒤 프레임들로 부터 Convolution을 취한 결과를 Pixel 값으로 쓰자!!
그럼 필터는 뭘 쓸 건데??
S. Niklaus, L. Mai, and F. Liu. “Video frame interpolation via adaptive convolution.” In IEEE Conference on Computer Vision and Pattern Recognition, July 2017
23. Adaptive Convolution
41 (Filter Size)
79 (Input Size)
Target Point
이미지의 각 부분마다 다른 필터를 적용시키자. 각 필터는 Network의 output으로 뽑자.
Input Patch
Output Filter
25. Adaptive Separable Convolution
• 필터를 통째로 뽑지 말고, 41dim짜리 가로, 세로 vector 두 개를 뽑아서 곱하자! 41 x 41 Matrix
• Adaptive Conv: 픽셀 수 x 필터 사이즈(41) x 필터 사이즈(41) (26 GB)
• Adaptive Separable Conv: 픽셀 수 x 필터 사이즈(41) x 2 (1.27 GB)
S. Niklaus, L. Mai, and F. Liu. “Video frame interpolation via adaptive separable convolution.” In IEEE International Conference on Computer Vision, Oct 2017
27. Context Aware Synthesis
• 𝐼𝑡 𝑥 = 1 − 𝑡 𝐼0 𝑥0 + 𝑡𝐼1(𝑥1) [Middlebury Benchmark]
𝐼𝑡 𝑥 = 𝐼0(𝑥0) Forward Wrapped Image
𝐼𝑡 𝑥 = 𝐼1(𝑥1) Backward Wrapped Image
• 두 이미지를 Linear Combination(Blending)하지 말고, Neural Network를 이용해서 섞어보자!
• 섞을 때 Pre-trained Network에서 얻은 Feature까지 Wrap 해서 같이 넣어주자!!
S. Niklaus, and F. Liu. “Context-Aware Synthesis for Video Frame Interpolation.” In IEEE Conference on Computer Vision and Pattern Recognition, June 2018
29. Phase Based Frame Interpolation
S.Meyer, O.Wang, H. Zimmer,M. Grosse, and A. Sorkine- Hornung. “Phase-based frame interpolation for video.” In IEEE Conference on Computer Vision and Pattern Recog- nition, pages 1410–1418, 2015.
33. PhaseNet
Meyer, Simone, et al. "PhaseNet for Video Frame Interpolation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
36. Deep Voxel Flow
Liu, Ziwei, et al. "Video Frame Synthesis Using Deep Voxel Flow." Proceedings of the IEEE International Conference on Computer Vision. 2017.
Input Voxel
Flow
Frame
Synthesis
41. Super SloMo
Jiang, Huaizu, et al. "Super slomo: High quality estimation of multiple intermediate frames for video interpolation." arXiv preprint arXiv:1712.00080 (2017).
뭐 힘들게 새로운 Flow를 만드니? 난 그냥 Optical Flow 구현해서 쓸래
ㅎ
1. 일단 𝐹0→1과 𝐹1→0는 주어진 상태라고 가정
2. 두 프레임 사이의 대상들은 직선운동 한다고 가정하고 𝐹𝑡→0, 𝐹𝑡→1을 구한다.
3. 그런데 다음과 같이 근사하는 것이 더 잘 된다고 한다.
42. Super SloMo
* 𝑔(∙,∙): Wraping Function
• 0~1 사이의 값.
• 𝑉𝑡←0(𝑝)이 0이면, pixel 𝑝는 Frame 0에 존재하지 않고, 1이면 존재한다는 뜻. 𝑉𝑡←1(𝑝)도 Frame 1에 대하여 마찬가지
43. Super SloMo
Optical Flow를 얻는
Network
Flow Refine / Visibility Map 생성
http://smartaedi.tistory.com/325