딥러닝 이미지 분류 테스크에서는 Self-Supervision 학습 방법이 있습니다. 레이블이 없는 상태에서 context prediction 이나 jigsaw puzzle과 같은 방법으로 학습시키는 방법이지만 이러한 self-supervision 테스크에는 모든 차원에 분포하지 않고 특정 부분 차원으로만 학습이 되는 Dimensional Collapse 라는 고질적인 문제를 일으킵니다. Self-supervision 중 positive pair는 가깝게, 그리고 negative pair는 서로 멀어지게 학습을 시키는 Contrastive Learning 이 있습니다. 이로인해 Dimensional Collapse에 강인할 것 이라고 직관적으로 생각이 들지만, 그렇지 않았습니다. 이러한 문제를 해결하기 위해 등장한 Direct CLR이라는 방법론을 소개드립니다.
논문의 배경부터 Direct CLR논문에 대한 디테일한 설명까지,
펀디멘탈팀의 이재윤님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다 !
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
Daichi Kitamura, Nobutaka Ono, "Efficient initialization for nonnegative matrix factorization based on nonnegative independent component analysis," The 15th International Workshop on Acoustic Signal Enhancement (IWAENC 2016), Xi'an, China, September 2016.
Efficient initialization for nonnegative matrix factorization based on nonneg...Daichi Kitamura
Daichi Kitamura, Nobutaka Ono, "Efficient initialization for nonnegative matrix factorization based on nonnegative independent component analysis," The 15th International Workshop on Acoustic Signal Enhancement (IWAENC 2016), Xi'an, China, September 2016.
P, NP, NP-Complete, and NP-Hard
Reductionism in Algorithms
NP-Completeness and Cooks Theorem
NP-Complete and NP-Hard Problems
Travelling Salesman Problem (TSP)
Travelling Salesman Problem (TSP) - Approximation Algorithms
PRIMES is in P - (A hope for NP problems in P)
Millennium Problems
Conclusions
https://telecombcn-dl.github.io/2018-dlai/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Your Classifier is Secretly an Energy based model and you should treat it lik...Seunghyun Hwang
Review : Your Classifier is Secretly an Energy based model and you should treat it like one
- by Seunghyun Hwang (Yonsei University, Severance Hospital, Center for Clinical Data Science)
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
P, NP, NP-Complete, and NP-Hard
Reductionism in Algorithms
NP-Completeness and Cooks Theorem
NP-Complete and NP-Hard Problems
Travelling Salesman Problem (TSP)
Travelling Salesman Problem (TSP) - Approximation Algorithms
PRIMES is in P - (A hope for NP problems in P)
Millennium Problems
Conclusions
https://telecombcn-dl.github.io/2018-dlai/
Deep learning technologies are at the core of the current revolution in artificial intelligence for multimedia data analysis. The convergence of large-scale annotated datasets and affordable GPU hardware has allowed the training of neural networks for data analysis tasks which were previously addressed with hand-crafted features. Architectures such as convolutional neural networks, recurrent neural networks or Q-nets for reinforcement learning have shaped a brand new scenario in signal processing. This course will cover the basic principles of deep learning from both an algorithmic and computational perspectives.
Your Classifier is Secretly an Energy based model and you should treat it lik...Seunghyun Hwang
Review : Your Classifier is Secretly an Energy based model and you should treat it like one
- by Seunghyun Hwang (Yonsei University, Severance Hospital, Center for Clinical Data Science)
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
Learning a nonlinear embedding by preserving class neibourhood structure 최종WooSung Choi
Salakhutdinov, Ruslan, and Geoffrey E. Hinton. "Learning a nonlinear embedding by preserving class neighbourhood structure." International Conference on Artificial Intelligence and Statistics. 2007.
Paper Study: Melding the data decision pipelineChenYiHuang5
Melding the data decision pipeline: Decision-Focused Learning for Combinatorial Optimization from AAAI2019.
Derive the math equation from myself and match the same result as two mentioned CMU papers [Donti et. al. 2017, Amos et. al. 2017] while applying the same derivation procedure.
본 논문에서는 분배형 강화학습(Distributional Reinforcement Learning)에서 벨만 다이내믹스를 통해 확률 분포를 학습하는 문제를 고려합니다. 이전 연구들은 각 반환 분포의 유한 개의 통계량을 신경망을 통해 학습하는 방법을 사용해왔으나, 이 방법은 반환 분포의 함수적 형태에 제한을 받아 제한적인 표현력을 가지며, 미리 정의된 통계량을 유지하는 것이 어려웠습니다. 본 논문에서는 이러한 제한을 없애기 위해 최대 평균 거리(Maximum Mean Discrepancy, MMD)라는 가설 검정 기술을 활용해 반환 분포의 결정론적인(의사 난수를 사용한) 표본들을 학습하는 방법을 제안합니다. 이를 통해 반환 분포와 벨만 타겟 간의 모든 모멘트(순간값)를 암묵적으로 일치시킴으로써 분배형 벨만 연산자의 수렴성을 보장하며, 분포 근사에 대한 유한 샘플 분석을 제시합니다. 실험 결과, 본 논문에서 제안한 방법은 분배형 강화학습의 기본 모델보다 우수한 성능을 보이며, Atari 게임에서 분산형 에이전트를 사용하지 않는 경우에도 최고 성적을 기록합니다.
Direct solution of sparse network equations by optimally ordered triangular f...Dimas Ruliandi
Triangular factorization method of a power network problem (in form of matrix). Direct solution can be found without calculating inverse matrix which usually considered an exhaustive method, especially in large scale network.
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개할 논문은 3D관련 업무를 진행 하시는/ 희망하시는 분들의 필수 논문인 VoxelNET 입니다.
발표자료:https://www.slideshare.net/taeseonryu/mcsemultimodal-contrastive-learning-of-sentence-embeddings
안녕하세요! 딥러닝 논문읽기 모임입니다.
오늘은 자율 주행, 가정용 로봇, 증강/가상 현실과 같은 다양한 응용 분야에서 중요한 문제인 3D 포인트 클라우드에서의 객체 탐지에 대한 획기적인 진전을 소개하고자 합니다. 이를 위해 'VoxelNet'이라는 새로운 3D 탐지 네트워크에 대해 알아보겠습니다.
1. 기존 방법의 한계
기존의 많은 노력은 수동으로 만들어진 특징 표현, 예를 들어 새의 눈 시점 투영 등에 집중해 왔습니다. 하지만 이러한 방법들은 LiDAR 포인트 클라우드와 영역 제안 네트워크(RPN) 사이의 연결을 효과적으로 수행하기 어렵습니다.
2. VoxelNet의 혁신적 접근법
VoxelNet은 3D 포인트 클라우드를 위한 수동 특징 공학의 필요성을 없애고, 특징 추출과 바운딩 박스 예측을 단일 단계, end-to-end 학습 가능한 깊은 네트워크로 통합합니다. VoxelNet은 포인트 클라우드를 균일하게 배치된 3D 복셀로 나누고, 새롭게 도입된 복셀 특징 인코딩(VFE) 레이어를 통해 각 복셀 내의 포인트 그룹을 통합된 특징 표현으로 변환합니다.
3. 효과적인 기하학적 표현 학습
이 방식을 통해 포인트 클라우드는 서술적인 체적 표현으로 인코딩되며, 이는 RPN에 연결되어 탐지를 생성합니다. VoxelNet은 다양한 기하학적 구조를 가진 객체의 효과적인 구별 가능한 표현을 학습합니다.
4. 성능 평가
KITTI 자동차 탐지 벤치마크에서의 실험 결과, VoxelNet은 기존의 LiDAR 기반 3D 탐지 방법들을 큰 차이로 능가했습니다. 또한, LiDAR만을 기반으로 한 보행자와 자전거 탐지에서도 희망적인 결과를 보였습니다.
VoxelNet의 도입은 3D 포인트 클라우드에서의 객체 탐지를 혁신적으로 개선하고 있으며, 이 분야에서의 미래 발전에 중요한 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 이미지처리 허정원님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/yCgsCyoJoMg
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
오늘은 의견 요약 분야에서의 흥미로운 발전에 대해 이야기하고자 합니다. 특히, 제품이나 장소에 대한 수백 개의 리뷰를 요약하는 것은 중요하고도 어려운 과제인데요, 최근에 이를 위한 새로운 자가학습 접근법, 'OpineSum'이 소개되었습니다.
1. 의견 요약의 중요성
일반적으로 제품이나 장소에 대한 리뷰는 많은 양으로 존재합니다. 이러한 리뷰들을 요약하는 것은 사용자가 정보를 빠르게 파악하는 데 도움을 주며, 의사결정 과정을 간소화할 수 있습니다.
2. 기존의 접근 방식과 한계
뉴스 분야에서의 추상적 요약은 수백만 개의 뉴스 기사와 함께 제공되는 인간 작성 요약을 통해 훈련된 감독 시스템에 의해 큰 진전을 보였습니다. 하지만 의견 텍스트의 경우, 이러한 대규모 데이터셋이 드물게 존재합니다.
3. OpineSum의 소개
이러한 문제를 해결하기 위해, 'OpineSum'이라는 새로운 자가학습 접근법이 제안되었습니다. 이 방법은 텍스트 함축의 새로운 응용을 사용하여 여러 리뷰에서의 의견 합의를 포착하는 요약을 구축합니다.
4. OpineSum의 작동 방식
OpineSum은 대규모에서 은근한 표준 요약을 얻을 수 있으며, 비지도 및 소수샷 추상적 요약 시스템 훈련에 사용할 수 있습니다. 이 방법은 SOTA 달성했습니다.
OpineSum은 의견 요약의 새로운 지평을 열고, 대규모 데이터가 부족한 상황에서도 효과적인 요약을 생성할 수 있는 방법을 제시합니다. 이러한 발전은 의견 요약 기술의 미래에 큰 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 자연어 처리 변현정님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/gqJCWyYPtXQ
"3D Gaussian Splatting for Real-Time Radiance Field Rendering"은 고화질의 실시간 복사장 렌더링을 가능하게 하는 새로운 방법을 소개합니다. 이 방법은 혁신적인 3D 가우시안 장면 표현과 실시간 차별화 렌더러를 결합하여, 장면 최적화 및 새로운 시점 합성에서 상당한 속도 향상을 가능하게 합니다. 기존의 신경 복사장(NeRF) 방법들이 광범위한 훈련과 렌더링 자원을 요구하는 문제에 대한 해결책을 제시하며, 1080p 해상도에서 실시간 성능과 고품질의 새로운 시점 합성을 위해 설계되었습니다. 이는 이전 방법들에 비해 효율성과 품질 면에서 진보를 이루었습니다
이 논문은 컴퓨터 비전 작업, 예를 들면 이미지 분류, 검색 및 몇 번의 학습과 같은 작업에서의 하이퍼볼릭 임베딩의 사용에 대해 논의합니다. 저자들은 이미지 간의 계층적 관계를 임베딩하는 데 하이퍼볼릭 공간이 더 적합하다고 주장하며, 이러한 관계는 컴퓨터 비전 작업에서 흔히 볼 수 있습니다. 그들은 데이터셋의 초계성을 평가하는 방법을 제안하고, 하이퍼볼릭 임베딩이 이미지 분류와 몇 번의 학습을 위해 사용되는 표준 아키텍처의 성능을 향상시킬 수 있다고 보여줍니다. 또한, 이 논문은 하이퍼 볼릭 공간과 하이퍼볼릭 추정에 대한 기억을 상기시켜 줍니다.
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
이 논문은 MCSE라는 새로운 접근법을 제시하며, 시각과 텍스트 정보를 결합하여 의미있는 문장 임베딩을 학습합니다. 다양한 데이터셋과 사전 훈련된 인코더에서 성능 향상을 보이며, 의미론적으로 유사한 문장을 잘 정렬합니다. 또한, 비전을 추가 의미 정보로 사용함으로써 문장 표현 학습을 더욱 촉진할 수 있다는 주장을 하고 있습니다. 이 방법은 기존의 문장 임베딩 학습 방법과 비교되며, 그 결과로서 이론과 실제에서 모두 탁월한 성능을 보입니다.
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
Dataset Distillation by Matching Training Trajectories taeseon ryu
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
이 논문은 강화 학습(Reinforcement Learning, RL)을 감독 학습(Supervised Learning, SL)의 형태로 변환하는 새로운 접근법을 제안합니다. 이를 'Upside Down RL (UDRL)'이라 부릅니다. 표준 RL은 보상을 예측하는 반면, UDRL은 보상을 작업 정의 입력으로 사용하며, 시간 지향성과 기타 계산 가능한 함수를 이력 데이터와 원하는 미래 데이터에 적용합니다. UDRL은 이러한 입력 관찰을 명령으로 해석하고, 과거 경험에 대한 SL을 통해 이를 행동(또는 행동 확률)에 매핑하여 학습합니다.
UDRL은 높은 보상이나 다른 목표를 달성하기 위해 일반화하며, 이는 "주어진 시간 내에 많은 보상을 얻으라!"와 같은 입력 명령을 통해 이루어집니다. 또한 UDRL은 탐색 전략을 개선하는 방법을 배울 수 있습니다. 별도의 논문에서는 UDRL의 초기 버전이 특정 강화 학습 문제에서 전통적인 기준 알고리즘을 능가할 수 있다는 것을 보여줍니다.
이 논문은 또한 로봇이 사람을 모방하는 방법을 가르치는 접근법을 개념적으로 단순화합니다. 먼저 로봇의 현재 행동을 모방하는 사람들을 비디오로 촬영한 다음, 로봇이 이 비디오(입력 명령으로)를 이러한 행동에 매핑하는 방법을 SL을 통해 학습하게 합니다. 그런 다음 로봇은 일반화하고 이전에 알려지지 않은 행동을 실행하는 사람들의 비디오를 모방하게 됩니다.
오늘 논문 리뷰를 위해 강화학습 이도현님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bsBvKdKCc1E
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
핵심 키워드
Packed Levitated Markers (PL-Marker)
Neighborhood-oriented packing strategy:
Subject-oriented packing strategy
지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting
발표자료 : https://www.slideshare.net/taeseonryu/morel-modelbased-offline-reinforcement-learning
이 논문은 새로운 개체 및 관계 추출 방법인 Packed Levitated Markers (PL-Marker)에 초점을 맞추고 있습니다. PL-Marker는 인코더 내에서 전략적으로 마커를 패킹하여 스팬 간의 상호 관계를 고려합니다.
논문에서는 이웃 중심 패킹 전략과 주제 중심 패킹 전략 두 가지를 제시합니다. 이러한 전략들은 개체 경계 정보와 동일 주제 스팬 쌍 간의 상호 관계를 더 잘 모델링하도록 설계되었습니다.
실험 결과는 제안된 접근법의 효과를 보여줍니다. PL-Marker는 6개의 Named Entity Recognition (NER) 벤치마크에서 이전의 최첨단 모델들을 능가합니다.
오늘 논문 리뷰를 위해 자연어 처리 김유진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/aiS_iNOOUl8
오늘 소개할 논문은 'MOReL: Model-Based Offline Reinforcement Learning'입니다.
이 논문은 오프라인 강화 학습(Reinforcement Learning, RL)에 초점을 맞추고 있습니다. 오프라인 RL은 행동 정책을 개선하기 위해 사전에 수집된 데이터만을 사용하는 학습 방법입니다. 이 논문에서는 MOReL이라는 새로운 알고리즘 프레임워크를 제시하며, 이는 오프라인 RL을 위한 것입니다.
MOReL은 두 단계로 구성되어 있습니다: 첫째, 오프라인 데이터셋을 사용하여 비관적인 MDP(Model-based Decision Process)를 학습하고, 둘째, 이 P-MDP에서 거의 최적의 정책을 학습합니다. 학습된 P-MDP는 정책 평가와 학습에 대한 좋은 대리자 역할을 하며, 모델 기반 RL의 일반적인 함정인 모델 활용을 극복합니다.
이 논문에서는 MOReL이 오프라인 RL에 대해 최소최대 최적(minimax optimal)이며, 널리 연구된 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 또한, 이 논문은 오프라인 RL의 중요한 문제인 행동 정책의 안전성에 대한 중요한 통찰력을 제공합니다.
이 논문은 오프라인 강화 학습의 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 강화 학습 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
Scaling Instruction-Finetuned Language Modelstaeseon ryu
이 논문은 언어 모델에 대한 fine tuning하는 방법에 대해 탐구하고 있습니다. 특히, 작업의 수, 모델 크기, 그리고 체인-오브-소트 데이터를 확장하는 것에 초점을 맞추고 있습니다. 결과적으로, 다양한 모델 클래스와 평가 벤치마크에서 보이는 성능과 미처 보지 못한 작업에 대한 일반화에 있어서 상당한 향상을 보여줍니다.
이 논문은 또한, 강력한 few-shot 성능을 달성하는 Flan-T5 체크포인트를 공개합니다. 지시사항 미세조정은 사전 훈련된 언어 모델의 성능과 사용성을 향상시키는 일반적인 방법입니다.
이 논문은 언어 모델의 미세조정에 대한 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
오늘 논문 리뷰를 위해 자연어처리 박산희님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/lta-rKYtVbg
Visual Prompt Tuning (VPT),Parameter-efficient fine-tuning
지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting
발표자료 : https://www.slideshare.net/taeseonryu/mplug
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개 드릴 논문은 'Visual Prompt Tuning for Transformers with Frozen Weights' 입니다.
오늘 소개하는 논문은 대규모 Transformer 모델을 비전에 효율적이고 효과적으로 미세조정하는 대안인 Visual Prompt Tuning (VPT)를 소개하고 있습니다. VPT는 입력 공간에서 작은 양의 훈련 가능한 매개변수를 도입하면서 모델 백본을 고정합니다.
이 방법을 통해, VPT는 다른 매개변수 효율적인 튜닝 프로토콜에 비해 상당한 성능 향상을 달성하며, 많은 경우에는 전체 미세조정을 능가하면서 작업당 저장 비용을 줄인다는 것을 실험적으로 보여줍니다.
이 논문은 효과성과 효율성 면에서 대규모 사전 훈련된 Transformer를 하위 작업에 적용하는 도전을 다룹니다. 이를 통해, 더 효율적인 방식으로 다양한 비전-언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
오늘 논문 리뷰를 위해 이미지처리 조경진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bVOk-hSYyZw
오늘 영상에서 소개된 논문은 Alibaba의 DAMO Academy가 개발한 새로운 비전-언어 기반 모델인 mPLUG입니다. mPLUG는 cross-modal skip-connections을 사용하여 기존의 사전 훈련된 모델에서 나타나는 계산 효율성이 낮고 정보 불균형 문제를 해결합니다.
mPLUG는 이미지 캡셔닝, 이미지-텍스트 검색, 시각적 그라운딩, 시각적 질문 응답 등 다양한 비전-언어 하위 작업에서 최첨단 결과를 보여줍니다. 또한, 다수의 비디오-언어 작업에 직접 전환할 때 강력한 제로샷 전이성을 보여줍니다.
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
Train중 예상 Return 을 최대화하기 위해 알려지지 않은 환경에서 '탐색'과 '활용' 사이의 균형을 잘 이루는 것이 중요합니다. 이를 이상적으로 수행하는 '베이즈 최적 정책'은 환경 상태뿐만 아니라 에이전트가 환경에 대해 느끼는 불확실성에 따라 행동을 결정합니다. 하지만, 베이즈 최적 정책을 계산하는 것은 작은 작업들에 대해서조차 까다롭습니다. 이 논문에서는, 알려지지 않은 환경에서 근사적으로 추론을 수행하고, 그 불확실성을 행동 선택 과정에 직접 포함시키는 방법, 'variational Bayes-Adaptive Deep RL' (variBAD)를 소개합니다.
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
논문에서는 최적화 컴파일러에서 신경망 연산 그래프의 실행 비용을 최소화하는 깊은 강화 학습 방법을 제시합니다. 이전의 학습 기반 작업들은 최적화될 동일한 그래프에서 최적화기를 훈련하는 것이 필요했지만, 논문은 오프라인에서 최적화기를 훈련하고 이후에는 추가 훈련 없이 이전에 보지 못한 그래프에 일반화하는 학습 접근법을 제안합니다. 이를 통해 논문의 방법은 시간 대신 초 단위로 실제 세계의 텐서플로우(TensorFlow) 그래프에서 고품질의 실행 결정을 생성할 수 있습니다. 논문은 연산 그래프에 대한 두 가지 최적화 작업을 고려합니다: 실행 시간과 최대 메모리 사용량을 최소화하는 것입니다. 광범위한 기준 세트에 비해, 우리의 접근법은 이 두 가지 작업에서 고전적인 방법과 다른 학습 기반 방법에 비해 상당한 개선을 보여줍니다.
이 논문은 신경망 학습에 대한 새로운 방법을 제시하는데, 이 방법의 이름은 'Forward-Forward 알고리즘'입니다. 기존의 딥러닝 방법은 데이터를 앞으로 보내고 결과를 다시 뒤(backward)로 보내는 '앞-뒤' 방식인데, 이 새로운 방법은 '앞-앞' 방식을 사용하니까 'Forward-Forward'라고 부릅니다.
이 알고리즘에서는 '양의 데이터'와 '부정적인 데이터' 두 종류를 사용합니다. '양의 데이터'는 실제로 우리가 가진 정보를 의미하고, '부정적인 데이터'는 신경망이 스스로 생성하는 정보를 말합니다. 이 두 종류의 데이터를 각각 앞으로 보내서, 각 계층이 '양의 데이터'에 대해는 좋은 결과를, '부정적인 데이터'에 대해는 나쁜 결과를 내도록 학습합니다.
핵심은 신경망의 학습 방법에 변화를 주어, 더 효율적이고 간편하게 학습을 진행할 수 있도록 한다는 점입니다. 이 방법을 사용하면 비디오 같은 데이터를 신경망을 통해 처리하면서 복잡한 연산을 중단하거나 데이터를 저장할 필요 없이 진행할 수 있다는 것이 큰 장점입니다.
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
활성 학습(Active Learning, AL)은 대량의 라벨이 없는 데이터를 처리하고, 데이터 라벨링 비용이 지나치게 높은 영역에서 이를 줄이는데 유망한 머신러닝 패러다임입니다. 최근에 제안된 신경망 기반의 활성 학습 방법들은 이 목표를 달성하기 위해 다양한 휴리스틱을 사용합니다.
이 연구에서는 동일한 실험 조건 하에서, 다른 종류의 활성 학습 알고리즘들(불확실성 기반, 다양성 기반, 커미티 기반)이 무작위 샘플링 기준에 비해 일관성 없는 향상을 보이는 것을 보여줍니다. 다양한 실험을 통해, 확률적 요인을 제어하면서, 활성 학습 알고리즘들이 달성하는 성능 지표의 변동성이 이전에 보고된 결과와 일치하지 않는 결과를 가져올 수 있음을 보여줍니다
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.
Chatty Kathy - UNC Bootcamp Final Project Presentation - Final Version - 5.23...John Andrews
SlideShare Description for "Chatty Kathy - UNC Bootcamp Final Project Presentation"
Title: Chatty Kathy: Enhancing Physical Activity Among Older Adults
Description:
Discover how Chatty Kathy, an innovative project developed at the UNC Bootcamp, aims to tackle the challenge of low physical activity among older adults. Our AI-driven solution uses peer interaction to boost and sustain exercise levels, significantly improving health outcomes. This presentation covers our problem statement, the rationale behind Chatty Kathy, synthetic data and persona creation, model performance metrics, a visual demonstration of the project, and potential future developments. Join us for an insightful Q&A session to explore the potential of this groundbreaking project.
Project Team: Jay Requarth, Jana Avery, John Andrews, Dr. Dick Davis II, Nee Buntoum, Nam Yeongjin & Mat Nicholas
Show drafts
volume_up
Empowering the Data Analytics Ecosystem: A Laser Focus on Value
The data analytics ecosystem thrives when every component functions at its peak, unlocking the true potential of data. Here's a laser focus on key areas for an empowered ecosystem:
1. Democratize Access, Not Data:
Granular Access Controls: Provide users with self-service tools tailored to their specific needs, preventing data overload and misuse.
Data Catalogs: Implement robust data catalogs for easy discovery and understanding of available data sources.
2. Foster Collaboration with Clear Roles:
Data Mesh Architecture: Break down data silos by creating a distributed data ownership model with clear ownership and responsibilities.
Collaborative Workspaces: Utilize interactive platforms where data scientists, analysts, and domain experts can work seamlessly together.
3. Leverage Advanced Analytics Strategically:
AI-powered Automation: Automate repetitive tasks like data cleaning and feature engineering, freeing up data talent for higher-level analysis.
Right-Tool Selection: Strategically choose the most effective advanced analytics techniques (e.g., AI, ML) based on specific business problems.
4. Prioritize Data Quality with Automation:
Automated Data Validation: Implement automated data quality checks to identify and rectify errors at the source, minimizing downstream issues.
Data Lineage Tracking: Track the flow of data throughout the ecosystem, ensuring transparency and facilitating root cause analysis for errors.
5. Cultivate a Data-Driven Mindset:
Metrics-Driven Performance Management: Align KPIs and performance metrics with data-driven insights to ensure actionable decision making.
Data Storytelling Workshops: Equip stakeholders with the skills to translate complex data findings into compelling narratives that drive action.
Benefits of a Precise Ecosystem:
Sharpened Focus: Precise access and clear roles ensure everyone works with the most relevant data, maximizing efficiency.
Actionable Insights: Strategic analytics and automated quality checks lead to more reliable and actionable data insights.
Continuous Improvement: Data-driven performance management fosters a culture of learning and continuous improvement.
Sustainable Growth: Empowered by data, organizations can make informed decisions to drive sustainable growth and innovation.
By focusing on these precise actions, organizations can create an empowered data analytics ecosystem that delivers real value by driving data-driven decisions and maximizing the return on their data investment.
Deep learning paper review ppt sourece -Direct clr
1. Understanding Dimensional Collapse in
Contrastive Self-Supervised Learning
1
Li Jing et al.
Facebook AI research
Presenter
이재윤
Fundamental Team
김동희, 김지연, 김창연, 송헌, 이근배
5. 5
Collapsing Problem
• 2 types of collapse
complete collapse : all vector shrinks to one vector
dimensional collapse : embedding vectors only span a lower-dimensional subspace
• Self-Supervision prevents complete collapse
dimensional collapse still occurs
6. 6
Contrastive Learning
• Compare training samples
Encourage positive pairs to be close
Negative pairs are pushed away
• It seems intuitive to speculate that negative
pairs prevent dimensional collapse
• Contrary to the intuition, contrastive
learning stills suffers from dimensional
collapse
CNN
CNN
𝑓𝑖
𝑓𝑗
“Negative” Pairs
7. 7
Contrastive Learning
• Singular value spectrum of embedding space of SimCLR
𝐶 = 𝑖 𝑧𝑖 − 𝑧 𝑧𝑖 − 𝑧 𝑇/𝑁 = 𝑖 𝑊 𝑥𝑖 − 𝑥 𝑥𝑖 − 𝑥 𝑇𝑊𝑇/𝑁
Covariance matrix 𝐶 = 𝑈𝑆𝑉𝑇
• Embedding vectors only span a lower-dimensional subspace
About 30 singular values drop to zero
• Bad influence on downstream task (e.g classification)
8. 8
DirectCLR
• Show contrastive learning also suffers from dimensional collapse
• Explain why dimensional collapse also occur in contrastive learning
Data augmentation
Implicit regularization
• Propose novel contrastive learning method, called DirectCLR
17. Implicit Regularization
17
• The first scenario is usually hard to happen
Only with strong augmentation
Assumes single layer
• Even with small augmentation, dimensional collapse still happens for deep network
Implicit regularization
Over-parameterized linear network fine low-rank 𝐶
• Assume two-layer linear MLP
18. Implicit Regularization
18
• Gradient which evolves weight matrix 𝑊1 and 𝑊2 is as follows:
• Interaction between two weight matrix is the key
Governed by adjacent orthonormal matrices
𝐺1 = W2
T
G
𝐺2 = 𝐺𝑊1
𝑇
𝐺 = − 𝑖 𝑔𝑧𝑖
𝑥𝑖
𝑇
+ 𝑔′
𝑧𝑖
𝑥′
𝑖
𝑇
𝐺 = −𝑊2𝑊1𝑋
𝑊2𝑊1𝑋 = 𝑈2𝑆2𝑽𝟐
𝑻
𝑼𝟏𝑆1𝑉1
𝑇
𝑋
Theorem 2
If for all t, 𝑊2 𝑡 𝑊1 𝑡 ≠ 0, 𝑋 𝑡 is positive-definite and
𝑊1 +∞ , 𝑊2(+∞) have distinctive singular values, then the
alignment matrix 𝐴 = 𝑽𝟐
𝑻
𝑼𝟏 → 𝐼
<Visualization of Matrix 𝐴>
19. Implicit Regularization
19
• In Real scenario,
Singular value initialized with random value
Alignment is not perfect
Alignment matrix is block-diagonal matrix
Each block is a group of degenerate singular value
• Singular values of each weight matrix evolves by the values as follows:
𝜎1
𝑘
= 𝜎1
𝑘
𝜎2
𝑘 2
𝑣1
𝑘𝑇
𝑋𝑣1
𝑘
, 𝜎2
𝑘
= 𝜎2
𝑘
𝜎1
𝑘 2
𝑣1
𝑘𝑇
𝑋𝑣1
𝑘
𝜎1
𝑘
= 𝜎1
𝑘
𝜎1
𝑘
+ 𝐶
2
𝑣1
𝑘𝑇
𝑋𝑣1
𝑘
24. Using projector
• Singular vectors of embedding vector of SimCLR suffers dimensional collapse
• Instead, representation suffers from less dimensional collapse
Projector prevents the collapse
• For downstream task, only representation is used
24
<Representation and embedding> <Representation space spectrum>
25. Using projector
• The effect of projector
I. Projector weight matrix is diagonal
As the alignment occurs, matrix becomes a simple diagonal matrix
II. Projector weight matrix is low-rank
As the weight matrix of projector is low-rank,
gradient is only applied to the subspace of the representation
25
𝑊2𝑊1𝑋 = 𝑈2𝑆2𝑽𝟐
𝑻
𝑼𝟏(→ 𝐼)𝑆1𝑉1
𝑇
𝑋
26. Main Idea
• DirectCLR
Remove the projector
Directly send sub-vector of representation to the loss
Simplified training framework!
• InfoNCE Loss is calculated only with 𝒛 = 𝐫 𝟎: 𝐝𝟎
• Comparison between SimCLR
DirectCLR trained with standard recipe of SimCLR for100 epochs
ResNet-50 as backbone
26
<Test accuracy on ImageNet>
27. Main Idea
• Why the rest of the representation, 𝐫[𝐝𝟎 + 𝟏: ], contains useful information?
𝐫[𝐝𝟎 + 𝟏: ] is copied from the layer before the last residual block
DirectCLR takes advantage of the ResNet
27
30. Conclusion
• Provide theoretical understanding of dimensional collapse
I. Strong Augmentation
II. Implicit Regularization
• Propose novel contrastive self-supervised learning, DirectCLR
Prevents dimensional collapse without projector
Better performance compared to SimCLR with trainable linear projector
• Limitation
DirectCLR does not perform better than SimCLR with 2-layer projector
Limitation on generalization to other architecture
30
안녕하십니까 제가 이번에 발표할 논문은
Facebook AI research에서 2022년 ICLR에 제출한 논문인
Understanding Dimensional Collapse in Contrastive Self-Supervised Learning
입니다.
펀디멘탈팀원분들께서 발표준비에 많은 도움을 주셨습니다.
먼저 발표 순서를 알려드리겠습니다.
첫번째 장에서는 이 논문이 전체적으로 어떤 논문인지 소개해 드리면서 이 논문의 Motivation 에 대해 설명하고
두번째 장에서는 본 논문에서 기존의 문제점이 생기는 두가지 이유를 어떻게 수학적으로 설명하는지 소개해 드리고
세번째 장에서는 이러한 문제점을 회피하기 위해 제시하는 DirectCLR가 어떤 것인지 알려드리겠습니다.
그리고 마지막으로 결론을 말씀드리고 발표를 끝낼 예정입니다.
먼저 Contrastive Learning 에 대해 간단하게 짚고 넘어면서 동시에 이 논문이 전체적으로 어떤 논문인지 소개해 드리겠습니다.
먼저
Contrastive Learning 을 설명하려면 Self-Supervision 을 알아야 하는데요
Self-supervision 은 Label이 없는 데이터셋에 대해 아래와 같이 다양한 pretext task 를 정의를 하고 이를 풀도록 네트워크를 학습시키는 방식입니다.
그러한 pretext task 로는 첫번째 그림처럼 Image 의 각 patch간의 상대적인 위치를 예측하도록 하는 방법도 있구요
두번째 그림처럼 Image 의 각 patch 를 섞어서 다시 원래대로 복구시키도록 하는 방법도 있고
마지막 그림처럼 한 Image 를 서로 다르게 Augment시키고 이후 나오는 embedding vector 들 간의 관계로 학습을 시키는 방법도 있습니다.
그리고 이 외에도 정말 많은 self-supervision 방법들이 있습니다.
그런데 이 self-supervision 에는 계속해서 제기되어 온 self-supervision 만의 단점이 있는데요 바로 collapsing problem 입니다.
Collapse에는 두가지 종류가 있는데요, 첫번째는 모든 벡터가 하나의 벡터로 줄어들어버리는 complete collapse가 있고
두번째는 모든 차원에 분포하지 않고 특정 부분 차원으로만 학습이 되는 dimensional collapse가 있습니다.
이때 self-supervision은 complete collapse가 일어나지는 않습니다.
그런데 self-supervision의 고질적인 문제점으로서 dimensional collapse가 발생한다는 문제점이 있죠
Self-supervision 중 positive pair는 가깝게, 그리고 negative pair는 서로 멀어지게 학습을 시키는 Contrastive Learning 이 있습니다.
이 방법은 negative pair 로 인해 앞에서 언급한 dimensional collapse에 강인할 것이라고 직관적인 생각이 드는데요,
사실은 그렇지 않았습니다.
오른쪽 그림은 SimCLR로 학습시킨 모델의 embedding space의 singular value의 스펙트럼인데요
embedding vector가 총 128차원을 가질 때, 각 차원들의 singular value의 log값을 나타낸 그림입니다.
그림을 보시면 가로축은 각 singular value들의 index구요
세로축은 singular value들의 log값이어서 singular value가 0에 가까울수록 그 값이 무한이 마이너스로 떨어지게 됩니다.
그래서 보시면 Contrastive Learning으로 학습한 SimCLR의 경우에도 약 30개정도의 singular value가 0에 가까운 것을 볼 수 있습니다.
그러면 왜 이러한 collaps가 좋지 않은걸까라고 생각이 들 수 있는데요
이거는 제 생각이긴 한데 dimensional collapse 가 일어나면 representation 이 충분히 학습되지 않았을 것이고 이는 classification 과 같은 downstream task 에 악영향을 미치기 때문이 아닐까라고 생각합니다.
오른쪽 그림은 SimCLR로 학습시킨 모델의 embedding space의 singular value의 스펙트럼인데요
embedding vector가 총 128차원을 가질 때, 각 차원들의 singular value의 log값을 나타낸 그림입니다.
그림을 보시면 가로축은 각 singular value들의 index구요
세로축은 singular value들의 log값이어서 singular value가 0에 가까울수록 그 값이 무한이 마이너스로 떨어지게 됩니다.
그래서 보시면 Contrastive Learning으로 학습한 SimCLR의 경우에도 약 30개정도의 singular value가 0에 가까운 것을 볼 수 있습니다.
그러면 왜 이러한 collaps가 좋지 않은걸까라고 생각이 들 수 있는데요
이거는 제 생각이긴 한데 dimensional collapse 가 일어나면 representation 이 충분히 학습되지 않았을 것이고 이는 classification 과 같은 downstream task 에 악영향을 미치기 때문이 아닐까라고 생각합니다.
여기까지가 이 논문의 background
다음에는 이 논문에서 주장하는 collapse가 발생하는 두가지 매커니즘에 대해 설명해드리겠습니다.
첫번째는 Data augmentation입니다.
저자는 augmentation 에 의한 variance 가 데이터 자체의 variance 보다 큰 경우에 dimensional collapse 가 발생할 수 있다고 주장하는데요
이를 보여주기 위해 단일 linear network 를 통해 식으로 증명했습니다.
먼저 단일 linear network 학습시 사용한 loss 는 contrastive learning 시 많이 보는 InfoNCE Loss입니다
이거는 다들 많이 보셔서 알겠지만 위에는 positive pair가 있구요
아래는 negative의 값입니다.
그렇게 계산된 Loss를 Linear layer 의 weight matrix 인 W에 대해 편미분하여 Gradient를 chain rule 을 이용하여 첫번째 equation 과 같이 나타내구요,
이때 g_z embedding vector z 를 W로 편미분한 값은 두번째 equation 처럼 나타납니다.
여기는 따로 설명하지 않을 것이 수식이 복잡해보이기는 해도
전 페이지의 InfoNCE Loss 를 기본적인 편미분 지식으로 직접 미분해보시면 똑같이 나오는것을 알 수 있습니다.
대신 여기서 중요한 것은 Gradient G는 공통적으로 모든 항에
Embedding vector z들로 이루어져 있다는 것을 알 수 있습니다.
그리고 이 embedding vector z는 입력값에 공통적으로 weight matrix W 가 곱해진 값입니다.
그래서 Gradient G는 weight matrix 와 어떤 행렬 X 의 곱이라고 표현할 수 있고
X는 정리하면 다음과 같이 나타납니다.
여기서 첫번째 항을 보면 x_i – x-j 의 covariance 항입니다.
즉 데이터 간의 covariance 항이구요
두번째 항은 x_i 와 x_i prime 간의 covariance 항 즉, Augmentation 한 데이터 간의 covariance 입니다.
즉 X는 두 Positive semi definite 행렬의 차이입니다.
일단 여기까지 어떻게 보면 복잡한 식들이 전개되었는데요 결국 여기서 중요한 것은 X 의 eigen value 의 부호입니다.
먼저 Weight matrix 를 t 번 업데이트 했을 때 값을 미분방정식을 풀고 X를 eigen decomposition 해서 대체하면 다음과 같이 나타납니다.
이때 학습이 진행되면서 t 가 무한대에 가까워질때, X 의 eigen value 에 음수 값이 있으면 X값은 rank-deficient 즉 rank 값이 낮아지게 됩니다.
그리고 낮은 rank값과 W-zero와 곱해진 W-t 또한 low-rank 이며
최종적으로 W 가 들어간 covariance matrix C 또한 low-rank 가 됩니다.
즉 dimension collapse 가 발생하는 것이죠,
두번째 매커니즘 설명하기 전에 혹시 질문 있으시면 질문 받도록 하겠습니다.
다음은 dimensional collapse 가 발생하는 두번째 메커니즘인 implicit regularization 에 대해 설명해드리겠습니다.
앞에서 말한 시나리오는 사실 일어나기 어렵습니다
첫번째로 강한 augmentation 을 가정해야하고 또한 단일 층의 인공신경망을 가정했을 때이기 때문입니다.
그렇다면 과연 augmentation 이 적은 상황에서 deep network 에서는 dimensional collapse 가 안 일어나는가 하면 그것은 또 아닙니다.
이 논문에서 가정하는 또 다른 이유로는 implicit regularization 입니다.
즉 over-parametrized linear network 가 low-rank covariance 를 도출한다는 것입니다.
이를 수학적으로 증명하기 위해 이번엔 2개 층의 MLP를 가정합니다.
이때 Weight matrix W-one 과 W-two 를 업데이트 시키는 gradient 값은 다음 두 식과 같이 나오고 이때 G값은 앞에 data augmentation 했을 때와 마찬가지로 밑에 두 식과 같이 구성되어 있습니다.
다만 다른 것은 이번에는 Weight matrix 1개가 아니라 2개가 곱해져 있는 형태입니다
이제 이를 해석하기 위해서는 이 두 weight matrix 두개 사이의 상호작용이 어떻게 되는지가 중요한데요
두 행렬을 svd 분해 해서 그 사이의 두 직교함수 V2와 U1의 곱에 의해 결정되는 것을 알 수 있습니다.
이때 선형대수 이론 중에 만약 X가 positive-definite하고 모든 t 에 대해 W2W1 이 0이 아니며 그리고 무한대로 갔을 때 W1과 W2가 distinctive singular value 를 가진다면 행렬 A,(V2 transpose 곱하기 U one)은 단위행렬로 수렴하게 됩니다.
본 논문에서는 이게 실제 상황에서도 그런지 행렬 A의 절대값을 시각화해봤는데요
오른쪽 그림에서와 같이 단위행렬 I와 비슷하게 나오는 것을 확인하였습니다.
그런데 방금과 같은 경우는 이 행렬 A는 아무리 학습이 진행되어도 단위행렬 I가 유지되도록 퇴화하지 않는 singular value 들로 초기화 한 경우에 만족을 하구요
실제 시나리오 같이 랜덤하게 singular value 가 초기화 되는 경우에는
이 alignment 가 완벽하지 않고 따라서 단위 행렬이 아니라 학습이 진행됨에 따라 degenerate 하는 singular value 들로 이루어진 block-diagonal 행렬로 이루어지게 됩니다.
이 경우 각 weight matrix 의 singular value 들은 아래 두 값에 따라 업데이트 됩니다.
즉 식에서 보듯이 각 singular value 들을 update 하는 값들이 원래 자기 자신의 값에 비례하기 때문에
작은 singular value 들은 더욱 느리게, 큰 singular value 들은 더욱 빠르게 값이 변합니다.
이를 실제 실험에서 측정해보면 아래의 그림과 같이 나오는데요
W1, 그리고 W2에서 보면 초기에 작은 값을 가졌던 singular value 들은 학습이 진행되면서 오히려 줄어들거나
증가하더라도 더 큰 값에서 시작한 singular value 보다는 느리게 커지는 모습을 보여줍니다.
따라서 covariance 행렬의 singular value 에 따라 embedding space 가 결정되는데요
이 covariance 행렬은 low rank 인 W1W2가 곱해져있고 따라서 Covariance matrix C도한 low rank 가 됩니다.
이로인해 아래의 맨 오른쪽 그림을 보면 embedding space 또한 학습이 진행되어도 몇몇 singular value 들은 0에 가까운 값을 가지는, dimensional collapse 가 발생하게 됩니다.
이제 이를 두개 층의 네트워크에서 더 많은 층의 네트워크로 확장함으로써 over-parameter 화된 경우는 어떤지 실험적으로 살펴보겠습니다.
결과적으로는 층이 더 깊어질수록 collapse 현상은 더욱 심해집니다.
아래의 왼쪽 그림을 보시면 층 개수인 L 이 1에서 4로 커지면 커질수록 0에 가까운 singular value 의 개수가 점점 늘어나는 것을 볼 수 있습니다.
이는 더 많은 행렬들이 곱해질수록 그 붕괴가 점점 증폭되기 때문입니다.
그리고 ReLU함수를 2개 층 사이에 끼워넣었을때도 똑같이 dimensional collapse 가 ReLU함수가 없을때와 비슷하게 발생하는 것을 오른쪽 그림에서 볼 수 있습니다.
여기까지가 이 논문의 background
이번 방에서는 contrastive learning 에서 사용했던 projector 의 역할을 소개해드리고
이 논문에서 projector 없이도 projector 의 효과를 내는 새로운 contrastive learning 방법인 DirectCLR을 소개해드리겠습니다.
앞에서도 언급했듯이 SimCLR로 학습했을 때,
아래의 왼쪽 그림에서 projector 이후의 embedding vector 들은 dimensional collapse 를 겪습니다.
그런데 대신 projector 이전에 encoder 만 통과한 representation 같은 경우에는 오른쪽 그림과 같이 dimensional collapse 가 덜 심한 것을 알 수 있습니다.
만약 projector 가 없이 학습된 representation 이라면 또 dimensional collapse 를 겪게 됩니다.
이를 나타낸 것이 오른쪽 그림인데요
노랜색은 projector 없이 학습한 representation 의 singular value 들이고
파란색은 projector 사용하여 학습한 representation 의 singular value 들입니다.
그리고 다들 아시겠지만 SimCLR같은 경우 projector 들은 downstream task 를 수행할 때는 버려지고 representation 만이 사용됩니다.
그러면 여기서 projector 는 어떤 형태를 가지고 그리고 어떤 영향을 미치는지 생각해보면
먼저 projector 의 weight matrix 는 diagonal 할 겁니다.
즉 projector 의 weight matrix 가 encoder 의 weight matrix 와도 정렬이 발생하면서
Projector 의 두 직교함수가 서로 합쳐지면서 단위행렬이 되고 이는 즉 단순히 projector 는 대각행렬의 형대만 되는 것입니다.
그리고 이러한 projector 는 low-rank 이기 때문에 projector 이전의 representation 에 또한 low-rank 에만 gradient 를 전달하게 됩니다.
그러면 저자는 여기서 다음과 같이 생각합니다.
어차피 projector 가 low rank 의 representation 에만 영향을 미치는 거라면
아예 projector 를 없애고 다이렉트하게 representation 의 low-rank 만 가지고 Loss 를 계산하면 비슷한 효과를 내면서
SimCLR 의 학습방법이 좀더 간소화 될 수 있지 않을까…
그렇게 해서 나온 것이 DirectCLR 입니다.
DirectCLR 는 오른쪽 그림과 같이 representation vector r에서 오직 sub vector 만으로 loss 가 계산되어 학습됩니다.
DirectCLR의 성능을 SimCLR와 비교하기 위해 SimCLR의 표준 학습방식으로100 epoch 동안 ResNet50을 베이스로 하여 학습을 시켰구요
이후 ImageNet에 대한 성능을 비교하면 아래 표와 같습니다.
보시면 2개 layer 의 projector 를 사용한것 만큼은 아니지만 1개층의 projector 를 사용했을 때보다 더 높은 성능을 보여줍니다.
그리고 각 경우에 대해 representation 의 singular value 를 시각화 한것이 오른쪽 그림인데요
보시면 DirectCLR 가 projector 없이 학습했음에도 불구하고 projector를 써서 dimensional collapse 를 예방한 SimCLR만큼 singular value 값들이 존재하는 것을 볼 수 있습니다.
그런데 이때 의문이 들 수 있는 점이 있습니다.
Gradient 는 오직 representation 의 일부분만 사용했는데 왜 정확도 측정은 전체 representation 을 이용해서 측정하는가.
나머지 부분에도 유용한 정보가 있기는 한건가? 라고 생각이 들 수 있는데요
일단은 representation 의 나머지 부분에도 유용한 정보가 들어있기는 합니다.
왜냐하면 나머지 부분 r[d_0부터 나머지]는 사실 ResNet 의 마지막 층에서 residual connection 을 통해 copy 된 값들이기 때문입니다.
물론 이 copy 된 값들도 직접적인 gradient 가 전달되지는 않지만 그래도 convolution block 이 업데이트되기 때문에 유용한 정보를 담고 있게 되는 것입니다.
여기까지가 이 논문의 background
다음에는 이 논문에서 주장하는 collapse가 발생하는 두가지 매커니즘에 대해 설명해드리겠습니다.