오늘 소개드릴 논문은 단어의 시퀀스의 확률을 할당하는
Large scale LM 모델 방법과 직접 레이블링한 데이터로
파인튜닝한 트랜스포머 계열의 대화테스크를 위한
언어 모델이라고 이해해주시면 될 것 같습니다
그래서 Google CEO가 직접 2021년에 발표를 했고
영상에서는 LaMDA가 이렇게 행성으로
이제 페르소나를 가지고 서로 대화하는 모습을 Google I/O 에서 보여주셨습니다
Preference amplification in recommendation system taeseon ryu
1. This paper analyzes how recommender systems can amplify user preferences over time through feedback loops, potentially leading to echo chambers and filter bubbles.
2. It develops a theoretical model of interactions between users and recommender systems and proves the existence of asymptotically stable fixed points where user preferences become increasingly polarized.
3. Simulations show how user preferences diverge over time, with users becoming more likely to engage with items similar to their initial preferences and less likely to engage with other items.
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
* Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach. AISTATS'18 (to appear).
arXiv ver.: https://arxiv.org/abs/1606.09066#
* GitHub
https://github.com/sato9hara/defragTrees
Preference amplification in recommendation system taeseon ryu
1. This paper analyzes how recommender systems can amplify user preferences over time through feedback loops, potentially leading to echo chambers and filter bubbles.
2. It develops a theoretical model of interactions between users and recommender systems and proves the existence of asymptotically stable fixed points where user preferences become increasingly polarized.
3. Simulations show how user preferences diverge over time, with users becoming more likely to engage with items similar to their initial preferences and less likely to engage with other items.
오사카 대학 Nishida Geio군이 Normalization 관련기술 을 정리한 자료입니다.
Normalization이 왜 필요한지부터 시작해서
Batch, Weight, Layer Normalization별로 수식에 대한 설명과 함께
마지막으로 3방법의 비교를 잘 정리하였고
학습의 진행방법에 대한 설명을 Fisher Information Matrix를 이용했는데, 깊이 공부하실 분들에게만 필요할 듯 합니다.
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
xgboost를 이해하기 위해서 찾아보다가 내가 궁금한 내용을 따로 정리하였으나, 역시 구체적인 수식은 아직 모르겠다.
요즘 Kaggle에서 유명한 Xgboost가 뭘까?
Ensemble중 하나인 Boosting기법?
Ensemble 유형인 Bagging과 Boosting 차이는?
왜 Ensemble이 low bias, high variance 모델인가?
Bias 와 Variance 관계는?
Boosting 기법은 어떤게 있나?
Xgboost에서 사용하는 CART 알고리즘은?
* Satoshi Hara and Kohei Hayashi. Making Tree Ensembles Interpretable: A Bayesian Model Selection Approach. AISTATS'18 (to appear).
arXiv ver.: https://arxiv.org/abs/1606.09066#
* GitHub
https://github.com/sato9hara/defragTrees
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
ICML 2018読み会の資料.
Overview of NLP/ Adversarial Attacks
- Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples
- Synthesizing Robust Adversarial Examples
- Black-box Adversarial Attacks with Limited Queries and Information
This document summarizes a presentation on offline reinforcement learning. It discusses how offline RL can learn from fixed datasets without further interaction with the environment, which allows for fully off-policy learning. However, offline RL faces challenges from distribution shift between the behavior policy that generated the data and the learned target policy. The document reviews several offline policy evaluation, policy gradient, and deep deterministic policy gradient methods, and also discusses using uncertainty and constraints to address distribution shift in offline deep reinforcement learning.
Deep learning기법을 이상진단 등에 적용할 경우, 정상과 이상 data-set간의 심각한 unbalance가 문제. 본 논문에서는 GAN 기법을 이용하여 정상 data-set만의 Manifold(축약된 모델)를 찾아낸 후 Query data에 대하여 기 훈련된 GAN 모델로 Manifold로의 mapping을 수행함으로서 기 훈련된 정상 data-set과의 차이가 있는지 여부를 판단하여 Query data의 이상 유무를 결정하고 영상 내에 존재하는 이상 영역을 pixel-wise segmentation 하여 제시함.
For the full video of this presentation, please visit:
https://www.edge-ai-vision.com/2021/02/introduction-to-the-tvm-open-source-deep-learning-compiler-stack-a-presentation-from-octoml/
Luis Ceze, Co-founder and CEO of OctoML, a Professor in the Paul G. Allen School of Computer Science and Engineering at the University of Washington, and Venture Partner at Madrona Venture Group, presents the “Introduction to the TVM Open Source Deep Learning Compiler Stack” tutorial at the September 2020 Embedded Vision Summit.
There is an increasing need to bring machine learning to a wide diversity of hardware devices. Current frameworks rely on vendor-specific operator libraries and optimize for a narrow range of server-class GPUs. Deploying workloads to new platforms — such as mobile phones, embedded devices, and accelerators — requires significant manual effort.
In this talk, Ceze presents his work on the TVM stack, which exposes graph- and operator-level optimizations to provide performance portability for deep learning workloads across diverse hardware back-ends. TVM solves optimization challenges specific to deep learning, such as high-level operator fusion, mapping to arbitrary hardware primitives and memory latency hiding. It also automates optimization of low-level programs to hardware characteristics by employing a novel, learning-based cost modeling method for rapid exploration of optimizations.
This document discusses XGBoost, an optimized distributed gradient boosting library. It begins by explaining what problems XGBoost can solve like binary classification, regression, and ranking. It then discusses the key concepts in XGBoost including boosted trees, GBDT, tree ensembles, and additive training. XGBoost builds an ensemble of trees using gradient boosting and additive training to minimize loss. It provides efficient algorithms for split finding to construct trees level-by-level to maximize the loss drop at each step.
발표자: 박태성 (UC Berkeley 박사과정)
발표일: 2017.6.
Taesung Park is a Ph.D. student at UC Berkeley in AI and computer vision, advised by Prof. Alexei Efros.
His research interest lies between computer vision and computational photography, such as generating realistic images or enhancing photo qualities. He received B.S. in mathematics and M.S. in computer science from Stanford University.
개요:
Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs.
However, for many tasks, paired training data will not be available.
We present an approach for learning to translate an image from a source domain X to a target domain Y in the absence of paired examples.
Our goal is to learn a mapping G: X → Y such that the distribution of images from G(X) is indistinguishable from the distribution Y using an adversarial loss.
Because this mapping is highly under-constrained, we couple it with an inverse mapping F: Y → X and introduce a cycle consistency loss to push F(G(X)) ≈ X (and vice versa).
Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc.
Quantitative comparisons against several prior methods demonstrate the superiority of our approach.
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
ICML 2018読み会の資料.
Overview of NLP/ Adversarial Attacks
- Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples
- Synthesizing Robust Adversarial Examples
- Black-box Adversarial Attacks with Limited Queries and Information
This document summarizes a presentation on offline reinforcement learning. It discusses how offline RL can learn from fixed datasets without further interaction with the environment, which allows for fully off-policy learning. However, offline RL faces challenges from distribution shift between the behavior policy that generated the data and the learned target policy. The document reviews several offline policy evaluation, policy gradient, and deep deterministic policy gradient methods, and also discusses using uncertainty and constraints to address distribution shift in offline deep reinforcement learning.
Deep learning기법을 이상진단 등에 적용할 경우, 정상과 이상 data-set간의 심각한 unbalance가 문제. 본 논문에서는 GAN 기법을 이용하여 정상 data-set만의 Manifold(축약된 모델)를 찾아낸 후 Query data에 대하여 기 훈련된 GAN 모델로 Manifold로의 mapping을 수행함으로서 기 훈련된 정상 data-set과의 차이가 있는지 여부를 판단하여 Query data의 이상 유무를 결정하고 영상 내에 존재하는 이상 영역을 pixel-wise segmentation 하여 제시함.
For the full video of this presentation, please visit:
https://www.edge-ai-vision.com/2021/02/introduction-to-the-tvm-open-source-deep-learning-compiler-stack-a-presentation-from-octoml/
Luis Ceze, Co-founder and CEO of OctoML, a Professor in the Paul G. Allen School of Computer Science and Engineering at the University of Washington, and Venture Partner at Madrona Venture Group, presents the “Introduction to the TVM Open Source Deep Learning Compiler Stack” tutorial at the September 2020 Embedded Vision Summit.
There is an increasing need to bring machine learning to a wide diversity of hardware devices. Current frameworks rely on vendor-specific operator libraries and optimize for a narrow range of server-class GPUs. Deploying workloads to new platforms — such as mobile phones, embedded devices, and accelerators — requires significant manual effort.
In this talk, Ceze presents his work on the TVM stack, which exposes graph- and operator-level optimizations to provide performance portability for deep learning workloads across diverse hardware back-ends. TVM solves optimization challenges specific to deep learning, such as high-level operator fusion, mapping to arbitrary hardware primitives and memory latency hiding. It also automates optimization of low-level programs to hardware characteristics by employing a novel, learning-based cost modeling method for rapid exploration of optimizations.
This document discusses XGBoost, an optimized distributed gradient boosting library. It begins by explaining what problems XGBoost can solve like binary classification, regression, and ranking. It then discusses the key concepts in XGBoost including boosted trees, GBDT, tree ensembles, and additive training. XGBoost builds an ensemble of trees using gradient boosting and additive training to minimize loss. It provides efficient algorithms for split finding to construct trees level-by-level to maximize the loss drop at each step.
발표자: 박태성 (UC Berkeley 박사과정)
발표일: 2017.6.
Taesung Park is a Ph.D. student at UC Berkeley in AI and computer vision, advised by Prof. Alexei Efros.
His research interest lies between computer vision and computational photography, such as generating realistic images or enhancing photo qualities. He received B.S. in mathematics and M.S. in computer science from Stanford University.
개요:
Image-to-image translation is a class of vision and graphics problems where the goal is to learn the mapping between an input image and an output image using a training set of aligned image pairs.
However, for many tasks, paired training data will not be available.
We present an approach for learning to translate an image from a source domain X to a target domain Y in the absence of paired examples.
Our goal is to learn a mapping G: X → Y such that the distribution of images from G(X) is indistinguishable from the distribution Y using an adversarial loss.
Because this mapping is highly under-constrained, we couple it with an inverse mapping F: Y → X and introduce a cycle consistency loss to push F(G(X)) ≈ X (and vice versa).
Qualitative results are presented on several tasks where paired training data does not exist, including collection style transfer, object transfiguration, season transfer, photo enhancement, etc.
Quantitative comparisons against several prior methods demonstrate the superiority of our approach.
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
서울 코엑스에서 진행된 파이콘 한국 2018에서 8월 19일에 발표한 내용입니다.
데이터 전처리와 Feature Engineering에 대해 다룹니다.
[파이콘 한국 2018 프로그램 | 땀내를 줄이는 Data와 Feature 다루기](https://www.pycon.kr/2018/program/47)
이 발표내용은 8월 17일 금요일에 진행되었던 다음 2개의 튜토리얼을 바탕으로 작성되었습니다.
* [공공데이터로 파이썬 데이터 분석 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/6)
* [청와대 국민청원 데이터로 파이썬 자연어처리 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/7)
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
그룹사의 자기소개서 데이터를 기반으로 진행했던 연구들을 진솔하게 담았습니다. 먼저 자기소개서만으로 서류 전형 합격/불합격을 딥러닝이 구분할 수 있는지에 대해 연구했던 과정을 소개합니다. 더불어 “AI가 자기소개서를 적어줄 수 있을까?” 라는 아이디어를 가지고 Transformer 딥러닝 모델로 자기소개서 문장이 생성되는 Prototype모델을 시연합니다. 끝으로 [Ctrl+C, Ctrl+V] 자기소개서를 딥러닝 모델로 어떻게 찾는지와 오타 데이터를 검정하는 방법을 소개합니다.
Machine Learning Foundations (a case study approach) 강의 정리SANG WON PARK
실제 비즈니스에서 많이 활용되는 사례를 중심으로 어떻게 기존 데이터를 이용하여 알고리즘을 선택하고, 학습하여, 예측모델을 구축 하는지 jupyter notebook을 이용하여 실제 코드를 이용하여 실습할 수 있다.
강의 초반에 강조하는 것 처럼, 머신러닝 알고리즘은 나중에 자세히 설명하는 과정이 따로 있고, 이번 강의는 실제 어떻게 활용하는지에 완전히 초점이 맞추어져 있어서, 알고리즘은 아주 간략한 수준으로 설명해 준다. (좀 더 구체적인 내용은 심화과정이 따로 있음)
http://blog.naver.com/freepsw/221113685916 참고
https://github.com/freepsw/coursera/tree/master/ML_Foundations/A_Case_Study 코드 샘플
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개할 논문은 3D관련 업무를 진행 하시는/ 희망하시는 분들의 필수 논문인 VoxelNET 입니다.
발표자료:https://www.slideshare.net/taeseonryu/mcsemultimodal-contrastive-learning-of-sentence-embeddings
안녕하세요! 딥러닝 논문읽기 모임입니다.
오늘은 자율 주행, 가정용 로봇, 증강/가상 현실과 같은 다양한 응용 분야에서 중요한 문제인 3D 포인트 클라우드에서의 객체 탐지에 대한 획기적인 진전을 소개하고자 합니다. 이를 위해 'VoxelNet'이라는 새로운 3D 탐지 네트워크에 대해 알아보겠습니다.
1. 기존 방법의 한계
기존의 많은 노력은 수동으로 만들어진 특징 표현, 예를 들어 새의 눈 시점 투영 등에 집중해 왔습니다. 하지만 이러한 방법들은 LiDAR 포인트 클라우드와 영역 제안 네트워크(RPN) 사이의 연결을 효과적으로 수행하기 어렵습니다.
2. VoxelNet의 혁신적 접근법
VoxelNet은 3D 포인트 클라우드를 위한 수동 특징 공학의 필요성을 없애고, 특징 추출과 바운딩 박스 예측을 단일 단계, end-to-end 학습 가능한 깊은 네트워크로 통합합니다. VoxelNet은 포인트 클라우드를 균일하게 배치된 3D 복셀로 나누고, 새롭게 도입된 복셀 특징 인코딩(VFE) 레이어를 통해 각 복셀 내의 포인트 그룹을 통합된 특징 표현으로 변환합니다.
3. 효과적인 기하학적 표현 학습
이 방식을 통해 포인트 클라우드는 서술적인 체적 표현으로 인코딩되며, 이는 RPN에 연결되어 탐지를 생성합니다. VoxelNet은 다양한 기하학적 구조를 가진 객체의 효과적인 구별 가능한 표현을 학습합니다.
4. 성능 평가
KITTI 자동차 탐지 벤치마크에서의 실험 결과, VoxelNet은 기존의 LiDAR 기반 3D 탐지 방법들을 큰 차이로 능가했습니다. 또한, LiDAR만을 기반으로 한 보행자와 자전거 탐지에서도 희망적인 결과를 보였습니다.
VoxelNet의 도입은 3D 포인트 클라우드에서의 객체 탐지를 혁신적으로 개선하고 있으며, 이 분야에서의 미래 발전에 중요한 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 이미지처리 허정원님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/yCgsCyoJoMg
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
오늘은 의견 요약 분야에서의 흥미로운 발전에 대해 이야기하고자 합니다. 특히, 제품이나 장소에 대한 수백 개의 리뷰를 요약하는 것은 중요하고도 어려운 과제인데요, 최근에 이를 위한 새로운 자가학습 접근법, 'OpineSum'이 소개되었습니다.
1. 의견 요약의 중요성
일반적으로 제품이나 장소에 대한 리뷰는 많은 양으로 존재합니다. 이러한 리뷰들을 요약하는 것은 사용자가 정보를 빠르게 파악하는 데 도움을 주며, 의사결정 과정을 간소화할 수 있습니다.
2. 기존의 접근 방식과 한계
뉴스 분야에서의 추상적 요약은 수백만 개의 뉴스 기사와 함께 제공되는 인간 작성 요약을 통해 훈련된 감독 시스템에 의해 큰 진전을 보였습니다. 하지만 의견 텍스트의 경우, 이러한 대규모 데이터셋이 드물게 존재합니다.
3. OpineSum의 소개
이러한 문제를 해결하기 위해, 'OpineSum'이라는 새로운 자가학습 접근법이 제안되었습니다. 이 방법은 텍스트 함축의 새로운 응용을 사용하여 여러 리뷰에서의 의견 합의를 포착하는 요약을 구축합니다.
4. OpineSum의 작동 방식
OpineSum은 대규모에서 은근한 표준 요약을 얻을 수 있으며, 비지도 및 소수샷 추상적 요약 시스템 훈련에 사용할 수 있습니다. 이 방법은 SOTA 달성했습니다.
OpineSum은 의견 요약의 새로운 지평을 열고, 대규모 데이터가 부족한 상황에서도 효과적인 요약을 생성할 수 있는 방법을 제시합니다. 이러한 발전은 의견 요약 기술의 미래에 큰 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 자연어 처리 변현정님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/gqJCWyYPtXQ
"3D Gaussian Splatting for Real-Time Radiance Field Rendering"은 고화질의 실시간 복사장 렌더링을 가능하게 하는 새로운 방법을 소개합니다. 이 방법은 혁신적인 3D 가우시안 장면 표현과 실시간 차별화 렌더러를 결합하여, 장면 최적화 및 새로운 시점 합성에서 상당한 속도 향상을 가능하게 합니다. 기존의 신경 복사장(NeRF) 방법들이 광범위한 훈련과 렌더링 자원을 요구하는 문제에 대한 해결책을 제시하며, 1080p 해상도에서 실시간 성능과 고품질의 새로운 시점 합성을 위해 설계되었습니다. 이는 이전 방법들에 비해 효율성과 품질 면에서 진보를 이루었습니다
이 논문은 컴퓨터 비전 작업, 예를 들면 이미지 분류, 검색 및 몇 번의 학습과 같은 작업에서의 하이퍼볼릭 임베딩의 사용에 대해 논의합니다. 저자들은 이미지 간의 계층적 관계를 임베딩하는 데 하이퍼볼릭 공간이 더 적합하다고 주장하며, 이러한 관계는 컴퓨터 비전 작업에서 흔히 볼 수 있습니다. 그들은 데이터셋의 초계성을 평가하는 방법을 제안하고, 하이퍼볼릭 임베딩이 이미지 분류와 몇 번의 학습을 위해 사용되는 표준 아키텍처의 성능을 향상시킬 수 있다고 보여줍니다. 또한, 이 논문은 하이퍼 볼릭 공간과 하이퍼볼릭 추정에 대한 기억을 상기시켜 줍니다.
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
이 논문은 MCSE라는 새로운 접근법을 제시하며, 시각과 텍스트 정보를 결합하여 의미있는 문장 임베딩을 학습합니다. 다양한 데이터셋과 사전 훈련된 인코더에서 성능 향상을 보이며, 의미론적으로 유사한 문장을 잘 정렬합니다. 또한, 비전을 추가 의미 정보로 사용함으로써 문장 표현 학습을 더욱 촉진할 수 있다는 주장을 하고 있습니다. 이 방법은 기존의 문장 임베딩 학습 방법과 비교되며, 그 결과로서 이론과 실제에서 모두 탁월한 성능을 보입니다.
LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu
This document summarizes the LLaMa model, which is an open and efficient foundation language model.
[1] LLaMa achieves state-of-the-art performance on various tasks while being trained exclusively on publicly available data and requiring only a single GPU for inference, making it more accessible than other large models.
[2] Key aspects of LLaMa include pre-normalization, SwiGLU activation, rotary embeddings, and efficient implementation techniques. It was trained on 1.4 trillion tokens of publicly available data using 2048 A100 GPUs over 5 months.
[3] Evaluation shows LLaMa outperforms other models on common sense reasoning, question answering, reading comprehension,
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
Dataset Distillation by Matching Training Trajectories taeseon ryu
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
이 논문은 강화 학습(Reinforcement Learning, RL)을 감독 학습(Supervised Learning, SL)의 형태로 변환하는 새로운 접근법을 제안합니다. 이를 'Upside Down RL (UDRL)'이라 부릅니다. 표준 RL은 보상을 예측하는 반면, UDRL은 보상을 작업 정의 입력으로 사용하며, 시간 지향성과 기타 계산 가능한 함수를 이력 데이터와 원하는 미래 데이터에 적용합니다. UDRL은 이러한 입력 관찰을 명령으로 해석하고, 과거 경험에 대한 SL을 통해 이를 행동(또는 행동 확률)에 매핑하여 학습합니다.
UDRL은 높은 보상이나 다른 목표를 달성하기 위해 일반화하며, 이는 "주어진 시간 내에 많은 보상을 얻으라!"와 같은 입력 명령을 통해 이루어집니다. 또한 UDRL은 탐색 전략을 개선하는 방법을 배울 수 있습니다. 별도의 논문에서는 UDRL의 초기 버전이 특정 강화 학습 문제에서 전통적인 기준 알고리즘을 능가할 수 있다는 것을 보여줍니다.
이 논문은 또한 로봇이 사람을 모방하는 방법을 가르치는 접근법을 개념적으로 단순화합니다. 먼저 로봇의 현재 행동을 모방하는 사람들을 비디오로 촬영한 다음, 로봇이 이 비디오(입력 명령으로)를 이러한 행동에 매핑하는 방법을 SL을 통해 학습하게 합니다. 그런 다음 로봇은 일반화하고 이전에 알려지지 않은 행동을 실행하는 사람들의 비디오를 모방하게 됩니다.
오늘 논문 리뷰를 위해 강화학습 이도현님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bsBvKdKCc1E
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
PL-Marker is a span representation method that uses packed levitated markers to consider the interrelations between spans for named entity recognition and relation extraction tasks. It strategically inserts solid and levitated markers into the encoder to represent spans and span pairs. In experiments, PL-Marker achieved state-of-the-art results on several NER and RE datasets, outperforming previous methods. It obtains better performance by modeling the interrelations between spans that share the same subject or object entities.
오늘 소개할 논문은 'MOReL: Model-Based Offline Reinforcement Learning'입니다.
이 논문은 오프라인 강화 학습(Reinforcement Learning, RL)에 초점을 맞추고 있습니다. 오프라인 RL은 행동 정책을 개선하기 위해 사전에 수집된 데이터만을 사용하는 학습 방법입니다. 이 논문에서는 MOReL이라는 새로운 알고리즘 프레임워크를 제시하며, 이는 오프라인 RL을 위한 것입니다.
MOReL은 두 단계로 구성되어 있습니다: 첫째, 오프라인 데이터셋을 사용하여 비관적인 MDP(Model-based Decision Process)를 학습하고, 둘째, 이 P-MDP에서 거의 최적의 정책을 학습합니다. 학습된 P-MDP는 정책 평가와 학습에 대한 좋은 대리자 역할을 하며, 모델 기반 RL의 일반적인 함정인 모델 활용을 극복합니다.
이 논문에서는 MOReL이 오프라인 RL에 대해 최소최대 최적(minimax optimal)이며, 널리 연구된 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 또한, 이 논문은 오프라인 RL의 중요한 문제인 행동 정책의 안전성에 대한 중요한 통찰력을 제공합니다.
이 논문은 오프라인 강화 학습의 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 강화 학습 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
Scaling Instruction-Finetuned Language Modelstaeseon ryu
The document discusses improving the performance of language models on unseen tasks through instruction finetuning, wherein models are finetuned on a large collection of tasks described as instructions rather than examples. It finds that scaling both the number of finetuning tasks and the size of the model improves performance, and finetuning on chain-of-thought annotations particularly helps the model's reasoning abilities. Instruction finetuning is shown to generalize across models and improve usability while mitigating potential harms.
Visual Prompt Tuning (VPT),Parameter-efficient fine-tuning
지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting
발표자료 : https://www.slideshare.net/taeseonryu/mplug
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개 드릴 논문은 'Visual Prompt Tuning for Transformers with Frozen Weights' 입니다.
오늘 소개하는 논문은 대규모 Transformer 모델을 비전에 효율적이고 효과적으로 미세조정하는 대안인 Visual Prompt Tuning (VPT)를 소개하고 있습니다. VPT는 입력 공간에서 작은 양의 훈련 가능한 매개변수를 도입하면서 모델 백본을 고정합니다.
이 방법을 통해, VPT는 다른 매개변수 효율적인 튜닝 프로토콜에 비해 상당한 성능 향상을 달성하며, 많은 경우에는 전체 미세조정을 능가하면서 작업당 저장 비용을 줄인다는 것을 실험적으로 보여줍니다.
이 논문은 효과성과 효율성 면에서 대규모 사전 훈련된 Transformer를 하위 작업에 적용하는 도전을 다룹니다. 이를 통해, 더 효율적인 방식으로 다양한 비전-언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
오늘 논문 리뷰를 위해 이미지처리 조경진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bVOk-hSYyZw
mPLUG is a new vision-language pre-trained model proposed by the authors that achieves state-of-the-art performance on various vision-language tasks through an asymmetric architecture using novel cross-modal skip connections. The model introduces skip-connected fusion blocks to address information asymmetry and computation inefficiency problems in multi-modal fusion. mPLUG is pre-trained using contrastive learning on image-text pairs and masked language modeling, and shows strong zero-shot transfer ability on tasks like image captioning and image-text retrieval. Evaluation shows mPLUG outperforms prior work on tasks including visual question answering, image captioning, image-text retrieval, visual grounding and visual reasoning.
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
Train중 예상 Return 을 최대화하기 위해 알려지지 않은 환경에서 '탐색'과 '활용' 사이의 균형을 잘 이루는 것이 중요합니다. 이를 이상적으로 수행하는 '베이즈 최적 정책'은 환경 상태뿐만 아니라 에이전트가 환경에 대해 느끼는 불확실성에 따라 행동을 결정합니다. 하지만, 베이즈 최적 정책을 계산하는 것은 작은 작업들에 대해서조차 까다롭습니다. 이 논문에서는, 알려지지 않은 환경에서 근사적으로 추론을 수행하고, 그 불확실성을 행동 선택 과정에 직접 포함시키는 방법, 'variational Bayes-Adaptive Deep RL' (variBAD)를 소개합니다.
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
논문에서는 최적화 컴파일러에서 신경망 연산 그래프의 실행 비용을 최소화하는 깊은 강화 학습 방법을 제시합니다. 이전의 학습 기반 작업들은 최적화될 동일한 그래프에서 최적화기를 훈련하는 것이 필요했지만, 논문은 오프라인에서 최적화기를 훈련하고 이후에는 추가 훈련 없이 이전에 보지 못한 그래프에 일반화하는 학습 접근법을 제안합니다. 이를 통해 논문의 방법은 시간 대신 초 단위로 실제 세계의 텐서플로우(TensorFlow) 그래프에서 고품질의 실행 결정을 생성할 수 있습니다. 논문은 연산 그래프에 대한 두 가지 최적화 작업을 고려합니다: 실행 시간과 최대 메모리 사용량을 최소화하는 것입니다. 광범위한 기준 세트에 비해, 우리의 접근법은 이 두 가지 작업에서 고전적인 방법과 다른 학습 기반 방법에 비해 상당한 개선을 보여줍니다.
이 논문은 신경망 학습에 대한 새로운 방법을 제시하는데, 이 방법의 이름은 'Forward-Forward 알고리즘'입니다. 기존의 딥러닝 방법은 데이터를 앞으로 보내고 결과를 다시 뒤(backward)로 보내는 '앞-뒤' 방식인데, 이 새로운 방법은 '앞-앞' 방식을 사용하니까 'Forward-Forward'라고 부릅니다.
이 알고리즘에서는 '양의 데이터'와 '부정적인 데이터' 두 종류를 사용합니다. '양의 데이터'는 실제로 우리가 가진 정보를 의미하고, '부정적인 데이터'는 신경망이 스스로 생성하는 정보를 말합니다. 이 두 종류의 데이터를 각각 앞으로 보내서, 각 계층이 '양의 데이터'에 대해는 좋은 결과를, '부정적인 데이터'에 대해는 나쁜 결과를 내도록 학습합니다.
핵심은 신경망의 학습 방법에 변화를 주어, 더 효율적이고 간편하게 학습을 진행할 수 있도록 한다는 점입니다. 이 방법을 사용하면 비디오 같은 데이터를 신경망을 통해 처리하면서 복잡한 연산을 중단하거나 데이터를 저장할 필요 없이 진행할 수 있다는 것이 큰 장점입니다.
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
활성 학습(Active Learning, AL)은 대량의 라벨이 없는 데이터를 처리하고, 데이터 라벨링 비용이 지나치게 높은 영역에서 이를 줄이는데 유망한 머신러닝 패러다임입니다. 최근에 제안된 신경망 기반의 활성 학습 방법들은 이 목표를 달성하기 위해 다양한 휴리스틱을 사용합니다.
이 연구에서는 동일한 실험 조건 하에서, 다른 종류의 활성 학습 알고리즘들(불확실성 기반, 다양성 기반, 커미티 기반)이 무작위 샘플링 기준에 비해 일관성 없는 향상을 보이는 것을 보여줍니다. 다양한 실험을 통해, 확률적 요인을 제어하면서, 활성 학습 알고리즘들이 달성하는 성능 지표의 변동성이 이전에 보고된 결과와 일치하지 않는 결과를 가져올 수 있음을 보여줍니다
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.
2. - 제목: LaMDA(Language Models for Dialog Applications)
- 발표: 2021년 Google I/O
- 링크: https://arxiv.org/pdf/2201.08239.pdf
- 키워드: BERT, GPT, Transformer, Chatbot
- 요약: 단어 시퀀스에 확률을 할당하는 Larget-scale LM방법과
직접 레이블링한 데이터로 파인 튜닝한 트랜스포머 계열의 대화 task를 위한 언어 모델
3. 1. Introduction
• 언어 모델이란? : 단어 시퀀스(문장)에 확률을 할당하는 모델
• Unlabelled 방식의 사전 학습 선능을 높이기 위해서 사용할 수 있는 방법은?
1. Large-Sclae LM 사용
2. 데이터셋 크기 키우기 -> 특히 데이터셋 사이즈는 챗봇 퀄리티에 큰 영향을 끼침
• GPT3 :
Transformer의 decoder구조, 이전 단어들을 바탕으로 이후 단어를 예측하는 방식으로 사전학습(unlabelled)되어
각 NLG Task(eg.chatbot)에 fine-tuning
Ÿ LaMDA : 이 두 가지 방법을 모두 적용한 트랜스포머 계열의 대화 task 를 위한 LM
1. large-scale : 모델 사이즈 2B~137B parameters
2. 사전학습 데이터 셋 : public texts (1.56T words)
4. 2. Related Work
• Language models and dialog models
1. LM 을 dialog model에 적용
2. scaling 만으로는 성능 향상에 한계
3. 모델이 스스로 외부 지식을 적용할 수 있도록 함
4. Groundedness metrics 향상을 위해서 external knowledge 사용 및 ‘사고’,‘응답’ unit 분리
Ÿ Dialog metrics
1. 인간 중심의 평가지표 도입, 단순 정량적 지표 (ex.BLEU,perplexity) 외에 인간 평가가 필요
2. 각각의 지표는 개별적으로 평가.
Ÿ Safety and safety of dialog models
1. 잘못된 데이터로 학습한 lm의 위험성
2. Toxicity, bias, 개인정보
3. 제있는 output을 감지하는 용도의 layers 를 구성한 연구
4. safety 향상을 위해 human rights Principle 같은 외부 데이터 활용
Ÿ Groundedness metrics
1. Groundedness (팩트 기반 여부) 평가를 위해 외부 crowd workers 도움 받음
5. 3. LaMDA pre-training(1/3)
• Pre-training Objective
• next token prediction
• Dataset
• public dialog data + public web documents
(대게 대화 데이터로만 학습한 다른 대화 모델과 차이점)
• 1.12B dialogs(13.39B dialog utterances) + 2.97B documents ⇒ 1.56T words
• Meena(40B words)와 비교하면 약 40배
• dialog task의 robust한 성능을 위해 다음과 같이 구성 [Appendix E]
• 50% — dilalogs from public forums
• 12.5% — C4 (웹 크롤링 corpus, T5 pre-training에 활용)
• 12.5% — code documents from Q&A, tutorials, etc.
• 12.5% — Wikipedia (English)
• 6.25% — web documents (English)
• 6.25% — web documents (non-English)
• 90% 이상의 데이터는 영어 데이터
• Tokenization
• byte pair encoding(BPE) algorithm
• SentencePiece library 사용
• pre-training 과정에 사용된 총 token 수는 2.81T
• vocabulary size: 32K
6. 3. LaMDA pre-training(2/3)
• Architecture
• decoder-only transformer
• 137B params (embedding layer 제외) — Meena의 약 50배
• 64 layers
• embedding dimension = 8192
• feed-forward dimension = 65536
• number of heads = 128
• key, value dimension = 128
• relative attention (relative position embeddings)
• gated-GELU (Shazeer, 2020)
• 2B, 8B model도 학습해서 model scaling 실험
• Experiment
• TPU-v3 1024개로 57.7일 동안 학습
• Lingvo framework로 123 TFLOPS/sec 달성
• 56.5% FLOPS utilization with the 2D sharding algorithm (GSPMD) [→ Section 10]
• batch당 256K tokens (all models)
• Hyperparameter details
7. • Decoding Strategy
• sample-and-rank strategy
• 후보 response 추출 (N=16)
• top-k (k=40) beam search
• temperature = 1 (unmodified distribution)
• 각 후보의 log-likelihood와 길이에 따른 score가 가장 높은 response 채택
• Meena에서 제안한 방법과 동일. 다만 Meena에서는 T=0.88, N=20이었음.
3. LaMDA pre-training(3/3)
Figure 2: LaMDA pre-training as a language model. 4
8. • Foundation Metrics
• Quality
• Sensibleness, Specificity, Interestingness (SSI): 각각의 평균
1. sensibleness: 생성 모델의 발화가 문맥상 자연스러운지 (말이 되는지), 이전 대화와 모순되지 않는지
2. specificity: 해당 문맥에서만 말이 되는(specific) 말인지
e.g ) “I love Eurovision” → “Me too”(0) vs “Me too. I love Eurovision songs”(1)
3. interestingness: 상대방의 관심, 궁금증을 유발하는지, 의외성, 위트, 인사이트...
E.g.)“야구공 던지는 방법?” → “손으로 공을 잡아서 놓으면 된다."(낮음) vs “공을 잡아서 몸의 반동을 이
용하고, 검지와 중지에 힘을 주어서...”
• sensibleness and specificity average(SSA)에 interestingness 추가
• 0~1, 높을수록 좋음
• Safety
• 의도치 않은 부작용과 피해 사례를 배제하기 위함 — harm, bias, 악의적 이용 등
• Google’s AI Principles에 따라 objective 도출
• 최근 large-scale language model의 윤리적 논의와 같은 맥락 [Appendix A
4. Metrics(1/2)
9. • Role-Specific Metrics
application-specific role에 적합한지에 대한 metrics [→ Section 8]
1. Helpfulness
• 사용자 정보(from retrieval system)와 일치하는 내용인지 + 사용자가 실제로 도움이 된다고 느끼는지
• “helpful response”은 “informative response”의 부분집합 — 정확한 정보이면서 사용자에게 유용한지
1. Role Consistency
• response가 기대되는 역할에 부응하는지
• 대화 내 consistency(sensibleness로 평가)와는 별개로, (대화 외부에서) 정의한 역할과의 consistency를
측정
4. Metrics(2/2)
• Groundness
• 현재 언어 모델들은 그럴듯 하지만 사실과 다른 내용을 생성하는 경향이 있음
• 외부 source에 근거한 cross-checking
• groundness = 외부 지식에 대한 주장 중 ’알려진' source에 의해 뒷받침되는 주장의 비율
• informativeness = 전체 중 ‘알려진' source에 의해 뒷받침되는 외부 지식을 포함하는 경우의
비율
• citation accuracy = 외부 지식(상식은 제외)을 언급한 발화 중 source의 URL을 인용한 경우의
비율
11. 5. LaMDA fine-tuning and evaluation data(1/2)
1. Quality (품질) :
1. 6400 dialogue 를 직원들에게 lambda 를 와의 대화를 통해 얻어낸다.
2. Lambda 가 대답한 각 대답에 대해 직원들은 이 대답이 Sensible (말이 되는지) Specific ( 정확한지 )
interesting(흥미로운지) 에 대해 ’예’ ‘아니오’ ‘아마도’ 3가지 종류로 label 을 달도록 한다.
3. 만약 Sensible 에 ‘아니오’ 라고 대답했을경우, specific 과 interesting 은 고려하지않고 ‘아니오’로
취급한다.
4. Specific 역시 ‘아니오' 일경우 interesting 의 label 도 자동으로 ‘아니오’ 로 label 된다.
5. 5명중 3명 이상의 직원이 SSI 에 대해 ‘예’ 라고 대답한 답변만, 정상적인 답변이라고 취급
2. Safety (안전성):
1. 여러분야의 배경을 가진 사람들을 통해 Lamda 로 만들어지는 답변에 대한 안정성을 평가 한다.
2. 위험을 불러일으킬수 있는 문장 : 위험한 물건, 마약, 자해, 잘못된 금융 조언, 사기 등
3. 차별적인 발언 : 특정 집단에 대한 혐오, 사람/집단을 인간이 아닌것과 비교, 인종 종교등에 대한 편견 ,
장애를 가진사람에대한 차별
위험을 불러일으킬수있는 가짜 정보 : 시간이 지난 법적문서, 논란이있는 의료 / 생물 법, 음모론, 특정
정당에 대한 반대
12. [Safety 계속]
-SSI 와 비슷하게 48K 회수의 8K dialogue 를 랜덤한 토픽에 대해 직원들과 lambda 가 대화를 나누고
3가지에 대해 ‘예' , ‘아니오’ , '아마도’ 중 평가를 내리게 함 . 3명중 3명이 ‘예' 라고 답변했을시,
해당답변은 안전하지않다고 평가함
1.문장이 자연스러운 형태인지
2.예민한 주제인지
3.안전성을 위반하는 답변인지
3. Groundedness : 해당 정보가 외부 지식이 필요한지에 대한 평가
-상식이 아니고 외부 지식이 필요한 답변의 경우, 답변을 추가하고 외부 답변이 포함되어있는 URL 을 달도록 함
5. LaMDA fine-tuning and evaluation data(2/2)
13. • Pre-trained 된 Lambda 를 여러번의 finetuning 진행
• “What’s up? RESPONSE not much.” 라는 문장에 <attribute-name > SSI 중 어떤것에 대한
평가인지 태그를 달아주고 그에 대한 점수를 달아줌
• “What’s up? RESPONSE not much. SENSIBLE 1”
• “What’s up? RESPONSE not much. INTERESTING 0”
• “What’s up? RESPONSE not much. UNSAFE 0”
- 이 SSI와 safety 에 대한 평가를 예측할수있도록 fine-tuning 그리고 그중 안전성 threshold 를 넘지
못하는 후보는 제거
- 3 * P(sensible) + P(specific) + P(interesting) 이렇게 점수를 내려서 가장 높은 점수를 가진 모델을
다음단계로 넘어가도록 선택
6. Fine tuning(1/3)
14. • 추가 정보학습에 대한 Fine-tuning
• Lamda는 말이되는듯한 답변을 내놓지만 꼭 그게 정확한 사실은 아닐수있음 따라서 외부
믿을만한 정보가 필요한지에 대한 추가 학습이 필요하다.
• 방법1 : 학습데이터의 양을 늘림 – 이 방법은 매번 현재 시간 과 같이 매번 업데이트되는
답변에 대해 정확한 답을 해주지않는다. 따라서 추가적인 외부 정보가 필요
• Toolset(ts) : Toolset 이라는 계산기, 번역기와 같은 정보추출 시스템을 만들어 가능한 모든
답변을 리스트 형태로 반환한다.
• Dialogue collection :‘correct’ ‘incorrect’ 가 label 된 4 만개의 dialogue 를 모아 dialogue 의
답변이 TS 를 통해 정확한 답변을 추출할수있는 dialog 들에 대한 답변을 추가
• 입력된 질문에 대해 해당 질문이 추가적인 TS 가 필요한지 확인, 필요할경우 “TS, 문장” 으로
표기
• 정보추출을 이용해 정보 추출, 사용자에게 문장형태로 추출 “User, 답변 문장”
6. Fine tuning(2/3)
16. • Foundation을 평가하기 위해선 크게 2가지 fine-tuning으로 나눠서 평가하였다.
1. FT quality-safety
1. PT(프리트레인모델)는 quality와 safety 라벨을 구분하는 discriminator를 학습한다.
2. 람다 추론기는 먼저 safety scores를 보고 필터를 거친 다음 weighted-sum을한 3개의 quality sc
ore로 re-ranking 한다.
2. FT groundedness
1. 람다는 External information을 호출하는 정보추출시스템을 이용하여 attributed한 대답을 제공
한다.
2. 이 모델은 safety-quality와 해당 정보 type을 예측하는 걸 jointly learning을 한다.
7. Results on foundation metrics(1/2)
17. 7. Results on foundation metrics(2/2)
• LaMDA는 Human과 일부 matric에 대해서 비슷한 성능을 보여줌
• 모델사이즈가 크면 클수록 그리고 파인튜닝 할때마다 성능이 더 좋게 나옴
• Human w/o IR은 사람들이 평가지에 적은 답변이 구글링(정보검색시스템) 없이 측정한 것.
• PT는 fine-tuning없는 것. 오로지 GPT 모델
• Lamda는 PT를 포함한 파인튜닝 시스템 포함
18. • 람다는 도메인에 적절하게 답변을 할 수도 있다. 이를 Domain grounding이라 부른다.
• 논문에서 2가지 영역에서 실험해보았다.
1. “에베레스트 산”와 같은 유명한 사물을 자기 자신을 의인화하여 교육목적으로 답변해준다.
2. 음악 추천해주는 인공지능으로도 역할을 한다. 이는 추천시스템을 활용하기 위함이다.
• 음악추천
• 좋아하는 노래 추천해 달라고 하면 계속 대화를 이끌어가면서 노래 추천을 해준다. 이때 영화”인터
스텔라 봐봤니?”와 같이 다른 정보들도 섞어서 답변해준다.
• 교육시스템(에버레스트 예제)
• 자기 자신이 에버레트스산이라 하고 자기에 대해서 정확하고 디테일한 정보를 답변해준다.
• Domain Grounding을 평가할때에는 2가지 PT 모델을 가지고 600개 답변이 오간 대화목록을 보고
진행하였다. Crowd-worker들은 helpfulness, role-consistent에 기준에 따라서 평가해주었다.
8. Domain grounding(1/3)
20. PT와 람다를 비교해보면
1) PT는 에버레스트가 너무 성급히 “가장 높은 산”이다라고 답변. 하지만 람다는 2900feet라고 자세하게
답변
2) 둘다 Consistency에선 비슷한 점수를 받았다. 이는 람다가 더이상 에버레스트에 대해서 이야기 하지
않는 경우가 있음. 이는 추론시간에 학습데이터 대부분이 다른 제3자로 되돌아가는 걸 예방했었어야했
는데 그러지 못했기 때문.
3) Music recommendation에선 매우 좋은 성능을 보였다. “anything”이라고 모호한 답변을해도 문맥에
따라 음악을 추천해주었다.
8. Domain grounding(3/3)
21. 8. Discussion and limitations
1. Examining bias :
Bias가 다양한 방식으로 사용되어 줄이고 싶지만, 찾아내기 쉽지 않음
2. Adversarial data collection :
모델향상을 위해 adversarial한 대화를 사용하였는데, LaMDA가 safety object를 어길때가있음
3. Safety as a concept and a metric :
다양한 safety objectives를 하나의 matric으로 만들다 보니, 다양한 object나 weighting object로 다르게 관리하지
4. Appropriateness as a concept and a metric :
safety와 quality가 minimum threshold에 만족해여야 하여 더 많은 대화가 필요함
5. Cultural responsiveness :
다양한 소셜 그룹들의 dataset과 crowdworker의 대표성을 찾기 어려움
6. Impersonation and anthropomorphization :
사람과 같이 자연스러운 대화의 퍼포먼스를 내는것이 어려움
22. 9. Conclusion
1. Fine tuning에 대한 중요성을 확인함
2. Dialog 모델링에서 외부 API를 사용한 information retrieval의 중요성을 확인함
3. pre-training-only (PT) 보다 LaMDA-based applications이 더 helpful 함