링크드인에서 발표한 논문으로, 제목에서 유추하실수 있듯, 검색 시스템에서 일하시고, 연구하시는 분들이 참고하시면 좋을 논문입니다!
BERT는 분명 NLP에서 뛰어난 성과를 보이고 있지만, 하루에 수천만번 검색이 이루어지는 대형 포털 사이트에서는 검색시스템에 직접적용하기에는 매우 큰 부담입니다. 그렇기에 링크드인에서 직접 다양한 사례를 연구해보며, BERT를 기반으로 모델을 구축하는 Ranking 시스템 프레임 워크 DeTEXT를 소개하며, 오프라인 및 온라인 실험에서도 많은 성능 개선을 이루어 냈습니다!
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
This slide explain the Deep Learning Text NLP for Korean Language. We will also discuss expansion using Spark in Deep Learning Approach to BigData Scale data.
이 슬라이드에서는 한글의 deep learning Text NLP에 대하여 설명한다. 또한, BigData Scale 데이타에 대한 Deep Learning Approach 에 있어, Spark 를 이용한 확장에 대하여도 다룬다.
100% Serverless big data scale production Deep Learning Systemhoondong kim
- BigData Sale Deep Learning Training System (with GPU Docker PaaS on Azure Batch AI)
- Deep Learning Serving Layer (with Auto Scale Out Mode on Web App for Linux Docker)
- BigDL, Keras, Tensorlfow, Horovod, TensorflowOnAzure
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개할 논문은 3D관련 업무를 진행 하시는/ 희망하시는 분들의 필수 논문인 VoxelNET 입니다.
발표자료:https://www.slideshare.net/taeseonryu/mcsemultimodal-contrastive-learning-of-sentence-embeddings
안녕하세요! 딥러닝 논문읽기 모임입니다.
오늘은 자율 주행, 가정용 로봇, 증강/가상 현실과 같은 다양한 응용 분야에서 중요한 문제인 3D 포인트 클라우드에서의 객체 탐지에 대한 획기적인 진전을 소개하고자 합니다. 이를 위해 'VoxelNet'이라는 새로운 3D 탐지 네트워크에 대해 알아보겠습니다.
1. 기존 방법의 한계
기존의 많은 노력은 수동으로 만들어진 특징 표현, 예를 들어 새의 눈 시점 투영 등에 집중해 왔습니다. 하지만 이러한 방법들은 LiDAR 포인트 클라우드와 영역 제안 네트워크(RPN) 사이의 연결을 효과적으로 수행하기 어렵습니다.
2. VoxelNet의 혁신적 접근법
VoxelNet은 3D 포인트 클라우드를 위한 수동 특징 공학의 필요성을 없애고, 특징 추출과 바운딩 박스 예측을 단일 단계, end-to-end 학습 가능한 깊은 네트워크로 통합합니다. VoxelNet은 포인트 클라우드를 균일하게 배치된 3D 복셀로 나누고, 새롭게 도입된 복셀 특징 인코딩(VFE) 레이어를 통해 각 복셀 내의 포인트 그룹을 통합된 특징 표현으로 변환합니다.
3. 효과적인 기하학적 표현 학습
이 방식을 통해 포인트 클라우드는 서술적인 체적 표현으로 인코딩되며, 이는 RPN에 연결되어 탐지를 생성합니다. VoxelNet은 다양한 기하학적 구조를 가진 객체의 효과적인 구별 가능한 표현을 학습합니다.
4. 성능 평가
KITTI 자동차 탐지 벤치마크에서의 실험 결과, VoxelNet은 기존의 LiDAR 기반 3D 탐지 방법들을 큰 차이로 능가했습니다. 또한, LiDAR만을 기반으로 한 보행자와 자전거 탐지에서도 희망적인 결과를 보였습니다.
VoxelNet의 도입은 3D 포인트 클라우드에서의 객체 탐지를 혁신적으로 개선하고 있으며, 이 분야에서의 미래 발전에 중요한 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 이미지처리 허정원님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/yCgsCyoJoMg
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
오늘은 의견 요약 분야에서의 흥미로운 발전에 대해 이야기하고자 합니다. 특히, 제품이나 장소에 대한 수백 개의 리뷰를 요약하는 것은 중요하고도 어려운 과제인데요, 최근에 이를 위한 새로운 자가학습 접근법, 'OpineSum'이 소개되었습니다.
1. 의견 요약의 중요성
일반적으로 제품이나 장소에 대한 리뷰는 많은 양으로 존재합니다. 이러한 리뷰들을 요약하는 것은 사용자가 정보를 빠르게 파악하는 데 도움을 주며, 의사결정 과정을 간소화할 수 있습니다.
2. 기존의 접근 방식과 한계
뉴스 분야에서의 추상적 요약은 수백만 개의 뉴스 기사와 함께 제공되는 인간 작성 요약을 통해 훈련된 감독 시스템에 의해 큰 진전을 보였습니다. 하지만 의견 텍스트의 경우, 이러한 대규모 데이터셋이 드물게 존재합니다.
3. OpineSum의 소개
이러한 문제를 해결하기 위해, 'OpineSum'이라는 새로운 자가학습 접근법이 제안되었습니다. 이 방법은 텍스트 함축의 새로운 응용을 사용하여 여러 리뷰에서의 의견 합의를 포착하는 요약을 구축합니다.
4. OpineSum의 작동 방식
OpineSum은 대규모에서 은근한 표준 요약을 얻을 수 있으며, 비지도 및 소수샷 추상적 요약 시스템 훈련에 사용할 수 있습니다. 이 방법은 SOTA 달성했습니다.
OpineSum은 의견 요약의 새로운 지평을 열고, 대규모 데이터가 부족한 상황에서도 효과적인 요약을 생성할 수 있는 방법을 제시합니다. 이러한 발전은 의견 요약 기술의 미래에 큰 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 자연어 처리 변현정님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/gqJCWyYPtXQ
More Related Content
Similar to De text a deep text ranking framework with bert
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
Deep learning text NLP and Spark Collaboration . 한글 딥러닝 Text NLP & Sparkhoondong kim
This slide explain the Deep Learning Text NLP for Korean Language. We will also discuss expansion using Spark in Deep Learning Approach to BigData Scale data.
이 슬라이드에서는 한글의 deep learning Text NLP에 대하여 설명한다. 또한, BigData Scale 데이타에 대한 Deep Learning Approach 에 있어, Spark 를 이용한 확장에 대하여도 다룬다.
100% Serverless big data scale production Deep Learning Systemhoondong kim
- BigData Sale Deep Learning Training System (with GPU Docker PaaS on Azure Batch AI)
- Deep Learning Serving Layer (with Auto Scale Out Mode on Web App for Linux Docker)
- BigDL, Keras, Tensorlfow, Horovod, TensorflowOnAzure
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개할 논문은 3D관련 업무를 진행 하시는/ 희망하시는 분들의 필수 논문인 VoxelNET 입니다.
발표자료:https://www.slideshare.net/taeseonryu/mcsemultimodal-contrastive-learning-of-sentence-embeddings
안녕하세요! 딥러닝 논문읽기 모임입니다.
오늘은 자율 주행, 가정용 로봇, 증강/가상 현실과 같은 다양한 응용 분야에서 중요한 문제인 3D 포인트 클라우드에서의 객체 탐지에 대한 획기적인 진전을 소개하고자 합니다. 이를 위해 'VoxelNet'이라는 새로운 3D 탐지 네트워크에 대해 알아보겠습니다.
1. 기존 방법의 한계
기존의 많은 노력은 수동으로 만들어진 특징 표현, 예를 들어 새의 눈 시점 투영 등에 집중해 왔습니다. 하지만 이러한 방법들은 LiDAR 포인트 클라우드와 영역 제안 네트워크(RPN) 사이의 연결을 효과적으로 수행하기 어렵습니다.
2. VoxelNet의 혁신적 접근법
VoxelNet은 3D 포인트 클라우드를 위한 수동 특징 공학의 필요성을 없애고, 특징 추출과 바운딩 박스 예측을 단일 단계, end-to-end 학습 가능한 깊은 네트워크로 통합합니다. VoxelNet은 포인트 클라우드를 균일하게 배치된 3D 복셀로 나누고, 새롭게 도입된 복셀 특징 인코딩(VFE) 레이어를 통해 각 복셀 내의 포인트 그룹을 통합된 특징 표현으로 변환합니다.
3. 효과적인 기하학적 표현 학습
이 방식을 통해 포인트 클라우드는 서술적인 체적 표현으로 인코딩되며, 이는 RPN에 연결되어 탐지를 생성합니다. VoxelNet은 다양한 기하학적 구조를 가진 객체의 효과적인 구별 가능한 표현을 학습합니다.
4. 성능 평가
KITTI 자동차 탐지 벤치마크에서의 실험 결과, VoxelNet은 기존의 LiDAR 기반 3D 탐지 방법들을 큰 차이로 능가했습니다. 또한, LiDAR만을 기반으로 한 보행자와 자전거 탐지에서도 희망적인 결과를 보였습니다.
VoxelNet의 도입은 3D 포인트 클라우드에서의 객체 탐지를 혁신적으로 개선하고 있으며, 이 분야에서의 미래 발전에 중요한 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 이미지처리 허정원님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/yCgsCyoJoMg
OpineSum Entailment-based self-training for abstractive opinion summarization...taeseon ryu
오늘은 의견 요약 분야에서의 흥미로운 발전에 대해 이야기하고자 합니다. 특히, 제품이나 장소에 대한 수백 개의 리뷰를 요약하는 것은 중요하고도 어려운 과제인데요, 최근에 이를 위한 새로운 자가학습 접근법, 'OpineSum'이 소개되었습니다.
1. 의견 요약의 중요성
일반적으로 제품이나 장소에 대한 리뷰는 많은 양으로 존재합니다. 이러한 리뷰들을 요약하는 것은 사용자가 정보를 빠르게 파악하는 데 도움을 주며, 의사결정 과정을 간소화할 수 있습니다.
2. 기존의 접근 방식과 한계
뉴스 분야에서의 추상적 요약은 수백만 개의 뉴스 기사와 함께 제공되는 인간 작성 요약을 통해 훈련된 감독 시스템에 의해 큰 진전을 보였습니다. 하지만 의견 텍스트의 경우, 이러한 대규모 데이터셋이 드물게 존재합니다.
3. OpineSum의 소개
이러한 문제를 해결하기 위해, 'OpineSum'이라는 새로운 자가학습 접근법이 제안되었습니다. 이 방법은 텍스트 함축의 새로운 응용을 사용하여 여러 리뷰에서의 의견 합의를 포착하는 요약을 구축합니다.
4. OpineSum의 작동 방식
OpineSum은 대규모에서 은근한 표준 요약을 얻을 수 있으며, 비지도 및 소수샷 추상적 요약 시스템 훈련에 사용할 수 있습니다. 이 방법은 SOTA 달성했습니다.
OpineSum은 의견 요약의 새로운 지평을 열고, 대규모 데이터가 부족한 상황에서도 효과적인 요약을 생성할 수 있는 방법을 제시합니다. 이러한 발전은 의견 요약 기술의 미래에 큰 영향을 미칠 것으로 기대됩니다.
오늘 논문 리뷰를 위해 자연어 처리 변현정님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/gqJCWyYPtXQ
"3D Gaussian Splatting for Real-Time Radiance Field Rendering"은 고화질의 실시간 복사장 렌더링을 가능하게 하는 새로운 방법을 소개합니다. 이 방법은 혁신적인 3D 가우시안 장면 표현과 실시간 차별화 렌더러를 결합하여, 장면 최적화 및 새로운 시점 합성에서 상당한 속도 향상을 가능하게 합니다. 기존의 신경 복사장(NeRF) 방법들이 광범위한 훈련과 렌더링 자원을 요구하는 문제에 대한 해결책을 제시하며, 1080p 해상도에서 실시간 성능과 고품질의 새로운 시점 합성을 위해 설계되었습니다. 이는 이전 방법들에 비해 효율성과 품질 면에서 진보를 이루었습니다
이 논문은 컴퓨터 비전 작업, 예를 들면 이미지 분류, 검색 및 몇 번의 학습과 같은 작업에서의 하이퍼볼릭 임베딩의 사용에 대해 논의합니다. 저자들은 이미지 간의 계층적 관계를 임베딩하는 데 하이퍼볼릭 공간이 더 적합하다고 주장하며, 이러한 관계는 컴퓨터 비전 작업에서 흔히 볼 수 있습니다. 그들은 데이터셋의 초계성을 평가하는 방법을 제안하고, 하이퍼볼릭 임베딩이 이미지 분류와 몇 번의 학습을 위해 사용되는 표준 아키텍처의 성능을 향상시킬 수 있다고 보여줍니다. 또한, 이 논문은 하이퍼 볼릭 공간과 하이퍼볼릭 추정에 대한 기억을 상기시켜 줍니다.
MCSE_Multimodal Contrastive Learning of Sentence Embeddings_변현정taeseon ryu
이 논문은 MCSE라는 새로운 접근법을 제시하며, 시각과 텍스트 정보를 결합하여 의미있는 문장 임베딩을 학습합니다. 다양한 데이터셋과 사전 훈련된 인코더에서 성능 향상을 보이며, 의미론적으로 유사한 문장을 잘 정렬합니다. 또한, 비전을 추가 의미 정보로 사용함으로써 문장 표현 학습을 더욱 촉진할 수 있다는 주장을 하고 있습니다. 이 방법은 기존의 문장 임베딩 학습 방법과 비교되며, 그 결과로서 이론과 실제에서 모두 탁월한 성능을 보입니다.
LLaMA Open and Efficient Foundation Language Models - 230528.pdftaeseon ryu
This document summarizes the LLaMa model, which is an open and efficient foundation language model.
[1] LLaMa achieves state-of-the-art performance on various tasks while being trained exclusively on publicly available data and requiring only a single GPU for inference, making it more accessible than other large models.
[2] Key aspects of LLaMa include pre-normalization, SwiGLU activation, rotary embeddings, and efficient implementation techniques. It was trained on 1.4 trillion tokens of publicly available data using 2048 A100 GPUs over 5 months.
[3] Evaluation shows LLaMa outperforms other models on common sense reasoning, question answering, reading comprehension,
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
Dataset Distillation by Matching Training Trajectories taeseon ryu
이 논문은 데이터셋 디스틸레이션에 대한 새로운 접근법을 제안합니다. 데이터셋 디스틸레이션은 전체 데이터셋에서 학습된 모델의 테스트 정확도를 일치시킬 수 있는 작은 데이터셋을 합성하는 작업입니다. 제안된 방법은 디스틸레이션 데이터를 최적화하여 실제 데이터로 학습된 네트워크와 유사한 상태로 이끌어냅니다. 이 방법은 기존 방법들을 능가하며, 더 높은 해상도의 시각 데이터를 디스틸레이션할 수 있게 합니다. 데이터셋 디스틸레이션은 지속적인 학습, 신경 아키텍처 검색, 개인정보 보호 ML 등 다양한 응용 분야가 있습니다.
이 논문은 강화 학습(Reinforcement Learning, RL)을 감독 학습(Supervised Learning, SL)의 형태로 변환하는 새로운 접근법을 제안합니다. 이를 'Upside Down RL (UDRL)'이라 부릅니다. 표준 RL은 보상을 예측하는 반면, UDRL은 보상을 작업 정의 입력으로 사용하며, 시간 지향성과 기타 계산 가능한 함수를 이력 데이터와 원하는 미래 데이터에 적용합니다. UDRL은 이러한 입력 관찰을 명령으로 해석하고, 과거 경험에 대한 SL을 통해 이를 행동(또는 행동 확률)에 매핑하여 학습합니다.
UDRL은 높은 보상이나 다른 목표를 달성하기 위해 일반화하며, 이는 "주어진 시간 내에 많은 보상을 얻으라!"와 같은 입력 명령을 통해 이루어집니다. 또한 UDRL은 탐색 전략을 개선하는 방법을 배울 수 있습니다. 별도의 논문에서는 UDRL의 초기 버전이 특정 강화 학습 문제에서 전통적인 기준 알고리즘을 능가할 수 있다는 것을 보여줍니다.
이 논문은 또한 로봇이 사람을 모방하는 방법을 가르치는 접근법을 개념적으로 단순화합니다. 먼저 로봇의 현재 행동을 모방하는 사람들을 비디오로 촬영한 다음, 로봇이 이 비디오(입력 명령으로)를 이러한 행동에 매핑하는 방법을 SL을 통해 학습하게 합니다. 그런 다음 로봇은 일반화하고 이전에 알려지지 않은 행동을 실행하는 사람들의 비디오를 모방하게 됩니다.
오늘 논문 리뷰를 위해 강화학습 이도현님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bsBvKdKCc1E
Packed Levitated Marker for Entity and Relation Extractiontaeseon ryu
PL-Marker is a span representation method that uses packed levitated markers to consider the interrelations between spans for named entity recognition and relation extraction tasks. It strategically inserts solid and levitated markers into the encoder to represent spans and span pairs. In experiments, PL-Marker achieved state-of-the-art results on several NER and RE datasets, outperforming previous methods. It obtains better performance by modeling the interrelations between spans that share the same subject or object entities.
오늘 소개할 논문은 'MOReL: Model-Based Offline Reinforcement Learning'입니다.
이 논문은 오프라인 강화 학습(Reinforcement Learning, RL)에 초점을 맞추고 있습니다. 오프라인 RL은 행동 정책을 개선하기 위해 사전에 수집된 데이터만을 사용하는 학습 방법입니다. 이 논문에서는 MOReL이라는 새로운 알고리즘 프레임워크를 제시하며, 이는 오프라인 RL을 위한 것입니다.
MOReL은 두 단계로 구성되어 있습니다: 첫째, 오프라인 데이터셋을 사용하여 비관적인 MDP(Model-based Decision Process)를 학습하고, 둘째, 이 P-MDP에서 거의 최적의 정책을 학습합니다. 학습된 P-MDP는 정책 평가와 학습에 대한 좋은 대리자 역할을 하며, 모델 기반 RL의 일반적인 함정인 모델 활용을 극복합니다.
이 논문에서는 MOReL이 오프라인 RL에 대해 최소최대 최적(minimax optimal)이며, 널리 연구된 벤치마크에서 최첨단 성능을 달성함을 보여줍니다. 또한, 이 논문은 오프라인 RL의 중요한 문제인 행동 정책의 안전성에 대한 중요한 통찰력을 제공합니다.
이 논문은 오프라인 강화 학습의 새로운 접근법을 제시하며, 이를 통해 더 효율적인 방식으로 다양한 강화 학습 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
Scaling Instruction-Finetuned Language Modelstaeseon ryu
The document discusses improving the performance of language models on unseen tasks through instruction finetuning, wherein models are finetuned on a large collection of tasks described as instructions rather than examples. It finds that scaling both the number of finetuning tasks and the size of the model improves performance, and finetuning on chain-of-thought annotations particularly helps the model's reasoning abilities. Instruction finetuning is shown to generalize across models and improve usability while mitigating potential harms.
Visual Prompt Tuning (VPT),Parameter-efficient fine-tuning
지금까지 발표한 논문 :https://github.com/Lilcob/-DL_PaperReadingMeeting
발표자료 : https://www.slideshare.net/taeseonryu/mplug
안녕하세요 딥러닝 논문읽기 모임 입니다! 오늘 소개 드릴 논문은 'Visual Prompt Tuning for Transformers with Frozen Weights' 입니다.
오늘 소개하는 논문은 대규모 Transformer 모델을 비전에 효율적이고 효과적으로 미세조정하는 대안인 Visual Prompt Tuning (VPT)를 소개하고 있습니다. VPT는 입력 공간에서 작은 양의 훈련 가능한 매개변수를 도입하면서 모델 백본을 고정합니다.
이 방법을 통해, VPT는 다른 매개변수 효율적인 튜닝 프로토콜에 비해 상당한 성능 향상을 달성하며, 많은 경우에는 전체 미세조정을 능가하면서 작업당 저장 비용을 줄인다는 것을 실험적으로 보여줍니다.
이 논문은 효과성과 효율성 면에서 대규모 사전 훈련된 Transformer를 하위 작업에 적용하는 도전을 다룹니다. 이를 통해, 더 효율적인 방식으로 다양한 비전-언어 작업에 대한 성능을 향상시킬 수 있음을 보여줍니다.
오늘 논문 리뷰를 위해 이미지처리 조경진님이 자세한 리뷰를 도와주셨습니다 많은 관심 미리 감사드립니다!
https://youtu.be/bVOk-hSYyZw
mPLUG is a new vision-language pre-trained model proposed by the authors that achieves state-of-the-art performance on various vision-language tasks through an asymmetric architecture using novel cross-modal skip connections. The model introduces skip-connected fusion blocks to address information asymmetry and computation inefficiency problems in multi-modal fusion. mPLUG is pre-trained using contrastive learning on image-text pairs and masked language modeling, and shows strong zero-shot transfer ability on tasks like image captioning and image-text retrieval. Evaluation shows mPLUG outperforms prior work on tasks including visual question answering, image captioning, image-text retrieval, visual grounding and visual reasoning.
variBAD, A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning.pdftaeseon ryu
Train중 예상 Return 을 최대화하기 위해 알려지지 않은 환경에서 '탐색'과 '활용' 사이의 균형을 잘 이루는 것이 중요합니다. 이를 이상적으로 수행하는 '베이즈 최적 정책'은 환경 상태뿐만 아니라 에이전트가 환경에 대해 느끼는 불확실성에 따라 행동을 결정합니다. 하지만, 베이즈 최적 정책을 계산하는 것은 작은 작업들에 대해서조차 까다롭습니다. 이 논문에서는, 알려지지 않은 환경에서 근사적으로 추론을 수행하고, 그 불확실성을 행동 선택 과정에 직접 포함시키는 방법, 'variational Bayes-Adaptive Deep RL' (variBAD)를 소개합니다.
Reinforced Genetic Algorithm Learning For Optimizing Computation Graphs.pdftaeseon ryu
논문에서는 최적화 컴파일러에서 신경망 연산 그래프의 실행 비용을 최소화하는 깊은 강화 학습 방법을 제시합니다. 이전의 학습 기반 작업들은 최적화될 동일한 그래프에서 최적화기를 훈련하는 것이 필요했지만, 논문은 오프라인에서 최적화기를 훈련하고 이후에는 추가 훈련 없이 이전에 보지 못한 그래프에 일반화하는 학습 접근법을 제안합니다. 이를 통해 논문의 방법은 시간 대신 초 단위로 실제 세계의 텐서플로우(TensorFlow) 그래프에서 고품질의 실행 결정을 생성할 수 있습니다. 논문은 연산 그래프에 대한 두 가지 최적화 작업을 고려합니다: 실행 시간과 최대 메모리 사용량을 최소화하는 것입니다. 광범위한 기준 세트에 비해, 우리의 접근법은 이 두 가지 작업에서 고전적인 방법과 다른 학습 기반 방법에 비해 상당한 개선을 보여줍니다.
이 논문은 신경망 학습에 대한 새로운 방법을 제시하는데, 이 방법의 이름은 'Forward-Forward 알고리즘'입니다. 기존의 딥러닝 방법은 데이터를 앞으로 보내고 결과를 다시 뒤(backward)로 보내는 '앞-뒤' 방식인데, 이 새로운 방법은 '앞-앞' 방식을 사용하니까 'Forward-Forward'라고 부릅니다.
이 알고리즘에서는 '양의 데이터'와 '부정적인 데이터' 두 종류를 사용합니다. '양의 데이터'는 실제로 우리가 가진 정보를 의미하고, '부정적인 데이터'는 신경망이 스스로 생성하는 정보를 말합니다. 이 두 종류의 데이터를 각각 앞으로 보내서, 각 계층이 '양의 데이터'에 대해는 좋은 결과를, '부정적인 데이터'에 대해는 나쁜 결과를 내도록 학습합니다.
핵심은 신경망의 학습 방법에 변화를 주어, 더 효율적이고 간편하게 학습을 진행할 수 있도록 한다는 점입니다. 이 방법을 사용하면 비디오 같은 데이터를 신경망을 통해 처리하면서 복잡한 연산을 중단하거나 데이터를 저장할 필요 없이 진행할 수 있다는 것이 큰 장점입니다.
Towards Robust and Reproducible Active Learning using Neural Networkstaeseon ryu
활성 학습(Active Learning, AL)은 대량의 라벨이 없는 데이터를 처리하고, 데이터 라벨링 비용이 지나치게 높은 영역에서 이를 줄이는데 유망한 머신러닝 패러다임입니다. 최근에 제안된 신경망 기반의 활성 학습 방법들은 이 목표를 달성하기 위해 다양한 휴리스틱을 사용합니다.
이 연구에서는 동일한 실험 조건 하에서, 다른 종류의 활성 학습 알고리즘들(불확실성 기반, 다양성 기반, 커미티 기반)이 무작위 샘플링 기준에 비해 일관성 없는 향상을 보이는 것을 보여줍니다. 다양한 실험을 통해, 확률적 요인을 제어하면서, 활성 학습 알고리즘들이 달성하는 성능 지표의 변동성이 이전에 보고된 결과와 일치하지 않는 결과를 가져올 수 있음을 보여줍니다
BRIO: Bringing Order to Abstractive Summarizationtaeseon ryu
이 논문에서는 추상적 요약 모델의 훈련 방식에 대해 논의하고 있습니다. 일반적으로 이러한 모델은 최대 가능도 추정을 사용하여 훈련되는데, 이는 이상적인 모델이 모든 확률 질량을 참조 요약에 할당할 것이라고 가정하는 결정론적인 목표 분포를 가정합니다. 이런 가정은 추론 과정에서 성능 저하를 초래할 수 있는데, 모델이 참조 요약에서 벗어난 여러 후보 요약을 비교해야 하기 때문입니다. 이 문제를 해결하기 위해, 저자들은 서로 다른 후보 요약들이 그들의 품질에 따라 확률 질량을 할당받는 비결정론적 분포를 가정하는 새로운 훈련 패러다임을 제안합니다. 이 방법은 CNN/DailyMail (47.78 ROUGE-1) 및 XSum (49.07 ROUGE-1) 데이터셋에서 새로운 최고 성능을 달성했습니다.
3. “Ranking is the most important component in s search system”
“Traditional ranking approaches reply on word/phrase exact matching”
“To enhance contextual modeling, contextual embedding such as BERT has been proposed”
“Heavy BERT computation on the fly”
Introduction
“Interaction based structure(query and document) precludes embedding pre-computing ”
5. Search and Recommendation Ecosystem (LinkedIn)
Raw
Query
Member
Profile
Text Processing
Query Tagging
Query Intention
Profile / Behavior
Understanding
Query understanding
User Intention Understanding
Retrieval Targeting
Candidate Selection
Ranking
Spell
Check
Query
Suggestion
Auto
Complete
Online Assistance
Language Detection
Tokenization
Normalization/
Accent Handling
Document
Understanding
Search Recommendation
Deep
NLP
6. Deep NLP based Ranking Models (Related Work)
랭킹 시스템에서 일반적인 딥러닝 모델은 두 Text의 매칭 문제로 보는데, 접근법에 따라 두가지로 나눔
representation-focused Interaction-focused
각 Text의 의미를 잘 표현하는 구조에 집중하여
Query, Document의 의미 매칭에 집중
두 Text의 상호작용을 계층적으로 배워
관련성을 매칭 시키는데 집중
검색어와 검색 결과를 각각 input 으로 모델에 입력 -> 대칭적 아키텍처 검색어와 검색 결과의 연산을 거쳐 계층적인 일치도를 파악 -> 피라미드모양의 아키텍처
성능
속도
<
DSSM, ARC-I Deep Match, ARC-II
>
BERT 는 query string과 document string이 하나의 문장으로 연결되기 때문에 interaction-focused로 분류
모든 단어의 pariwise 비교로 시간이 오래 걸림
7. LTR(Learning To Rank) Metric
MRR(Mean Reciprocal Rank)
MAP(Mean Average Precision)
가장 상위의 관련 문서의 위치만을 고려
간단하다
사용자에게 가장 관련있는 컨텐츠가 상위에 위치 되어 있는가를 평가할때 용이
관련 문서의 갯수가 달라도 첫번째 관련 문서의 위치가 같으면 같은 점수
2,3번째 관련 문서는 평가하지 않음
관련 문서의 위치까지의 목록에 대해서 precision을 계산
사용자별로 평균내고 그 결과를 다시 평균
우선순위를 고려한 성능 평가가 가능
문서의 관련 여부를 binary로 나눌수 있으면 좋은 평가 모델
사용자에게 더 관련성 있는 문서를 상위로노출 하기위한 평가로서는 부족
8. LTR(Learning To Rank) Metric
더 관련 있는 결과를 상위에 노출 시키는지에 대한 평가
NDCG(Normalized Discounted Cumulative Gain)
9. LTR Loss Function (Pointwise, Pairwise, Listwise)
• 기존의 TF-IDF, BM25 등 키워드-문서 사이의 관련도를 잘 모델링 해서 검색 품질에 집중 했다면
• LTR(Learning to Rank)는 문서를 “어떻게 더 잘 정렬할 것인가?”
• 구체적인 score 보다는 list order를 학습
하나의 아이템 단위의 접근, ranking을 prediction 한다는 관점과는 맞지 않음
아이템을 쌍 으로 활용, 랭킹의 ground truth와 가장 많은 pair가 일치하는 순서를 찾아냄. pair의 조합 최적화가 중요
Q에 반환된 문서 리스트 전체를 ground thruth와 비교, 랭킹 순위를 가장 잘 나열하는게 목적이라서 복잡도가 높고, 결과가 좋음
Pointwise
Pairwise
Listwise
11. DeText Framework Design
Input Text Data
• Source 는 queries or user profiles
• Target은 documents
• Source, Target 에 여러 Field 가 있을 수 있음
• Better and more robust results
Token Embedding Layer
• d x m , m tokens, d token embedding dimensions
• CNN/LSTM : worlds
• BERT : subwords
12. DeText Framework Design
Text Embedding Layer
• Representation base model 구조에서 각 필드마다 독립 임베딩
• BERT, CNN, LSTM 등 다양한 딥러닝 모델을 사용 가능
13. DeText Framework Design
Interaction Layer
• Source와 target의 Text embedding 이 생성 후 발생
• 3개의 Interaction methods
(cosign similarity, Hadamard product, Concatenation)
Traditional Feature Processing
• Hand-crafted features
• Personalization feature
• Social networks features
• User behavior feature
15. DeText Framework Design
LTR(Learning to Rank) Layer
• Pointwise, Pairwise, Listwise 를 제공
• Click probability 이 중요한 모델인 pointwise 사용
• 상대적인 위치가 중요하면 pairwise/listwise 사용
16. DeText Framework Design
1. Configurable input fields : query, user fields, document fields
2. Different deep network module choices : CNN, LSTM, BERT
3. Multiple interaction features available : Cosine similarity, Hadamard product, Concatenation
4. Deep and wide fashion for traditional features
5. Flexible learning-to-rank / classification loss : pointwise, pairwise, list wise
Optimization : Adam, sgd
Metrics : NDCG@k, precision@k, MRR, AUC, …
17. Online Deployment
General Challenge
* computation grows linearly with # of documents
Challenge for BERT serving
* 12-layer Google BERT has 110 million parameters
* Could be 30x times slower than CNN
• 1 step : MLP model uses traditional features only
• 2 step : Top k ranked documents are sent to DeText model
• Benefit
• Easy to implement and deploy
• MLP ranker can filter out a large amount of irrelevant documents
• CNN is applied to a small set of candidates
Two pass ranking
DeText-CNN with Real-time Inference
• Compact CNN structure with small dimensions can perform well
• CNN computation time grows linearly with # of retrieved documents
18. Online Deployment
• General Challenge
* computation grows linearly with # of documents
• Challenge for BERT serving
* 12-layer Google BERT has 110 million parameters
* Could be 30x times slower than CNN
• DeText uses representation based model, adopt precomputing approach
• For Offline
• document embeddings are pre-computed with BERT
• Key-value store, key is document id, value is embedding vectors (daily)
• For Online
• Fetch the document embeddings from pre-computed embedding store
• Computation cost -> network communication cost
Embedding Pre-computation
LiBERT ( LinkedIn pretrained BERT model)
• Fewer parameters -> smaller latency
• Better relevance
20. Dataset
2개월간 트래픽에서 샘플링된 clickthrough data
• People Search
500만 쿼리
Document : member profiles (Headline, current position, pass position)
• Job search
150만 쿼리
Document : job post title, company name
• Help center
34만 쿼리
Document : title, example question
Metrics
• Offline/online metrics 회사 기밀. 상대적인 값만 표기
• CTR@5
• 클릭받은 검색 세션 비율 (30분)
• 검색에서의 job application 수
• 하루에 문서를 재검색하지 않고 클릭한 사용자의 비율 (다시 검색 하지 않고)
Baseline Models
• XGBOOST - Hyper-parameters(pairwise vs list wise, number of tree) LinkedIn search engine에서 최적화 되어 있음
• Hand-crafted traditional features
• Text matching features : cosine similarity, jacquard similarity , semantic matching features
• Personalization features : social network distance between the searcher and profiles, searcher’s title overlapping with the job post title
• Document popularity features : static rank of a member profile, clickthrough rate of a job
21. Search Ranking Experiments (Offline Experiments)
• DeText-MLP : DeText with only MLP and LTR layers on traditional features
• People Search, Job Search 도 성능 향상이 크지만, Help Center 가 가장 큰 개선이 됨
• Help Center Search : 유사한 시나리오의 문서가 많음, “how to hide my profile updates” vs “sharing profile changes with your networks”
• People Search : exact matching이 중요. “Twitter” vs “Facebook” , word embedding은 비슷 하지만 정확하게 결과를 리턴 해줘야
• Job Search : Help Center Search 과 People Search 중간
Overall
LiBERT vs BERTBASE
• People Search, Job Search는 DeText-LiBERT가 상당히 개선됨
• Help Center는 구성된 어휘가 wikipedia와 가깝다. 비슷한 결과를 얻음
• 단, LiBERT가 BERTBASE 보다 1/3 파라미터만 사용 함으로 가치가 있음
22. Text Embedding Interaction
Traditional Features
• Interaction method는 cosine + Hadamard (+ concat) 조합이 최상의 결과를 얻을 수 있음
• Traditional features 를 사용 하는것이 중요
• Element-wise rescaling, normalization 이 도움이 됨
Search Ranking Experiments (Offline Experiments)
23. Multiple Fields
• 여러 필드를 사용 하는것이 중요
• Single field 에서는 가장 중요한 필드가 사용됨 (headline or title)
• Traditional features 는 제외
Search Ranking Experiments (Offline Experiments)
24. Search Ranking Experiments (Online Experiments)
• 2주 이상 20% 이하로 각 모델로 수행
• LiBERT 모델은 daily로 embedding을 새로 고침
• Job Search 같은 경우 새로운 job posting이 빈번 해서 DeText-LiBERT 를 feature work로 남겨둠
• People search, Help center search에서 DeText-LiBERT 가 일관되게 우수
• Importance of contextual embedding on capturing deep semantics between queries and documents
25. Search Ranking Experiments (Latency Performance)
• Two pass ranking 가 latency 줄이는데 효과적임.
• A/B 테스트에서 all-decoding, two pass ranking의 관련성 차이는 없었음
• DeText-LiBERT 모델을 통해서 서비스 가능한 latency 확보
• DeText-BERTBASE 보다 빠름
Time : additional latency compared to XGBoost baseline
28. Example : Query Intent Classification
Input
Predict : Search Intent
• Query Text
• Dense Features
• People
• Job
• Content
• Company
• School
• Group
• Learning
29. Example : Job Recommendation, Query Auto Completion
Job Recommendation
• Input : (user id, job post id, applied for the job or no)
• Source Field : headline, job title, company, skill
• Target Field : including job title, job company, job skill, job country
• Baseline : logistic regression
• Pointwise 사용 (MLP의 hidden larger 없이 사용)
• Traditional features는 baseline 과 동일
Query Auto Completion
• Source Field : headline, job title, company title
• Target Field : completed query
• Baseline : XGBoost with traditional hand-crafted features
• listwise LTR 사용