LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
오늘 소개해 드릴 논문은 구글의 BERT와 페이스북 현재 메타의 RoBERTa를 기반으로 만들어진 모델입니다. RoBERTa + Disentangled Attention과 enhanced mask decode
두가지의 핵심 기술로 RoBERTa를 더욱 개선 시킨 모델이라고 이해하시면 될 것 같습니다. 추가적으로 Scale Invariant Fine Tuning을 도입하여 RoBERTa를 상당히 많은 테스크에서, NLU 테스크에서는 RoBERTa, BERT이상의 성능을 보여준 논문이기도 합니다.
논문의 자세한 리뷰부터, 백그라운드 지식까지, 자연어처리팀 진명훈님이 도와주셨습니다.
오늘 소개드릴 논문의 테스크는 약간 생소하실수도 있는 'Aspect-Based Sentiment Analysis' 라는 테스크 입니다. 이 테스크는 단순히 문장을 넣었을때 그 문장이 긍정인지에 대해서만 분석하고 끝나는 일반적인 Sentiment를 분석하는게 아닌, 문장에서 Aspect와 Opinion을 찾고, 각각의 어구가 긍부정인지에 대한 구체적인 의견을 내는 테스크인대요 논문은 해당 테스크를 해결하고, pre-training과 fine-tuning 학습 방법에서의 연관성이 떨어져 잘 학습이 안되는 문제를 해결하는 prompt learning이라는 학습방법을 도입하여 높은 성능 향상을 기록하였습니다
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
*Introduction - Unsupervised Learning (Text-mining or Machine learning?
*Method - Learning Process, Packages
*Explanation Formula
*Case Study of LDA
*Coding with Best LDA Model from Grid search
*Conclusion - insight & Furthur more
*Not edit here
-What is Text-Rank?
-What is Jieba Packages?
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
오늘 소개해 드릴 논문은 구글의 BERT와 페이스북 현재 메타의 RoBERTa를 기반으로 만들어진 모델입니다. RoBERTa + Disentangled Attention과 enhanced mask decode
두가지의 핵심 기술로 RoBERTa를 더욱 개선 시킨 모델이라고 이해하시면 될 것 같습니다. 추가적으로 Scale Invariant Fine Tuning을 도입하여 RoBERTa를 상당히 많은 테스크에서, NLU 테스크에서는 RoBERTa, BERT이상의 성능을 보여준 논문이기도 합니다.
논문의 자세한 리뷰부터, 백그라운드 지식까지, 자연어처리팀 진명훈님이 도와주셨습니다.
오늘 소개드릴 논문의 테스크는 약간 생소하실수도 있는 'Aspect-Based Sentiment Analysis' 라는 테스크 입니다. 이 테스크는 단순히 문장을 넣었을때 그 문장이 긍정인지에 대해서만 분석하고 끝나는 일반적인 Sentiment를 분석하는게 아닌, 문장에서 Aspect와 Opinion을 찾고, 각각의 어구가 긍부정인지에 대한 구체적인 의견을 내는 테스크인대요 논문은 해당 테스크를 해결하고, pre-training과 fine-tuning 학습 방법에서의 연관성이 떨어져 잘 학습이 안되는 문제를 해결하는 prompt learning이라는 학습방법을 도입하여 높은 성능 향상을 기록하였습니다
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
소개드릴 논문은 오래전에 나왔고, 노드의 구조 또한 단순 하지만, 거리 학습 기반의 One Shot 러닝을 고안하는데 크게 기여하였고, 이전엔 사람이 직접 설계한 특징으로
거리학습을 진행하였지만, 처음으로 Siamese Network를 통하여 DNN을 활용했다는 점에서 의미가 큽니다. 현업에서도 클래스는 많고, 이미지는 적은경우에 대해 유사도를 판단해야 하는 경우 자주 쓰이는 기법이 될 수 있습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 '이예은'님이 자세한 리뷰 도와주셨습니다.
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
Siamese neural networks for one shot image recognition paper explainedtaeseon ryu
소개드릴 논문은 오래전에 나왔고, 노드의 구조 또한 단순 하지만, 거리 학습 기반의 One Shot 러닝을 고안하는데 크게 기여하였고, 이전엔 사람이 직접 설계한 특징으로
거리학습을 진행하였지만, 처음으로 Siamese Network를 통하여 DNN을 활용했다는 점에서 의미가 큽니다. 현업에서도 클래스는 많고, 이미지는 적은경우에 대해 유사도를 판단해야 하는 경우 자주 쓰이는 기법이 될 수 있습니다.
오늘 논문 리뷰를 위하여 이미지처리팀 '이예은'님이 자세한 리뷰 도와주셨습니다.
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
ChatGPT is a natural language processing technology developed by OpenAI. This model is based on the GPT-3 architecture and can be applied to various language tasks by training on large-scale datasets. When applied to a search engine, ChatGPT enables the implementation of an AI-based conversational system that understands user questions or queries and provides relevant information.
ChatGPT takes user questions as input and generates appropriate responses based on them. Since this model considers the context of previous conversations, it can provide more natural dialogue. Moreover, ChatGPT has been trained on diverse information from the internet, allowing it to provide practical and accurate answers to user questions.
When applying ChatGPT to a search engine, the system searches for relevant information based on the user's search query and uses ChatGPT to generate answers to present along with the search results. To do this, the search engine provides an interface that connects with ChatGPT, allowing the user's questions to be passed to the model and the answers generated by the model to be presented alongside the search results.
1. D S A I Lab.
2021.12.23
Text Generation Task
Evaluation of Text generation : A Survey (Celikyilmaz et al., 2020)
숭실대학교 소프트웨어학과 DSAI Lab. 지승현 발표
1
2. D S A I Lab.
목차
1. Text generation task
– 개요
– 예시
2. The Importance of Text generation task
3. Metrics
– Text based
– Embedding based
– Language model based
4. 결론
2
3. D S A I Lab.
1. Text generation task - 개요
– Language Modeling ≅ Text generation
– Language modeling은 다음 목표로 모델을 학습시키는 것을 의미
Objective of Language Modeling : 𝑷(𝒙) 를 정확히 예측
이 때 𝒙 = 𝑥1, 𝑥2, … 𝑥𝑡 인 sentence
또한, 𝑷 𝒙 = 𝒊
𝒕
𝑷(𝑥𝑖|𝒙𝟏:𝒊−𝟏)
– 이를 역이용하면, 𝒙1:𝑡+1 입력을 넣어 𝑥𝑡+2 를 예측하고, 𝒙1:𝑡+2를 입력하여 𝑥𝑡+3을 예측하고…
이 과정을 반복하여 Text generation 수행
3
4. D S A I Lab.
1. Text generation task – 예시 (RNN)
– RNN Language Model (RNNLM) 의 학습 예시
4
https://wikidocs.net/46496
5. D S A I Lab.
1. Text generation task - 예시 (RNN)
– 학습된 RNNLM은 다음과 같이 Text generation 수행
– input : “what will the fat”, result : “cat”
5
6. D S A I Lab.
1. Text generation task – 예시 (Transformer)
– Transformer는 문맥에 따라 token의 hidden vector를 조절하는 모델
– Encoder-decoder 구조를 가짐
– Encoder와 Decoder의 학습 방향이 다름
6
https://jalamm
ar.github.io/illu
strated-
transformer/
𝒉1:𝑡 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟(𝒙1:𝑡) 𝑥𝑙+1
′
= 𝐷𝑒𝑐𝑜𝑑𝑒𝑟(𝒉1:𝑡, 𝒙1:𝑙
′
)
7. D S A I Lab.
GPT-2 / 3
BERT
Transformer
1. Text generation task – 예시 (Transformer)
– Transformer를 응용한 다양한 언어모델의 대두
7
Encoder Decoder
Encoder Decoder
Objective:
𝑥𝑘 = 𝐸𝑛𝑐𝑜𝑑𝑒𝑟 𝒙1:𝑘, 𝑀𝐴𝑆𝐾 , 𝒙𝑘+1:𝑡
Objective:
𝑥𝑡+1 = 𝐷𝑒𝑐𝑜𝑑𝑒𝑟 𝒙1:𝑡
8. D S A I Lab.
2. Importance of Text generation task
– Brown et al. (2020) 은 GPT-3 모델을 통해 다양한 task를 수행하고자 함
– 학습 방법 :
context, question, answer 문단을 전부 sentence 𝒙라 하면
𝑷 𝑥𝑡+1 𝒙1:𝑡) for every t
즉 다양한 context, question에 대해 GPT-3를 학습시키면
다양한 문제를 해결할 수 있을 것이라 주장
그러나 여기에는 어느정도 한계가 존재하여, few-shot setting을 추가 도입
8
9. D S A I Lab.
2. Importance of Text generation task
– Zero-shot : 기존의 inference
– Input : context, question
– output : answer
– One-shot : 추가 입력된 inference
– Input : question, context, answer, context*
– output : answer on context*
즉 inference 시 미리 질문 – 답 예제를 추가 제공
9
Language Models are Few-shot learners,
Brown et al.
10. D S A I Lab.
2. Importance of Text generation task
– Few-shot setting (Brown et al. 제안)
– inference 시 질문 – 답 예시를 여러 개 제공
– GPT-3 모델이 여러 예시를 입력받는 동시에
패턴을 파악(in-context learning) 한다고 주장
그 결과 42가지 task를 어느정도 수행하는 단일 모델
을 만들었으며, Fine-tuned SOTA보다도 더 좋은 결
과를 보인 task도 존재
이처럼 Text generation task를 잘 하는 것
만으로 다양한 Task를 수행할 수 있음
10
11. D S A I Lab.
3. Metrics
– Text generation은 자연어에 가까운 text를 생성하는 것이 목표
– 따라서 사람이 직접 평가하는 방법도 많이 활용되나, 여기서는 제외
– Metric은 Text, Embedding, Language model based 방법으로 구분
(발표자가 임의로 구분)
11
12. D S A I Lab.
3. Metrics – Text based
– Text based metric
– 출력 텍스트와 정답 텍스트를 직접적으로 비교하는 방법
– BLEU, ROUGE, METEOR, CIDEr 등이 대표적
12
13. D S A I Lab.
3. Metrics – Text based (BLEU)
– BLEU
– 정답 텍스트와 출력 텍스트의 uni-gram ~ 4-gram 정확도를 각각 합친 평가지표
– 정답 텍스트가 answer, 출력 텍스트가 output이라고 할 때,
13
𝐵𝐿𝐸𝑈 = exp
𝑛
𝑁
𝑤𝑛 log 𝑝𝑛 , w𝑛 = ℎ𝑦𝑝𝑒𝑟𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑒𝑟
(일반적으로 N = 4)
𝑝𝑛 =
𝑛 − 𝑔𝑟𝑎𝑚(𝒐𝒖𝒕𝒑𝒖𝒕, 𝒂𝒏𝒘𝒆𝒓)
𝑐𝑜𝑢𝑛𝑡(𝒐𝒖𝒕𝒑𝒖𝒕)
14. D S A I Lab.
3. Metrics – Text based (BLEU)
example
reference :
https://donghwa-
kim.github.io/BLEU.
html
14
15. D S A I Lab.
3. Metrics – Text based (BLEU)
– 기계번역에서는 좋은 metric으로 평가됨
– 이후 다양한 보정 수식이 추가돼 여러 결함을 수정함
– 기계번역 task 평가 시, human judgement와 상관관계가 높은 것으로 알려짐
– 그러나 다른 task에서는 좋은 metric으로 평가되지 못하며, 정보의 풍부함이나 의미 함유 정도 등은
평가하지 못하는 것으로 알려짐 (Caccia et al., 2018)
텍스트의 의미 등을 고려하려면 다른 metric을 사용해야 할 것으로 사료
15
16. D S A I Lab.
3. Metrics – Text based
– ROUGE
– BLEU에서 n-gram precision을 계산한 반면 ROUGE는 n-gram recall을 계산
– METEOR
– n-gram F1 score를 계산
– CIDEr
– TF-IDF 아이디어를 차용하여 자주 사용되는 정답 텍스트 단어에는 낮은 가중치를 부여
위 metric들은 텍스트의 의미, 다양성 등을 평가하지 못한다고 알려짐
16
17. D S A I Lab.
3. Metrics – Embedding based
– Embedding based metric
– 텍스트의 단어를 임베딩 벡터로 만들거나 문장을 임베딩 벡터로 만들어 평가
– 출력 텍스트와 정답 텍스트의 의미를 기준으로 평가하려는 시도
– WMD (word mover’s distance), SMD (sentence mover’s distance) 등이 대표적
17
18. D S A I Lab.
3. Metrics – Embedding based (WMD)
– Word mover’s distance
– Word2vec 임베딩을 사용
– 출력 텍스트와 정답 텍스트의 동사, 명사, 형
용사 등의 임베딩 벡터를 추출
– 각 임베딩 벡터들의 유사도를 측정
단어 순서나 문장 구조 등을 반영하지 못함
18
From Word Embeddings To Document Distances,
Kusner et al., 2015
19. D S A I Lab.
3. Metrics – Embedding based (SMD)
– Sentence mover’s distance
– 단어 임베딩 벡터 뿐만 아니라 문장 임베
딩 벡터*끼리와도 비교
– WMD보다 좀 더 human judgement에
가까워짐
* 문장 내 단어 임베딩 벡터들의 평균을 취해 계산
19
Sentence Mover’s Similarity: Automatic Evaluation for Multi-
Sentence Texts, Clark et al. 2019
20. D S A I Lab.
3. Metrics – LM based
– Language model based metric
– 정답 텍스트로 만들어진 언어 모델을 활용
– 출력 텍스트를 이 언어 모델에 입력하면, 어느정도 적합한지 로짓, 확률분포 등을 통해 확인 가능
– 비교적 최근에 시도되는 방법이므로 다수의 접근 방법이 존재
– 본 발표에서는 Perplexity based, Self-BLEU를 소개
20
21. D S A I Lab.
3. Metrics – LM based (Perplexity based)
– Perplexity는 모델의 confidence를 측정
– Perplexity : Entropy를 통해 유도 가능한 수식으로, [1:∞) 의 범위를 출력
– 훈련 텍스트 내 단어를 모두 100%의 확률 예측값 (이하 confidence로 통칭) 으로 추론하면 1,
0%의 confidence로 출력할 경우 ∞를 출력 (confidence에 반비례)
예시 ) 문장 내 모든 단어의 출력 확률값이 0.7이면, PPL =
𝑵 𝟏
𝟎.𝟕𝑵 =
𝟏
𝟎.𝟕
1.0이면 PPL =
𝑵 𝟏
𝟏.𝟎𝑵 =
𝟏
𝟏.𝟎
= 𝟏
21
22. D S A I Lab.
3. Metrics – LM based (Perplexity based)
– Generation perplexity (Fan et al., 2018)
– 훈련 데이터에 대해 overfitting되면 훈련 데이터에 대한 perplexity는 1
– 테스트 데이터에 대해 완벽히 훈련된다면, 데이터 내의 모든 단어를 100%의 confidence로 출력.
따라서 테스트 데이터에 대한 perplexity는 1이 된다.
이를 응용하면, 어떤 텍스트로 훈련된 언어 모델이 있을 때
해당 텍스트와 매우 흡사한 텍스트를 입력하면 낮은 perplexity를 출력할 것.
반대로 매우 다른 출력 텍스트에 대해선 높은 perplexity를 출력할 것.
이를 통해 출력 텍스트가 자연어에 얼마나 흡사한지를 평가함
22
23. D S A I Lab.
3. Metrics – LM based (Self-BLEU)
– Self-BLEU (Zhu et al., 2018)
– Max likelihood로 생성된 텍스트는 빈출 단어만을 출력하게 될 수 있음
– 따라서 출력 텍스트가 서로 비슷해지는 현상을 방지할 필요가 있음
출력 텍스트들이 얼마나 비슷한지 평가하는 지표를 제안
– 방법은 단순히 출력 텍스트들끼리의 BLEU를 계산
self-BLEU와 텍스트의 다양성은 서로 반비례
23
24. D S A I Lab.
4. 결론
– Text generation task는 다양한 응용이 가능하며, 잠재력도 큼
– 그러나 이를 잘 평가할 수 있는 metric은 아직까지도 요원
– 특히 문장의 유의미성, 다양성 등을 평가하기 매우 어려움
24