20200923 open domain-qa_saltlux

Open-domain Question Answering
Tutorial
AI Labs Saltlux Inc.
홍동균
2020-09-23

목차
● Introduction
● Brief history of open-domain QA
○ TREC-QA
○ IBM watson - DeepQA
○ Machine Reading Comprehension
○ Document retrieval QA
● Recent work in open-domain QA
○ End-to-end learning
○ Retrieval-free models

Open-domain QA
● Question Answering
○ 자연어 질의에 대한 답을 컴퓨터 시스템이 자동으로 찾아주는 것
● Open-domain
○ 이상: 모든 분야에 관한 지식을 대상으로 하는 것
○ 현실: Wikipedia, 상식
● Closed-domain
○ 의료, 법률, 패션 등 특정 도메인을 대상으로 하는 것

스마트 스피커에서의 Open-domain QA

검색 엔진에서의 Open-domain QA
Document-retrieval QAKnowledge Based QA

Brief history of open-domain QA

(~2007) TREC Open-domain Question Answering
● 정보 검색 기술 기반의 질의 응답
○ 관련 문서를 찾고, 답을 추출
○ Question & Answer Processing 모듈에서 휴리스틱에 의존함
전형적인 정보 검색 기술 기반의 질의 응답 시스템 구조
Jurafsky and Martin. Speech and Language Processing. 3rd edition

(~2011) IBM Watson - The DeepQA project
● 복잡하게 고도화한 검색 기반 질의 응답 시스템
○ Deep content analysis and evidence-based reasoning
● 2011년 퀴즈쇼 Jeopardy’s에서 역대 챔피언을 누르고 우승하였음
DeepQA architecture

(2013~) Machine Reading Comprehension (MRC)
● 기계의 독해 능력을 평가하기 위한 데이터셋 등장
Richardson et al., 2013. MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text

(2016~) SQuAD: The Stanford Question Answering Dataset
● 주어진 문서를 읽고, 답을 추출하는 방식 중심의 QA (Extractive QA)
● 데이터 공개 이후, 딥러닝 모델 중심의 활발한 연구가 이루어졌음
Rajpurkar et al., 2016. SQuAD: 100,000+ Questions for Machine Comprehension of Text

(2018~) AI Beat Humans at Reading?
● MRC 모델이 사람 이상의 성능을 달성
○ 2018년 말 (SQuAD 1.0), 2019년 초 (SQuAD 2.0)
○ 2019년 초 (KorQuAD 1.0), 2020년 중순 (KorQuAD 2.0)
https://rajpurkar.github.io/SQuAD- https://korquad.github.io/

BERT QA
● BERT: Bidirectional Encoder Representations from Transformers
○ Pre-trained 언어 모델
○ 다양한 자연어 task로 fine tuning 할 수 있고, 좋은 성능을 보여줌
○ 등장 이후, MRC 모델의 상당수가 BERT와 같은 pre-trained 언어 모델을 바탕으로 하고있음
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Devlin et al. NAACL, 2019

(2017~) from classical QA to retriever-reader approaches
● MRC 모델을 활용하는 open-domain QA 시스템 등장

Document retrieval QA (DrQA)
● 답이 있을만한 문서를 찾고, 해당 문서에서 답을 찾아 내는 것
○ Document retriever + MRC QA (Retriever & Reader)
● Open-domain QA pipeline을 크게 간소화 함
버락 오바마의 출생년도?
Chen et al., 2017. Reading Wikipedia to Answer Open-domain Questions

Document retrieval QA (DrQA)
● Document Retriever
○ TF-IDF를 사용한 정보 검색 모델(Bigram TF-IDF weighted term vector model)
○ 학습: 불가
● Document Reader
○ RNN-based MRC 모델
○ 학습: SQuAD 데이터 사용
● Document Retriever + Document Reader
○ 입력 질문에 대해 retriever가 top 5 문서를 찾음
○ Top 5 문서에 모든 문단에 대해 reader가 답을 예측
○ 가장 높은 span score를 갖는 답 반환

DrQA Application: COVID-19 Question Answering
https://covidask.korea.ac.kr/

(2019~) End-to-end learning & Retrieval-free models

End-to-end open-domain QA
● 최근의 딥러닝 모델들은 end-to-end learning 방식을 지향함
● 기존 DrQA 모델의 경우 end-to-end learning이 불가능
○ 학습이 불가능한 retriever을 사용하기 때문
● End-to-end learning이 가능해진다면..
○ QA 모델의 학습 데이터로 질문과 답변만 필요함
○ QA task에 optimal한 evidence를 찾도록 학습이 가능
■ (학습 불가능한) 정보 검색으로 찾은 evidence 보다 나은 결과를 기대

Open-Retriever Question Answering
● BERT Retriever + BERT Reader
Lee et al., 2019. Latent Retrieval for Weakly Supervised Open Domain Question Answering

Open-Retriever Question Answering
● Retriever의 pre-training을 위해서 Inverse Cloze Task (ICT)를 제안함
○ ICT: 문장(Question)의 주변 문장(context)를 예측하는 task
○ ICT를 사용해 pre-train된 retriever는 Evidence block을 효과적으로 찾음

(2020~) No explicit retriever?
● Key question: pre-trained 언어 모델을 지식 베이스처럼 사용할 수 있을까?
● 언어 모델이 pre-training을 통해 위키피디아를 학습한다면, 지식을 갖을 수 있
다는 생각을 하게 됨
● 언어 모델에 직접 질의해 답을 찾는 시도가 등장
○ 문서를 사용하지 않으므로 retriever이 불필요함
Petroni1 et al., 2019. Language Models as Knowledge Bases?

Retrieval-free models - T5
● T5: Text-to-Text Transfer Transformer
○ 110억개 파라미터를 갖는 모델
○ 단일 모델만으로 좋은 open-domain QA 성능을 보여줌
Raffel et al., 2020. Exploring the Limits of Transfer
Learning with a Unified Text-to-Text Transformer

Conclusion
● Open-domain QA는 오래전부터 꾸준하게 연구되고 있는 분야
● MRC 모델을 적용하는 방향으로의 발전
○ SQuAD와 같은 데이터셋의 공개가 MRC 연구를 더욱 활발하게 만들었음
○ BERT 이후 MRC 모델이 사람 수준의 성능을 보여주었음
● 딥러닝 모델을 중심으로 연구가 이루어지고 있음
○ DeepQA처럼 복잡한 pipeline을 가졌던 시스템에서 end-to-end 시스템으로 발전
○ 딥러닝 기반 pre-trained 언어 모델의 활용

Reference
● https://github.com/danqi/acl2020-openqa-tutorial
● https://www.aaai.org/Magazine/Watson/watson.php
● http://searchivarius.org/blog/demystifying-ibm-watson
● HuggingFace Reading group - ODQA
● https://mrqa.github.io/assets/slides/mohit_bansal_mrqa2019.pdf

20200923 open domain-qa_saltlux

Recommended

Recommended

More Related Content

Similar to 20200923 open domain-qa_saltlux

Similar to 20200923 open domain-qa_saltlux (20)

More from DongGyun Hong

More from DongGyun Hong (7)

20200923 open domain-qa_saltlux