어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?

어떻게 해야 기계에게 글을 잘 읽고
말할 수 있게 할까?
강원대학교 자연어처리 연구실
이현구
E-mail : nlphglee@kangwon.ac.kr
Homepage : http://nlp.kangwon.ac.kr

발표에서 다룰 내용
• Machine Reading Comprehension
– 어떻게 글을 기계가 잘 이해하도록 표현할까?
– 어떻게 해야 잘 읽을 수 있을까?
– 정답은 어떻게 해야 더 잘 찾아낼 수 있을까?
2

연구의 계기
• 질의응답을 함께 할 수 있는 챗봇
3
저기… 물어보고 싶은 것이 있어
그것이 무엇인가요?
미국의 대통령 이름이 뭐야?
도널드 트럼프입니다.

연구의 계기
• 기계가 질의응답을 하는 방법
4

연구의 계기
– 지식 베이스
• 정형화 데이터가 필요함
5

연구의 계기
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
6

연구의 계기
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
7

연구의 계기
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
8

하고 싶은 것
9
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?

하고 싶은 것
10

하고 싶은 것
11
서쪽에는 중화인민공화국이 있네요

읽기 & 추출
• WikiReading (Hewlett et al., 2016)
12

읽기 & 추출
• 질문 데이터가 필요한데…
13

Machine Reading Comprehension
• 훌륭한 데이터(문장 형태의 답은 아니지만…)
– Stanford Question Answering Dataset(SQuAD)
• 각종 기술의 집결체
– Attention, Embedding 등…
• 오픈소스까지!!
15

• 기계가 글과 질문을 읽고
16

• 추론을 하여
17

• 추론을 하여
• 글에서 정답을 찾아주는 것
18

19

• Bi-Directional Attention Flow (Seo et al., 2017)
20

모델들의 공통적인 구조
• Encoder
– 질의와 문맥을 벡터로 표현
• Co-attention
– 상호 Attention을 통해 문맥과 질의 간의 관계 파악
• Output
– 질문에 해당하는 정답 단어의 시작과 끝 위치 출력
21

성능 향상의 방법
22
Encoder
좀 더 잘 표현

23
Encoder
좀 더 잘 표현
Co-Attention
질문을 정확히
이해

24
Encoder
좀 더 잘 표현
Co-Attention
질문을 정확히
이해
Output
정확한 경계
를 찾기

Encoder
• Word-level Embedding
• Character-level Embedding
• Contextual Embedding
• Feature
25

Word-level Embedding
• 단어를 기계가 알아들을 수 있는 숫자로 표현
• One-hot representation
26

One-hot representation
27
유사한 단어를 인식할 수 없음

Word2Vec
• CBOW
• Skip-gram
28

Word2Vec
• 비슷한 단어는 가까운 벡터 공간에 사상
29

Advanced Word-level Embedding
• GloVe
– 문서 전체의 동시 등장 확률을 함께 학습
• fastText
– 부분 단어(subword)로 학습하여 노이즈에 강함
30

결국 무엇을 써야하나?
• 많은 논문들은 GloVe 사용
• 개인적인 실험
– GloVe ≈ fastText
• 결국은 GloVe
– 공개된 데이터의 단어 커버리지가 높음
• GloVe : 2,196,017개
• fastText : 1,000,000개
31

Character-level Embedding
• RNN vs CNN
32
a p p l e
RNN
a p p l e
pooling
CNN

Character-level Embedding
• 성능
– RNN ≈ CNN
• 속도
– RNN < CNN
• RNN은 병렬화가 어려움
33

Contextual Embedding
• CoVe (McCann et al., 2017)
– MT-LSTM을 통한 사전학습
• ELMo (Peters et al., 2018)
– Language Model을 통한 사전학습
34
나 ?? 사과 가 정말 좋 아
Language Model이란?

얼마나 좋길래?
• 성능이 매우 향상됨
35

Feature
• 어휘 정보 외 추가적인 정보
– Linguistic feature
• POS, Named Entity, Dependency Label…
– Term frequency
– Co-occurrence
• Context와 Question 모두에 나타나는가?
– Soft alignment
• GloVe 벡터 간의 내적 유사도
36

왜 써야하나?
• 사람이 직접 문제를 풀 때를 생각
– 품사를 보고 정답 위치를 유추
• 조사의 경우 앞 혹은 뒤쪽에 정보가 나타남
• 어미의 경우 문장의 끝을 나타냄을 알 수 있음
• 고유명사, 영어, 수사, 숫자 등은 정답과 직접적 관련이 있음
– 구문적인 구조를 생각해 정답 위치를 유추
– 질의 타입(예: Who, Where)과 개체명을 대입
37

자질이 도움이 되는 예
38
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context

문제가 생기는 경우
• 단순히 자질 벡터를 사용하면?
– 자질 간 간섭 문제 발생
• 개체명은 맞다고 생각하는데 의존 구문은 아니라고 판단
• 복잡도가 상승되어 성능 하락 가능성 발생
– 성능 향상에 도움되는 자질을 선별 필요
• 실험을 통해 판단 해야함
• 인적 자원 및 컴퓨팅 자원 낭비
– 오류 전파
• 언어 분석이 잘못되면 오류가 전파됨
40

어떻게 해결할까?
• 여러분은 어떤 문제를 해결할 때 주어진 정보가
필요 없다고 판단하면 어떻게 하시나요?
41

• 중요하지 않다고 생각
42

• 새로운 중요한 정보를 찾음
43

• 새로운 중요한 정보를 찾음
• 기계도 똑같게 정보의 중요도를 판단하게 해주
면 됨!!
44

Encoding
• 문맥이 반영되도록 모델링
– Bi-RNN
– Transformer (Vaswani et al., 2017)
45
Word Embedding
Character Embedding
ELMo Vector
Feature

Co-Attention
• Attention mechanism
46
…

Attention mechanism
47
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C

Attention mechanism
48
C

Attention mechanism
49
C

Attention mechanism
50
C

Co-Attention
• Bi-directional Attention
• Fully-aware Attention
• Self Attention
51

Bi-directional Attention
52
• Bi-Directional Attention Flow (Seo et al., 2017)

53
C

54
C

Fully-aware Attention
• 모델이 깊어질 수록 고차원의 추상화
55

Fully-aware Attention
• FusionNet (Huang et al., 2017)
56

Self Attention
• R-Net (Wang et al., 2017)
– 자기 자신과 Attention
– 기존 Attention은 서로 다른 문장 간의 관계
– Self Attention은 같은 문장 내에 단어들 간의 관계
57

Self Attention
• 사용할 때 주의할 점
– 같은 문장을 집중
– 동일한 단어에 가중치를 주는 대각행렬 모양의 결과
59
철수 는 영희 를
철수
는
영희
를

Self Attention
• 동일한 단어의 위치를 무시
60
철수 는 영희 를
철수
는
영희
를

Output
• 정답이 나타나는 곳의 위치를 찍어주기
61
C

Output
• 정답이 나타나는 곳의 위치를 찍어주기
62
C
Start End

어떻게 찍을까?
• Start, End의 확률 분포를 통해 계산
63

어떻게 찍을까?
• Pointer Networks 통해 계산
64

여기서도 자질이 도움이 될까?
• 마피아 게임
65
1
2
34
5
정황을 봐서
는 3번이 마피
아 같은데?

여기서도 자질이 도움이 될까?
• 마피아 게임
66
1
2
34
5
3번이 말을 더
듬고 동공이
흔들렸어!

확인해보자
67
Context

확인해보자
68
Context

확인해보자
69
Context

학습 방법
• Negative log probability
• REINFORCE algorithm (Williams 1992)
70

강화학습을 쓰면?
• 적은 학습 데이터에서 효율
– 한국어 20,000개 데이터
• 데이터가 많으면?
– 성능은 비슷하나 학습 속도 차이가 심함
• 예측 후 학습해야 함
71
Model Exact Match F1-Score
without Reinforcement Learning 43.70 69.39
with Reinforcement Learning 45.66 72.90

어디까지 왔나?
• 사람과 유사, 혹은 더욱 잘하게 됨
72

말은 어떻게 할까?
• 가장 쉬운 접근법
– Output layer를 생성 모델로 변경
73

하지만 데이터가 없는데…
• 다른 방식을 선택
– Zero-shot learning
• Zero-Shot Relation Extraction via Reading Comprehension
(Omer et al., 2017)
– Knowledge-Based Question Answering
• Generating Natural Answers by Incorporating Copying and
Retrieving Mechanisms in Sequence-to-Sequence Learning
(He et al., 2017)
• 지식 기반 채팅 시스템에서의 어휘 반복 문제 해결 (김시형,
김학수, 2018)
74

나아가야 할 길
• 문맥에 질문에 대한 내용이 없을 때
– SQuAD v2.0
• 자연어 문장 생성
– 단어가 아닌 자연스러운 문장
• 적은 데이터로도 확실하게
• 도메인에 종속적이지 않도록
75

어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?

Similar to 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? (20)

More from NAVER Engineering

More from NAVER Engineering (20)

어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?