KorQuAD v1.0 참관기

KorQuAD v1.0 참관기
2019-09-05
김성현
seonghyunkim@saltlux.com

• Word embedding
• Relation extraction
• Sentence classification
• Language model
# Media art
# Computer generated art
# Artificial general intelligence

• 01 솔트룩스 QA (Question and Answering)

• 01 솔트룩스 QA 개요
지식 그래프
기계 독해 기술

• 01 기계독해 기반의 지식 추출과 KBQA

활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트

활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
활동
소이벤트
2,000만 인스턴스
4억 트리플

활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
4억 트리플

활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
4억 트리플
 정봉수

KorBERT
(대소문자 구분)
(대소문자 구분)

한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함

한국어 BERT
• ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함
• ETRI 형분석기의 경우, 일 5,000건으로 제한
• Saltlux ADAM 형분석기와 카카오 Khaii 형분석기의 경우, ETRI 형분석기 테그 셋와 동일
(품사 태그 세트 표준(TTA.KO-11.0010), 세종21계획의 결과물인 ‘형태분석 말뭉치 구축 지침(Ver. 2005-1))
형분석기 형태소 분석 결과
ETRI 아버지/NNG + 가방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
Khaii 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
ADAM
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EP + ./SF
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신/EP + 다/EF + ./SF
Mecab 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신다/EP+EC
Twitter 아버지/Noun + 가방/Noun + 에/Josa + 들어가신/Verb + 다/Eomi
아버지가방에들어가신다.

한국어 BERT
• 형태소 원형복원 결과를 원래의 문장으로 복구해야함
ETRI 형분석기 결과
원래 문장에서의 시작 위치

한국어 BERT
• 단순 규칙 기반 변환
Methods (KorQuAD dev set) Exact matching F1
BiDAF (* KorQuAD leader board, CLaF) 71.88 83.00
KorBERTmorp + ETRI openAPI (* ETRI 공식) 86.4 94.18
KorBERTmorp + Saltlux ADAM API (원본 정답 복원 X) 85.1 93.34
KorBERTmorp + Saltlux ADAM API (원본 정답 복원 O) 84.8 94.05
KorBERTmorp + Mecab (* TF Korea, 정종화님) 84.8 92.99
가까와/VA 가깝/VA 아/EC 1
가까왔/VA 가깝/VA 았/EP 1
가까우/VA 가깝/VA 1
가까우면/VA 가깝/VA 으면/EC 1
가까우면서/VA 가깝/VA 으면서/EC 1
가까운/VA 가깝/VA ㄴ/ETM 153
가까운/VA 가깝/VA 은/ETM 21
가까운가/VA 가깝/VA ㄴ가/EC 2
가까운지/VA 가깝/VA ㄴ지/EF 1
가까울/VA 가깝/VA ㄹ/ETM 5
가까울수록/VA 가깝/VA ㄹ수록/EC 1
가까워/VA 가깝/VA 어/EC 9
가까워/VA 졌/VX 가깝/VA 아/EC 지/VX 었/EP 1
가까워/VA 졌/VX 가깝/VA 어/EC 지/VX 었/EP 2
가까워/VA 진/VX 가깝/VA 어/EC 지/VX ㄴ/ETM 4
가까워/VA 진/VX 다/EF 가깝/VA 어/EC 지/VX ㄴ다/EF 2
가까워/VA 질/VX 가깝/VA 어/EC 지/VX ㄹ/ETM 2
힘겨웠/VA 힘겹/VA 었/EP 1
힘든/VA 힘들/VA ㄴ/ETM 97
힘들여/VV 서/EC 힘들이/VV 어서/EC 1
힘듭/VA 니까/EF 힘들/VA ㅂ니까/EF 1
힘듭/VA 니다/EF 힘들/VA ㅂ니다/EF 4
힘센/VA 힘세/VA ㄴ/ETM 5
힘써/VV 힘쓰/VV 어/EC 8
힘써/VV 라/EC 힘쓰/VV 어라/EC 1
힘써/VV 야/EC 힘쓰/VV 어야/EC 4
힘써/VV 야/EC 힘쓰/VV 어야/EC 하/VX 1
힘써/VV 야/EF 힘쓰/VV 어야/EF 2
힘써/VV 온/VX 힘쓰/VV 어/EC 오/VX ㄴ/ETM 2
힘쓴/VV 힘쓰/VV ㄴ/ETM 1
힘쓸/VV 힘쓰/VV ㄹ/ETM 3
힘줘/VV 힘주/VV 어/EC 1
힘찬/VA 힘차/VA ㄴ/ETM 16
. . .

한국어 BERT
• 04 BERT case study
• BERT 성능에 영향을 미치는 요인
‒ 코퍼스 사이즈
: 1-5GB 학습 코퍼스까지 실험
: 코퍼스 사이즈가 클 수록 성능 향상 ( ※ 문서 분리가 의미 있게 잘 되어있어야 함)
‒ 코퍼스 도메인
: 뉴스의 경우, 전처리를 통해 정제 과정 많이 필요
: 블로그의 경우, 정제가 어렵고 의미 없는 문서가 많아 성능 하락
– Vocab 사이즈 (영어 model: 30,522 vocabs, 다국어 model: 119,547 vocabs)
‒ 코퍼스 tokenizing (어절, word piece, 형태소)
Corpus tokenizing 예제
어절
+ word piece
멕시코 ##부터 브라질 ##까지 그리고 카리브 해 섬 지역 ##에서 발견 ##된 ##다 ##.
8 ##종으로 이루어 ##져 있다.
날 ##씬 ##한 박쥐 ##류로 특이하게 ##도 긴 꼬리 ##와 이름 ##이 함 ##축하 ##는 바 ##와 같이 깔 ##때 ##기 모
양의 귀 ##를 갖 ##고 있 ##다.
형태소 분리
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 된 다 .
8 종 으로 이루어져 있 다 .
형태소 분리
+ 형태소 tag
멕시코/NNP 부터/JX 브라질/NNP 까지/JX 그리고/MAJ 카리브/NNP 해/NNG 섬/NNG 지역/NNG 에서/JKB 발견/NNG
된/XSV 다/EF ./SF
8/SN 종/NNG 으로/JKB 이루어져/VV 있/VX 다/EF ./SF
형태소 분리
+ 원형 복원
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 되 ㄴ다 .
8 종 으로 이루어지 어 있 다 .

한국어 BERT
• 04 BERT case study
• BERT 학습
– 코퍼스: 6.3GB, 약 6.7억 어절
– 배치 사이즈: 128
– 학습 steps: ≈ 400,000
• Vocab size: ≈ 30,000
• KorQuAD로 평가
모델 전처리 Tokenizing Exact matching F1
BERTbase X Word piece 67.23 86.39
BERTmorp 형태소 분리 형태소 단위 84.46 92.13
BERTmorp+wp 형태소 분리 Word piece 85.94 93.35
BERTmorp+tag
형태소 분리
+Tag
형태소 단위 81.81 91.86
BERTmorp_r+tag+wp
형태소 원형복원
+형태소 분리
+Tag
Word piece 83.62 93.60

한국어 BERT
• 04 Advanced BERT 모델
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
이순신은 조선 중기의 무신이자 임진왜란 당시 조선 수군을 통솔했던
지휘관이자 구국영웅으로, 자는 여해(汝諧)이며, 시호는 충무공(忠武公)이다.
조선, 조선 중기, 조선 수군, 이순신, 임진왜란, 충무공
이순신, 임진왜란, 조선, 조선 수군, 충무공
[ENT]이순신[/ENT]은 [ENT]조선[/ENT] 중기의 무신이자 [ENT]임진왜란[/ENT]
당시 [ENT]조선 수군[/ENT]을 통솔했던 지휘관이자 구국영웅으로,
자는 여해(汝諧)이며, 시호는 [ENT]충무공[/ENT](忠武公)이다.
원본 문장
Entity 후보 추출
주요 entity 추출
전처리

한국어 BERT
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
Entity
Embeddings
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다

한국어 BERT
• 학습 데이터: 2019년 06월 20일 Wiki dump (약 4,700만 어절)
• Batch: 128
• Sequence length: 512
• Training steps: 300,000 (대략 10 epochs)
KorQuAD dev set
모델 Exact matching F1
BERTbase 64.51 83.76
BERTEntity 78.13 87.25
적은 학습 데이터로도 BERT의 성능 향상

한국어 BERT
• Entity 모호성을 해소할 수 있는 entity linking module을 통해 entity feature 추출
• Entity의 type feature 적용
Document
Mention
Detection
Entity
Linking
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
SK : SK_와이번스
두산 : 두산_베어스
…

한국어 BERT
Pairwise scoring modelPairwise scoring modelPairwise scoring model
Local
Scoring
model
k Pairwise scoring model
Relation Matrix
Feed-
Forward
NN
+
Candidatecontext context
Relational Scoring Model
Mention-Entity
Probability Model
두산
SK
Relation Matrix
Relation Matrix
두산 베어스
두산 베어스
두산 베어스
SK 와이번스
SK 그룹
SK 브로드밴드
Mention
Detection
Context
Extraction
Candidate
Generation
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
…
Linked
Entities
2. 개체명이 출현한 문서에서의 좌우 문맥 고려
1. 개체명의 확률 정보
3. 개체 간의 관계 정보
Document
Entity Linking

한국어 BERT
• TransE를 통한 트리플 관계 임베딩 벡터 생성
• Knowledge embedding layer 추가
Entity
Embeddings
Knowledge
Embeddings

한국어 BERT
• 최근 많은 기업/기관에서 전문 도메인 특화 BERT 모델을 요구
• BERT의 경우, 처음 만든 vocab이 계속 고정으로 사용
• Vocab을 고쳐서 학습을 새로 하기엔 pretraining 시간이 매우 오래 걸림
• 같은 모델을 이용해 전문 도메인에 적용을 하려면 새로운 방법 필요  dynamic embedding layer
BERT
Dynamic embedding layer (new_vocab_size, 768)
Dynamic output layer (768, new_vocab_size)
BERT
Embedding layer (vocab_size, 768)
기존 모델
Output layer (768, vocab_size)
+ Dynamic embedding layer
+ Dynamic output layer

한국어 BERT
• 04 앞으로는..
• Saltlux advanced BERT 모델
• 전문 도메인 특화 모델
• KorERINE 2.0 모델
Dataset - CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI RTE WNLI AX
Metric score
matthews
corr.
acc
f1-score/a
cc
spearman
/pearson
corr.
f1-score/a
cc
acc acc acc acc acc
matthews
corr.
BERT Base 78.3 52.1 93.5 88.9/84.8 85.8/87.1 71.2/89.2 84.6 83.4 90.5 66.4 65.1 34.2
ERNIE 2.0
Base
80.6
(+2.3)
55.2
(+3.1)
95.0
(+1.5)
89.9/86.1
(+1.0/+1.3)
86.5/87.6
(+0.7/+0.5)
73.2/89.8
(+2.0/+0.6)
86.1
(+1.5)
85.5
(+2.1)
92.9
(+2.4)
74.8
(+8.4)
65.1
37.4
(+3.2)

감사합니다
질문이 있으시면 메일로 언제든지 문의주세요.
김성현
seonghyunkim@saltlux.com

KorQuAD v1.0 참관기

Recommended

Recommended

More Related Content

More from Seonghyun Kim

More from Seonghyun Kim (12)

Recently uploaded

Recently uploaded (8)

KorQuAD v1.0 참관기

Editor's Notes