2. • Word embedding
• Relation extraction
• Sentence classification
• Language model
# Media art
# Computer generated art
# Artificial general intelligence
6. • 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
7. • 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
2,000만 인스턴스
4억 트리플
8. • 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
9. • 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
10. • 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
정봉수
17. 한국어 BERT
• 04 BERT case study
• BERT 성능에 영향을 미치는 요인
‒ 코퍼스 사이즈
: 1-5GB 학습 코퍼스까지 실험
: 코퍼스 사이즈가 클 수록 성능 향상 ( ※ 문서 분리가 의미 있게 잘 되어있어야 함)
‒ 코퍼스 도메인
: 뉴스의 경우, 전처리를 통해 정제 과정 많이 필요
: 블로그의 경우, 정제가 어렵고 의미 없는 문서가 많아 성능 하락
– Vocab 사이즈 (영어 model: 30,522 vocabs, 다국어 model: 119,547 vocabs)
‒ 코퍼스 tokenizing (어절, word piece, 형태소)
Corpus tokenizing 예제
어절
+ word piece
멕시코 ##부터 브라질 ##까지 그리고 카리브 해 섬 지역 ##에서 발견 ##된 ##다 ##.
8 ##종으로 이루어 ##져 있다.
날 ##씬 ##한 박쥐 ##류로 특이하게 ##도 긴 꼬리 ##와 이름 ##이 함 ##축하 ##는 바 ##와 같이 깔 ##때 ##기 모
양의 귀 ##를 갖 ##고 있 ##다.
형태소 분리
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 된 다 .
8 종 으로 이루어져 있 다 .
형태소 분리
+ 형태소 tag
멕시코/NNP 부터/JX 브라질/NNP 까지/JX 그리고/MAJ 카리브/NNP 해/NNG 섬/NNG 지역/NNG 에서/JKB 발견/NNG
된/XSV 다/EF ./SF
8/SN 종/NNG 으로/JKB 이루어져/VV 있/VX 다/EF ./SF
형태소 분리
+ 원형 복원
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 되 ㄴ다 .
8 종 으로 이루어지 어 있 다 .
18. 한국어 BERT
• 04 BERT case study
• BERT 학습
– 코퍼스: 6.3GB, 약 6.7억 어절
– 배치 사이즈: 128
– 학습 steps: ≈ 400,000
• Vocab size: ≈ 30,000
• KorQuAD로 평가
모델 전처리 Tokenizing Exact matching F1
BERTbase X Word piece 67.23 86.39
BERTmorp 형태소 분리 형태소 단위 84.46 92.13
BERTmorp+wp 형태소 분리 Word piece 85.94 93.35
BERTmorp+tag
형태소 분리
+Tag
형태소 단위 81.81 91.86
BERTmorp_r+tag+wp
형태소 원형복원
+형태소 분리
+Tag
Word piece 83.62 93.60
19. 한국어 BERT
• 04 Advanced BERT 모델
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
이순신은 조선 중기의 무신이자 임진왜란 당시 조선 수군을 통솔했던
지휘관이자 구국영웅으로, 자는 여해(汝諧)이며, 시호는 충무공(忠武公)이다.
조선, 조선 중기, 조선 수군, 이순신, 임진왜란, 충무공
이순신, 임진왜란, 조선, 조선 수군, 충무공
[ENT]이순신[/ENT]은 [ENT]조선[/ENT] 중기의 무신이자 [ENT]임진왜란[/ENT]
당시 [ENT]조선 수군[/ENT]을 통솔했던 지휘관이자 구국영웅으로,
자는 여해(汝諧)이며, 시호는 [ENT]충무공[/ENT](忠武公)이다.
원본 문장
Entity 후보 추출
주요 entity 추출
전처리
20. 한국어 BERT
• 04 Advanced BERT 모델
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
Entity
Embeddings
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
21. 한국어 BERT
• 04 Advanced BERT 모델
• 학습 데이터: 2019년 06월 20일 Wiki dump (약 4,700만 어절)
• Batch: 128
• Sequence length: 512
• Training steps: 300,000 (대략 10 epochs)
KorQuAD dev set
모델 Exact matching F1
BERTbase 64.51 83.76
BERTEntity 78.13 87.25
적은 학습 데이터로도 BERT의 성능 향상
22. 한국어 BERT
• 04 Advanced BERT 모델
• Entity 모호성을 해소할 수 있는 entity linking module을 통해 entity feature 추출
• Entity의 type feature 적용
Document
Mention
Detection
Entity
Linking
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
SK : SK_와이번스
두산 : 두산_베어스
…
23. 한국어 BERT
• 04 Advanced BERT 모델
Pairwise scoring modelPairwise scoring modelPairwise scoring model
Local
Scoring
model
k Pairwise scoring model
Relation Matrix
Feed-
Forward
NN
+
Candidatecontext context
Relational Scoring Model
Mention-Entity
Probability Model
두산
SK
Relation Matrix
Relational Scoring Model
Relation Matrix
Relational Scoring Model
두산 베어스
두산 베어스
두산 베어스
SK 와이번스
SK 그룹
SK 브로드밴드
Mention
Detection
Context
Extraction
Candidate
Generation
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
…
Linked
Entities
2. 개체명이 출현한 문서에서의 좌우 문맥 고려
1. 개체명의 확률 정보
3. 개체 간의 관계 정보
Document
Entity Linking
24. 한국어 BERT
• 04 Advanced BERT 모델
• TransE를 통한 트리플 관계 임베딩 벡터 생성
• Knowledge embedding layer 추가
Entity
Embeddings
Knowledge
Embeddings
25. 한국어 BERT
• 04 Advanced BERT 모델
• 최근 많은 기업/기관에서 전문 도메인 특화 BERT 모델을 요구
• BERT의 경우, 처음 만든 vocab이 계속 고정으로 사용
• Vocab을 고쳐서 학습을 새로 하기엔 pretraining 시간이 매우 오래 걸림
• 같은 모델을 이용해 전문 도메인에 적용을 하려면 새로운 방법 필요 dynamic embedding layer
BERT
Dynamic embedding layer (new_vocab_size, 768)
Dynamic output layer (768, new_vocab_size)
BERT
Embedding layer (vocab_size, 768)
기존 모델
Output layer (768, vocab_size)
+ Dynamic embedding layer
+ Dynamic output layer
26. 한국어 BERT
• 04 앞으로는..
• Saltlux advanced BERT 모델
• 전문 도메인 특화 모델
• KorERINE 2.0 모델
Dataset - CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI RTE WNLI AX
Metric score
matthews
corr.
acc
f1-score/a
cc
spearman
/pearson
corr.
f1-score/a
cc
acc acc acc acc acc
matthews
corr.
BERT Base 78.3 52.1 93.5 88.9/84.8 85.8/87.1 71.2/89.2 84.6 83.4 90.5 66.4 65.1 34.2
ERNIE 2.0
Base
80.6
(+2.3)
55.2
(+3.1)
95.0
(+1.5)
89.9/86.1
(+1.0/+1.3)
86.5/87.6
(+0.7/+0.5)
73.2/89.8
(+2.0/+0.6)
86.1
(+1.5)
85.5
(+2.1)
92.9
(+2.4)
74.8
(+8.4)
65.1
37.4
(+3.2)