SlideShare a Scribd company logo
1 of 27
KorQuAD v1.0 참관기
2019-09-05
김성현
seonghyunkim@saltlux.com
• Word embedding
• Relation extraction
• Sentence classification
• Language model
# Media art
# Computer generated art
# Artificial general intelligence
• 01 솔트룩스 QA (Question and Answering)
• 01 솔트룩스 QA 개요
지식 그래프
기계 독해 기술
• 01 기계독해 기반의 지식 추출과 KBQA
• 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
• 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
2,000만 인스턴스
4억 트리플
• 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
• 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
• 01 기계독해 기반의 지식 추출과 KBQA
활동
정봉수
조선
직책
직급
임진왜란
의병장
1572.00.00-1645.00.00
기간
무관 국적
선조
리더
왕
타입
국적
활동지
1567.00.00-1608.00.00
기간
TM_OVERLAP
의병
지휘
활동
활동
장소
정묘호란평안북도
활동
소이벤트
이 사람은 임진왜란 때 선전관으로 왕을 모셨고,
정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다.
철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까?
2,000만 인스턴스
4억 트리플
 정봉수
KorBERT
(대소문자 구분)
(대소문자 구분)
한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함
한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함
• ETRI 형분석기의 경우, 일 5,000건으로 제한
• Saltlux ADAM 형분석기와 카카오 Khaii 형분석기의 경우, ETRI 형분석기 테그 셋와 동일
(품사 태그 세트 표준(TTA.KO-11.0010), 세종21계획의 결과물인 ‘형태분석 말뭉치 구축 지침(Ver. 2005-1))
형분석기 형태소 분석 결과
ETRI 아버지/NNG + 가방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
Khaii 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
ADAM
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EP + ./SF
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신/EP + 다/EF + ./SF
Mecab 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신다/EP+EC
Twitter 아버지/Noun + 가방/Noun + 에/Josa + 들어가신/Verb + 다/Eomi
아버지가방에들어가신다.
한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함
• ETRI 형분석기의 경우, 일 5,000건으로 제한
• Saltlux ADAM 형분석기와 카카오 Khaii 형분석기의 경우, ETRI 형분석기 테그 셋와 동일
(품사 태그 세트 표준(TTA.KO-11.0010), 세종21계획의 결과물인 ‘형태분석 말뭉치 구축 지침(Ver. 2005-1))
형분석기 형태소 분석 결과
ETRI 아버지/NNG + 가방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
Khaii 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF
ADAM
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EP + ./SF
아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신/EP + 다/EF + ./SF
Mecab 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신다/EP+EC
Twitter 아버지/Noun + 가방/Noun + 에/Josa + 들어가신/Verb + 다/Eomi
아버지가방에들어가신다.
한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• 형태소 원형복원 결과를 원래의 문장으로 복구해야함
ETRI 형분석기 결과
원래 문장에서의 시작 위치
한국어 BERT
• 04 KorBERT를 위한 Open 형분석기
• 단순 규칙 기반 변환
Methods (KorQuAD dev set) Exact matching F1
BiDAF (* KorQuAD leader board, CLaF) 71.88 83.00
KorBERTmorp + ETRI openAPI (* ETRI 공식) 86.4 94.18
KorBERTmorp + Saltlux ADAM API (원본 정답 복원 X) 85.1 93.34
KorBERTmorp + Saltlux ADAM API (원본 정답 복원 O) 84.8 94.05
KorBERTmorp + Mecab (* TF Korea, 정종화님) 84.8 92.99
가까와/VA 가깝/VA 아/EC 1
가까왔/VA 가깝/VA 았/EP 1
가까우/VA 가깝/VA 1
가까우면/VA 가깝/VA 으면/EC 1
가까우면서/VA 가깝/VA 으면서/EC 1
가까운/VA 가깝/VA ㄴ/ETM 153
가까운/VA 가깝/VA 은/ETM 21
가까운가/VA 가깝/VA ㄴ가/EC 2
가까운지/VA 가깝/VA ㄴ지/EF 1
가까울/VA 가깝/VA ㄹ/ETM 5
가까울수록/VA 가깝/VA ㄹ수록/EC 1
가까워/VA 가깝/VA 어/EC 9
가까워/VA 졌/VX 가깝/VA 아/EC 지/VX 었/EP 1
가까워/VA 졌/VX 가깝/VA 어/EC 지/VX 었/EP 2
가까워/VA 진/VX 가깝/VA 어/EC 지/VX ㄴ/ETM 4
가까워/VA 진/VX 다/EF 가깝/VA 어/EC 지/VX ㄴ다/EF 2
가까워/VA 질/VX 가깝/VA 어/EC 지/VX ㄹ/ETM 2
힘겨웠/VA 힘겹/VA 었/EP 1
힘든/VA 힘들/VA ㄴ/ETM 97
힘들여/VV 서/EC 힘들이/VV 어서/EC 1
힘듭/VA 니까/EF 힘들/VA ㅂ니까/EF 1
힘듭/VA 니다/EF 힘들/VA ㅂ니다/EF 4
힘센/VA 힘세/VA ㄴ/ETM 5
힘써/VV 힘쓰/VV 어/EC 8
힘써/VV 라/EC 힘쓰/VV 어라/EC 1
힘써/VV 야/EC 힘쓰/VV 어야/EC 4
힘써/VV 야/EC 힘쓰/VV 어야/EC 하/VX 1
힘써/VV 야/EF 힘쓰/VV 어야/EF 2
힘써/VV 온/VX 힘쓰/VV 어/EC 오/VX ㄴ/ETM 2
힘쓴/VV 힘쓰/VV ㄴ/ETM 1
힘쓸/VV 힘쓰/VV ㄹ/ETM 3
힘줘/VV 힘주/VV 어/EC 1
힘찬/VA 힘차/VA ㄴ/ETM 16
. . .
한국어 BERT
• 04 BERT case study
• BERT 성능에 영향을 미치는 요인
‒ 코퍼스 사이즈
: 1-5GB 학습 코퍼스까지 실험
: 코퍼스 사이즈가 클 수록 성능 향상 ( ※ 문서 분리가 의미 있게 잘 되어있어야 함)
‒ 코퍼스 도메인
: 뉴스의 경우, 전처리를 통해 정제 과정 많이 필요
: 블로그의 경우, 정제가 어렵고 의미 없는 문서가 많아 성능 하락
– Vocab 사이즈 (영어 model: 30,522 vocabs, 다국어 model: 119,547 vocabs)
‒ 코퍼스 tokenizing (어절, word piece, 형태소)
Corpus tokenizing 예제
어절
+ word piece
멕시코 ##부터 브라질 ##까지 그리고 카리브 해 섬 지역 ##에서 발견 ##된 ##다 ##.
8 ##종으로 이루어 ##져 있다.
날 ##씬 ##한 박쥐 ##류로 특이하게 ##도 긴 꼬리 ##와 이름 ##이 함 ##축하 ##는 바 ##와 같이 깔 ##때 ##기 모
양의 귀 ##를 갖 ##고 있 ##다.
형태소 분리
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 된 다 .
8 종 으로 이루어져 있 다 .
형태소 분리
+ 형태소 tag
멕시코/NNP 부터/JX 브라질/NNP 까지/JX 그리고/MAJ 카리브/NNP 해/NNG 섬/NNG 지역/NNG 에서/JKB 발견/NNG
된/XSV 다/EF ./SF
8/SN 종/NNG 으로/JKB 이루어져/VV 있/VX 다/EF ./SF
형태소 분리
+ 원형 복원
멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 되 ㄴ다 .
8 종 으로 이루어지 어 있 다 .
한국어 BERT
• 04 BERT case study
• BERT 학습
– 코퍼스: 6.3GB, 약 6.7억 어절
– 배치 사이즈: 128
– 학습 steps: ≈ 400,000
• Vocab size: ≈ 30,000
• KorQuAD로 평가
모델 전처리 Tokenizing Exact matching F1
BERTbase X Word piece 67.23 86.39
BERTmorp 형태소 분리 형태소 단위 84.46 92.13
BERTmorp+wp 형태소 분리 Word piece 85.94 93.35
BERTmorp+tag
형태소 분리
+Tag
형태소 단위 81.81 91.86
BERTmorp_r+tag+wp
형태소 원형복원
+형태소 분리
+Tag
Word piece 83.62 93.60
한국어 BERT
• 04 Advanced BERT 모델
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
이순신은 조선 중기의 무신이자 임진왜란 당시 조선 수군을 통솔했던
지휘관이자 구국영웅으로, 자는 여해(汝諧)이며, 시호는 충무공(忠武公)이다.
조선, 조선 중기, 조선 수군, 이순신, 임진왜란, 충무공
이순신, 임진왜란, 조선, 조선 수군, 충무공
[ENT]이순신[/ENT]은 [ENT]조선[/ENT] 중기의 무신이자 [ENT]임진왜란[/ENT]
당시 [ENT]조선 수군[/ENT]을 통솔했던 지휘관이자 구국영웅으로,
자는 여해(汝諧)이며, 시호는 [ENT]충무공[/ENT](忠武公)이다.
원본 문장
Entity 후보 추출
주요 entity 추출
전처리
한국어 BERT
• 04 Advanced BERT 모델
• KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시
• Entity linking을 통한 주요 entity 추출 및 entity tag 부착
• Entity embedding layer의 추가
• 형태소 분석을 통해 NNP와 entity 우선 chunking masking
Entity
Embeddings
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
[ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
한국어 BERT
• 04 Advanced BERT 모델
• 학습 데이터: 2019년 06월 20일 Wiki dump (약 4,700만 어절)
• Batch: 128
• Sequence length: 512
• Training steps: 300,000 (대략 10 epochs)
KorQuAD dev set
모델 Exact matching F1
BERTbase 64.51 83.76
BERTEntity 78.13 87.25
적은 학습 데이터로도 BERT의 성능 향상
한국어 BERT
• 04 Advanced BERT 모델
• Entity 모호성을 해소할 수 있는 entity linking module을 통해 entity feature 추출
• Entity의 type feature 적용
Document
Mention
Detection
Entity
Linking
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
SK : SK_와이번스
두산 : 두산_베어스
…
한국어 BERT
• 04 Advanced BERT 모델
Pairwise scoring modelPairwise scoring modelPairwise scoring model
Local
Scoring
model
k Pairwise scoring model
Relation Matrix
Feed-
Forward
NN
+
Candidatecontext context
Relational Scoring Model
Mention-Entity
Probability Model
두산
SK
Relation Matrix
Relational Scoring Model
Relation Matrix
Relational Scoring Model
두산 베어스
두산 베어스
두산 베어스
SK 와이번스
SK 그룹
SK 브로드밴드
Mention
Detection
Context
Extraction
Candidate
Generation
SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다.
[SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다.
…
Linked
Entities
2. 개체명이 출현한 문서에서의 좌우 문맥 고려
1. 개체명의 확률 정보
3. 개체 간의 관계 정보
Document
Entity Linking
한국어 BERT
• 04 Advanced BERT 모델
• TransE를 통한 트리플 관계 임베딩 벡터 생성
• Knowledge embedding layer 추가
Entity
Embeddings
Knowledge
Embeddings
한국어 BERT
• 04 Advanced BERT 모델
• 최근 많은 기업/기관에서 전문 도메인 특화 BERT 모델을 요구
• BERT의 경우, 처음 만든 vocab이 계속 고정으로 사용
• Vocab을 고쳐서 학습을 새로 하기엔 pretraining 시간이 매우 오래 걸림
• 같은 모델을 이용해 전문 도메인에 적용을 하려면 새로운 방법 필요  dynamic embedding layer
BERT
Dynamic embedding layer (new_vocab_size, 768)
Dynamic output layer (768, new_vocab_size)
BERT
Embedding layer (vocab_size, 768)
기존 모델
Output layer (768, vocab_size)
+ Dynamic embedding layer
+ Dynamic output layer
한국어 BERT
• 04 앞으로는..
• Saltlux advanced BERT 모델
• 전문 도메인 특화 모델
• KorERINE 2.0 모델
Dataset - CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI RTE WNLI AX
Metric score
matthews
corr.
acc
f1-score/a
cc
spearman
/pearson
corr.
f1-score/a
cc
acc acc acc acc acc
matthews
corr.
BERT Base 78.3 52.1 93.5 88.9/84.8 85.8/87.1 71.2/89.2 84.6 83.4 90.5 66.4 65.1 34.2
ERNIE 2.0
Base
80.6
(+2.3)
55.2
(+3.1)
95.0
(+1.5)
89.9/86.1
(+1.0/+1.3)
86.5/87.6
(+0.7/+0.5)
73.2/89.8
(+2.0/+0.6)
86.1
(+1.5)
85.5
(+2.1)
92.9
(+2.4)
74.8
(+8.4)
65.1
37.4
(+3.2)
감사합니다
질문이 있으시면 메일로 언제든지 문의주세요.
김성현
seonghyunkim@saltlux.com

More Related Content

More from Seonghyun Kim

Theories of error back propagation in the brain review
Theories of error back propagation in the brain reviewTheories of error back propagation in the brain review
Theories of error back propagation in the brain reviewSeonghyun Kim
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERTSeonghyun Kim
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationSeonghyun Kim
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingSeonghyun Kim
 
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Seonghyun Kim
 
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...Seonghyun Kim
 
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Seonghyun Kim
 
How Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceHow Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceSeonghyun Kim
 
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewComputational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewSeonghyun Kim
 
Learning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlLearning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlSeonghyun Kim
 
A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...Seonghyun Kim
 

More from Seonghyun Kim (12)

Theories of error back propagation in the brain review
Theories of error back propagation in the brain reviewTheories of error back propagation in the brain review
Theories of error back propagation in the brain review
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword Information
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
 
챗봇의 역사
챗봇의 역사챗봇의 역사
챗봇의 역사
 
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
 
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
 
How Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceHow Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of Space
 
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewComputational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
 
Learning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlLearning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation Control
 
A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...
 

Recently uploaded

JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP Korea
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP Korea
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법JMP Korea
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?Jay Park
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP Korea
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화JMP Korea
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP Korea
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석JMP Korea
 

Recently uploaded (8)

JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!JMP가 걸어온 여정, 새로운 도약 JMP 18!
JMP가 걸어온 여정, 새로운 도약 JMP 18!
 
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
JMP 기능의 확장 및 내재화의 핵심 JMP-Python 소개
 
데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법데이터 분석 문제 해결을 위한 나의 JMP 활용법
데이터 분석 문제 해결을 위한 나의 JMP 활용법
 
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
(독서광) 인간이 초대한 대형 참사 - 대형 참사가 일어날 때까지 사람들은 무엇을 하고 있었는가?
 
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement MethodologyJMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
JMP를 활용한 전자/반도체 산업 Yield Enhancement Methodology
 
공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화공학 관점에서 바라본 JMP 머신러닝 최적화
공학 관점에서 바라본 JMP 머신러닝 최적화
 
JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례JMP를 활용한 가속열화 분석 사례
JMP를 활용한 가속열화 분석 사례
 
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
실험 설계의 평가 방법: Custom Design을 중심으로 반응인자 최적화 및 Criteria 해석
 

KorQuAD v1.0 참관기

  • 2. • Word embedding • Relation extraction • Sentence classification • Language model # Media art # Computer generated art # Artificial general intelligence
  • 3. • 01 솔트룩스 QA (Question and Answering)
  • 4. • 01 솔트룩스 QA 개요 지식 그래프 기계 독해 기술
  • 5. • 01 기계독해 기반의 지식 추출과 KBQA
  • 6. • 01 기계독해 기반의 지식 추출과 KBQA 활동 정봉수 조선 직책 직급 임진왜란 의병장 1572.00.00-1645.00.00 기간 무관 국적 선조 리더 왕 타입 국적 활동지 1567.00.00-1608.00.00 기간 TM_OVERLAP 의병 지휘 활동 활동 장소 정묘호란평안북도 활동 소이벤트
  • 7. • 01 기계독해 기반의 지식 추출과 KBQA 활동 정봉수 조선 직책 직급 임진왜란 의병장 1572.00.00-1645.00.00 기간 무관 국적 선조 리더 왕 타입 국적 활동지 1567.00.00-1608.00.00 기간 TM_OVERLAP 의병 지휘 활동 활동 장소 정묘호란평안북도 활동 소이벤트 2,000만 인스턴스 4억 트리플
  • 8. • 01 기계독해 기반의 지식 추출과 KBQA 활동 정봉수 조선 직책 직급 임진왜란 의병장 1572.00.00-1645.00.00 기간 무관 국적 선조 리더 왕 타입 국적 활동지 1567.00.00-1608.00.00 기간 TM_OVERLAP 의병 지휘 활동 활동 장소 정묘호란평안북도 활동 소이벤트 이 사람은 임진왜란 때 선전관으로 왕을 모셨고, 정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다. 철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까? 2,000만 인스턴스 4억 트리플
  • 9. • 01 기계독해 기반의 지식 추출과 KBQA 활동 정봉수 조선 직책 직급 임진왜란 의병장 1572.00.00-1645.00.00 기간 무관 국적 선조 리더 왕 타입 국적 활동지 1567.00.00-1608.00.00 기간 TM_OVERLAP 의병 지휘 활동 활동 장소 정묘호란평안북도 활동 소이벤트 이 사람은 임진왜란 때 선전관으로 왕을 모셨고, 정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다. 철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까? 2,000만 인스턴스 4억 트리플
  • 10. • 01 기계독해 기반의 지식 추출과 KBQA 활동 정봉수 조선 직책 직급 임진왜란 의병장 1572.00.00-1645.00.00 기간 무관 국적 선조 리더 왕 타입 국적 활동지 1567.00.00-1608.00.00 기간 TM_OVERLAP 의병 지휘 활동 활동 장소 정묘호란평안북도 활동 소이벤트 이 사람은 임진왜란 때 선전관으로 왕을 모셨고, 정묘호란 때는 의병을 일으켜 백성 수천 명을 구출했다. 철산의 용골산성에서 후금을 격퇴하는 전과를 세운 이 사람은 누구일까? 2,000만 인스턴스 4억 트리플  정봉수
  • 12. 한국어 BERT • 04 KorBERT를 위한 Open 형분석기 • ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함
  • 13. 한국어 BERT • 04 KorBERT를 위한 Open 형분석기 • ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함 • ETRI 형분석기의 경우, 일 5,000건으로 제한 • Saltlux ADAM 형분석기와 카카오 Khaii 형분석기의 경우, ETRI 형분석기 테그 셋와 동일 (품사 태그 세트 표준(TTA.KO-11.0010), 세종21계획의 결과물인 ‘형태분석 말뭉치 구축 지침(Ver. 2005-1)) 형분석기 형태소 분석 결과 ETRI 아버지/NNG + 가방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF Khaii 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF ADAM 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EP + ./SF 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신/EP + 다/EF + ./SF Mecab 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신다/EP+EC Twitter 아버지/Noun + 가방/Noun + 에/Josa + 들어가신/Verb + 다/Eomi 아버지가방에들어가신다.
  • 14. 한국어 BERT • 04 KorBERT를 위한 Open 형분석기 • ETRI KorBERT의 입력은 형분석 이후 데이터가 입력되어야 함 • ETRI 형분석기의 경우, 일 5,000건으로 제한 • Saltlux ADAM 형분석기와 카카오 Khaii 형분석기의 경우, ETRI 형분석기 테그 셋와 동일 (품사 태그 세트 표준(TTA.KO-11.0010), 세종21계획의 결과물인 ‘형태분석 말뭉치 구축 지침(Ver. 2005-1)) 형분석기 형태소 분석 결과 ETRI 아버지/NNG + 가방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF Khaii 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EF + ./SF ADAM 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 시/EP + ㄴ다/EP + ./SF 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신/EP + 다/EF + ./SF Mecab 아버지/NNG + 가/JKS + 방/NNG + 에/JKB + 들어가/VV + 신다/EP+EC Twitter 아버지/Noun + 가방/Noun + 에/Josa + 들어가신/Verb + 다/Eomi 아버지가방에들어가신다.
  • 15. 한국어 BERT • 04 KorBERT를 위한 Open 형분석기 • 형태소 원형복원 결과를 원래의 문장으로 복구해야함 ETRI 형분석기 결과 원래 문장에서의 시작 위치
  • 16. 한국어 BERT • 04 KorBERT를 위한 Open 형분석기 • 단순 규칙 기반 변환 Methods (KorQuAD dev set) Exact matching F1 BiDAF (* KorQuAD leader board, CLaF) 71.88 83.00 KorBERTmorp + ETRI openAPI (* ETRI 공식) 86.4 94.18 KorBERTmorp + Saltlux ADAM API (원본 정답 복원 X) 85.1 93.34 KorBERTmorp + Saltlux ADAM API (원본 정답 복원 O) 84.8 94.05 KorBERTmorp + Mecab (* TF Korea, 정종화님) 84.8 92.99 가까와/VA 가깝/VA 아/EC 1 가까왔/VA 가깝/VA 았/EP 1 가까우/VA 가깝/VA 1 가까우면/VA 가깝/VA 으면/EC 1 가까우면서/VA 가깝/VA 으면서/EC 1 가까운/VA 가깝/VA ㄴ/ETM 153 가까운/VA 가깝/VA 은/ETM 21 가까운가/VA 가깝/VA ㄴ가/EC 2 가까운지/VA 가깝/VA ㄴ지/EF 1 가까울/VA 가깝/VA ㄹ/ETM 5 가까울수록/VA 가깝/VA ㄹ수록/EC 1 가까워/VA 가깝/VA 어/EC 9 가까워/VA 졌/VX 가깝/VA 아/EC 지/VX 었/EP 1 가까워/VA 졌/VX 가깝/VA 어/EC 지/VX 었/EP 2 가까워/VA 진/VX 가깝/VA 어/EC 지/VX ㄴ/ETM 4 가까워/VA 진/VX 다/EF 가깝/VA 어/EC 지/VX ㄴ다/EF 2 가까워/VA 질/VX 가깝/VA 어/EC 지/VX ㄹ/ETM 2 힘겨웠/VA 힘겹/VA 었/EP 1 힘든/VA 힘들/VA ㄴ/ETM 97 힘들여/VV 서/EC 힘들이/VV 어서/EC 1 힘듭/VA 니까/EF 힘들/VA ㅂ니까/EF 1 힘듭/VA 니다/EF 힘들/VA ㅂ니다/EF 4 힘센/VA 힘세/VA ㄴ/ETM 5 힘써/VV 힘쓰/VV 어/EC 8 힘써/VV 라/EC 힘쓰/VV 어라/EC 1 힘써/VV 야/EC 힘쓰/VV 어야/EC 4 힘써/VV 야/EC 힘쓰/VV 어야/EC 하/VX 1 힘써/VV 야/EF 힘쓰/VV 어야/EF 2 힘써/VV 온/VX 힘쓰/VV 어/EC 오/VX ㄴ/ETM 2 힘쓴/VV 힘쓰/VV ㄴ/ETM 1 힘쓸/VV 힘쓰/VV ㄹ/ETM 3 힘줘/VV 힘주/VV 어/EC 1 힘찬/VA 힘차/VA ㄴ/ETM 16 . . .
  • 17. 한국어 BERT • 04 BERT case study • BERT 성능에 영향을 미치는 요인 ‒ 코퍼스 사이즈 : 1-5GB 학습 코퍼스까지 실험 : 코퍼스 사이즈가 클 수록 성능 향상 ( ※ 문서 분리가 의미 있게 잘 되어있어야 함) ‒ 코퍼스 도메인 : 뉴스의 경우, 전처리를 통해 정제 과정 많이 필요 : 블로그의 경우, 정제가 어렵고 의미 없는 문서가 많아 성능 하락 – Vocab 사이즈 (영어 model: 30,522 vocabs, 다국어 model: 119,547 vocabs) ‒ 코퍼스 tokenizing (어절, word piece, 형태소) Corpus tokenizing 예제 어절 + word piece 멕시코 ##부터 브라질 ##까지 그리고 카리브 해 섬 지역 ##에서 발견 ##된 ##다 ##. 8 ##종으로 이루어 ##져 있다. 날 ##씬 ##한 박쥐 ##류로 특이하게 ##도 긴 꼬리 ##와 이름 ##이 함 ##축하 ##는 바 ##와 같이 깔 ##때 ##기 모 양의 귀 ##를 갖 ##고 있 ##다. 형태소 분리 멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 된 다 . 8 종 으로 이루어져 있 다 . 형태소 분리 + 형태소 tag 멕시코/NNP 부터/JX 브라질/NNP 까지/JX 그리고/MAJ 카리브/NNP 해/NNG 섬/NNG 지역/NNG 에서/JKB 발견/NNG 된/XSV 다/EF ./SF 8/SN 종/NNG 으로/JKB 이루어져/VV 있/VX 다/EF ./SF 형태소 분리 + 원형 복원 멕시코 부터 브라질 까지 그리고 카리브 해 섬 지역 에서 발견 되 ㄴ다 . 8 종 으로 이루어지 어 있 다 .
  • 18. 한국어 BERT • 04 BERT case study • BERT 학습 – 코퍼스: 6.3GB, 약 6.7억 어절 – 배치 사이즈: 128 – 학습 steps: ≈ 400,000 • Vocab size: ≈ 30,000 • KorQuAD로 평가 모델 전처리 Tokenizing Exact matching F1 BERTbase X Word piece 67.23 86.39 BERTmorp 형태소 분리 형태소 단위 84.46 92.13 BERTmorp+wp 형태소 분리 Word piece 85.94 93.35 BERTmorp+tag 형태소 분리 +Tag 형태소 단위 81.81 91.86 BERTmorp_r+tag+wp 형태소 원형복원 +형태소 분리 +Tag Word piece 83.62 93.60
  • 19. 한국어 BERT • 04 Advanced BERT 모델 • KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시 • Entity linking을 통한 주요 entity 추출 및 entity tag 부착 • Entity embedding layer의 추가 • 형태소 분석을 통해 NNP와 entity 우선 chunking masking 이순신은 조선 중기의 무신이자 임진왜란 당시 조선 수군을 통솔했던 지휘관이자 구국영웅으로, 자는 여해(汝諧)이며, 시호는 충무공(忠武公)이다. 조선, 조선 중기, 조선 수군, 이순신, 임진왜란, 충무공 이순신, 임진왜란, 조선, 조선 수군, 충무공 [ENT]이순신[/ENT]은 [ENT]조선[/ENT] 중기의 무신이자 [ENT]임진왜란[/ENT] 당시 [ENT]조선 수군[/ENT]을 통솔했던 지휘관이자 구국영웅으로, 자는 여해(汝諧)이며, 시호는 [ENT]충무공[/ENT](忠武公)이다. 원본 문장 Entity 후보 추출 주요 entity 추출 전처리
  • 20. 한국어 BERT • 04 Advanced BERT 모델 • KBQA에서 가장 중요한 entity 정보가 기존 BERT에서는 무시 • Entity linking을 통한 주요 entity 추출 및 entity tag 부착 • Entity embedding layer의 추가 • 형태소 분석을 통해 NNP와 entity 우선 chunking masking Entity Embeddings [ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다 [ENT] 이순신 [/ENT] 장군 [SEP] [ENT] 조선 [/ENT] 출신 이다
  • 21. 한국어 BERT • 04 Advanced BERT 모델 • 학습 데이터: 2019년 06월 20일 Wiki dump (약 4,700만 어절) • Batch: 128 • Sequence length: 512 • Training steps: 300,000 (대략 10 epochs) KorQuAD dev set 모델 Exact matching F1 BERTbase 64.51 83.76 BERTEntity 78.13 87.25 적은 학습 데이터로도 BERT의 성능 향상
  • 22. 한국어 BERT • 04 Advanced BERT 모델 • Entity 모호성을 해소할 수 있는 entity linking module을 통해 entity feature 추출 • Entity의 type feature 적용 Document Mention Detection Entity Linking SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다. [SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다. SK : SK_와이번스 두산 : 두산_베어스 …
  • 23. 한국어 BERT • 04 Advanced BERT 모델 Pairwise scoring modelPairwise scoring modelPairwise scoring model Local Scoring model k Pairwise scoring model Relation Matrix Feed- Forward NN + Candidatecontext context Relational Scoring Model Mention-Entity Probability Model 두산 SK Relation Matrix Relational Scoring Model Relation Matrix Relational Scoring Model 두산 베어스 두산 베어스 두산 베어스 SK 와이번스 SK 그룹 SK 브로드밴드 Mention Detection Context Extraction Candidate Generation SK는 두산을 꺾고 2018년 한국 시리즈에서 우승하였다. [SK]는 [두산]을 꺾고 [2018년] [한국 시리즈]에서 우승하였다. … Linked Entities 2. 개체명이 출현한 문서에서의 좌우 문맥 고려 1. 개체명의 확률 정보 3. 개체 간의 관계 정보 Document Entity Linking
  • 24. 한국어 BERT • 04 Advanced BERT 모델 • TransE를 통한 트리플 관계 임베딩 벡터 생성 • Knowledge embedding layer 추가 Entity Embeddings Knowledge Embeddings
  • 25. 한국어 BERT • 04 Advanced BERT 모델 • 최근 많은 기업/기관에서 전문 도메인 특화 BERT 모델을 요구 • BERT의 경우, 처음 만든 vocab이 계속 고정으로 사용 • Vocab을 고쳐서 학습을 새로 하기엔 pretraining 시간이 매우 오래 걸림 • 같은 모델을 이용해 전문 도메인에 적용을 하려면 새로운 방법 필요  dynamic embedding layer BERT Dynamic embedding layer (new_vocab_size, 768) Dynamic output layer (768, new_vocab_size) BERT Embedding layer (vocab_size, 768) 기존 모델 Output layer (768, vocab_size) + Dynamic embedding layer + Dynamic output layer
  • 26. 한국어 BERT • 04 앞으로는.. • Saltlux advanced BERT 모델 • 전문 도메인 특화 모델 • KorERINE 2.0 모델 Dataset - CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI RTE WNLI AX Metric score matthews corr. acc f1-score/a cc spearman /pearson corr. f1-score/a cc acc acc acc acc acc matthews corr. BERT Base 78.3 52.1 93.5 88.9/84.8 85.8/87.1 71.2/89.2 84.6 83.4 90.5 66.4 65.1 34.2 ERNIE 2.0 Base 80.6 (+2.3) 55.2 (+3.1) 95.0 (+1.5) 89.9/86.1 (+1.0/+1.3) 86.5/87.6 (+0.7/+0.5) 73.2/89.8 (+2.0/+0.6) 86.1 (+1.5) 85.5 (+2.1) 92.9 (+2.4) 74.8 (+8.4) 65.1 37.4 (+3.2)
  • 27. 감사합니다 질문이 있으시면 메일로 언제든지 문의주세요. 김성현 seonghyunkim@saltlux.com

Editor's Notes

  1. 비정형 문서에서의 지식 추출 아래 문서를 보고 정봉수의 직업은 뭐야? 라고 mrc를 통해 물어보면? 무신 이라는 답변을 얻을 수 있어 Mrc야 말로 비정형 문서에서의 지식 추출에 강점을 가지고 있음 위키만 있을까요? 백과사전, 뉴스, 블로그 등등
  2. 왜? 해석…