Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

KorQuAD v2.0 소개

1,486 views

Published on

2019/09/05
LGCNS AI Tech Talk for NLU (feat.KorQuAD)
- LGCNS AI빅데이터연구소 김영민 연구원
- KorQuAD v2.0 소개

Published in: Data & Analytics
  • Be the first to comment

KorQuAD v2.0 소개

  1. 1. KorQuAD 2.0
  2. 2. Contents 1. KorQuAD 2.0 소개 2. 데이터 수집 과정 3. 문서 및 질문/답변 유형 분석 4. Baseline 성능 및 분석 결과 5. 결론
  3. 3. Quiz 회색늑 대 www.sli.do # z263
  4. 4. Quiz 힌트 : ‘행동’ 카테고리 회색 늑대를 길들일 때 개와 달리 음성보다 더 효과적인 방식은?
  5. 5. Quiz 회색 늑대를 길들일 때 개와 달리 음성보다 더 효과적인 방식은? … 늑대는 긍정적인 반응과 보상에 더욱 많 은 반응을 보이지만, 간단한 칭찬 같은 경 우에는 다른 개과 동물과 달리 충분하지 않 게 받아들인다. 개와 달리, 늑대는 음성보 다 수신호에 더욱 반응하는 경향이 있다. …
  6. 6. KorQuAD 2.0 소개
  7. 7. KorQuAD 2.0 소개 KorQuAD 1.0 KorQuAD 2.0 여러 문단에서 답을 찾아야 하는가?
  8. 8. KorQuAD 2.0 소개 KorQuAD 1.0 KorQuAD 2.0 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. 1~2개의 문단 위키 문서 전체
  9. 9. KorQuAD 2.0 소개 여러 문단에서 답을 찾아야 하는가? 표와 같이 구조화 된 문서인가? KorQuAD 1.0 KorQuAD 2.0
  10. 10. KorQuAD 2.0 소개 순수 텍스트 표 혹은 리스트 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. KorQuAD 1.0 KorQuAD 2.0
  11. 11. KorQuAD 2.0 소개 여러 문단에서 답을 찾아야 하는가? 표와 같이 구조화 된 문서인가? 문단과 같이 긴 답변도 가능한가? KorQuAD 1.0 KorQuAD 2.0
  12. 12. KorQuAD 2.0 소개 단어 혹은 구 단위의 답 문단 단위의 답도 가능 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. KorQuAD 1.0 KorQuAD 2.0
  13. 13. 데이터 수집 과정 문서 수집  위키 문서 중에서 page view 상위 문서 15만 건 + 임의로 선정된 5만 건의 페이지 HTML 크롤링  수집한 문서 중 질문을 생성할 부분으로 텍스트(<p>), 표(<table>), 리스트 (<ul>, <ol>, <dl>) 추출  어절 기준 90단어 미만의 짧은 문단 및 참고문헌 제거 질문 – 답변 생성  크라우드 소싱을 통해 질문-답변 80,000+ 쌍 제작  작업자는 위키 전체 문서가 아니라 소제목 단위의 문서를 보고 질문- 답 변 생성  작업자는 사전 테스트를 통과하여야만 데이터 제작 참여 가능  질문의 일정 부분 이상이 본문과 중복되는 경우 제출하지 못하게 하는 등의 장치를 통해 다양한 표현 유도 KorQuAD 1.0 변환  기존의 KorQuAD 1.0 데이터 중 일부의 context를 문서 전체 HTML로 바꾸어 KorQuAD 2.0 형태로 변환  학습, 검증, 평가 셋을 포함하여 약 2만 쌍 변환 해리포터 시리즈 언제 처음 나왔어?
  14. 14. 데이터 분석 TRAIN DEV TEST TOTAL 문서 38,496 4,736 4,725 47,957 질문 83,686 10,165 9,309 102,960  전체 103,193 개의 Q-A 쌍  47,971건의 문서에 평균 2.15개 Q-A 쌍으로 다양한 주제의 문서들 포함  답변 길이 - Short : 질문에 대한 답변이 단어 혹은 구 수준의 길이 - Long : 짧은 답으로는 부족하여 문단 전체가 답이 되는 경우. 1~2개의 <p>,<table>, <ul> tag로 쌓인 부분 전체가 답이 됨  답변 유형 - Text : 답변이 <p> tag 내에 존재 - Table : 답변이 <table> tag 내에 존재 - List : 답변이 <ul> tag 내에 존재 데이터 Statistics 질문-답변 구성
  15. 15. 데이터 분석  다양한 답 길이 - 1 ~ 20 : 순수 text short answer - 20 ~ 240 : HTML tag가 포함된 short answer - 240 ~ : long answer  문서 원본 HTML길이 평균 90,259자 -> 전처리 후 19,864자 - HTML 주석 제거 - <script> … </script> 제거 - Table 형식 정보인 Colspan, rowspan을 제외한 모든 attribute 제거 문서 길이 답변 길이 104 106 105 문서수 음절 수 ▽ 문서의 음절 수당 문서 빈도수 ▽ 답변의 음절 수당 질문 빈도수 100 101 102 103 104 음절 수 질문/답변수
  16. 16. 데이터 분석 구문 변형 (48.0%) Q. 외국인들을 위해 먹는 샘물이 일시 판매되었던 년도는 언제일까? …1988년 서울 올림픽 무렵 외국인들을 위하여 일시 매를 허용했던 적이 있으나, 다시 판매를 제한하였다 … 어휘 변형 (15.4%) Q. 2009년 시즌 도중 경질된 지바 롯데의 감독은? …시즌 도중에 바비 밸런타인 감독의 해임이 발표되 일부 팬들은 ‘사형’이라는 과격한 표현으로 .. 여러 문장 종합적 활용 (8.0%) Q. 'Don't Cha'는 한국 휴대전화 기기 제조사의 휴 대전화 CM송으로도 사용되었는데 그 제조사는 어디 가? …첫 싱글 'Don't Cha'는 영국, 오스트레일리아, 캐 등의 나라에서 1위에 …. 또한 이 노래는 한국의 휴 화 기기 제조사 SKY의 휴대전화 CM송으로 쓰여, … 표/리스트 (27.7%) Q. 득표율 2위를 한 사람은 어느 정당 소속인가? 소제목 중복 (38%) Q. 피터슨과 노먼 그란츠의 관계는 어떤 과정을 통해 형성되었는가? Title. 오스카 피터슨 - #생애 - #노먼 그란츠 소제목 변형 (47%) Q. 이경직의 가족 관계는 어떻게 이루어져 있는가? Title. 이경직 - #가계 자체 제작 (15%) Q. 문화재를 보존하기 위해 시행하는 법은 무엇일까? Title. 거문오름 용암동굴계 상류동굴군 - #공개 제한 대상 시간 인물 숫자 장소 방법/원인 Short 질문 유형 Long 질문 유형 답변 유형 ▽ Dev set 350 문항 sampling 분석 ▽ Dev set 200 문항 sampling 분석
  17. 17. Baseline 성능 성능 평가 방식 결과 검증 데이터 테스트 데이터 EM F1 EM F1 Baseline 30.8 46.8 30.2 46.0 Human - - 68.8 83.9  Baseline 모델인 Google BERT Multilingual 을 활용하여 KorQuAD 2.0 학습 및 평가  추론 시간 : 한 문제당 평균 13,484 ms 소요 (16 batch 기준) ▽ Machine performance vs. human performance EM: 실제 정답과 정확하게 일치하는 예측치의 비율. F1: 어절 단위에서 실제 정답과 예측치의 겹치는 부분을 고려한 점수. HTML tag 제거 후 순수 텍스트끼리 비교 Latency: 데이터 전처리, 모델 추론을 포함한 질문 하나당 평균소요 시간 복을 하고 난 직후에 내시가 왕이 입고 있던 옷을 재빨리 지붕 래로 … 그 옷을 덮고 5일간 살아나기를 기다렸다. Q: 복의식 직후 왕의 옷을 아래에 있는 내시에게 던지면 곧장 죽은 왕의 몸 위에 덮고 며칠간을 기다렸는가? Ground Truth : 5일간 (영문: for 5 days) Predicted Answer : 5일 (영문: 5 days) 어절 단위 F1 음절 단위 F1 SQuAD (영문) 0% 80% 80% ▽ 한국어 질의응답 F1 계산 예시
  18. 18. KorQuAD 2.0 From 1.0 Baseline 분석  KorQuAD 1.0 데이터를 이용하여 Google BERT Multilingual 모델 학습  데이터에 따른 성능 차이 (* Short 질문에 대해 학습되지 않은 tag 제거 후 사용) - A : KorQuAD 1.0 Dev set F1 : 89.7 → Baseline - B : KorQuAD 1.0에서 2.0 으로 변환된 Dev set F1 : 76.0 → 문서가 길고 복잡할수록 어려움 - C : KorQuAD 2.0 Dev set에서의 표, 리스트 F1 : 45.9 → 표나 리스트의 경우 더 어려움 ▽ Dev set에 대한 Machine performance 89.7 76.0 45.9 70.5 57.3 29.6
  19. 19.  정리 • 다양한 구조 문서의 기계독해를 위한 데이터셋 KorQuAD 2.0 구축 • 더 많은 데이터, 더 긴 문서, 더 복잡한 양식을 가진 10만건의 데이터셋 공개 • Baseline EM 30.24, F1 45.96, 추론 속도 13,484 ms로 개선해나갈 부분이 많은 어려운 태스크 • EM/F1 성능은 물론 추론 시간에 대해서도 채점하는 고도화된 리더보드 구성  기여 • 웹 문서, 약관, 표 등 한국어 NLP 연구자가 현실 문제를 해결하는 데 필요한 데이터 확보에 기여 • Real-world task에 대해 실용적 기준으로 공정하고 객관적인 모델 성능 평가를 하는 데 이바지  향후 계획 • 현실에서 필요로 하는 과제 해결을 위한 모든 것! 결론
  20. 20. Q & A
  21. 21. KorQuAD 2.0 AI빅데이터 연구소 ai.research@lgcns.com Thank You

×