20181103 kbcqa kips

COMMUNICATIING KNOWLEDGE
2018.11.03
홍동균, 심홍매, 최동근, 김광민,
정용일, 이반 베를로셰
Saltlux Inc.
질의 유형 분류기를 활용한
지식 베이스 기반의
복합 질의 응답 시스템
1 / 152018 정보처리학회 추계학술발표대회

CHAPTER
1. 지식 베이스 기반 질의 응답이란?
2. 단순 질의, 복합 질의
2 / 15

3 / 15
연구 배경Chapter 1
지식 베이스: 하나의 사실 또는 지식을 개체 간의 관계 혹은 개
체와 값의 관계로 규정하여 그래프로 구조화한 데이터 베이스
대한민국의 수도는 ?
서울
대한민국
서울
수도
503명/km^2
문재인
거제시
인구 밀도
대통령
출생지
Entity Property Value

4 / 15
지식 베이스 기반 질의 응답Chapter 1
SPARQL
Answer
Question
NLU
Knowledge base
대한민국의 수도는 ?
대한민국(Entity) 의
수도(Property)는?
SELECT ?X WHERE {
?adr:대한민국 ?adp:수도 ?X
서울
Semantic labeling
Sparql generation

• 단순 질의
 Single entity, single property
• 복합 질의
 Multiple entity, multiple property
 동일한 시맨틱 패턴이지만 다른 질의 유형을 갖을 수 있음
-> 문제: 동일한 시맨틱 패턴에 대하여 다른 sparql을 생성 할 수 있어야 함
5 / 15
연구 배경Chapter 1

CHAPTER
1. 복합 질의 응답 시스템 구조
2. 질의 응답 모듈
3. 질의 유형 분류기
6 / 15

7 / 15
복합 질의 응답 시스템Chapter 2
• 동일한 시맨틱을 갖는 복합 질의의 모호성을 질의 분류기가 해소 함
• 복합 질의의 유형에 따라 다른 질의 응답 모듈이 응답할 수 있도록 함

8 / 15
• 동일한 시맨틱 패턴에 대하여 다른 SPARQL으로 응답해야 함
일반형
비교형

9 / 15
판정형
• 질의가 사실인지를 판정하기 위해 복잡한 검증을 수행해야 함
 SELECT가 아닌 ASK SPARQL을 사용해야 함

• Text를 입력으로 하는 CNN 모델 사용
 Input: 질의 text를 정제하여 사용
 Convolution layer와 pooling layer를 각각 2개로 설정, drop-out은 0.5
 Output: 질의 유형 분류 스코어 (Normal, YesNo, Comparison)
10 / 15
…
𝑛 × 𝑘 representation
of sentence
대한민국의 수도는
서울이야?
전 처리
다중 필터를 이용한
Convolution layer
Max pooling
layer
Fully connected
layer
Normal
Yes/No
Comparison

• 질의 정제 방법
 Case1 : 질의에서 조사 제외
 Case2 : 질의에서 조사 제외, 형태소 tag 추가
11 / 15
Case 1
Case 2
- 로마 가톨릭교회 지도자 누구 야 -> Normal
- 제주도 위치 한 산방산 높이 345 미터 맞 아 -> Yes/No
- 인도 중국 중 인구 밀도 높 은 나라 -> Comparison
- 로마/NNP 가톨릭교회/NNG 지도자/NNG 누구/NP 야/VCP -> Normal
- 제주도/NNP 위치/NNG … 미터/NNB 맞/VV 아/EF -> Yes/No
- 인도/NNP 중국/NNP … 은/ETM 나라/NNG -> Comparison

CHAPTER
1. 실험 환경
2. 실험 결과
 질의 유형 분류기의 분류 정확도
 복합 질의 응답 시스템의 성능
3. 결론 및 향후 연구 방향
12 / 15

• Adam KB를 기반으로 질문 300건 생성
 Adam KB: Wikipedia를 포함한 여러 데이터를 종합하여 구축한 지식베이스
 일반형 단순 질의 50건, 일반형 복합 질의 50건
 판정형 질의 100건
 비교형 질의 100건
• 질의 분류기 유용성 실험 환경
 분류기 적용 전: 질의 응답 모듈이 임의의 순서로 처리
• E.g. FBQA -> CPQA -> YNQA 순으로 응답을 시도함
 분류기 적용 후: 분류기의 분류 점수가 높은 순서로 처리
 Timeout(3초)를 초과하거나 모든 질의 응답 모듈이 답변을 못하는 경우 응답하
지 않은 것으로 간주
13 / 15
실험 및 결과Chapter 3

• 질의 분류기 성능
 형태소 tag 결과를 포함한 case 2 형태로 학습한 분류기의 성능이 좋았음
14 / 15
• 질의 분류기 적용 전후 성능 비교
 분류기 적용 후 recall, precision이 각각 6.5%, 10.2%만큼 상승하였음

• 지식 베이스 기반 질의 응답 시스템은 복합 질의를 처리하는데 어려움
을 겪음
• CNN 기반의 질의 분류기를 활용하여 복합 질의 응답 시스템의 성능을
향상시켰음
• 그러나, 지식 베이스 기반 질의 응답 시스템은 여전히 자연어 이해 단계
의 한계가 존재하고, 이를 개선하기 위한 연구가 필요함
 개체 인식, 개체 연결
 속성 탐지
15 / 15

20181103 kbcqa kips

Recommended

Recommended

More Related Content

Featured

Featured (20)

20181103 kbcqa kips