They extracted the features for the named entity recognition task.
They use the UWordMap to learn the characteristics of the korean words.
(28th May, 2021)
3. Introduction
개체명 인식
> 주어진 문장 내의 고유한 의미가 있는 단어들을 미리 정의된 개체의 범주로 분류하는 문제
기존 연구
> 딥러닝 네트워크 (LSTM, CNN) 혹은 언어 모델 (BERT, ELECTRA) 이용
- 장점: 높은 성능
- 단점: 고성능 컴퓨팅 파워 필요, 느린 모델 학습 속도 (> 실용성 부족)
연구 목적
> 처리 속도와 정확률을 고려한 기계학습 방식의 CRF 기반 개체명 인식
> 자질 추출 방법론 제안
- 한국어 어휘 의미망 (의미 자질 및 구문적 자질) 활용
#Kookmin_University #Natural_Language_Processing_lab. 2
4. Feature Extraction
1. 의미 자질
- 한국어 어휘 의미망 (UWordMap)
- 한국어 어휘 의미망의 상위어를 이용한 자질
2. 구문적 자질
- 의존관계 자질
- 간접적 의존관계 자질
#Kookmin_University #Natural_Language_Processing_lab. 3
5. 의미 자질
1. 한국어 어휘 의미망 (UWordMap)
: 표준국어대사전 기반으로 어휘들이 의미제약으로 상호연결된 어휘의미망 (다의어 수준)
- 명사 계층 구조 (상위어, 하위어 정보)
Ex) level of node = 5
: 계층이 5단계인 단어의 개수가 117,524개 존재
#Kookmin_University #Natural_Language_Processing_lab. 4
상위어
하위어
6. 의미 자질
2. 한국어 어휘 의미망의 상위어를 이용한 자질
: OOV 문제를 보완하여 재현율을 높이기 위한 방법
- 1계층 상위어와 최상위어를 자질로 사용
(1) 학습 데이터를 확장하는 역할
> 만약 같은 상위어에 속할 경우, 하나의 범주로 인식
#Kookmin_University #Natural_Language_Processing_lab. 5
7. 의미 자질
(2) 개체명 인식을 위한 키워드 역할
> 주변 단어의 상위어를 통해 키워드 파악
> 1계층 단어가 과도한 추상적 의미를 내포할 경우 (하위 단어들의 분포가 다르기 때문)
: 최상위어에 대한 하위분포에 따라 1계층 혹은 2계층 단어를 최상위어 자질로 사용
- 각 최상위어에 대한 명사의 평균 level: 𝑙𝑎𝑣𝑔 = σ𝑖=1
𝑛
𝑖 × 𝑟𝑎𝑡𝑖𝑜𝑖
- 𝑖: 현재 노드의 level, 𝑟𝑎𝑡𝑖𝑜𝑖: 현재 노드의 level에 대한 명사 분포 비율
- 생물_0101 = 6.49층 / 힘_0103 = 4.69층
- 𝑙𝑎𝑣𝑔 ≥ 6: 최상위어 자질로 2계층 단어 사용
> 상위 계층에 특정 개체명이 존재할 경우,
- 해당 개체 범주를 최상위 자질로 사용 (평균 계층과 무관)
#Kookmin_University #Natural_Language_Processing_lab. 6
Ex) ‘외국인 투수 바르가스가’
- 투수의 3계층 상위어: 사람
- ‘바르가스가’를 ‘인명’으로 예측
8. 구문적 자질
1. 의존관계 자질
> 문장의 구조 파악을 위해 의존 관계 활용
: 의존 (dependent)-지배 (governor) 관계 표현
- 주변 정보 이외에 제한된 범위 밖의 키워드를 파악하는 데에 용이
- 말뭉치: 국립국어원의 모두의 말뭉치 (구문분석 말뭉치)
#Kookmin_University #Natural_Language_Processing_lab. 7
9. 구문적 자질
2. 간접적 의존관계 자질
> 의존관계가 분석되어 있지 않은 경우, 명사 다음 격조사에 따라 지배소 추정
(1) 명사 + 관형격 조사(JKG)
: 해당 어절 다음의 어절
(2) 명사 + 격조사 (관형격 조사 제외)
: 해당 어절 이후에 가장 가까이에 존재하는 동사
(해당 동사 내에 관형형 전성 어미 (ETM)이 존재할 경우 이를 제외)
#Kookmin_University #Natural_Language_Processing_lab. 8
(1)
(2)
10. Method
> 학습 자질
- 기본 자질: 문장을 구성하는 형태소와 음절, 어절을 조합한 자질
- 형태소 어휘, 형태소 품사 자질, 어휘 형태 자질, 형태소가 속한 어절, 문장 내의 인덱스 등
#Kookmin_University #Natural_Language_Processing_lab. 9
기본 학습 자질
의미 자질
구문적 자질
11. Method
> 한국어 개체명 인식 시스템
#Kookmin_University #Natural_Language_Processing_lab. 10
형태소 분석 단계
자질 생성 단계
개체명 분석 단계
12. Experiments and Results
> 실험 설계
- 국립국어원 모두의 말뭉치 (개체명 분석 말뭉치, 150,082 문장)
- 15개의 개체명 태그 > 5개의 개체명 태그로 제한하여 실험 (PS, LC, OG, TI, DT)
- 5개의 개체명 태그가 포함되지 않은 문장은 삭제
- Utagger를 이용하여 형태소 태그 부착
- 10배수 교차검증 진행
(1) 기본 자질 성능 비교
: 기본 자질만을 학습한 CRF 개체명 모델 (Baseline)
- 성능: 10배수 교차검증 성능의 평균
- 속도: 자질 생성 시간을 제외한 개체명 태그 부착 시간
#Kookmin_University #Natural_Language_Processing_lab. 11
14. Experiments and Results
> 한국어 어휘 의미망을 활용한 자질 추출의 유의미성 검정
귀무가설: 유의미하지 않다.
대립가설: 유의미하다.
검정 통계량 𝑍 =
ෞ
𝑝1−ෞ
𝑝2
ො
𝑝(1− ො
𝑝)
1
𝑛1
+
1
𝑛2
(유의수준 1%)
- 재현율에 대한 기각역: 𝑍 = 9.047894 ≥ 𝑧0.01 = 2.33
- 정밀도에 대한 기각역: 𝑍 = 5.658423 ≥ 𝑧0.01 = 2.33
> 두 값 모두 기각역에 포함되기 때문에 “한국어 어휘 의미망을 활용하여 추출한 자질들은 유의미하다.”
#Kookmin_University #Natural_Language_Processing_lab. 13
15. Experiments and Results
(2) 자질 별 개체명 인식 성능 비교
- max iteration 130
#Kookmin_University #Natural_Language_Processing_lab. 14
평균과 가장 유사한fold7을 사용하여 성능 측정
16. Experiments and Results
(3) 개체명 사전 자질 추가에 따른 성능 비교
> 기존 연구: OOV 문제를 보완하기 위해 개체명 사전 구축
- 개체명 사전 구축: [A] 울산대 UWordMap / [B] 위키피디아 백과
- 매칭: BIEOS (Begin, Inside, End, Outside, Single) 표기법 사용
(4) 딥러닝 모델과의 성능 비교
- Stacked BiLSTM-CRF 모델 구현 및 비교
- data: fold7 / epochs: 13
#Kookmin_University #Natural_Language_Processing_lab. 15
17. Summary
- 기존 딥러닝 방법론들의 속도 및 학습 환경의 한계
- 사람의 지적 정보를 학습 자질로 사용한 CRF 기반의 개체명 인식 모델 제안
- 한국어 어휘 의미망 (UWordMap)을 활용하여 의미 자질 및 구문적 자질 추출
- F1-score: 90.54%
- Stacked BiLSTM-CRF와의 성능 비교 결과, 14배 빠른 학습 속도, 17개 빠른 처리 속도와 함께 성능 향상
- 실용성을 높은 개체명 인식 모델로써 제시
#Kookmin_University #Natural_Language_Processing_lab. 16