한국어 개체명 인식 과제에서의 의미 모호성 연구

한국어 개체명 인식 과제에서의
의미 모호성 연구
김성현, 송영숙, 송치성, 한지윤
2021 한글 및 한국어 정보처리 학술대회
HCLT | 2021.10.16

1. 서론
2. 문제정의
3. 개체명 의미 모호성의 원인 분석
4. 개체명 의미 모호성 판단 실험
5. 결론
6. 향후 연구
목차

저자
한지윤 / 연세대
송치성 / 개인연구자
송영숙 / 경희대
김성현 / 스마일게이트 AI

1. 서론
개체명 인식 (Named Entity Recognition, NER)의 정의
비정형의 자연어 텍스트에서 인명, 지명, 조직명 등의 고유명을 주축으로 미리 정의된 특정한 언어 표현을 인식하고 분류
개체명 태그
(Ko)
개체명 태그
(En)
인명 PS
지명 LC
조직명 OG
날짜 DT
시간 TI
수량 QT
<문:PS> 후보는 <19일:DT> 현재 주민등록이 돼 있는
<부산:LC>에서 <한 표:QT>의 투표를 마치고 <오전:TI> 중에 상경해
<당 선대위:OG>의 선거 당일 투표참여 캠페인에 참여할 예정이다.
개체명 인식용 데이터 구축의 어려움
개체명 태그
고양 LC
광명 LC
광주 LC
구리 LC
구미 LC
군산 LC
개체명 테그
가데스 PS
가드너 PS
가르노 PS
가르니에 PS
가르델 PS
가르보 PS
개체명 태그
간밤 TI
그날밤 TI
그밤 TI
긴밤 TI
낮 TI
대낮 TI
개체명 태그
가윗날 DT
가을 DT
가을밤 DT
가을철 DT
개월 DT
개화기 DT
• 새로운 개체명이 계속 만들어지고 있어서 완성된 사전을 가지기 어려움
• 구축 의도에 따라 태그의 종류가 세분화 됨
• 같은 단어라도 사용되는 상황에 따라 다른 의미로 해석되는 중의성 발생

1. 서론
개체명의 의미 모호성
아마존이 신제품을 출시했다.
<아마존:LC> <아마존:OG> <아마존:PS>
동일한 term이 문맥에 따라 다른 의미 à 문맥에 따른 의미 모호성 발생

2. 문제 정의
중의성 개체명의 특성 및 문장 내 성분 분석을 통한 의미 모호성 연구
2. 개체명의 의미 모호성 특성 연구
3. 딥러닝 기반 사전 학습 모델의 맥락 정보 해결 능력 차이 비교

기구축된 개체명 인식용 데이터 분석
분석 데이터 및 방법
분석 결과
• KLUE-NER 평가용 데이터셋 (총 5,000 건)
• 두 개 이상의 레이블로 교차 태깅된 개체명 추출 (총 69종 / 823 용례)
• 교차 태깅된 범주 유형 분석
• 5건의 교차 태깅 유형
• LC-OG 범주에서 교차 태깅이 많이 발생 (85.54%) à 주로 국가명
개체명 범주 빈도
LC-OG 85.54 (704)
OG-QT 8.26 (68)
DT-PS 3.52 (29)
LC-OG-PS 2.07 (17)
QT-DT 0.61 (5)
합 100.00 (823)
번호 개체명 범주1 빈도 범주2 빈도 합
1 한국 LC 109 OG 11 120
2 하나 QT 67 OG 1 68
3 일본 LC 55 OG 10 65
4 미국 LC 48 OG 10 58
5 중국 LC 51 OG 7 58
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
70 말레이시아 LC 1 OG 1 2
교차 태깅 유형 예시
• 하나금융은 <하나:OG>·외환은행에 대한 합병을 외환노 조와 합의했다고 13일 밝혔다.
• 유씨는 492억원의 횡령·배임 혐의를 받고 있어 <한국:OG>과 프랑스 양국 사이의 조약에 따라 일단 범죄인 인도
대상이다.
ß

사전 학습 모델을 활용한 개체명 인식 학습
문맥 이해 특화 사전 학습 언어모델
파인튜닝 학습 방법
KLUE-RoBERTa / mBERT
선형 분류 레이어
CLS 이순신 ##은 조선 ##의 장군
O B-PS O B-LC O O
선형 분류 레이어
CLS 이순신 ##은 조선 ##의 장군
O B-PS O B-LC O O
KoGPT2
• Colab pro (Tesla-P100-PCIE-16GB)
• Learning rate: 1e-4 / batch size: 8 / epoch: 4
• 🤗 AutoModelForTokenClassification
• Training data: KLUE-NER train
• Evaluation data: KLUE-NER dev
• BERT-base-multilingual-cased (mBERT)
• KLUE-RoBERTa-base
• KoGPT2-base-v2
KLUE-NER-dev 성능 평가
모델
음절 기준
F1 Score
개체명 기준
F1 Score
KLUE-RoBERTa 90.73 83.09
mBERT 88.00 74.33
KoGPT2 83.15 70.93

의미 모호성 개체 태그별 모델 성능 비교
교차 태그 범주별 모델 성능
교차 태깅 범주 모델별 레이블 정답률 모델별 스팬 정답률
태그 빈도수
KLUE-
RoBERTa
mBERT KoGPT2
KLUE-
RoBERTa
mBERT KoGPT2
LC-OG 85.54 (704) 83.95 (591) 82.39 (580) 72.59 (511) 90.06 (634) 90.20 (635) 58.10 (409)
OG-QT 8.26 (68) 98.53 (67) 95.59 (65) 82.35 (56) 95.59 (65) 77.94 (53) 42.65 (29)
DT-PS 3.52 (29) 93.10 (27) 93.10 (27) 58.62 (17) 86.21 (25) 93.10 (27) 55.17 (16)
LC-OG-PS 2.07 (17) 88.24 (15) 94.12 (16) 64.71 (11) 29.41 (5) 100.00 (17) 0.00(0)
DT-QT 0.61 (5) 100.00 (5) 80.00 (4) 40.00 (2) 100.00 (5) 100.00 (5) 40.00 (2)
총계 100.00 (823) 85.66 (705) 84.08 (692) 72.54 (597) 89.19 (734) 89.55 (737) 55.41 (456)
모델별 label 정답률 및 정답 빈도
태그
KLUE-
RoBERTa
mBERT KoGPT2
LC 89.38 (429) 90.42 (434) 81.88 (393)
OG 72.61 (167) 66.09 (152) 55.65 (128)
QT 98.59 (70) 95.77 (68) 80.28 (57)
PS 90.91 (20) 90.91 (20) 9.09 (2)
DT 95.00 (19) 90.00 (18) 85.00 (17)
총계 85.66 (705) 84.08 (692) 72.54 (597)
LC-OG
• 의미 모호성 개체명 대상 점수: LC > OG (KLUE-RoBERTa, mBERT, KoGPT2)
• 학습 데이터 용례 비율: LC (6,663) < OG (8,491)
• 의미 모호성 OG의 경우, LC보다 더 높은 문맥 이해도 필요
OG-QT
• QT 분류 성능 98.59 (KLUE-RoBERTa)
• mBERT의 경우, span 성능이 매우 떨어짐 à <하나로:QT>, <하나의:QT>
DT-PS
• Span 정답률: KLUE-RoBERTa < mBERT
• DT에서 수식언을 포함해서 잡는 경우 à <이날 하루:DT>, 2건
• 의미 모호성 개체명을 아예 못 잡는 경우 à 2건

문장 성분에 따른 교차 태그의 모델별 성능 비교
교차 태그 범주가 ‘LC-OG’인 유형의 문장 성분별 정답률
문장성분
KLUE-
RoBERTa
mBERT KoGPT2
부사어
88.10
(237)
88.48
(238)
84.39
(227)
주어
81.97
(150)
79.78
(146)
60.11
(110)
관형어
78.88
(127)
75.78
(122)
66.46
(107)
목적어
81.94
(59)
79.17
(57)
69.44
(50)
서술어
100.00
(12)
91.67
(11)
91.67
(11)
기타 범주
85.71
(6)
85.71
(6)
85.71(6)
총계
83.95
(591)
82.39
(580)
72.59
(511)
주어 예제
목적어 예제
서술어 예제
수식어(부사어/관형어) 예제
• 12월 25일이라고 하셨는데 그 날은 저희 매장이 일년 중
가장 바쁜 날 중에 <하나:QT>입니다.
• 세상이 알아야하는 또 <하나:QT>의 슬픈 진실! (관형어)
• 나무 <하나:QT> 심으면 모든게 다 해결된다. (부사어)
• 영화 <하나:QT>를 보면서 정말 많은 것들을 느꼈다
• 오래지났지만 7살에 봤던 장면 <하나:QT>가 아직
남아있습니다.
• 서술어일 때 가장 높은 성능 à 문맥 이해에 가장 큰 feature
• 부사어 태그 빈도: LC (225), OG (47) / 관형어 태그 빈도: LC (96), OG (66)
• 관형어 점수: 78.88 (KLUE-RoBERTa) / 75.78 (mBERT) à 높은 문맥 이해도 요구
• KoGPT2의 주어 점수 (60.11) 와 서술어 점수 (91.67) 의 높은 차이 à 문장 내 위치의 영향

문장 위치에 따른 교차 태그의 모델별 성능 비교
교차 태그 포함 개체명의 문장 내 상대 위치에 따른 레이블 정답률
• 두 개 이상의 레이블로 교차 태깅된 개체명 대상으로 비교 (총 69종 / 823 용례)
• 문장 내에서 개체명의 위치가 상대적으로 어떤 범위에 위치하는지 비교
• 상대 위치에 따른 개체명 정답률 비교
• 문장 내 상대 위치가 마지막 부분에 있을 수록 KoGPT2의 성능 향상 à Transformer decoder

5. 결론
고도화된 의미 모호성 내포 개체명 데이터 구축 및 문맥 이해 모델 학습 방안 필요
1. 의미 모호성 개체명과 문장 내부 정보와의 관계성 분석을 수행한 논문
2. 의미 모호성 개체명의 경우, 학습 데이터에 해당 term이 높은 비율로
존재하는 개체명으로 예측하는 경향 à LC-OG: <미국:LC>, <한국:LC> ..
3. 개체명 범주를 LC와 OG로 정의할 경우, 의미 모호성 개체에 대해서는
동일한 비율로 데이터 구축 필요
4. 개체를 수식하는 서술어에 따라 의미 모호성 해소 가능성
• <서울시:OG>는 발표했다 / 말했다 / 내세웠다 à LC 개체명의 인칭화
• <서울시:LC>에 거주했다 / 살았다
5. 양방향 문맥을 관찰할 수 있는 언어 모델이 의미 모호성 개체명 인식에 더
좋은 성능

6. 향후 연구
의미 모호성의 특성 분석을 통한 개체명 인식기 고도화
1. 교차 태그 범주별 데이터 증강후 분석
2. 토크나이징에 의해 야기된 span 오류 유형 분석
• [이순, ##신은, 장군, ##이다] à [B-PS, I-PS, O, OI]
3. 개체명 타입 별 오류 유형 분석
• 모델이 LC를 틀리는 경우, 주로 어떤 유형에서 틀리는가
4. 개체 term에 대한 모델 편향성 제거 실험
• [UNK]는 발표했다 / [UNK]에 거주했다
5. 도메인에 따른 의미 모호성 개체명 특성 분석 à 법률 / 의료 등
6. 다국어 개체명 인식 데이터에서의 특성 분석

한국어 개체명 인식 과제에서의 의미 모호성 연구

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Seonghyun Kim

More from Seonghyun Kim (17)

한국어 개체명 인식 과제에서의 의미 모호성 연구