SlideShare a Scribd company logo
1 of 14
Download to read offline
한국어 개체명 인식 과제에서의
의미 모호성 연구
김성현, 송영숙, 송치성, 한지윤
2021 한글 및 한국어 정보처리 학술대회
HCLT | 2021.10.16
1. 서론
2. 문제정의
3. 개체명 의미 모호성의 원인 분석
4. 개체명 의미 모호성 판단 실험
5. 결론
6. 향후 연구
목차
저자
한지윤 / 연세대
송치성 / 개인연구자
송영숙 / 경희대
김성현 / 스마일게이트 AI
1. 서론
개체명 인식 (Named Entity Recognition, NER)의 정의
비정형의 자연어 텍스트에서 인명, 지명, 조직명 등의 고유명을 주축으로 미리 정의된 특정한 언어 표현을 인식하고 분류
개체명 태그
(Ko)
개체명 태그
(En)
인명 PS
지명 LC
조직명 OG
날짜 DT
시간 TI
수량 QT
<문:PS> 후보는 <19일:DT> 현재 주민등록이 돼 있는
<부산:LC>에서 <한 표:QT>의 투표를 마치고 <오전:TI> 중에 상경해
<당 선대위:OG>의 선거 당일 투표참여 캠페인에 참여할 예정이다.
개체명 인식용 데이터 구축의 어려움
개체명 태그
고양 LC
광명 LC
광주 LC
구리 LC
구미 LC
군산 LC
개체명 테그
가데스 PS
가드너 PS
가르노 PS
가르니에 PS
가르델 PS
가르보 PS
개체명 태그
간밤 TI
그날밤 TI
그밤 TI
긴밤 TI
낮 TI
대낮 TI
개체명 태그
가윗날 DT
가을 DT
가을밤 DT
가을철 DT
개월 DT
개화기 DT
• 새로운 개체명이 계속 만들어지고 있어서 완성된 사전을 가지기 어려움
• 구축 의도에 따라 태그의 종류가 세분화 됨
• 같은 단어라도 사용되는 상황에 따라 다른 의미로 해석되는 중의성 발생
1. 서론
개체명의 의미 모호성
아마존이 신제품을 출시했다.
<아마존:LC> <아마존:OG> <아마존:PS>
동일한 term이 문맥에 따라 다른 의미 à 문맥에 따른 의미 모호성 발생
2. 문제 정의
중의성 개체명의 특성 및 문장 내 성분 분석을 통한 의미 모호성 연구
1. 개체명 의미 모호성의 원인 분석
2. 개체명의 의미 모호성 특성 연구
3. 딥러닝 기반 사전 학습 모델의 맥락 정보 해결 능력 차이 비교
3. 개체명 의미 모호성의 원인 분석
기구축된 개체명 인식용 데이터 분석
분석 데이터 및 방법
분석 결과
• KLUE-NER 평가용 데이터셋 (총 5,000 건)
• 두 개 이상의 레이블로 교차 태깅된 개체명 추출 (총 69종 / 823 용례)
• 교차 태깅된 범주 유형 분석
• 5건의 교차 태깅 유형
• LC-OG 범주에서 교차 태깅이 많이 발생 (85.54%) à 주로 국가명
개체명 범주 빈도
LC-OG 85.54 (704)
OG-QT 8.26 (68)
DT-PS 3.52 (29)
LC-OG-PS 2.07 (17)
QT-DT 0.61 (5)
합 100.00 (823)
번호 개체명 범주1 빈도 범주2 빈도 합
1 한국 LC 109 OG 11 120
2 하나 QT 67 OG 1 68
3 일본 LC 55 OG 10 65
4 미국 LC 48 OG 10 58
5 중국 LC 51 OG 7 58
⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮
70 말레이시아 LC 1 OG 1 2
교차 태깅 유형 예시
• 하나금융은 <하나:OG>·외환은행에 대한 합병을 외환노 조와 합의했다고 13일 밝혔다.
• 유씨는 492억원의 횡령·배임 혐의를 받고 있어 <한국:OG>과 프랑스 양국 사이의 조약에 따라 일단 범죄인 인도
대상이다.
ß
4. 개체명 의미 모호성 판단 실험
사전 학습 모델을 활용한 개체명 인식 학습
문맥 이해 특화 사전 학습 언어모델
파인튜닝 학습 방법
KLUE-RoBERTa / mBERT
선형 분류 레이어
CLS 이순신 ##은 조선 ##의 장군
O B-PS O B-LC O O
선형 분류 레이어
CLS 이순신 ##은 조선 ##의 장군
O B-PS O B-LC O O
KoGPT2
• Colab pro (Tesla-P100-PCIE-16GB)
• Learning rate: 1e-4 / batch size: 8 / epoch: 4
• 🤗 AutoModelForTokenClassification
• Training data: KLUE-NER train
• Evaluation data: KLUE-NER dev
• BERT-base-multilingual-cased (mBERT)
• KLUE-RoBERTa-base
• KoGPT2-base-v2
KLUE-NER-dev 성능 평가
모델
음절 기준
F1 Score
개체명 기준
F1 Score
KLUE-RoBERTa 90.73 83.09
mBERT 88.00 74.33
KoGPT2 83.15 70.93
4. 개체명 의미 모호성 판단 실험
의미 모호성 개체 태그별 모델 성능 비교
교차 태그 범주별 모델 성능
교차 태깅 범주 모델별 레이블 정답률 모델별 스팬 정답률
태그 빈도수
KLUE-
RoBERTa
mBERT KoGPT2
KLUE-
RoBERTa
mBERT KoGPT2
LC-OG 85.54 (704) 83.95 (591) 82.39 (580) 72.59 (511) 90.06 (634) 90.20 (635) 58.10 (409)
OG-QT 8.26 (68) 98.53 (67) 95.59 (65) 82.35 (56) 95.59 (65) 77.94 (53) 42.65 (29)
DT-PS 3.52 (29) 93.10 (27) 93.10 (27) 58.62 (17) 86.21 (25) 93.10 (27) 55.17 (16)
LC-OG-PS 2.07 (17) 88.24 (15) 94.12 (16) 64.71 (11) 29.41 (5) 100.00 (17) 0.00(0)
DT-QT 0.61 (5) 100.00 (5) 80.00 (4) 40.00 (2) 100.00 (5) 100.00 (5) 40.00 (2)
총계 100.00 (823) 85.66 (705) 84.08 (692) 72.54 (597) 89.19 (734) 89.55 (737) 55.41 (456)
모델별 label 정답률 및 정답 빈도
태그
KLUE-
RoBERTa
mBERT KoGPT2
LC 89.38 (429) 90.42 (434) 81.88 (393)
OG 72.61 (167) 66.09 (152) 55.65 (128)
QT 98.59 (70) 95.77 (68) 80.28 (57)
PS 90.91 (20) 90.91 (20) 9.09 (2)
DT 95.00 (19) 90.00 (18) 85.00 (17)
총계 85.66 (705) 84.08 (692) 72.54 (597)
LC-OG
• 의미 모호성 개체명 대상 점수: LC > OG (KLUE-RoBERTa, mBERT, KoGPT2)
• 학습 데이터 용례 비율: LC (6,663) < OG (8,491)
• 의미 모호성 OG의 경우, LC보다 더 높은 문맥 이해도 필요
OG-QT
• QT 분류 성능 98.59 (KLUE-RoBERTa)
• mBERT의 경우, span 성능이 매우 떨어짐 à <하나로:QT>, <하나의:QT>
DT-PS
• Span 정답률: KLUE-RoBERTa < mBERT
• DT에서 수식언을 포함해서 잡는 경우 à <이날 하루:DT>, 2건
• 의미 모호성 개체명을 아예 못 잡는 경우 à 2건
4. 개체명 의미 모호성 판단 실험
문장 성분에 따른 교차 태그의 모델별 성능 비교
교차 태그 범주가 ‘LC-OG’인 유형의 문장 성분별 정답률
문장성분
KLUE-
RoBERTa
mBERT KoGPT2
부사어
88.10
(237)
88.48
(238)
84.39
(227)
주어
81.97
(150)
79.78
(146)
60.11
(110)
관형어
78.88
(127)
75.78
(122)
66.46
(107)
목적어
81.94
(59)
79.17
(57)
69.44
(50)
서술어
100.00
(12)
91.67
(11)
91.67
(11)
기타 범주
85.71
(6)
85.71
(6)
85.71(6)
총계
83.95
(591)
82.39
(580)
72.59
(511)
주어 예제
목적어 예제
서술어 예제
수식어(부사어/관형어) 예제
• 12월 25일이라고 하셨는데 그 날은 저희 매장이 일년 중
가장 바쁜 날 중에 <하나:QT>입니다.
• 세상이 알아야하는 또 <하나:QT>의 슬픈 진실! (관형어)
• 나무 <하나:QT> 심으면 모든게 다 해결된다. (부사어)
• 영화 <하나:QT>를 보면서 정말 많은 것들을 느꼈다
• 오래지났지만 7살에 봤던 장면 <하나:QT>가 아직
남아있습니다.
• 서술어일 때 가장 높은 성능 à 문맥 이해에 가장 큰 feature
• 부사어 태그 빈도: LC (225), OG (47) / 관형어 태그 빈도: LC (96), OG (66)
• 관형어 점수: 78.88 (KLUE-RoBERTa) / 75.78 (mBERT) à 높은 문맥 이해도 요구
• KoGPT2의 주어 점수 (60.11) 와 서술어 점수 (91.67) 의 높은 차이 à 문장 내 위치의 영향
4. 개체명 의미 모호성 판단 실험
문장 위치에 따른 교차 태그의 모델별 성능 비교
교차 태그 포함 개체명의 문장 내 상대 위치에 따른 레이블 정답률
• 두 개 이상의 레이블로 교차 태깅된 개체명 대상으로 비교 (총 69종 / 823 용례)
• 문장 내에서 개체명의 위치가 상대적으로 어떤 범위에 위치하는지 비교
• 상대 위치에 따른 개체명 정답률 비교
• 문장 내 상대 위치가 마지막 부분에 있을 수록 KoGPT2의 성능 향상 à Transformer decoder
5. 결론
고도화된 의미 모호성 내포 개체명 데이터 구축 및 문맥 이해 모델 학습 방안 필요
1. 의미 모호성 개체명과 문장 내부 정보와의 관계성 분석을 수행한 논문
2. 의미 모호성 개체명의 경우, 학습 데이터에 해당 term이 높은 비율로
존재하는 개체명으로 예측하는 경향 à LC-OG: <미국:LC>, <한국:LC> ..
3. 개체명 범주를 LC와 OG로 정의할 경우, 의미 모호성 개체에 대해서는
동일한 비율로 데이터 구축 필요
4. 개체를 수식하는 서술어에 따라 의미 모호성 해소 가능성
• <서울시:OG>는 발표했다 / 말했다 / 내세웠다 à LC 개체명의 인칭화
• <서울시:LC>에 거주했다 / 살았다
5. 양방향 문맥을 관찰할 수 있는 언어 모델이 의미 모호성 개체명 인식에 더
좋은 성능
6. 향후 연구
의미 모호성의 특성 분석을 통한 개체명 인식기 고도화
1. 교차 태그 범주별 데이터 증강후 분석
2. 토크나이징에 의해 야기된 span 오류 유형 분석
• [이순, ##신은, 장군, ##이다] à [B-PS, I-PS, O, OI]
3. 개체명 타입 별 오류 유형 분석
• 모델이 LC를 틀리는 경우, 주로 어떤 유형에서 틀리는가
4. 개체 term에 대한 모델 편향성 제거 실험
• [UNK]는 발표했다 / [UNK]에 거주했다
5. 도메인에 따른 의미 모호성 개체명 특성 분석 à 법률 / 의료 등
6. 다국어 개체명 인식 데이터에서의 특성 분석
감사합니다

More Related Content

What's hot

人工言語ロジバン超入門編
人工言語ロジバン超入門編人工言語ロジバン超入門編
人工言語ロジバン超入門編baban ba-n
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)NAVER Engineering
 
AtCoder Beginner Contest 007 解説
AtCoder Beginner Contest 007 解説AtCoder Beginner Contest 007 解説
AtCoder Beginner Contest 007 解説AtCoder Inc.
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호NAVER D2
 
Wavelet matrix implementation
Wavelet matrix implementationWavelet matrix implementation
Wavelet matrix implementationMITSUNARI Shigeo
 
Deep contextualized word representations
Deep contextualized word representationsDeep contextualized word representations
Deep contextualized word representationsJunya Kamura
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagationDea-hwan Ki
 
Elasticsearch 한글 형태소 분석기 Nori 노리
Elasticsearch 한글 형태소 분석기 Nori 노리Elasticsearch 한글 형태소 분석기 Nori 노리
Elasticsearch 한글 형태소 분석기 Nori 노리종민 김
 
[2018] 구조화된 검색 모델
[2018] 구조화된 검색 모델[2018] 구조화된 검색 모델
[2018] 구조화된 검색 모델NHN FORWARD
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기Han-seok Jo
 
PHP の GC の話
PHP の GC の話PHP の GC の話
PHP の GC の話y-uti
 
[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸NAVER D2
 
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, Flipkart
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, FlipkartNear Real Time Indexing: Presented by Umesh Prasad & Thejus V M, Flipkart
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, FlipkartLucidworks
 
AtCoder Regular Contest 035 解説
AtCoder Regular Contest 035 解説AtCoder Regular Contest 035 解説
AtCoder Regular Contest 035 解説AtCoder Inc.
 

What's hot (20)

人工言語ロジバン超入門編
人工言語ロジバン超入門編人工言語ロジバン超入門編
人工言語ロジバン超入門編
 
Blenderbot
BlenderbotBlenderbot
Blenderbot
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
 
Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)Open domain dialogue Chatbot(잡담봇 삽질기)
Open domain dialogue Chatbot(잡담봇 삽질기)
 
AtCoder Beginner Contest 007 解説
AtCoder Beginner Contest 007 解説AtCoder Beginner Contest 007 解説
AtCoder Beginner Contest 007 解説
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
arc047
arc047arc047
arc047
 
Wavelet matrix implementation
Wavelet matrix implementationWavelet matrix implementation
Wavelet matrix implementation
 
Deep contextualized word representations
Deep contextualized word representationsDeep contextualized word representations
Deep contextualized word representations
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
03.12 cnn backpropagation
03.12 cnn backpropagation03.12 cnn backpropagation
03.12 cnn backpropagation
 
Pycon2017 koreannlp
Pycon2017 koreannlpPycon2017 koreannlp
Pycon2017 koreannlp
 
Elasticsearch 한글 형태소 분석기 Nori 노리
Elasticsearch 한글 형태소 분석기 Nori 노리Elasticsearch 한글 형태소 분석기 Nori 노리
Elasticsearch 한글 형태소 분석기 Nori 노리
 
[2018] 구조화된 검색 모델
[2018] 구조화된 검색 모델[2018] 구조화된 검색 모델
[2018] 구조화된 검색 모델
 
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기<Little Big Data #1> 한국어 채팅 데이터로  머신러닝 하기
<Little Big Data #1> 한국어 채팅 데이터로 머신러닝 하기
 
PHP の GC の話
PHP の GC の話PHP の GC の話
PHP の GC の話
 
[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸
 
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, Flipkart
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, FlipkartNear Real Time Indexing: Presented by Umesh Prasad & Thejus V M, Flipkart
Near Real Time Indexing: Presented by Umesh Prasad & Thejus V M, Flipkart
 
AtCoder Regular Contest 035 解説
AtCoder Regular Contest 035 解説AtCoder Regular Contest 035 解説
AtCoder Regular Contest 035 解説
 

More from Seonghyun Kim

코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구
코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구
코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구Seonghyun Kim
 
뇌의 정보처리와 멀티모달 인공지능
뇌의 정보처리와 멀티모달 인공지능뇌의 정보처리와 멀티모달 인공지능
뇌의 정보처리와 멀티모달 인공지능Seonghyun Kim
 
인공지능과 윤리
인공지능과 윤리인공지능과 윤리
인공지능과 윤리Seonghyun Kim
 
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터Seonghyun Kim
 
Backpropagation and the brain review
Backpropagation and the brain reviewBackpropagation and the brain review
Backpropagation and the brain reviewSeonghyun Kim
 
Theories of error back propagation in the brain review
Theories of error back propagation in the brain reviewTheories of error back propagation in the brain review
Theories of error back propagation in the brain reviewSeonghyun Kim
 
KorQuAD v1.0 참관기
KorQuAD v1.0 참관기KorQuAD v1.0 참관기
KorQuAD v1.0 참관기Seonghyun Kim
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationSeonghyun Kim
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingSeonghyun Kim
 
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Seonghyun Kim
 
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...Seonghyun Kim
 
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Seonghyun Kim
 
How Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceHow Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceSeonghyun Kim
 
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewComputational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewSeonghyun Kim
 
Learning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlLearning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlSeonghyun Kim
 
A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...Seonghyun Kim
 

More from Seonghyun Kim (17)

코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구
코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구
코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구
 
뇌의 정보처리와 멀티모달 인공지능
뇌의 정보처리와 멀티모달 인공지능뇌의 정보처리와 멀티모달 인공지능
뇌의 정보처리와 멀티모달 인공지능
 
인공지능과 윤리
인공지능과 윤리인공지능과 윤리
인공지능과 윤리
 
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터
파이콘 한국 2020) 파이썬으로 구현하는 신경세포 기반의 인공 뇌 시뮬레이터
 
Backpropagation and the brain review
Backpropagation and the brain reviewBackpropagation and the brain review
Backpropagation and the brain review
 
Theories of error back propagation in the brain review
Theories of error back propagation in the brain reviewTheories of error back propagation in the brain review
Theories of error back propagation in the brain review
 
KorQuAD v1.0 참관기
KorQuAD v1.0 참관기KorQuAD v1.0 참관기
KorQuAD v1.0 참관기
 
Enriching Word Vectors with Subword Information
Enriching Word Vectors with Subword InformationEnriching Word Vectors with Subword Information
Enriching Word Vectors with Subword Information
 
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
Korean-optimized Word Representations for Out of Vocabulary Problems caused b...
 
챗봇의 역사
챗봇의 역사챗봇의 역사
챗봇의 역사
 
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
The hippocampo-cortical loop: Spatio-temporal learning and goal-oriented plan...
 
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
Computational Properties of the Hippocampus Increase the Efficiency of Goal-D...
 
How Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of SpaceHow Environment and Self-motion Combine in Neural Representations of Space
How Environment and Self-motion Combine in Neural Representations of Space
 
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A reviewComputational Cognitive Models of Spatial Memory in Navigation Space: A review
Computational Cognitive Models of Spatial Memory in Navigation Space: A review
 
Learning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation ControlLearning Anticipation via Spiking Networks: Application to Navigation Control
Learning Anticipation via Spiking Networks: Application to Navigation Control
 
A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...A goal-directed spatial navigation model using forward trajectory planning ba...
A goal-directed spatial navigation model using forward trajectory planning ba...
 

한국어 개체명 인식 과제에서의 의미 모호성 연구

  • 1. 한국어 개체명 인식 과제에서의 의미 모호성 연구 김성현, 송영숙, 송치성, 한지윤 2021 한글 및 한국어 정보처리 학술대회 HCLT | 2021.10.16
  • 2. 1. 서론 2. 문제정의 3. 개체명 의미 모호성의 원인 분석 4. 개체명 의미 모호성 판단 실험 5. 결론 6. 향후 연구 목차
  • 3. 저자 한지윤 / 연세대 송치성 / 개인연구자 송영숙 / 경희대 김성현 / 스마일게이트 AI
  • 4. 1. 서론 개체명 인식 (Named Entity Recognition, NER)의 정의 비정형의 자연어 텍스트에서 인명, 지명, 조직명 등의 고유명을 주축으로 미리 정의된 특정한 언어 표현을 인식하고 분류 개체명 태그 (Ko) 개체명 태그 (En) 인명 PS 지명 LC 조직명 OG 날짜 DT 시간 TI 수량 QT <문:PS> 후보는 <19일:DT> 현재 주민등록이 돼 있는 <부산:LC>에서 <한 표:QT>의 투표를 마치고 <오전:TI> 중에 상경해 <당 선대위:OG>의 선거 당일 투표참여 캠페인에 참여할 예정이다. 개체명 인식용 데이터 구축의 어려움 개체명 태그 고양 LC 광명 LC 광주 LC 구리 LC 구미 LC 군산 LC 개체명 테그 가데스 PS 가드너 PS 가르노 PS 가르니에 PS 가르델 PS 가르보 PS 개체명 태그 간밤 TI 그날밤 TI 그밤 TI 긴밤 TI 낮 TI 대낮 TI 개체명 태그 가윗날 DT 가을 DT 가을밤 DT 가을철 DT 개월 DT 개화기 DT • 새로운 개체명이 계속 만들어지고 있어서 완성된 사전을 가지기 어려움 • 구축 의도에 따라 태그의 종류가 세분화 됨 • 같은 단어라도 사용되는 상황에 따라 다른 의미로 해석되는 중의성 발생
  • 5. 1. 서론 개체명의 의미 모호성 아마존이 신제품을 출시했다. <아마존:LC> <아마존:OG> <아마존:PS> 동일한 term이 문맥에 따라 다른 의미 à 문맥에 따른 의미 모호성 발생
  • 6. 2. 문제 정의 중의성 개체명의 특성 및 문장 내 성분 분석을 통한 의미 모호성 연구 1. 개체명 의미 모호성의 원인 분석 2. 개체명의 의미 모호성 특성 연구 3. 딥러닝 기반 사전 학습 모델의 맥락 정보 해결 능력 차이 비교
  • 7. 3. 개체명 의미 모호성의 원인 분석 기구축된 개체명 인식용 데이터 분석 분석 데이터 및 방법 분석 결과 • KLUE-NER 평가용 데이터셋 (총 5,000 건) • 두 개 이상의 레이블로 교차 태깅된 개체명 추출 (총 69종 / 823 용례) • 교차 태깅된 범주 유형 분석 • 5건의 교차 태깅 유형 • LC-OG 범주에서 교차 태깅이 많이 발생 (85.54%) à 주로 국가명 개체명 범주 빈도 LC-OG 85.54 (704) OG-QT 8.26 (68) DT-PS 3.52 (29) LC-OG-PS 2.07 (17) QT-DT 0.61 (5) 합 100.00 (823) 번호 개체명 범주1 빈도 범주2 빈도 합 1 한국 LC 109 OG 11 120 2 하나 QT 67 OG 1 68 3 일본 LC 55 OG 10 65 4 미국 LC 48 OG 10 58 5 중국 LC 51 OG 7 58 ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ 70 말레이시아 LC 1 OG 1 2 교차 태깅 유형 예시 • 하나금융은 <하나:OG>·외환은행에 대한 합병을 외환노 조와 합의했다고 13일 밝혔다. • 유씨는 492억원의 횡령·배임 혐의를 받고 있어 <한국:OG>과 프랑스 양국 사이의 조약에 따라 일단 범죄인 인도 대상이다. ß
  • 8. 4. 개체명 의미 모호성 판단 실험 사전 학습 모델을 활용한 개체명 인식 학습 문맥 이해 특화 사전 학습 언어모델 파인튜닝 학습 방법 KLUE-RoBERTa / mBERT 선형 분류 레이어 CLS 이순신 ##은 조선 ##의 장군 O B-PS O B-LC O O 선형 분류 레이어 CLS 이순신 ##은 조선 ##의 장군 O B-PS O B-LC O O KoGPT2 • Colab pro (Tesla-P100-PCIE-16GB) • Learning rate: 1e-4 / batch size: 8 / epoch: 4 • 🤗 AutoModelForTokenClassification • Training data: KLUE-NER train • Evaluation data: KLUE-NER dev • BERT-base-multilingual-cased (mBERT) • KLUE-RoBERTa-base • KoGPT2-base-v2 KLUE-NER-dev 성능 평가 모델 음절 기준 F1 Score 개체명 기준 F1 Score KLUE-RoBERTa 90.73 83.09 mBERT 88.00 74.33 KoGPT2 83.15 70.93
  • 9. 4. 개체명 의미 모호성 판단 실험 의미 모호성 개체 태그별 모델 성능 비교 교차 태그 범주별 모델 성능 교차 태깅 범주 모델별 레이블 정답률 모델별 스팬 정답률 태그 빈도수 KLUE- RoBERTa mBERT KoGPT2 KLUE- RoBERTa mBERT KoGPT2 LC-OG 85.54 (704) 83.95 (591) 82.39 (580) 72.59 (511) 90.06 (634) 90.20 (635) 58.10 (409) OG-QT 8.26 (68) 98.53 (67) 95.59 (65) 82.35 (56) 95.59 (65) 77.94 (53) 42.65 (29) DT-PS 3.52 (29) 93.10 (27) 93.10 (27) 58.62 (17) 86.21 (25) 93.10 (27) 55.17 (16) LC-OG-PS 2.07 (17) 88.24 (15) 94.12 (16) 64.71 (11) 29.41 (5) 100.00 (17) 0.00(0) DT-QT 0.61 (5) 100.00 (5) 80.00 (4) 40.00 (2) 100.00 (5) 100.00 (5) 40.00 (2) 총계 100.00 (823) 85.66 (705) 84.08 (692) 72.54 (597) 89.19 (734) 89.55 (737) 55.41 (456) 모델별 label 정답률 및 정답 빈도 태그 KLUE- RoBERTa mBERT KoGPT2 LC 89.38 (429) 90.42 (434) 81.88 (393) OG 72.61 (167) 66.09 (152) 55.65 (128) QT 98.59 (70) 95.77 (68) 80.28 (57) PS 90.91 (20) 90.91 (20) 9.09 (2) DT 95.00 (19) 90.00 (18) 85.00 (17) 총계 85.66 (705) 84.08 (692) 72.54 (597) LC-OG • 의미 모호성 개체명 대상 점수: LC > OG (KLUE-RoBERTa, mBERT, KoGPT2) • 학습 데이터 용례 비율: LC (6,663) < OG (8,491) • 의미 모호성 OG의 경우, LC보다 더 높은 문맥 이해도 필요 OG-QT • QT 분류 성능 98.59 (KLUE-RoBERTa) • mBERT의 경우, span 성능이 매우 떨어짐 à <하나로:QT>, <하나의:QT> DT-PS • Span 정답률: KLUE-RoBERTa < mBERT • DT에서 수식언을 포함해서 잡는 경우 à <이날 하루:DT>, 2건 • 의미 모호성 개체명을 아예 못 잡는 경우 à 2건
  • 10. 4. 개체명 의미 모호성 판단 실험 문장 성분에 따른 교차 태그의 모델별 성능 비교 교차 태그 범주가 ‘LC-OG’인 유형의 문장 성분별 정답률 문장성분 KLUE- RoBERTa mBERT KoGPT2 부사어 88.10 (237) 88.48 (238) 84.39 (227) 주어 81.97 (150) 79.78 (146) 60.11 (110) 관형어 78.88 (127) 75.78 (122) 66.46 (107) 목적어 81.94 (59) 79.17 (57) 69.44 (50) 서술어 100.00 (12) 91.67 (11) 91.67 (11) 기타 범주 85.71 (6) 85.71 (6) 85.71(6) 총계 83.95 (591) 82.39 (580) 72.59 (511) 주어 예제 목적어 예제 서술어 예제 수식어(부사어/관형어) 예제 • 12월 25일이라고 하셨는데 그 날은 저희 매장이 일년 중 가장 바쁜 날 중에 <하나:QT>입니다. • 세상이 알아야하는 또 <하나:QT>의 슬픈 진실! (관형어) • 나무 <하나:QT> 심으면 모든게 다 해결된다. (부사어) • 영화 <하나:QT>를 보면서 정말 많은 것들을 느꼈다 • 오래지났지만 7살에 봤던 장면 <하나:QT>가 아직 남아있습니다. • 서술어일 때 가장 높은 성능 à 문맥 이해에 가장 큰 feature • 부사어 태그 빈도: LC (225), OG (47) / 관형어 태그 빈도: LC (96), OG (66) • 관형어 점수: 78.88 (KLUE-RoBERTa) / 75.78 (mBERT) à 높은 문맥 이해도 요구 • KoGPT2의 주어 점수 (60.11) 와 서술어 점수 (91.67) 의 높은 차이 à 문장 내 위치의 영향
  • 11. 4. 개체명 의미 모호성 판단 실험 문장 위치에 따른 교차 태그의 모델별 성능 비교 교차 태그 포함 개체명의 문장 내 상대 위치에 따른 레이블 정답률 • 두 개 이상의 레이블로 교차 태깅된 개체명 대상으로 비교 (총 69종 / 823 용례) • 문장 내에서 개체명의 위치가 상대적으로 어떤 범위에 위치하는지 비교 • 상대 위치에 따른 개체명 정답률 비교 • 문장 내 상대 위치가 마지막 부분에 있을 수록 KoGPT2의 성능 향상 à Transformer decoder
  • 12. 5. 결론 고도화된 의미 모호성 내포 개체명 데이터 구축 및 문맥 이해 모델 학습 방안 필요 1. 의미 모호성 개체명과 문장 내부 정보와의 관계성 분석을 수행한 논문 2. 의미 모호성 개체명의 경우, 학습 데이터에 해당 term이 높은 비율로 존재하는 개체명으로 예측하는 경향 à LC-OG: <미국:LC>, <한국:LC> .. 3. 개체명 범주를 LC와 OG로 정의할 경우, 의미 모호성 개체에 대해서는 동일한 비율로 데이터 구축 필요 4. 개체를 수식하는 서술어에 따라 의미 모호성 해소 가능성 • <서울시:OG>는 발표했다 / 말했다 / 내세웠다 à LC 개체명의 인칭화 • <서울시:LC>에 거주했다 / 살았다 5. 양방향 문맥을 관찰할 수 있는 언어 모델이 의미 모호성 개체명 인식에 더 좋은 성능
  • 13. 6. 향후 연구 의미 모호성의 특성 분석을 통한 개체명 인식기 고도화 1. 교차 태그 범주별 데이터 증강후 분석 2. 토크나이징에 의해 야기된 span 오류 유형 분석 • [이순, ##신은, 장군, ##이다] à [B-PS, I-PS, O, OI] 3. 개체명 타입 별 오류 유형 분석 • 모델이 LC를 틀리는 경우, 주로 어떤 유형에서 틀리는가 4. 개체 term에 대한 모델 편향성 제거 실험 • [UNK]는 발표했다 / [UNK]에 거주했다 5. 도메인에 따른 의미 모호성 개체명 특성 분석 à 법률 / 의료 등 6. 다국어 개체명 인식 데이터에서의 특성 분석