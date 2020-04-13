Successfully reported this slideshow.
Context2Vec 기반 Word Sense Disambiguation 단어 의미 중의성 해소 이찬희 2020. 04. 13.
목차 • 단어 의미 중의성 해소 • 기존 프로세스 • Context2Vec • Context2Vec 기반 단어 의미 중의성 해소
단어 의미 중의성 해소
자연어 처리 과정 형태소 분석 Morpheme analysis 구문 분석 Syntax analysis 의미 분석 semantic analysis 화용 분석 Pragmatic analysis 형태소 단위의 분절 및 POS...
의미 분석 • 단어, 구, 문장 등의 단위의 의미를 인식하는 과정 구문 분석에 비해 해당 단계에서 진행해야 할 작업이 모호한 편인 것 같다. 의미를 인식하는 모든 처리가 해당 단계에 들어간다고 할 수 있을 것 같다.
단어 의미 중의성 해소 문맥을 확인하여 등장한 동형이의어의 의미를 찾는 과정 Word Sense Disambiguation (WSD)
단어 정리 • 동형이의어: 같은 형태를 가지지만 뜻이 다른 단어 • 의미(=센스): 동형이의어가 가지는 의미 • 동형어 번호: 사전에서 동형이의어가 가지는 의미를 구분하기 위해 부착하는 번호 (사전마다 다른 체계를 가진...
기존 프로세스
단어 의미 중의성 해소 모델 • 정한조(2015) 논문을 토대로 구현 • 생략하거나 달라진 방식 • 논문) 명사만 대상으로 진행 → 변경) 체언, 용언, 수식언, 어근 • 사전의 예문은 사용하지 않음 • 표준국어대사전과...
세종 형태의미 말뭉치 • 문장 별로 형태소 분석과 형태소 단위의 어깨번호를 부착한 말뭉치 • 표준국어대사전을 기준으로 어깨번호 부착 • 내용어(↔기능어) 중심으로 부착: 세종 품사 기준으로, 일반명사, 의존명사, 동사,...
벡터 공간 모델 Vector Space Model or Term Space Model • 간단한 Vector Space Model 설명, https://yumere.tistory.com/85 Vocabulary Docu...
벡터 공간 모델 (WSD 문제에서) Vector Space Model for WSD Vocabulary 벡터의 원소 동형이의어를 포함한 학습 대상인 모든 형태소 Ramped window의 합으로 벡터값을 산출한다. 센스...
Ramped Window 형태소 남미 풍 의 강렬 하 ᆫ 원색 끼리 의 조화 , 수채화 같이 안온 하 ᆫ 배색 등 어깨번호 02 07 05 품사 NNP XSN JKG XR XSA ETM NNG XSN JKG NNG SP...
나이브 베이즈 분류기 Naïve bayes Classifier • 베이즈 정리를 기초 • 독립성 가정 • 강한 가정이 들어가지만 실증적으로 높은 효과를 보임 (베이즈 정리) (독립성 가정) (베이지안 확률 용어로 작성)...
나이브 베이즈 분류기 (WSD 문제에서) Naïve bayes Classifier for WSD 학습시킨 Vector Space로 구한 Cosine Similarity로 대체
나이브 베이즈 분류기 (WSD 문제에서, 예시) • 발견한 동음이의어: 조화 • 센스 가짓수: 7가지 • 주변 단어 Distance Weight 부여 결과 • 남미 : 3 • 강렬 : 4 • 원색, 02 : 5 • 수채...
모델 평가 • 10-fold CV • Precision과 Recall • Precision만 사용 • Recall은 항상 100%, 표준국어대사전을 기준으로 동음이의어는 항상 평가를 하기 때문 Precision = 올바...
모델 평가 결과 • Precision: 평균 93.1% • 논문의 Precision 96.04% • 대상 품사를 명사로 한정 • 표준국어대사전의 예문까지 모두 활용했을 때의 Precision • 순서대로 처리했을 때 마...
시각화 반영 동음이의어에 부착된 어깨번호들
시각화 반영 동음이의어에 부착된 어깨번호들
한계 • 학습 시 성능과 실제 사용 시 성능에 차이가 발생 • 세종 말뭉치의 원문과 실제 사용하는 원문의 어휘가 다름 • 유사도를 구하지 못하고 사전 확률이 결과로 이어지는 빈도가 너무 높음 • 운영이 적용하기 위한 난...
Context2Vec
Context2Vec • Melamud, Oren, Jacob Goldberger, and Ido Dagan. "context2vec: Learning generic context embedding with bidire...
컨텍스트 임베딩 • 단어 수준 임베딩: 개별 단어를 임베딩(Word2Vec, Glove) • 문장 수준 임베딩: 문장 전체를 임베딩(Doc2Vec)하거나 하는 과정이 포함(ELMo)되어 있음 • 컨텍스트 임베딩 • 문장...
Word2Vec CBOW
Word2Vec CBOW 타겟 단어
Word2Vec CBOW 타겟 단어 컨텍스트 윈도우 내 단어의 임베딩
Word2Vec CBOW 타겟 단어 컨텍스트 윈도우 내 단어의 임베딩 컨텍스트 임베딩 (윈도우 내 단어 임베딩의 평균)
Word2Vec CBOW 타겟 단어 컨텍스트 윈도우 내 단어의 임베딩 컨텍스트 임베딩 (윈도우 내 단어 임베딩의 평균) 타겟 단어의 임베딩
Word2Vec CBOW 타겟 단어 컨텍스트 윈도우 내 단어의 임베딩 컨텍스트 임베딩 (윈도우 내 단어 임베딩의 평균) 타겟 단어의 임베딩 목적 함수를 통해 양 임베딩이 유사해지도록 학습
Context2Vec Context2Vec에서 변경된 부분 • (W2V) 윈도우 → (C2V) 문장 전체, Bi-LSTM • (W2V) 평균 → (C2V) MLP
Context2Vec
Context2Vec 타겟 단어
Context2Vec 타겟 단어 타겟 단어의 왼쪽 단어 시퀀스 정방향 (좌 → 우) 입력 타겟 단어의 오른쪽 단어 시퀀스 역방향 (우 → 좌) 입력
Context2Vec 타겟 단어 타겟 단어의 왼쪽 단어 시퀀스 정방향 (좌 → 우) 입력 타겟 단어의 오른쪽 단어 시퀀스 역방향 (우 → 좌) 입력 양쪽 시퀀스의 마지막 은닉 상태를 연결 및 MLP에 입력
Context2Vec 타겟 단어 타겟 단어의 왼쪽 단어 시퀀스 정방향 (좌 → 우) 입력 타겟 단어의 오른쪽 단어 시퀀스 역방향 (우 → 좌) 입력 양쪽 시퀀스의 마지막 은닉 상태를 연결 및 MLP에 입력 타겟 단어의 ...
Context2Vec 타겟 단어 타겟 단어의 왼쪽 단어 시퀀스 정방향 (좌 → 우) 입력 타겟 단어의 오른쪽 단어 시퀀스 역방향 (우 → 좌) 입력 양쪽 시퀀스의 마지막 은닉 상태를 연결 및 MLP에 입력 타겟 단어의 ...
Context2Vec 활용 • 문장 완성 (Sentence completion) • 단어 의미 중의성 해소 (Word sense disambiguation)
Context2Vec 기반 단어 의미 중의성 해소
Context2Vec 기반 단어 의미 중의성 해소 • Context2Vec: 타겟 단어의 컨텍스트를 벡터화 • Context2Vec 기반 단어 의미 중의성 해소 • 학습 • 말뭉치에 동형이의어가 등장하면, (표제어, 동...
Context2Vec 기반 단어 의미 중의성 해소, 학습 1. 말뭉치의 동형이의어 검색 3. (표제어, 동형어 번호, 컨텍스트 벡터) 집합 저장 (수성, 08) (수성, 05) (수성, 04) … … Context2Ve...
Context2Vec 기반 단어 의미 중의성 해소, 예측 1. 원문의 동형이의어 검사 3. 학습 시 추출한 컨텍스트 벡터 집합과 비교 (Cosine similarity) (수성, 08) (수성, 05) (수성, 04) ...
Context2Vec 학습 • 학습 데이터 • 뉴스 20만 문서 • 위키피디아 46만여 문서 (동음이의어 문서 제거) • 세종 형태의미 말뭉치 79만여 문장의 95% • 총 815만여 문장 • 학습 파라미터 (논문, 학...
단어 의미 중의성 해소 모델 학습 • 학습 및 테스트 데이터 • 세종 형태의미 말뭉치 79만여 문장을 95%, 5%로 분리 • 학습 및 평가 방법 • 학습 데이터에서 등장한 동형이의어의 문장을 컨텍스트 벡터로 저장 • ...
모델 평가 결과 • Precision: 97.91% > 93.1% (기존) • 딥 러닝 모델의 적용으로 Precision의 증가에 더해 Sparcity 문제를 해결할 수 있었음 • Sparcity 문제가 Context2...
단어 의미 중의성 해소 말뭉치 작성 컨텍스트 벡터를 생성하기 위해 원문과 동형이의어 표제어, 동형어 번호를 작성하는 것으로 비교적 간단하게 말뭉치를 확 장할 수 있음 (형태소 분석에서 표제어와 일치하는 토큰이 만들어져야...
서비스 적용 목표 - 종목 뉴스 필터링 • 종목 뉴스 추출은 1차적으로 검색 엔진의 키워드 매칭을 통해 진행 • 하지만 중의성을 가지는 종목명의 경우 필터링이 필요 • 필터링이 잘 되지 않았을 시에 서비스 퀄리티에 심각...
네이버 증권 뉴스의 경우 굉장히 필터링이 잘 되고 있는 편
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
(LO: 지역, OR: 단체, ST: 종목)
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
Context2Vec 기반 단어 의미 중의성 해소, Word Sense Disambiguation
