2. 토크나이징 (Tokenizing)
• 자연어처리에서 텍스트 데이터에 대한 정보를 단위별로 나누는 것.
이미지 출처 : https://magazine.hankyung.com/business/article/202010133532b
3. 현대 검색 엔진을 만들 때 필수 요소
• 역색인 (Inverted Index)
이미지 출처 : https://www.skyer9.pe.kr/wordpress/?p=1002
4. 토크나이징의 종류
• 띄어쓰기로 구분
Time is money
time is mone
y
순서를 고려하지 않아 아래 문장도 동일한 결과로 취급되는 문제가 있음
= BoW (Bag of Words)
Money is time
time is mone
y
5. 토크나이징의 종류
• n-gram
• uni-gram(1-gram), bi-gram(2-gram), tri-gram(3-gram), 4-gram…
Time is money
ti im me _i is s_ _m mo on
e_ ne ey
6. 토크나이징의 종류
• n-gram
• uni-gram(1-gram), bi-gram(2-gram), tri-gram(3-gram), 4-gram…
Time is money
ti im me _i is s_ _m mo on
e_ ne ey
mo on ne y_ _i is s_ _t ti
ey im me
Money is time
7. 토크나이징의 종류
• 형태소 분석 (신규 검색엔진이 사용)
• 인공 신경망 언어 모델 (NNLM)
"나는 배가 아파서 걸어서 집에 갔습니다"
나/대명사
는/보조사
배/명사
+가/격조사
아프/형용사
+아서/연결어미
걷/동사
+어서/연결어미
집/명사
+에/격조사
가/동사
+았/선어말어미
+습니다/어말어미
8. 형태소 분석 모델의 단점
• 띄어쓰기 오류에 취약
• 신조어, 오타, 구어체에 취약
아버지가방에들어가신다
사이몬페그의 익살스런 연기가 돋보였던 영화!
너무재밓엇다
주인공이 너무 초딩스럽ㅋㅋㅋㅋㅋㅋㅋ
9. 아이나비 POI 명칭 특징
• 띄어쓰기가 없다. (형태소 분석이 취약)
• 너무 짧다. (n-gram 분석이 취약)
• 비슷하고 반복되는 단어들의 조합
삼성역(서울2호선)
현대백화점(무역센터점)
한국도심공항
삼성역레지던스
삼성역삼빌딩
10. POI 명칭 형태소 분석 결과의 예
• Open Korean Text 분석기 결과
삼성역(서울2호선)
현대백화점(무역센터점)
코스트코홀세일
이마트트레이더스
삼성역삼빌딩
삼성역, 서울, 2, 호선
현대, 백화점, 무역, 센터, 점
코스트코, 홀, 일
이마트, 트, 레이더스
삼성역, 빌딩
제대로 분리되지 못함