왜 이런 현상이발생할까?
• 빈도수와 유사도에 의해서 결정되는 시스템
• 다수의 사람들이 입력하는 검색 키워드에서 출발(다수가 찾는 검색어)
• 다수가 검색한 뒤, 이에 파생되고 유사도가 가장 높은 검색 키워드를 다시 검색
• 통계적으로 자동처리 되어버림
• 검색 키워드를 정제하고 유사도를 측정하면 답을 얻을 수는 있지만, 텍스트 본문을 정확하게 분
석해야 잘못된 정보를 검색할 수 있음(매우 어려움)
인간의 심리, 머릿속에 기억되는 저장 기제가 문제
2016-08-29인공지능시대의 한국어 정보처리 4
사람들이 특정 단어와 연관성을 짓기 시작
용어의 의미가 변화하기 시작
5.
영어는 이런 경우가없을까?
2016-08-29인공지능시대의 한국어 정보처리 5
아재개그는 형태소 분석 오류와
의미 중의성에서 출발
두 경우의 어려운점
• 기존 의미에 새로운 의미가 부여되는 경우
• 나라: 국가의 우리 말
• 일본의 고대 유적이 많은 도시
• + 걸그룹 헬로비너스 멤버
• (예) 해운대, 터널, 곡성
• 한 단어의 의미 중요도가 변화하는 경우
• 김정은
• 연예인(~2009) 정치인 (2010~)
2016-08-29인공지능시대의 한국어 정보처리 8
9.
다국어간 관계에서 언어중의성
2016-08-29인공지능시대의 한국어 정보처리 9
은행 bank
ginkgo둑
10.
자연어처리 연구자들을 괴롭히는문제들
• 형태소 분석기의 성능
• 어지간한 형태소 분석기의 성능을 95~96% 내는 것은 누구나 다 할 수 있는 일
• 그러나 99.9% 이상의 정확도를 내는 형태소 분석기를 만들기도 매우 어려움(특히 한국어)
• 신어와 전문용어
• 지카 바이러스, 드론, 콘클라베, 쭈타누깐, 화웨이, 일베, 메갈리아, …
• 어휘 의미 중의성
• 김정은, 은행, 골프,
• 미등록어
• 올레드(OLED)
• 새로운 용어 조합
• 아재개그
2016-08-29인공지능시대의 한국어 정보처리 10
의미의 파악과 형태소 분석
11.
기계에게 스스로 학습을시키면?(누구나 다 아는)
2016-08-29인공지능시대의 한국어 정보처리 11
좌우로 이동하고, 저 것은 점수야
12.
만약 저 방법에자연언어를 넣으면?
• גדות גל
• גדות גל
• קומיק בכנס גדות-קון,דייגו סן2016
• לידה תאריך 30באפריל1985(בת31)
• לידה מקום Flag of Israel.svg העין ראש,ישראל
• הפעילות שנות 2004–הווה
• פרסים ישראל של היופי מלכת(2004)
• ידועה דמות גיז'ישר ל(ועצבני מהיר)
• וומן וונדר(סופרמן נגד באטמן)
• קיקה(עספור)
• नरेन्द्र मोदी
• इस लेख अथवा भाग में इस समय ववस्तार
अथवा सुधार किया जा रहा है। इसिो बनाने
एवं सम्पाददत िरने में आपिी किसी भी
सहायता िा स्वागत है।
• यदद इस पृष्ठ िो बहुत ददनों से सम्पाददत नहीं
किया गया है, िृ पया यह टैग हटाएँ।
• इस िो अन्न्द्तम बार Anamdas (वाताा|
योगदान) द्वारा सम्पाददत किया गया था। (2
महीने पहले) (पररष्िरण)
2016-08-29인공지능시대의 한국어 정보처리 12
간단한 규칙으로 설명 가능하다면 기계가
쉽게 학습할 수 있으나, 결국 인간이
모르면 기계도 모릅니다.
13.
중의성을 해소하기 위한노력들, 그리고 실패들
• 의미 부여를 위한 노력은 지속
• Semantic Web(팀 버너스 리가 주장, 추진은 부족)
• Ontology(궁극적 의미의 구조화)
• Linked Open Data Freebase.net
• Wiktionary(현재도 지속)
• WordNet BabelNet
• 그러나 쉽지 않고 명맥만 유지
• 영어가 피봇 언어
2016-08-29인공지능시대의 한국어 정보처리 13
한국어 정보처리는 정말낙후되어 있는가?
• 지속적인 투자가 이루어지지 않아 답보 상태
• 세종계획으로 대용량 말뭉치, 태그드 말뭉치가 구축되었으나 활용도가 낮고 오류가 많은 편
(6,800만 어절)
• 기계 학습에는 충분하지 않은 분량과 규칙
• 기계 학습이 충분히 이루어지기 위해서는 최신성, 정제 및 정확성, 균형성이 담보되어야 함
• 세종말뭉치로는 현재 발생하는 언어 현상을 제대로 반영할 수 없는 실정
• 기업들은 작은 시장규모로 형태소 분석기를 위한 충분한 기능 개선 및 데이터 수집에 필요한 투
자 예산을 확보하지 못하고 있음
• 다국어간 번역에 필요한 병렬 말뭉치, 의미 네트워크를 구축하지 못하고 있음
2016-08-29인공지능시대의 한국어 정보처리 17
18.
한국어 형태소 분석예시
• 4월 4 num 월 nbu
• 12개월된 12 num 개 ncn 월 ncn 되 pv ㄴ efa
• 아가와 아가 ncn 와 j
• 태국여행을 태국 nq_loc 여행 ncp 을 j
• 예약해두었습니다. 예약 ncp 하 xsp 어두 ep 었 ep 습니다 ef . sf
• 그런데 그런데 ma
• 얼마전부터 얼마전 ma 부터 j
• 사회적 사회적 ncn
• 이수가 이수가 nq_per
• 되고 되 pv 고 ef
• 있는 있 pa 는 efa
• 지카바이러스 지 ncn 카바 ncn 이 j 러스 ncn
2016-08-29인공지능시대의 한국어 정보처리 18
한국어 정보 처리가발전하려면
• 형태소 분석 기술이 떨어지면 그 이후 기술은 사상누각
• 95%까지는 누구나 갈 수 있으나, 99%는 누구나 갈 수 없음
• 한국어 형태소 분석기의 오류를 줄이기 위한 대규모 태그드 말뭉치 필요
• 한국어 형태소 분석기의 성능을 끌어올리기 위한 노력 필요(기계학습 + 수작업 + 규칙 개선)
• 다국어간 연계성을 확보하기 위한 국제적인 DB 구축에 참여
• N-Gram 기반 맥락 정보 분석 기술 개발
• 한국어의 특성상 형태소 주변에 발생하는 어휘의 다양성이 매우 높고, 빈도수의 차이가 많지
않음
• 빅데이터 수준의 대용량 말뭉치를 통하여 끊임 없이 학습하여 맥락정보를 찾아내는 작업을 지
속적으로 수행해야 함
• 시계열 기반 언어 정보 분석 및 용어의 라이프 사이클 기술 구축
• 의미의 변화는 시간을 통해서 이루어지고 있으며, 의미의 변화는 실시간 빅데이터 환경에서
발생
• 정교한 형태소 분석 기술과 정확한 용어 추출/분석을 통하여 용어의 중의성을 해소2016-08-29인공지능시대의 한국어 정보처리 21