인공지능시대의 한국어 정보처
리
-언어기초정보 처리의 중요성-
2016-08-29
정휘웅
2016-08-29
인공지능시대의 한국어 정보처리
1
발표자 소개
• 약력
• 부산대학교 인지과학협동과정 다국어정
보처리 전공(석/박사수료)
부산대학교 언어정보연구실, KISTI, ETRI
등과 다수의 연구개발 과제 수행(~2006)
• 다이퀘스트 기술기획팀 차장(2007~2011)
• 공개SW역량프라자 수석(2013~현재)
• 주요 연구분야
• 다국어 정보 치리와 어휘 의미망
(WordNet 기반)
• 사전편찬학 및 의미론
• 자연언어처리
• 기업 검색
• 주요 관심분야
• 어휘의미망(Lexical Semantic Network)
• 말뭉치 언어학(Corpus Linguistics)
• 어휘 중의성 해소(Word Sense
Disambiguation)
• 내용어 추출(NER: Named Entity
Recognition)
• 문서 범주화(document categorization)
• 맥락 분석(Context Analysis)
2016-08-29인공지능시대의 한국어 정보처리 2
빈도수 및 유사도 검색의 함정
2016-08-29인공지능시대의 한국어 정보처리 3
왜 이런 현상이 발생할까?
• 빈도수와 유사도에 의해서 결정되는 시스템
• 다수의 사람들이 입력하는 검색 키워드에서 출발(다수가 찾는 검색어)
• 다수가 검색한 뒤, 이에 파생되고 유사도가 가장 높은 검색 키워드를 다시 검색
• 통계적으로 자동처리 되어버림
• 검색 키워드를 정제하고 유사도를 측정하면 답을 얻을 수는 있지만, 텍스트 본문을 정확하게 분
석해야 잘못된 정보를 검색할 수 있음(매우 어려움)
 인간의 심리, 머릿속에 기억되는 저장 기제가 문제
2016-08-29인공지능시대의 한국어 정보처리 4
사람들이 특정 단어와 연관성을 짓기 시작
 용어의 의미가 변화하기 시작
영어는 이런 경우가 없을까?
2016-08-29인공지능시대의 한국어 정보처리 5
아재개그는 형태소 분석 오류와
의미 중의성에서 출발
Galaxy
2016-08-29인공지능시대의 한국어 정보처리 6
자연어처리기술 연구자를 괴롭히는 중의성
2016-08-29인공지능시대의 한국어 정보처리 7
두 경우의 어려운 점
• 기존 의미에 새로운 의미가 부여되는 경우
• 나라: 국가의 우리 말
• 일본의 고대 유적이 많은 도시
• + 걸그룹 헬로비너스 멤버
• (예) 해운대, 터널, 곡성
• 한 단어의 의미 중요도가 변화하는 경우
• 김정은
• 연예인(~2009)  정치인 (2010~)
2016-08-29인공지능시대의 한국어 정보처리 8
다국어간 관계에서 언어 중의성
2016-08-29인공지능시대의 한국어 정보처리 9
은행 bank
ginkgo둑
자연어처리 연구자들을 괴롭히는 문제들
• 형태소 분석기의 성능
• 어지간한 형태소 분석기의 성능을 95~96% 내는 것은 누구나 다 할 수 있는 일
• 그러나 99.9% 이상의 정확도를 내는 형태소 분석기를 만들기도 매우 어려움(특히 한국어)
• 신어와 전문용어
• 지카 바이러스, 드론, 콘클라베, 쭈타누깐, 화웨이, 일베, 메갈리아, …
• 어휘 의미 중의성
• 김정은, 은행, 골프,
• 미등록어
• 올레드(OLED)
• 새로운 용어 조합
• 아재개그
2016-08-29인공지능시대의 한국어 정보처리 10
의미의 파악과 형태소 분석
기계에게 스스로 학습을 시키면?(누구나 다 아는)
2016-08-29인공지능시대의 한국어 정보처리 11
좌우로 이동하고, 저 것은 점수야
만약 저 방법에 자연언어를 넣으면?
• ‫גדות‬ ‫גל‬
• ‫גדות‬ ‫גל‬
• ‫קומיק‬ ‫בכנס‬ ‫גדות‬-‫קון‬,‫דייגו‬ ‫סן‬2016
• ‫לידה‬ ‫תאריך‬ 30‫באפריל‬1985(‫בת‬31)
• ‫לידה‬ ‫מקום‬ Flag of Israel.svg ‫העין‬ ‫ראש‬,‫ישראל‬
• ‫הפעילות‬ ‫שנות‬ 2004–‫הווה‬
• ‫פרסים‬ ‫ישראל‬ ‫של‬ ‫היופי‬ ‫מלכת‬(2004)
• ‫ידועה‬ ‫דמות‬ ‫גיז‬'‫ישר‬ ‫ל‬(‫ועצבני‬ ‫מהיר‬)
• ‫וומן‬ ‫וונדר‬(‫סופרמן‬ ‫נגד‬ ‫באטמן‬)
• ‫קיקה‬(‫עספור‬)
• नरेन्द्र मोदी
• इस लेख अथवा भाग में इस समय ववस्तार
अथवा सुधार किया जा रहा है। इसिो बनाने
एवं सम्पाददत िरने में आपिी किसी भी
सहायता िा स्वागत है।
• यदद इस पृष्ठ िो बहुत ददनों से सम्पाददत नहीं
किया गया है, िृ पया यह टैग हटाएँ।
• इस िो अन्न्द्तम बार Anamdas (वाताा|
योगदान) द्वारा सम्पाददत किया गया था। (2
महीने पहले) (पररष्िरण)
2016-08-29인공지능시대의 한국어 정보처리 12
간단한 규칙으로 설명 가능하다면 기계가
쉽게 학습할 수 있으나, 결국 인간이
모르면 기계도 모릅니다.
중의성을 해소하기 위한 노력들, 그리고 실패들
• 의미 부여를 위한 노력은 지속
• Semantic Web(팀 버너스 리가 주장, 추진은 부족)
• Ontology(궁극적 의미의 구조화)
• Linked Open Data  Freebase.net
• Wiktionary(현재도 지속)
• WordNet  BabelNet
• 그러나 쉽지 않고 명맥만 유지
• 영어가 피봇 언어
2016-08-29인공지능시대의 한국어 정보처리 13
WordNet과 한국어의 연계, KorLex
2016-08-29인공지능시대의 한국어 정보처리 14
명맥이 유지되는 시스템들
2016-08-29인공지능시대의 한국어 정보처리 15
WolframAlpha DBPedia
OpenCalais
2016-08-29인공지능시대의 한국어 정보처리 16
“All Eyes on Apple’s Cook as Watch Launch Expected”
Semantic
Annotation
한국어 정보처리는 정말 낙후되어 있는가?
• 지속적인 투자가 이루어지지 않아 답보 상태
• 세종계획으로 대용량 말뭉치, 태그드 말뭉치가 구축되었으나 활용도가 낮고 오류가 많은 편
(6,800만 어절)
• 기계 학습에는 충분하지 않은 분량과 규칙
• 기계 학습이 충분히 이루어지기 위해서는 최신성, 정제 및 정확성, 균형성이 담보되어야 함
• 세종말뭉치로는 현재 발생하는 언어 현상을 제대로 반영할 수 없는 실정
• 기업들은 작은 시장규모로 형태소 분석기를 위한 충분한 기능 개선 및 데이터 수집에 필요한 투
자 예산을 확보하지 못하고 있음
• 다국어간 번역에 필요한 병렬 말뭉치, 의미 네트워크를 구축하지 못하고 있음
2016-08-29인공지능시대의 한국어 정보처리 17
한국어 형태소 분석 예시
• 4월 4 num 월 nbu
• 12개월된 12 num 개 ncn 월 ncn 되 pv ㄴ efa
• 아가와 아가 ncn 와 j
• 태국여행을 태국 nq_loc 여행 ncp 을 j
• 예약해두었습니다. 예약 ncp 하 xsp 어두 ep 었 ep 습니다 ef . sf
• 그런데 그런데 ma
• 얼마전부터 얼마전 ma 부터 j
• 사회적 사회적 ncn
• 이수가 이수가 nq_per
• 되고 되 pv 고 ef
• 있는 있 pa 는 efa
• 지카바이러스 지 ncn 카바 ncn 이 j 러스 ncn
2016-08-29인공지능시대의 한국어 정보처리 18
기계 번역의 어려움
2016-08-29인공지능시대의 한국어 정보처리 19
2016-08-29인공지능시대의 한국어 정보처리 20
너는 이미 빅데이터다
한국어 정보 처리가 발전하려면
• 형태소 분석 기술이 떨어지면 그 이후 기술은 사상누각
• 95%까지는 누구나 갈 수 있으나, 99%는 누구나 갈 수 없음
• 한국어 형태소 분석기의 오류를 줄이기 위한 대규모 태그드 말뭉치 필요
• 한국어 형태소 분석기의 성능을 끌어올리기 위한 노력 필요(기계학습 + 수작업 + 규칙 개선)
• 다국어간 연계성을 확보하기 위한 국제적인 DB 구축에 참여
• N-Gram 기반 맥락 정보 분석 기술 개발
• 한국어의 특성상 형태소 주변에 발생하는 어휘의 다양성이 매우 높고, 빈도수의 차이가 많지
않음
• 빅데이터 수준의 대용량 말뭉치를 통하여 끊임 없이 학습하여 맥락정보를 찾아내는 작업을 지
속적으로 수행해야 함
• 시계열 기반 언어 정보 분석 및 용어의 라이프 사이클 기술 구축
• 의미의 변화는 시간을 통해서 이루어지고 있으며, 의미의 변화는 실시간 빅데이터 환경에서
발생
• 정교한 형태소 분석 기술과 정확한 용어 추출/분석을 통하여 용어의 중의성을 해소2016-08-29인공지능시대의 한국어 정보처리 21

인공지능시대의 한국어 정보처리

  • 1.
    인공지능시대의 한국어 정보처 리 -언어기초정보처리의 중요성- 2016-08-29 정휘웅 2016-08-29 인공지능시대의 한국어 정보처리 1
  • 2.
    발표자 소개 • 약력 •부산대학교 인지과학협동과정 다국어정 보처리 전공(석/박사수료) 부산대학교 언어정보연구실, KISTI, ETRI 등과 다수의 연구개발 과제 수행(~2006) • 다이퀘스트 기술기획팀 차장(2007~2011) • 공개SW역량프라자 수석(2013~현재) • 주요 연구분야 • 다국어 정보 치리와 어휘 의미망 (WordNet 기반) • 사전편찬학 및 의미론 • 자연언어처리 • 기업 검색 • 주요 관심분야 • 어휘의미망(Lexical Semantic Network) • 말뭉치 언어학(Corpus Linguistics) • 어휘 중의성 해소(Word Sense Disambiguation) • 내용어 추출(NER: Named Entity Recognition) • 문서 범주화(document categorization) • 맥락 분석(Context Analysis) 2016-08-29인공지능시대의 한국어 정보처리 2
  • 3.
    빈도수 및 유사도검색의 함정 2016-08-29인공지능시대의 한국어 정보처리 3
  • 4.
    왜 이런 현상이발생할까? • 빈도수와 유사도에 의해서 결정되는 시스템 • 다수의 사람들이 입력하는 검색 키워드에서 출발(다수가 찾는 검색어) • 다수가 검색한 뒤, 이에 파생되고 유사도가 가장 높은 검색 키워드를 다시 검색 • 통계적으로 자동처리 되어버림 • 검색 키워드를 정제하고 유사도를 측정하면 답을 얻을 수는 있지만, 텍스트 본문을 정확하게 분 석해야 잘못된 정보를 검색할 수 있음(매우 어려움)  인간의 심리, 머릿속에 기억되는 저장 기제가 문제 2016-08-29인공지능시대의 한국어 정보처리 4 사람들이 특정 단어와 연관성을 짓기 시작  용어의 의미가 변화하기 시작
  • 5.
    영어는 이런 경우가없을까? 2016-08-29인공지능시대의 한국어 정보처리 5 아재개그는 형태소 분석 오류와 의미 중의성에서 출발
  • 6.
  • 7.
    자연어처리기술 연구자를 괴롭히는중의성 2016-08-29인공지능시대의 한국어 정보처리 7
  • 8.
    두 경우의 어려운점 • 기존 의미에 새로운 의미가 부여되는 경우 • 나라: 국가의 우리 말 • 일본의 고대 유적이 많은 도시 • + 걸그룹 헬로비너스 멤버 • (예) 해운대, 터널, 곡성 • 한 단어의 의미 중요도가 변화하는 경우 • 김정은 • 연예인(~2009)  정치인 (2010~) 2016-08-29인공지능시대의 한국어 정보처리 8
  • 9.
    다국어간 관계에서 언어중의성 2016-08-29인공지능시대의 한국어 정보처리 9 은행 bank ginkgo둑
  • 10.
    자연어처리 연구자들을 괴롭히는문제들 • 형태소 분석기의 성능 • 어지간한 형태소 분석기의 성능을 95~96% 내는 것은 누구나 다 할 수 있는 일 • 그러나 99.9% 이상의 정확도를 내는 형태소 분석기를 만들기도 매우 어려움(특히 한국어) • 신어와 전문용어 • 지카 바이러스, 드론, 콘클라베, 쭈타누깐, 화웨이, 일베, 메갈리아, … • 어휘 의미 중의성 • 김정은, 은행, 골프, • 미등록어 • 올레드(OLED) • 새로운 용어 조합 • 아재개그 2016-08-29인공지능시대의 한국어 정보처리 10 의미의 파악과 형태소 분석
  • 11.
    기계에게 스스로 학습을시키면?(누구나 다 아는) 2016-08-29인공지능시대의 한국어 정보처리 11 좌우로 이동하고, 저 것은 점수야
  • 12.
    만약 저 방법에자연언어를 넣으면? • ‫גדות‬ ‫גל‬ • ‫גדות‬ ‫גל‬ • ‫קומיק‬ ‫בכנס‬ ‫גדות‬-‫קון‬,‫דייגו‬ ‫סן‬2016 • ‫לידה‬ ‫תאריך‬ 30‫באפריל‬1985(‫בת‬31) • ‫לידה‬ ‫מקום‬ Flag of Israel.svg ‫העין‬ ‫ראש‬,‫ישראל‬ • ‫הפעילות‬ ‫שנות‬ 2004–‫הווה‬ • ‫פרסים‬ ‫ישראל‬ ‫של‬ ‫היופי‬ ‫מלכת‬(2004) • ‫ידועה‬ ‫דמות‬ ‫גיז‬'‫ישר‬ ‫ל‬(‫ועצבני‬ ‫מהיר‬) • ‫וומן‬ ‫וונדר‬(‫סופרמן‬ ‫נגד‬ ‫באטמן‬) • ‫קיקה‬(‫עספור‬) • नरेन्द्र मोदी • इस लेख अथवा भाग में इस समय ववस्तार अथवा सुधार किया जा रहा है। इसिो बनाने एवं सम्पाददत िरने में आपिी किसी भी सहायता िा स्वागत है। • यदद इस पृष्ठ िो बहुत ददनों से सम्पाददत नहीं किया गया है, िृ पया यह टैग हटाएँ। • इस िो अन्न्द्तम बार Anamdas (वाताा| योगदान) द्वारा सम्पाददत किया गया था। (2 महीने पहले) (पररष्िरण) 2016-08-29인공지능시대의 한국어 정보처리 12 간단한 규칙으로 설명 가능하다면 기계가 쉽게 학습할 수 있으나, 결국 인간이 모르면 기계도 모릅니다.
  • 13.
    중의성을 해소하기 위한노력들, 그리고 실패들 • 의미 부여를 위한 노력은 지속 • Semantic Web(팀 버너스 리가 주장, 추진은 부족) • Ontology(궁극적 의미의 구조화) • Linked Open Data  Freebase.net • Wiktionary(현재도 지속) • WordNet  BabelNet • 그러나 쉽지 않고 명맥만 유지 • 영어가 피봇 언어 2016-08-29인공지능시대의 한국어 정보처리 13
  • 14.
    WordNet과 한국어의 연계,KorLex 2016-08-29인공지능시대의 한국어 정보처리 14
  • 15.
    명맥이 유지되는 시스템들 2016-08-29인공지능시대의한국어 정보처리 15 WolframAlpha DBPedia
  • 16.
    OpenCalais 2016-08-29인공지능시대의 한국어 정보처리16 “All Eyes on Apple’s Cook as Watch Launch Expected” Semantic Annotation
  • 17.
    한국어 정보처리는 정말낙후되어 있는가? • 지속적인 투자가 이루어지지 않아 답보 상태 • 세종계획으로 대용량 말뭉치, 태그드 말뭉치가 구축되었으나 활용도가 낮고 오류가 많은 편 (6,800만 어절) • 기계 학습에는 충분하지 않은 분량과 규칙 • 기계 학습이 충분히 이루어지기 위해서는 최신성, 정제 및 정확성, 균형성이 담보되어야 함 • 세종말뭉치로는 현재 발생하는 언어 현상을 제대로 반영할 수 없는 실정 • 기업들은 작은 시장규모로 형태소 분석기를 위한 충분한 기능 개선 및 데이터 수집에 필요한 투 자 예산을 확보하지 못하고 있음 • 다국어간 번역에 필요한 병렬 말뭉치, 의미 네트워크를 구축하지 못하고 있음 2016-08-29인공지능시대의 한국어 정보처리 17
  • 18.
    한국어 형태소 분석예시 • 4월 4 num 월 nbu • 12개월된 12 num 개 ncn 월 ncn 되 pv ㄴ efa • 아가와 아가 ncn 와 j • 태국여행을 태국 nq_loc 여행 ncp 을 j • 예약해두었습니다. 예약 ncp 하 xsp 어두 ep 었 ep 습니다 ef . sf • 그런데 그런데 ma • 얼마전부터 얼마전 ma 부터 j • 사회적 사회적 ncn • 이수가 이수가 nq_per • 되고 되 pv 고 ef • 있는 있 pa 는 efa • 지카바이러스 지 ncn 카바 ncn 이 j 러스 ncn 2016-08-29인공지능시대의 한국어 정보처리 18
  • 19.
  • 20.
  • 21.
    한국어 정보 처리가발전하려면 • 형태소 분석 기술이 떨어지면 그 이후 기술은 사상누각 • 95%까지는 누구나 갈 수 있으나, 99%는 누구나 갈 수 없음 • 한국어 형태소 분석기의 오류를 줄이기 위한 대규모 태그드 말뭉치 필요 • 한국어 형태소 분석기의 성능을 끌어올리기 위한 노력 필요(기계학습 + 수작업 + 규칙 개선) • 다국어간 연계성을 확보하기 위한 국제적인 DB 구축에 참여 • N-Gram 기반 맥락 정보 분석 기술 개발 • 한국어의 특성상 형태소 주변에 발생하는 어휘의 다양성이 매우 높고, 빈도수의 차이가 많지 않음 • 빅데이터 수준의 대용량 말뭉치를 통하여 끊임 없이 학습하여 맥락정보를 찾아내는 작업을 지 속적으로 수행해야 함 • 시계열 기반 언어 정보 분석 및 용어의 라이프 사이클 기술 구축 • 의미의 변화는 시간을 통해서 이루어지고 있으며, 의미의 변화는 실시간 빅데이터 환경에서 발생 • 정교한 형태소 분석 기술과 정확한 용어 추출/분석을 통하여 용어의 중의성을 해소2016-08-29인공지능시대의 한국어 정보처리 21