Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2

423 views

Published on

음성기반 A.I. 서비스 NUGU의 지식기술을 소개합니다. (NUGU NLP Technology)

Published in: Software
  • Login to see the comments

[NUGU Conference 2018] 세션 B-3.2 : 지식기술 소개 2

  1. 1. NUGU NLP Technology
  2. 2. ASR speech ASR NLU DM NLGTTS 3rd Party APIs speech text text semantics semantics “아이유 노래 틀어줘” music:play(SINGER=아이유) “아이유의 밤편지 들려드릴께요" music:play(SINGER,TITLE) Knowledge Base NLP Core Engine
  3. 3. 1. NUGU NLP 기반 기술 2. NUGU NLP 응용 기술
  4. 4. 형태소 분석, 개체명 인식, 색인어 추출 음차 모듈(서비스 품질 개선을 위한 동의어 사전 확대) 자연어 생성(NLG) 모듈 자동 띄어쓰기 모듈 주소록 분석 및 확장 모듈
  5. 5. [ NLP 기반기술 ] 한국어 문장을 의미 최소 단위인 형태소 단위로 구분하고, 적절한 형태소 태그를 부착 KLP 형태소 분석기 (하이브리드) - 기계학습(음절 기반 분류를 활용한 Sequential Tagging 기법) + 사전 및 패턴 정보 활용 - 띄어쓰기 오류 및 미등록어에 비교적 강건하고, 사전 및 패턴을 함께 활용하여 오류 수정이 용이 - 음악, 교통, 백과, 뉴스, 쇼핑 도메인 사전 보강 문장 분리 사전기반Token 후 보및기본점수세팅 음절 모델 기반 음절 태깅 음절 태그 연결 확률 적용 패턴 기반 형태소 연결 확률 조정 복합형태소 분리 형태소 인덱스 설정
  6. 6. [ NLP 기반기술 ] 문장의 개체명(인명, 지명, 단체명 등)을 인식해 경계 및 클래스를 추출 기계학습(음절 기반 분류 모델) + 신규 패턴에 대한 처리 성능 강화 (NE 사전, Word Cluster 등) 성능 개선: Viterbi 고도화 (형태소 경계를 활용한 탐색 공간 축소), 메모리 사용량 개선 NLU 도메인 분류 및 도메인 별 Entity 태깅에 사용 입력 분석 (KMA 결과) 자동 문자열 생성 (음절별) 음절 단위 태깅 (SSVM) 문장 단위 검증 출력 JSON 생성
  7. 7. [ NLP 기반기술 ] 문서 검색 내재화를 위한 중요 색인어 추출 모듈 다양한 목적의 추출방식(6가지) 및 세부옵션(21가지) 제공 백과검색, 음악검색, 뉴스검색, Tmap 검색 등에 사용 문자 정규화 형태소 분석 (개체명 추출) 사전 기반 복합어 분리 사전 기반 동의어 추출 패턴 기반 색인어 추출 불용어 처리 인용구 추출 위치정보 부여 저는 토큰 스플릿 방식입니다. 바이그램 방식이죠 기본적인 단어를 추출합니다. 저는 바이 기본적 토큰 이그 단어 스플릿 그램 추출 방식입니다 방식 식이 이죠
  8. 8. 특정 언어의 발음을 우리말 문자로 나타내는 음차 변환을 수행 (KB alias 확장, 음악/Btv 서비스 활용) Rule 기반 음차 변환 Deep Learning 기반 음차 변환 – 문자만으로 우리말 읽기 가능한 언어: 일본어, 스페인어 등 - 음운 현상, 외래어 표기법 등을 Rewrite Rule로 기술하여 음차 변환 [일본어 음차 변환 예] いらっしゃいませ イラッシャイマセ ilaTsijaimase ㅣㄹㅏTㅅㅑㅣㅁㅏㅅe 이랏샤이마세 – 영어: Sequence to Sequence Model 사용 (Input: Alphabet / Output: 한글 음절) - 다양한 출처의 약 20만건의 데이터 수집 및 정제 사용 [ NLP 기반기술 ]
  9. 9. [ NLP 기반기술 ] NUGU 음성 서비스를 위한 TTS용 발화문 생성기 기본 템플릿 + 예외/조건 템플릿 + 규칙기반 후처리를 통한 자연스러운 문장 생성 문자 유형 판단 (타입, 복합 문장) 문장 생성 템플릿 탐색 속성 값 치환 날짜 정규화및도치 조사 치환 어미 변경 (복합문일 경우) 문장 연결 #1. SPO 타입: 홍길동의 출생지는 서울이다. 홍길동의 출생지는 미상이다. 2년간(2012 ~ 2014) 아이유의 나이는 20살이다. #2. SPOC 타입: 홍길동은 출생지가 서울인 정치인이다. 홍길동은 미상에서 출생했다. 홍길동의 출생지는 정확히 알려지지 않았다. 2012년 ~ 2014년 2년간 아이유는발라드장르의음악을한다. 아이유의 나이는 20살이고 발라드 장르의 음악을 합니다. 예외 템플릿 적용 S(ubject), P(redicate), O(bject), C(ategory) 조건 템플릿 적용 =+
  10. 10. [ NLP 기반기술 ] Complex QA를 위한 Knowledge Graph 기반 발화문 생성기 Q: 소녀시대 멤버의 국적은? NLU 분석 결과 지식 그래프 탐색 결과 QuestionType AnswerType Formulas Reverse 소녀시대 유리: 대한민국 태연: 대한민국 티파니: 미국 Flatten 소녀시대 유리, 태연, 윤아.. : 대한민국 티파니, 써니: 미국 Grouping Preferences Features A: [소녀시대]의 멤버 [유리, 태연, 수영, 효연, 윤아, 서연]의 국 적은 [대한민국]이고, [써니, 티파니]는 [미국]입니다. 템플릿 매칭 – 화면 기반의 계층형 정답을 자연스러운 자연어 문장으로 만드는게 중요함 - 너무 큰 숫자 표현, 시제 일치, 복수개의 정답 축약 기술 등
  11. 11. [ NLP 기반기술 ] 맞춤법 검사기의 띄어쓰기 자동 보정 기능 제공 규칙 기반 띄어쓰기 (KMA 결과 + POS Tag 활용) 2개 이상의 문장에 대한 문장 분리 및 문장 병합 기능 파라미터(음절수/띄어쓰기 비율) 기반 띄어쓰기 보정 적용 제어 구어체를 위한 기능(독립 띄어쓰기 된 1음절의 전/후 단어 결합) 문장 분리 및 합치기 문장별 형태소 분석 POS Tag 기반 띄어쓰기 규칙 적용 형태소별 예외 규칙 적용 독립 1음절 띄어쓰기 보정 언젠가는우리 다시만나요 그리고 다음에 만나영 언젠가는 우리 다시 만나요 그리고 다음에 만나 영 언젠가는 우리 다시 만나요 그리고 다음에 만나영
  12. 12. [ NLP 기반기술 ] 정규화 타이틀 검색 이름 검색 Suffix 검색 Prefix, Infix, Postfix 설정 확장형 생성 스코어 계산 전화 걸기 서비스용 연락처 형태 확장 모듈 미등록 문자열에 대한 위치 기반 처리(Prefix, Infix, Postfix) 성/이름 음절 및 타이틀/호칭 사전 + 예외 사전 활용 타이틀 유의어 확장 : 대표 -> 사장, CEO, 대표이사 • 홍길동 매니저  홍 매니저, 홍길동 매니저님, 홍길동, 홍길동님, 홍길동이 • 연락처 검색: 음성 특징 반영한 G2P 매칭(제임스 vs 재임스, 예진이 vs 애진이 등)
  13. 13. 문자 메시지 분류 및 정보 추출 발매 예정 음원 정보 추출 뉴스 요약 뉴스 토픽 추출
  14. 14. [ NLP 응용기술 ] 문자(SMS)를 광고, 카드 사용, 은행 입출금 문자 등으로 분류하고, 분류에 맞는 요약문을 생성 요약문은 정보 손실을 최소화하여 사용자의 청취 편의 도모 전화번호 맵핑 분류 패턴 숫자 정규화 키워드 매칭 로지컬 연산 자연어 생성 광고 문자 카드 문자 은행 문자 광고 스팸 국내/해외 입금 출금 결제 취소 거절 ㈜스타벅스에서 사용한 우리카드 29,900원 승인 문자입니다.우리카드(1*1*) 홍*동님 11/04 19:57 일시불 29,900원 누적금액 1,003,819원 ㈜스타벅스
  15. 15. [ NLP 응용기술 ] 사용자가 아직 발매되지 않은 음원의 재생을 요청할 때 안내 멘트 발화 발매가 되었으나 음원 제공이 불가한 경우, 검색 실패한 경우와는 구분하여 정보 제공이 가능 뉴스의 텍스트로부터 미리 발매 예정 음원 정보를 추출하여 서비스 아리아, 방탄소년단 Fake Love 틀어줘 아직 발매되지 않은 음악입니다. 곧 들려드릴께요. 원하시는 음악을 찾 지 못했습니다. 다시 말씀해 주세요.
  16. 16. [ NLP 응용기술 ] 원제: 라이크 파라다이스 부제: Like Paradise 크리샤 츄 펜타곤 워너원 로컬 추출(뉴스 1건에서 노래/가수 쌍 추출) 저장소 저장소 크리샤 츄 크리샤 츄 아이유 소녀시대 뉴스기사1 뉴스기사2 뉴스기사3 뉴스기사4 원제: 라이크 파라다이스 부제: Like Paradise 크리샤 츄 글로벌 랭킹(뉴스 N건)
  17. 17. [ NLP 응용기술 ] 사용자의 궁금함에 (살아 있는) 정보를 제공할 수 있는 두번째 서비스 기존의 뉴스 서비스 고도화 – 1st 서비스: NUGU 백과 (정적인 정보, 사전 정보 위주) - 연합뉴스 등 메이저 언론사 39개 언론사 뉴스 실시간 제공 – 주요 뉴스, 분야별 뉴스 AOD 서비스 (1일 6회 AOD 업데이트) - 사용자의 관심사에 대한 정보 제공 불가  뉴스검색+뉴스요약 “아리아, SK텔레콤 뉴스 틀어줘”
  18. 18. [ NLP 응용기술 ] News Article Text Clean Text Normalization Sentence Split & Noun Extraction Preprocessor Title Similarity Score Core Sentence Score Sentence Structure Score Sentence Ranker Sentence Scoring Sentence Path Selection Summary Generation Summarizer News Summary
  19. 19. HTML 태그 정보를 활용하여 이미지 캡션, 링크, 광고, 관련 뉴스 등 제거/내용과 무관한 문자열 패턴 제거 원문 기사 URL • : Text Clean 단계 • : Text Normalization 단계
  20. 20. [ NLP 응용기술 ] □ Title Similarity Score □ 뉴스 제목은 뉴스의 전반적인 내용을 함축적으로 설명 □ 제목 키워드가 문장 내에서 얼마나 출현하는지를 이용하여 문장 별로 점수 부여 □ Core Sentence Score □ 기사 내용을 함축적으로 설명하는 핵심 문장을 선택 □ 문서 내 핵심 문장 선택에 효과적인 TextRank 알고리즘을 적용 □ Sentence Structure Score □ 기사 내 문장의 위치, 완전한 문장 형태 여부 등 구조적인 자질을 활용하여 점수화
  21. 21. [ NLP 응용기술 ] □ Sentence Path Selection □ Sentence Ranking Top N(=3) 문장으로부터 시작하는 요약문 path 생성 □ context_score = α*Sentence_Score+β*Adjacency+γ*Context_Head_Score □ Adjacency_Score = (len_article - adjacency) / len_article □ Context_Head_Score: 이전 내용과 연관된 지시어(예: 결국, 그래서 등)로 시작하는 경우, 일정 문장 이내로 연속해서 나오는 경우 1, 아니면 0. □ Summary Generation □ Sentence Path 내 문장의 Context를 고려한 휴리스틱 룰에 따라 뉴스 요약문 생성 □ 자연스러운 TTS 발화문 형태로 경어체 어미 변환 (기록했다.  기록했습니다.)
  22. 22. [ NLP 응용기술 ] News Clustering Topic Extraction Preprocessing 고도화 Clustering 기술 및 랭킹 고도화 Key Phrase 추출 고도화
  23. 23. [ NLP 응용기술 ] 9월17일 09시(05~08시 데이터 기준)
  24. 24. Knowledge Base NLP Core Engine speech speech ASR NLU DM NLGTTS 3rd Party APIs
  25. 25. NUGU NLP Technology

×