GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화

GiGA Genie 음성/대화 품질 향상을 위한
독음 데이터 가공 자동화
순도를 높이는 데이터 가공기술
KT S/W Developer Conference 2019 | 박성찬

Contents
0 자기소개
1 솔루션 배경 및 필요성
2 데이터 가공 자동화 플로우
3 Summary
# QnA

Experience
• Giga Genie data discovery platform
• Speech based AI contact center
• E-commerce search platform
• Question Answering system
2013-present
KT IT
• Spoken language understanding
• Speech synthesis(concatenative)
• Speech recognition(language modeling)
• Multi modal interaction(speech based)
2004-2013 KT R&D
• Speech recognition(HMM)
1997-2001 Samsungschanpark@gmail.com
Buljeongno 90, KT
Sung Chan Park
Senior Engineer
Senior Engineer
Profile
A skillful and enthusiastic
engineer with 15+ year
experience in speech and
language processing within
telecommunication and AI
industry
Research Engineer
Research Engineer
Education
2002-2004
Research Assistant • Statistical Machine Translation(MS)
Computational Linguistics at USC

솔루션 배경 및 필요성
솔루션 소개: AI스피커의 용도별 순위
01
• 주로 어디에 사용할까?

기가지니 음악 재생 시나리오
01
WAKE UP
음악재생
“방탄소년단 웨이크업
들려줘“
요청하신 노래를
재생할게요”
음성인식
서버
대화서버
곡명 가수명 곡명 독음 곡명 유의어 가수명 독음 가수명 유의어 발화어
WAKE UP BTS 웨이크 업 일어나 비티에스 방탄소년단
방탄소년단 웨이크 업 들려줘,
…
기가지니 음악 콘텐츠 DB
기가지니 음악 재생 서비스
음성인식
학습
대화 학습 지니뮤직 검색
(*) 독음(讀音): 소리를 기반으로 한 문자 시스템을 다른 문자 시스템으로 대응시키는 과정

기가지니 시연
01
• 독음 처리가 안 되어 있는 경우

자동화 요구사항
01
Raw data Training data
Raw data Training data
AI
독음 과정을 100% 수작업에 의존
AI가 빠르게 독음을 수행하고 사람이 보정
최종 결과 품질을 높이고 생산성을 극대화!
MUSIC ARTIST ARTSIT 명 ARTIST 독음 SONG SONG명 SONG독음 수정(추가) 작업일자
MUSIC ARTIST 멜로망스 (MeloMance) SONG My Way 마이 웨이 05월 04일
MUSIC ARTIST Charlie Puth & Wiz
Khalifa
찰리 푸스 앤드 위즈
칼리파
SONG See You Again (폴 워커 추모 엔딩곡) 씨 유 어게인 씨 유 어겐 05월 04일
MUSIC ARTIST 서인국 & 정은지 서인국 앤드
정은지
SONG All For You 올 포 유 05월 04일
MUSIC ARTIST Ryan Gosling & Emma
Stone
라이언 고슬링 앤드 엠
마 스톤
SONG City Of Stars (From ‘La La Land’
Soundtrack)
시티 오브 스타스 05월 04일
MUSIC ARTIST Camila Cabello 카밀라 카베요 SONG Havana (Feat. Young Thug) 하바나 05월 04일

데이터 가공 자동화 플로우
Data discovery automation process
02
Business
Understanding
Data
Understanding
Data
Data
Preparation
Modeling
Evaluation
Deployment

Business understanding
02
항목 구분 비고 결과
정확도 95% 이상
변환속도 초당 1건 이상
최대 길이 전체 contents의 97% 이상을 커버
띄어쓰기 영향도 lakewood, lake wood => 레이크우드
혼합언어(mixed language)지원 헤이come온 => 헤이컴온
신조어(unseen) 대응 Hwajangpoom => 화장품
숫자, 기호 등 특수문자 처리 영원+1 => 영원 플러스 원
다중출력 Fake love => 페이크러브, 페익러브, 페익럽
웹 인터페이스 개별 변환 및 배치 프로세스 지원
도메인 확장성 TV, NAVI(POI), 기타
플랫폼
언어처리
한국어
변환
품질/성능
Table 1. 개발 요구사항
• 사업요구사항
– 독음 결과가 음성인식/대화에서의 품질요건을 만족하는가?
– 자동 변환이 보정 비용을 압도할 만큼 생산성에 기여하는가?
Buisiness
Understanding
Data
understanding
Data
preparation
Modeling Evaluation Deployment

Data understanding
02
항목 Translation(번역) Transliteration(독음)
고려대상 뜻이나 생각(의미) 가까운 소리
어순 바뀜 유지
주변 문맥 원거리 근거리
변환 난이도 대체로 어려움 상대적으로 쉬움
언어 소스 언어와 타겟 언어는 다름 소스 언어에 타겟 언어가 포함됨
독음은 번역과 유사하나 다른 점도 있다.
독음을 번역의 다양한 형태 중 하나로 보고 번역기 사용을 검토한다.
Table 2. 번역과의 차이점
데이터를 다시 보자.
Data
preparation
Data
Understanding
Business
understanding

Data understanding
02
• 독음 엔진이 다양한 음운 현상을 커버할 수 있을까?
• 학습 데이터는 충분한가?
발음변이 외래어 독음 예시 비고
음절초 자음 경음화 Game 게임/께임 Box
마찰음 /s/경음화 Ace 에이스/에이쓰 Sign
유음 /l/탈락 Television 텔레비전/테레비전 Plastic, plaza
모음변이 Lighter 라이터/라이타 Color
모음교체 Cajun 케이준 Ego, eternal
영어 이외의 외래어 Debut 데뷰 Chalet, chi
묵음 Comb 콤 Drinks
어중 /s/의 경음화 Panasonic 파나소(쏘)닉
Beseto,
asakan
경음/격음 교체 Boutique 부띠(티)크 bizcafe
(*) 한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 논문: 말소리와 음성과학 제7권 제3호(2015.09.30)에서 발췌
Table 3. 한국어에서 나타나는 다양하고 틀리기 쉬운 발음 변이*
Data
preparation
Data
Understanding
Business
understanding

Data preparation
02
Stargirl Interlude (Feat. Lana Del Rey)♪The Weeknd ♪스타걸 인터루드 ♪
What’s Up ♪Apexape ♪왓츠 업 ♪
9 To 5 ♪Harrison Brome ♪나인 투 파이브 ♪
氷 ♪거리의 시인들 ♪빙 ♪
Gadd A Tee? ♪Trio Toykeat ♪겟 어 티 ♪
아프지 마요♪젝스키스♪아프지마요♪
Cry – 부제 : 울고싶어라 ♪원타임 (1TYM) ♪크라이 ♪
& (Feat. Ven)
음악 콘텐츠 원천 데이터
• 고품질의 학습 데이터를 생산하기 위한 데이터 전처리(분류,
분리, 제거, 변환 등등)
1] 각 data 파일로부터 소스/타겟 데이터 분리하기
2] 데이터 전처리
① 괄호와 괄호 안 내용 제거
② dash(-)뒤 삭제
③ 한글과 ASCII code표에 있는 문자 이외의 특수기호 제거(음가 제외)
④ 대소문자 통일
⑤ 공백 수 맞추기
3] 두 개 이상 가능한 독음 매핑
source target
stargirl interlude
what’s up
9 to 5
gadd a tee
아프지마요
cry
1tym
&
스타걸 인터루드
왓츠업
나인 투 파이브
겟 어 티
아프지마요
크라이
원타임
앤드
…
…
9%
8%
17%
66%
독음 학습데이터
Roman Name Roman POI General Roman Music
 총 15만 쌍 데이터 확보!!
Data
understanding
Data
preparation
Business
understanding

Modeling
02
• 분절(subword) 방식의 SPM(sentence piece model)과 LSTM기반 GNMT(Google Neural Machine Translation) model
 SPM:BPE기반의 알고리즘, 분절(subwordunit)처리로띄어쓰기 오류 및 미등록어(OOV, OutOf Vocabulary) 대응
 GNMT:혼합(mixed)언어 처리(stackedresidualLSTM)
SPM(sentencepiecemodel)
GNMT(GoogleNeuralMachineTranslation)model
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding

Modeling
02
 분절(unsupervised)+ 독음(supervised)의2단계 혼합 프로세스
 SPM은 학습할 Source/target언어를 분절단위(subwordunit)로분리
 분절사전의 크기를 줄이면 OOV↓, bucket 용량 감소로 예측력 저하, 크기를 늘리면 OOV↑, 예측력 증가
분절모델
분절 독음
서비스부
“FAKE LOVE” “페이크 러브”
학습부
독음모델
분절학습기
Sentence Piece
Model(SPM)
독음학습기
(NMT)
_fa
ke
_love
_페이
크
_러브
Monolingual
corpus
Parallel
corpus
분절사전
전처리 전처리규칙
• 독음 구조
Data
preparation
Data
understanding
Business
understanding

Modeling
02
Data
preparation
Data
understanding
Business
understanding
Neural Machine Translation
SEQUENCE TO SEQUENCE MODEL
LSTM LSTM LSTM LSTM
DecoderEncoder
LSTMLSTM LSTM LSTM
_FA
• Sequence to sequence model(seq2seq)
인코더
(encoder)
Context
디코더
(decoder)
Text Input Translated
output
embedding embedding embedding embedding
KE _LO VE <sos>
embedding embedding embedding embedding
_페이 크 _러브
Dense Dense Dense Dense
Softmax Softmax Softmax Softmax
_페이 크 _러브 <eos>
Context

Modeling
02
Data
preparation
Data
understanding
Business
understanding
페 이 크 러
Decoder
<start>
“Fake Love”
브
TOP 1 결과 추출
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
• Greedy Search

Modeling
02
Data
preparation
Data
understanding
Business
understanding
브
START
훼
잌
럽
페
이
브
크
러
크
럽
리
러
후보자(Beam Size) = 2
부
<START>
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
TOP N 결과 추출
페이크 러브
N - BEST
BEST1
페이크 럽
훼이크 러브
페익 럽
BEST2
BEST3
BEST4
0.8932
0.6332
[확률]
0.5332
0.4322
Decoder
LSTM
브
부
“Fake Love”
• Beam Search

Evaluation
02
 1,000개 미등록(unseen)테스트 세트에 대한 측정 결과 1-gram기준 95.5% 정확도 달성
외국어 곡명 데이터
“Wake up!”
곡명 데이터 정답
“웨이크 업”
한글로 변환된 독음 결과
“웨이컵”
BLEU* score
정확도(%)
N-gram
3-gram
2-gram
1-gram
95%
90%
4-gram
• 독음 결과를 인간이 고른 정답과 비교
(*)BLEU: Bilingual Evaluation Understudy
Data
preparation
Data
understanding
Modeling DeploymentEvaluation
Business
understanding

Evaluation
02
특징 음악 원천 데이터 Human transBot BLEU-1
경음화 sell your soul 셀유어소울 셀유어쏘울 0.8
모음 변이 Nee armstrong 니암스트롱 니아름스트롱 0.67
다중 출력 remembering the summer nights
리멤버링 더 썸머 나이츠|리멤버링
더 썸머 나잇
리멤버링 더 썸머 나잇츠 1.0
특수문자
by'n by 바이엔바이 바이바이 0.78
you're nobody 'til somebody loves you 유얼 노바디 틸 썸바디 러브스유 유아 노바틸 틸 썸바디 러브 유 0.77
묵음 gay chicks 게이 칙스 게이 치식스 0.6
유음 /l/ 삽입 turet 튤렛 튜렛 0.5
숫자 the 25th chapter 더 트웬티파이브쓰 챕터 더 투 피투프스 챕터 0.29
영문화된 한글 hwajangpoom 화장품 훼장 펌 0.25
긴 문장
in the wee small hours of the morning
인 더 위 스몰 하우어스 오브 더 모
닝
인 더 위 스몰 오크 오브 더 모닝 0.77
cries of despair coming from christians
burning in jerusalem
크라이스 오브 디스페어 커밍 프롬
크리스챤스 버닝 인 예루살렘
프롬 프롬 크리스빈 인 예랄렘이제랄 0.28
• 오류 사례
 Data, Data, Data!
–더 많은 데이터
–전처리(특수문자, 기호, 숫자, …)를 통한 데이터 정제
–장문에 취약 -> 긴 문장 처리를 위한 분절 사전 최적화
Data
preparation
Data
understanding
Modeling DeploymentEvaluation
Business
understanding

Deployment
02
항목 구분 2018.10 2019.04 요약
정확도 95.5% 96~97%  5단어 이하의 1,000개 미등록어에 대한 BLEU score 측정 결과
95~96% 수준으로 국내 최고 수준 성능 달성
 수작업 최소화를 위해 99% 이상 목표
 지속적인 학습 및 정제를 통해 목표 수준 달성 계획
변환속도 0.4 sec /개 0.03sec/개
최대 길이 4~5단어 6~7단어 이상
띄어쓰기 영향도 △ O
 신규 contents의 다양한 케이스에 대하여 정확한 독음 결과 보장
혼합 언어(mixed
language) 지원
△ △
신조어(unseen) 대응 O O
특수문자 숫자, 기호 등 처리 △ △  지니뮤직 독음 학습 데이터 정제(숫자, 특수문자) 필요
다중출력 △ O  고도화 개발 완료 (greedy search -> beam search)
개발환경
Python 2.7,
tensorflow
0.11.0
python3.6,
tensorflow
1.12, cuda
8.0
 tensorboard
웹인터페이스 O O  기존 데이터 입력 UI와 결합하여 실제 업무에서 활용성을 높임
도메인 확장성 O O  Youtube, 아프리카TV, 영어서적(2019.02)
플랫폼
언어처리
한국어
변환
품질/성능
• 구현 결과
– 음성인식/대화에서의 품질 요건 충족
– 생산성에 크게 기여
Data
preparation
Data
understanding
Business
understanding

Deployment
02
• 자동화에 따른 생산성 향상 및 처리비용 감소
Manual Web AI
{
"ARTIST_ID": 80627044,
"ACTION_FLAG": "I",
"SONG_NAME": "West",
"TTS": ＂웨스트",
"KEYWORD2": [],
"SONG_ID": 87877186,
…
{
"ARTIST_ID": 80627044,
"ACTION_FLAG": "I",
"SONG_NAME": "West",
"TTS": "",
"KEYWORD2": [],
"SONG_ID": 87877186,
…
※ 곡명 독음 작업 예시
Web 저작도구 개발 독음기자료입력원이 직접 파일을 편집
671
981
213

146

20
평균 독음(1MD) : 671건
독음 1건당 비용 : 213원
비용(180만건 독음) : 3.83억
평균 독음(1MD) : 981건
비용(180만건 독음) : 2.63억
평균 독음(1MD) : 7,000건
비용(180만건 독음) : 0.36억
7,000
46%
614
%
31.4
%
86.3
%
생산성 6배 ↑, 비용 86% ↓
Data
preparation
Data
understanding
Business
understanding

Summary
마무리
03
• 의미
–NMT 기술을 활용, 독음이라는 문제에 적용하여 고품질 및 차별적 기능을 달성
• 어려웠던 점
–레퍼런스 부재
–모델링 보다는 오히려 데이터 정제 등의 전처리 과정에 대부분의 시간 투입
–고품질의 데이터를 구축하기 위한 수작업 공수는 여전히 크다
• 서비스
–POI, TV, Commerce 등 영역 확대
–데이터 검증 인력과 기계와의 상호 과정 속에 반복학습이 가능한 데이터 선순환 체계 확립 필요
• 영역 확장
–데이터만 확보된다면 의미 관계에 있는 다른 Task 적용 가능
–기술적 진보는 우리로 하여금 모델링과 서비스에만 집중할 수 있게 도와줌
Task X Y
Machine Translation A언어로 이루어진 문장 B언어로 이루어진 번역문
Machine Reading Comprehension Context와 질문 응답
Summarization 도큐먼트 요약문
Natural User Interface Command(Text/speech) Action
Image captioning Text string Images
… … …

GiGA Genie음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
QnA
• 많은 데이터를 가진 간단한 모델은 정교한 모델을 압도한다*
• 알고리즘이나 기술은 점점 개방화, 인프라 의존성 증가, 거대한
데이터를 수용 가능하게 발전해 왔다.
• 기술이나 사고방식보다는 데이터 자체가 소중해지는 시대이다.
• 데이터의 양과 질 사이에서 타협점을 찾아야 하는 고민은
계속된다.
(*) Unreasonable effectiveness of data – Peter Norvic, etc. 에서 발췌

GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화

Recommended

Recommended

More Related Content

Similar to GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화

Similar to GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화 (16)

More from ksdc2019

More from ksdc2019 (11)

GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화