SlideShare a Scribd company logo
1 of 23
Download to read offline
GiGA Genie 음성/대화 품질 향상을 위한
독음 데이터 가공 자동화
순도를 높이는 데이터 가공기술
KT S/W Developer Conference 2019 | 박성찬
Contents
0 자기소개
1 솔루션 배경 및 필요성
2 데이터 가공 자동화 플로우
3 Summary
# QnA
Experience
• Giga Genie data discovery platform
• Speech based AI contact center
• E-commerce search platform
• Question Answering system
2013-present
KT IT
• Spoken language understanding
• Speech synthesis(concatenative)
• Speech recognition(language modeling)
• Multi modal interaction(speech based)
2004-2013 KT R&D
• Speech recognition(HMM)
1997-2001 Samsungschanpark@gmail.com
Buljeongno 90, KT
Sung Chan Park
Senior Engineer
Senior Engineer
Profile
A skillful and enthusiastic
engineer with 15+ year
experience in speech and
language processing within
telecommunication and AI
industry
Research Engineer
Research Engineer
Education
2002-2004
Research Assistant • Statistical Machine Translation(MS)
Computational Linguistics at USC
솔루션 배경 및 필요성
솔루션 소개: AI스피커의 용도별 순위
01
• 주로 어디에 사용할까?
솔루션 배경 및 필요성
기가지니 음악 재생 시나리오
01
WAKE UP
음악재생
“방탄소년단 웨이크업
들려줘“
요청하신 노래를
재생할게요”
음성인식
서버
대화서버
곡명 가수명 곡명 독음 곡명 유의어 가수명 독음 가수명 유의어 발화어
WAKE UP BTS 웨이크 업 일어나 비티에스 방탄소년단
방탄소년단 웨이크 업 들려줘,
…
기가지니 음악 콘텐츠 DB
기가지니 음악 재생 서비스
음성인식
학습
대화 학습 지니뮤직 검색
(*) 독음(讀音): 소리를 기반으로 한 문자 시스템을 다른 문자 시스템으로 대응시키는 과정
솔루션 배경 및 필요성
기가지니 시연
01
• 독음 처리가 안 되어 있는 경우
솔루션 배경 및 필요성
자동화 요구사항
01
Raw data Training data
Raw data Training data
AI
독음 과정을 100% 수작업에 의존
AI가 빠르게 독음을 수행하고 사람이 보정
최종 결과 품질을 높이고 생산성을 극대화!
MUSIC ARTIST ARTSIT 명 ARTIST 독음 SONG SONG명 SONG독음 수정(추가) 작업일자
MUSIC ARTIST 멜로망스 (MeloMance) SONG My Way 마이 웨이 05월 04일
MUSIC ARTIST Charlie Puth & Wiz
Khalifa
찰리 푸스 앤드 위즈
칼리파
SONG See You Again (폴 워커 추모 엔딩곡) 씨 유 어게인 씨 유 어겐 05월 04일
MUSIC ARTIST 서인국 & 정은지 서인국 앤드
정은지
SONG All For You 올 포 유 05월 04일
MUSIC ARTIST Ryan Gosling & Emma
Stone
라이언 고슬링 앤드 엠
마 스톤
SONG City Of Stars (From ‘La La Land’
Soundtrack)
시티 오브 스타스 05월 04일
MUSIC ARTIST Camila Cabello 카밀라 카베요 SONG Havana (Feat. Young Thug) 하바나 05월 04일
데이터 가공 자동화 플로우
Data discovery automation process
02
Business
Understanding
Data
Understanding
Data
Data
Preparation
Modeling
Evaluation
Deployment
데이터 가공 자동화 플로우
Business understanding
02
항목 구분 비고 결과
정확도 95% 이상
변환속도 초당 1건 이상
최대 길이 전체 contents의 97% 이상을 커버
띄어쓰기 영향도 lakewood, lake wood => 레이크우드
혼합언어(mixed language)지원 헤이come온 => 헤이컴온
신조어(unseen) 대응 Hwajangpoom => 화장품
숫자, 기호 등 특수문자 처리 영원+1 => 영원 플러스 원
다중출력 Fake love => 페이크러브, 페익러브, 페익럽
웹 인터페이스 개별 변환 및 배치 프로세스 지원
도메인 확장성 TV, NAVI(POI), 기타
플랫폼
언어처리
한국어
변환
품질/성능
Table 1. 개발 요구사항
• 사업요구사항
– 독음 결과가 음성인식/대화에서의 품질요건을 만족하는가?
– 자동 변환이 보정 비용을 압도할 만큼 생산성에 기여하는가?
Buisiness
Understanding
Data
understanding
Data
preparation
Modeling Evaluation Deployment
데이터 가공 자동화 플로우
Data understanding
02
항목 Translation(번역) Transliteration(독음)
고려대상 뜻이나 생각(의미) 가까운 소리
어순 바뀜 유지
주변 문맥 원거리 근거리
변환 난이도 대체로 어려움 상대적으로 쉬움
언어 소스 언어와 타겟 언어는 다름 소스 언어에 타겟 언어가 포함됨
독음은 번역과 유사하나 다른 점도 있다.
독음을 번역의 다양한 형태 중 하나로 보고 번역기 사용을 검토한다.
Table 2. 번역과의 차이점
데이터를 다시 보자.
Data
preparation
Modeling Evaluation Deployment
Data
Understanding
Business
understanding
데이터 가공 자동화 플로우
Data understanding
02
• 독음 엔진이 다양한 음운 현상을 커버할 수 있을까?
• 학습 데이터는 충분한가?
발음변이 외래어 독음 예시 비고
음절초 자음 경음화 Game 게임/께임 Box
마찰음 /s/경음화 Ace 에이스/에이쓰 Sign
유음 /l/탈락 Television 텔레비전/테레비전 Plastic, plaza
모음변이 Lighter 라이터/라이타 Color
모음교체 Cajun 케이준 Ego, eternal
영어 이외의 외래어 Debut 데뷰 Chalet, chi
묵음 Comb 콤 Drinks
어중 /s/의 경음화 Panasonic 파나소(쏘)닉
Beseto,
asakan
경음/격음 교체 Boutique 부띠(티)크 bizcafe
(*) 한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 논문: 말소리와 음성과학 제7권 제3호(2015.09.30)에서 발췌
Table 3. 한국어에서 나타나는 다양하고 틀리기 쉬운 발음 변이*
Data
preparation
Modeling Evaluation Deployment
Data
Understanding
Business
understanding
데이터 가공 자동화 플로우
Data preparation
02
Stargirl Interlude (Feat. Lana Del Rey)♪The Weeknd ♪스타걸 인터루드 ♪
What’s Up ♪Apexape ♪왓츠 업 ♪
9 To 5 ♪Harrison Brome ♪나인 투 파이브 ♪
氷 ♪거리의 시인들 ♪빙 ♪
Gadd A Tee? ♪Trio Toykeat ♪겟 어 티 ♪
아프지 마요♪젝스키스♪아프지마요♪
Cry – 부제 : 울고싶어라 ♪원타임 (1TYM) ♪크라이 ♪
& (Feat. Ven)
음악 콘텐츠 원천 데이터
• 고품질의 학습 데이터를 생산하기 위한 데이터 전처리(분류,
분리, 제거, 변환 등등)
1] 각 data 파일로부터 소스/타겟 데이터 분리하기
2] 데이터 전처리
① 괄호와 괄호 안 내용 제거
② dash(-)뒤 삭제
③ 한글과 ASCII code표에 있는 문자 이외의 특수기호 제거(음가 제외)
④ 대소문자 통일
⑤ 공백 수 맞추기
3] 두 개 이상 가능한 독음 매핑
source target
stargirl interlude
what’s up
9 to 5
gadd a tee
아프지마요
cry
1tym
&
스타걸 인터루드
왓츠업
나인 투 파이브
겟 어 티
아프지마요
크라이
원타임
앤드
…
…
9%
8%
17%
66%
독음 학습데이터
Roman Name Roman POI General Roman Music
 총 15만 쌍 데이터 확보!!
Data
understanding
Modeling Evaluation Deployment
Data
preparation
Business
understanding
데이터 가공 자동화 플로우
Modeling
02
• 분절(subword) 방식의 SPM(sentence piece model)과 LSTM기반 GNMT(Google Neural Machine Translation) model
 SPM:BPE기반의 알고리즘, 분절(subwordunit)처리로띄어쓰기 오류 및 미등록어(OOV, OutOf Vocabulary) 대응
 GNMT:혼합(mixed)언어 처리(stackedresidualLSTM)
SPM(sentencepiecemodel)
GNMT(GoogleNeuralMachineTranslation)model
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding
데이터 가공 자동화 플로우
Modeling
02
 분절(unsupervised)+ 독음(supervised)의2단계 혼합 프로세스
 SPM은 학습할 Source/target언어를 분절단위(subwordunit)로분리
 분절사전의 크기를 줄이면 OOV↓, bucket 용량 감소로 예측력 저하, 크기를 늘리면 OOV↑, 예측력 증가
분절모델
분절 독음
서비스부
“FAKE LOVE” “페이크 러브”
학습부
독음모델
분절학습기
Sentence Piece
Model(SPM)
독음학습기
(NMT)
_fa
ke
_love
_페이
크
_러브
Monolingual
corpus
Parallel
corpus
분절사전
전처리 전처리규칙
• 독음 구조
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding
데이터 가공 자동화 플로우
Modeling
02
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding
Neural Machine Translation
SEQUENCE TO SEQUENCE MODEL
LSTM LSTM LSTM LSTM
DecoderEncoder
LSTMLSTM LSTM LSTM
_FA
• Sequence to sequence model(seq2seq)
인코더
(encoder)
Context
디코더
(decoder)
Text Input Translated
output
embedding embedding embedding embedding
KE _LO VE <sos>
embedding embedding embedding embedding
_페이 크 _러브
Dense Dense Dense Dense
Softmax Softmax Softmax Softmax
_페이 크 _러브 <eos>
Context
데이터 가공 자동화 플로우
Modeling
02
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding
페 이 크 러
Decoder
<start>
“Fake Love”
브
TOP 1 결과 추출
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
• Greedy Search
데이터 가공 자동화 플로우
Modeling
02
Data
preparation
Data
understanding
Evaluation DeploymentModeling
Business
understanding
브
START
훼
잌
럽
페
이
브
크
러
크
럽
리
러
후보자(Beam Size) = 2
부
<START>
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
Decoder
LSTM
TOP N 결과 추출
페이크 러브
N - BEST
BEST1
페이크 럽
훼이크 러브
페익 럽
BEST2
BEST3
BEST4
0.8932
0.6332
[확률]
0.5332
0.4322
Decoder
LSTM
브
부
“Fake Love”
• Beam Search
데이터 가공 자동화 플로우
Evaluation
02
 1,000개 미등록(unseen)테스트 세트에 대한 측정 결과 1-gram기준 95.5% 정확도 달성
외국어 곡명 데이터
“Wake up!”
곡명 데이터 정답
“웨이크 업”
한글로 변환된 독음 결과
“웨이컵”
BLEU* score
정확도(%)
N-gram
3-gram
2-gram
1-gram
95%
90%
4-gram
• 독음 결과를 인간이 고른 정답과 비교
(*)BLEU: Bilingual Evaluation Understudy
Data
preparation
Data
understanding
Modeling DeploymentEvaluation
Business
understanding
데이터 가공 자동화 플로우
Evaluation
02
특징 음악 원천 데이터 Human transBot BLEU-1
경음화 sell your soul 셀유어소울 셀유어쏘울 0.8
모음 변이 Nee armstrong 니암스트롱 니아름스트롱 0.67
다중 출력 remembering the summer nights
리멤버링 더 썸머 나이츠|리멤버링
더 썸머 나잇
리멤버링 더 썸머 나잇츠 1.0
특수문자
by'n by 바이엔바이 바이바이 0.78
you're nobody 'til somebody loves you 유얼 노바디 틸 썸바디 러브스유 유아 노바틸 틸 썸바디 러브 유 0.77
묵음 gay chicks 게이 칙스 게이 치식스 0.6
유음 /l/ 삽입 turet 튤렛 튜렛 0.5
숫자 the 25th chapter 더 트웬티파이브쓰 챕터 더 투 피투프스 챕터 0.29
영문화된 한글 hwajangpoom 화장품 훼장 펌 0.25
긴 문장
in the wee small hours of the morning
인 더 위 스몰 하우어스 오브 더 모
닝
인 더 위 스몰 오크 오브 더 모닝 0.77
cries of despair coming from christians
burning in jerusalem
크라이스 오브 디스페어 커밍 프롬
크리스챤스 버닝 인 예루살렘
프롬 프롬 크리스빈 인 예랄렘이제랄 0.28
• 오류 사례
 Data, Data, Data!
–더 많은 데이터
–전처리(특수문자, 기호, 숫자, …)를 통한 데이터 정제
–장문에 취약 -> 긴 문장 처리를 위한 분절 사전 최적화
Data
preparation
Data
understanding
Modeling DeploymentEvaluation
Business
understanding
데이터 가공 자동화 플로우
Deployment
02
항목 구분 2018.10 2019.04 요약
정확도 95.5% 96~97%  5단어 이하의 1,000개 미등록어에 대한 BLEU score 측정 결과
95~96% 수준으로 국내 최고 수준 성능 달성
 수작업 최소화를 위해 99% 이상 목표
 지속적인 학습 및 정제를 통해 목표 수준 달성 계획
변환속도 0.4 sec /개 0.03sec/개
최대 길이 4~5단어 6~7단어 이상
띄어쓰기 영향도 △ O
 신규 contents의 다양한 케이스에 대하여 정확한 독음 결과 보장
혼합 언어(mixed
language) 지원
△ △
신조어(unseen) 대응 O O
특수문자 숫자, 기호 등 처리 △ △  지니뮤직 독음 학습 데이터 정제(숫자, 특수문자) 필요
다중출력 △ O  고도화 개발 완료 (greedy search -> beam search)
개발환경
Python 2.7,
tensorflow
0.11.0
python3.6,
tensorflow
1.12, cuda
8.0
 tensorboard
웹인터페이스 O O  기존 데이터 입력 UI와 결합하여 실제 업무에서 활용성을 높임
도메인 확장성 O O  Youtube, 아프리카TV, 영어서적(2019.02)
플랫폼
언어처리
한국어
변환
품질/성능
• 구현 결과
– 음성인식/대화에서의 품질 요건 충족
– 생산성에 크게 기여
Data
preparation
Data
understanding
Modeling Evaluation Deployment
Business
understanding
데이터 가공 자동화 플로우
Deployment
02
• 자동화에 따른 생산성 향상 및 처리비용 감소
Manual Web AI
{
"ARTIST_ID": 80627044,
"ACTION_FLAG": "I",
"SONG_NAME": "West",
"TTS": "웨스트",
"KEYWORD2": [],
"SONG_ID": 87877186,
…
{
"ARTIST_ID": 80627044,
"ACTION_FLAG": "I",
"SONG_NAME": "West",
"TTS": "",
"KEYWORD2": [],
"SONG_ID": 87877186,
…
※ 곡명 독음 작업 예시
Web 저작도구 개발 독음기자료입력원이 직접 파일을 편집
671
981
213

146

20
평균 독음(1MD) : 671건
독음 1건당 비용 : 213원
비용(180만건 독음) : 3.83억
평균 독음(1MD) : 981건
독음 1건당 비용 : 146원
비용(180만건 독음) : 2.63억
평균 독음(1MD) : 7,000건
독음 1건당 비용 : 20원
비용(180만건 독음) : 0.36억
7,000
46%
614
%
31.4
%
86.3
%
생산성 6배 ↑, 비용 86% ↓
Data
preparation
Data
understanding
Modeling Evaluation Deployment
Business
understanding
Summary
마무리
03
• 의미
–NMT 기술을 활용, 독음이라는 문제에 적용하여 고품질 및 차별적 기능을 달성
• 어려웠던 점
–레퍼런스 부재
–모델링 보다는 오히려 데이터 정제 등의 전처리 과정에 대부분의 시간 투입
–고품질의 데이터를 구축하기 위한 수작업 공수는 여전히 크다
• 서비스
–POI, TV, Commerce 등 영역 확대
–데이터 검증 인력과 기계와의 상호 과정 속에 반복학습이 가능한 데이터 선순환 체계 확립 필요
• 영역 확장
–데이터만 확보된다면 의미 관계에 있는 다른 Task 적용 가능
–기술적 진보는 우리로 하여금 모델링과 서비스에만 집중할 수 있게 도와줌
Task X Y
Machine Translation A언어로 이루어진 문장 B언어로 이루어진 번역문
Machine Reading Comprehension Context와 질문 응답
Summarization 도큐먼트 요약문
Natural User Interface Command(Text/speech) Action
Image captioning Text string Images
… … …
GiGA Genie음성/대화 품질 향상을 위한 독음 데이터 가공 자동화
QnA
• 많은 데이터를 가진 간단한 모델은 정교한 모델을 압도한다*
• 알고리즘이나 기술은 점점 개방화, 인프라 의존성 증가, 거대한
데이터를 수용 가능하게 발전해 왔다.
• 기술이나 사고방식보다는 데이터 자체가 소중해지는 시대이다.
• 데이터의 양과 질 사이에서 타협점을 찾아야 하는 고민은
계속된다.
(*) Unreasonable effectiveness of data – Peter Norvic, etc. 에서 발췌

More Related Content

Similar to GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화

해외에서도 통하는 소프트웨어 만들기
해외에서도 통하는 소프트웨어 만들기해외에서도 통하는 소프트웨어 만들기
해외에서도 통하는 소프트웨어 만들기Mira Park
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례NUGU developers
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Jihwan Bang
 
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로Amazon Web Services Korea
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업Taejoon Yoo
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용Susang Kim
 
세계에서 통하는 소프트웨어 만들기
세계에서 통하는 소프트웨어 만들기 세계에서 통하는 소프트웨어 만들기
세계에서 통하는 소프트웨어 만들기 Mira Park
 
[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발NAVER D2
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작Tae Young Lee
 
150520_테헤란로 커피클럽_Npac
150520_테헤란로 커피클럽_Npac 150520_테헤란로 커피클럽_Npac
150520_테헤란로 커피클럽_Npac StartupAlliance
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]fgf201213
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자Sangmo Kang
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자Sangmo Kang
 
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개NUGU developers
 
디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)Digital Initiative Group
 

Similar to GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화 (16)

해외에서도 통하는 소프트웨어 만들기
해외에서도 통하는 소프트웨어 만들기해외에서도 통하는 소프트웨어 만들기
해외에서도 통하는 소프트웨어 만들기
 
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
[NUGU Conference 2018] 세션 B-1 : 음성인식 기술 및 응용 사례
 
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020) Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
Low Price, High Quality: 적은 비용으로 모델 성능 높이기 (Naver Deview 2020)
 
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로
AWS Finance Symposium_Fintech을 넘어서서 AI/Machine Learning 금융으로
 
Minds ryl 사업
Minds ryl 사업Minds ryl 사업
Minds ryl 사업
 
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용Python과 Tensorflow를 활용한  AI Chatbot 개발 및 실무 적용
Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용
 
세계에서 통하는 소프트웨어 만들기
세계에서 통하는 소프트웨어 만들기 세계에서 통하는 소프트웨어 만들기
세계에서 통하는 소프트웨어 만들기
 
[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발[2D2]다국어음성합성시스템(NVOICE)개발
[2D2]다국어음성합성시스템(NVOICE)개발
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
150520_테헤란로 커피클럽_Npac
150520_테헤란로 커피클럽_Npac 150520_테헤란로 커피클럽_Npac
150520_테헤란로 커피클럽_Npac
 
韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]韩国Ppt高手收集的ppt图表素材[免积分下载]
韩国Ppt高手收集的ppt图表素材[免积分下载]
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
 
사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자사업계획서 알음알음 포스코기술투자
사업계획서 알음알음 포스코기술투자
 
Ipa definition
Ipa definitionIpa definition
Ipa definition
 
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
[NUGU CONFERENCE 2019] 트랙 A-6 : 개인화 서비스를 위한 음성기반 화자인식 기술 소개
 
디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)디지털시대 고객분석과 대응(세종대 이동일교수)
디지털시대 고객분석과 대응(세종대 이동일교수)
 

More from ksdc2019

한국에서도 애자일과 DevOps 할 수 있다
한국에서도 애자일과 DevOps 할 수 있다한국에서도 애자일과 DevOps 할 수 있다
한국에서도 애자일과 DevOps 할 수 있다ksdc2019
 
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기ksdc2019
 
자율 주행 플랫폼 개발을 통한 IT Transformation
자율 주행 플랫폼 개발을 통한 IT Transformation자율 주행 플랫폼 개발을 통한 IT Transformation
자율 주행 플랫폼 개발을 통한 IT Transformationksdc2019
 
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅ksdc2019
 
5G 시대의 자율 주행, 기술 변화 트렌드
5G 시대의 자율 주행, 기술 변화 트렌드5G 시대의 자율 주행, 기술 변화 트렌드
5G 시대의 자율 주행, 기술 변화 트렌드ksdc2019
 
경로탐색은 어떻게 하는걸까
경로탐색은 어떻게 하는걸까경로탐색은 어떻게 하는걸까
경로탐색은 어떻게 하는걸까ksdc2019
 
쿠버네티스 기반의 5G V2X Mediation Cluster 개발
쿠버네티스 기반의 5G V2X Mediation Cluster 개발쿠버네티스 기반의 5G V2X Mediation Cluster 개발
쿠버네티스 기반의 5G V2X Mediation Cluster 개발ksdc2019
 
AI-IoT 연동을 위한 KT GiGA Genie Home Skills
AI-IoT 연동을 위한 KT GiGA Genie Home SkillsAI-IoT 연동을 위한 KT GiGA Genie Home Skills
AI-IoT 연동을 위한 KT GiGA Genie Home Skillsksdc2019
 
Elasticsearch를 활용한 GIS 검색
Elasticsearch를 활용한 GIS 검색Elasticsearch를 활용한 GIS 검색
Elasticsearch를 활용한 GIS 검색ksdc2019
 
GiGA Genie는 왜 Web App을 선택했는가?
GiGA Genie는 왜 Web App을 선택했는가?GiGA Genie는 왜 Web App을 선택했는가?
GiGA Genie는 왜 Web App을 선택했는가?ksdc2019
 
GiGA Genie를 위한 Text Analytics 기술
GiGA Genie를 위한 Text Analytics 기술GiGA Genie를 위한 Text Analytics 기술
GiGA Genie를 위한 Text Analytics 기술ksdc2019
 

More from ksdc2019 (11)

한국에서도 애자일과 DevOps 할 수 있다
한국에서도 애자일과 DevOps 할 수 있다한국에서도 애자일과 DevOps 할 수 있다
한국에서도 애자일과 DevOps 할 수 있다
 
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
 
자율 주행 플랫폼 개발을 통한 IT Transformation
자율 주행 플랫폼 개발을 통한 IT Transformation자율 주행 플랫폼 개발을 통한 IT Transformation
자율 주행 플랫폼 개발을 통한 IT Transformation
 
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅
어려웠다, WebRTC를 활용한 360º 영상통화 트러블 슈팅
 
5G 시대의 자율 주행, 기술 변화 트렌드
5G 시대의 자율 주행, 기술 변화 트렌드5G 시대의 자율 주행, 기술 변화 트렌드
5G 시대의 자율 주행, 기술 변화 트렌드
 
경로탐색은 어떻게 하는걸까
경로탐색은 어떻게 하는걸까경로탐색은 어떻게 하는걸까
경로탐색은 어떻게 하는걸까
 
쿠버네티스 기반의 5G V2X Mediation Cluster 개발
쿠버네티스 기반의 5G V2X Mediation Cluster 개발쿠버네티스 기반의 5G V2X Mediation Cluster 개발
쿠버네티스 기반의 5G V2X Mediation Cluster 개발
 
AI-IoT 연동을 위한 KT GiGA Genie Home Skills
AI-IoT 연동을 위한 KT GiGA Genie Home SkillsAI-IoT 연동을 위한 KT GiGA Genie Home Skills
AI-IoT 연동을 위한 KT GiGA Genie Home Skills
 
Elasticsearch를 활용한 GIS 검색
Elasticsearch를 활용한 GIS 검색Elasticsearch를 활용한 GIS 검색
Elasticsearch를 활용한 GIS 검색
 
GiGA Genie는 왜 Web App을 선택했는가?
GiGA Genie는 왜 Web App을 선택했는가?GiGA Genie는 왜 Web App을 선택했는가?
GiGA Genie는 왜 Web App을 선택했는가?
 
GiGA Genie를 위한 Text Analytics 기술
GiGA Genie를 위한 Text Analytics 기술GiGA Genie를 위한 Text Analytics 기술
GiGA Genie를 위한 Text Analytics 기술
 

GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화

  • 1. GiGA Genie 음성/대화 품질 향상을 위한 독음 데이터 가공 자동화 순도를 높이는 데이터 가공기술 KT S/W Developer Conference 2019 | 박성찬
  • 2. Contents 0 자기소개 1 솔루션 배경 및 필요성 2 데이터 가공 자동화 플로우 3 Summary # QnA
  • 3. Experience • Giga Genie data discovery platform • Speech based AI contact center • E-commerce search platform • Question Answering system 2013-present KT IT • Spoken language understanding • Speech synthesis(concatenative) • Speech recognition(language modeling) • Multi modal interaction(speech based) 2004-2013 KT R&D • Speech recognition(HMM) 1997-2001 Samsungschanpark@gmail.com Buljeongno 90, KT Sung Chan Park Senior Engineer Senior Engineer Profile A skillful and enthusiastic engineer with 15+ year experience in speech and language processing within telecommunication and AI industry Research Engineer Research Engineer Education 2002-2004 Research Assistant • Statistical Machine Translation(MS) Computational Linguistics at USC
  • 4. 솔루션 배경 및 필요성 솔루션 소개: AI스피커의 용도별 순위 01 • 주로 어디에 사용할까?
  • 5. 솔루션 배경 및 필요성 기가지니 음악 재생 시나리오 01 WAKE UP 음악재생 “방탄소년단 웨이크업 들려줘“ 요청하신 노래를 재생할게요” 음성인식 서버 대화서버 곡명 가수명 곡명 독음 곡명 유의어 가수명 독음 가수명 유의어 발화어 WAKE UP BTS 웨이크 업 일어나 비티에스 방탄소년단 방탄소년단 웨이크 업 들려줘, … 기가지니 음악 콘텐츠 DB 기가지니 음악 재생 서비스 음성인식 학습 대화 학습 지니뮤직 검색 (*) 독음(讀音): 소리를 기반으로 한 문자 시스템을 다른 문자 시스템으로 대응시키는 과정
  • 6. 솔루션 배경 및 필요성 기가지니 시연 01 • 독음 처리가 안 되어 있는 경우
  • 7. 솔루션 배경 및 필요성 자동화 요구사항 01 Raw data Training data Raw data Training data AI 독음 과정을 100% 수작업에 의존 AI가 빠르게 독음을 수행하고 사람이 보정 최종 결과 품질을 높이고 생산성을 극대화! MUSIC ARTIST ARTSIT 명 ARTIST 독음 SONG SONG명 SONG독음 수정(추가) 작업일자 MUSIC ARTIST 멜로망스 (MeloMance) SONG My Way 마이 웨이 05월 04일 MUSIC ARTIST Charlie Puth & Wiz Khalifa 찰리 푸스 앤드 위즈 칼리파 SONG See You Again (폴 워커 추모 엔딩곡) 씨 유 어게인 씨 유 어겐 05월 04일 MUSIC ARTIST 서인국 & 정은지 서인국 앤드 정은지 SONG All For You 올 포 유 05월 04일 MUSIC ARTIST Ryan Gosling & Emma Stone 라이언 고슬링 앤드 엠 마 스톤 SONG City Of Stars (From ‘La La Land’ Soundtrack) 시티 오브 스타스 05월 04일 MUSIC ARTIST Camila Cabello 카밀라 카베요 SONG Havana (Feat. Young Thug) 하바나 05월 04일
  • 8. 데이터 가공 자동화 플로우 Data discovery automation process 02 Business Understanding Data Understanding Data Data Preparation Modeling Evaluation Deployment
  • 9. 데이터 가공 자동화 플로우 Business understanding 02 항목 구분 비고 결과 정확도 95% 이상 변환속도 초당 1건 이상 최대 길이 전체 contents의 97% 이상을 커버 띄어쓰기 영향도 lakewood, lake wood => 레이크우드 혼합언어(mixed language)지원 헤이come온 => 헤이컴온 신조어(unseen) 대응 Hwajangpoom => 화장품 숫자, 기호 등 특수문자 처리 영원+1 => 영원 플러스 원 다중출력 Fake love => 페이크러브, 페익러브, 페익럽 웹 인터페이스 개별 변환 및 배치 프로세스 지원 도메인 확장성 TV, NAVI(POI), 기타 플랫폼 언어처리 한국어 변환 품질/성능 Table 1. 개발 요구사항 • 사업요구사항 – 독음 결과가 음성인식/대화에서의 품질요건을 만족하는가? – 자동 변환이 보정 비용을 압도할 만큼 생산성에 기여하는가? Buisiness Understanding Data understanding Data preparation Modeling Evaluation Deployment
  • 10. 데이터 가공 자동화 플로우 Data understanding 02 항목 Translation(번역) Transliteration(독음) 고려대상 뜻이나 생각(의미) 가까운 소리 어순 바뀜 유지 주변 문맥 원거리 근거리 변환 난이도 대체로 어려움 상대적으로 쉬움 언어 소스 언어와 타겟 언어는 다름 소스 언어에 타겟 언어가 포함됨 독음은 번역과 유사하나 다른 점도 있다. 독음을 번역의 다양한 형태 중 하나로 보고 번역기 사용을 검토한다. Table 2. 번역과의 차이점 데이터를 다시 보자. Data preparation Modeling Evaluation Deployment Data Understanding Business understanding
  • 11. 데이터 가공 자동화 플로우 Data understanding 02 • 독음 엔진이 다양한 음운 현상을 커버할 수 있을까? • 학습 데이터는 충분한가? 발음변이 외래어 독음 예시 비고 음절초 자음 경음화 Game 게임/께임 Box 마찰음 /s/경음화 Ace 에이스/에이쓰 Sign 유음 /l/탈락 Television 텔레비전/테레비전 Plastic, plaza 모음변이 Lighter 라이터/라이타 Color 모음교체 Cajun 케이준 Ego, eternal 영어 이외의 외래어 Debut 데뷰 Chalet, chi 묵음 Comb 콤 Drinks 어중 /s/의 경음화 Panasonic 파나소(쏘)닉 Beseto, asakan 경음/격음 교체 Boutique 부띠(티)크 bizcafe (*) 한국인 화자의 외래어 발음 변이 양상과 음절 기반 외래어 자소-음소 변환 논문: 말소리와 음성과학 제7권 제3호(2015.09.30)에서 발췌 Table 3. 한국어에서 나타나는 다양하고 틀리기 쉬운 발음 변이* Data preparation Modeling Evaluation Deployment Data Understanding Business understanding
  • 12. 데이터 가공 자동화 플로우 Data preparation 02 Stargirl Interlude (Feat. Lana Del Rey)♪The Weeknd ♪스타걸 인터루드 ♪ What’s Up ♪Apexape ♪왓츠 업 ♪ 9 To 5 ♪Harrison Brome ♪나인 투 파이브 ♪ 氷 ♪거리의 시인들 ♪빙 ♪ Gadd A Tee? ♪Trio Toykeat ♪겟 어 티 ♪ 아프지 마요♪젝스키스♪아프지마요♪ Cry – 부제 : 울고싶어라 ♪원타임 (1TYM) ♪크라이 ♪ & (Feat. Ven) 음악 콘텐츠 원천 데이터 • 고품질의 학습 데이터를 생산하기 위한 데이터 전처리(분류, 분리, 제거, 변환 등등) 1] 각 data 파일로부터 소스/타겟 데이터 분리하기 2] 데이터 전처리 ① 괄호와 괄호 안 내용 제거 ② dash(-)뒤 삭제 ③ 한글과 ASCII code표에 있는 문자 이외의 특수기호 제거(음가 제외) ④ 대소문자 통일 ⑤ 공백 수 맞추기 3] 두 개 이상 가능한 독음 매핑 source target stargirl interlude what’s up 9 to 5 gadd a tee 아프지마요 cry 1tym & 스타걸 인터루드 왓츠업 나인 투 파이브 겟 어 티 아프지마요 크라이 원타임 앤드 … … 9% 8% 17% 66% 독음 학습데이터 Roman Name Roman POI General Roman Music  총 15만 쌍 데이터 확보!! Data understanding Modeling Evaluation Deployment Data preparation Business understanding
  • 13. 데이터 가공 자동화 플로우 Modeling 02 • 분절(subword) 방식의 SPM(sentence piece model)과 LSTM기반 GNMT(Google Neural Machine Translation) model  SPM:BPE기반의 알고리즘, 분절(subwordunit)처리로띄어쓰기 오류 및 미등록어(OOV, OutOf Vocabulary) 대응  GNMT:혼합(mixed)언어 처리(stackedresidualLSTM) SPM(sentencepiecemodel) GNMT(GoogleNeuralMachineTranslation)model Data preparation Data understanding Evaluation DeploymentModeling Business understanding
  • 14. 데이터 가공 자동화 플로우 Modeling 02  분절(unsupervised)+ 독음(supervised)의2단계 혼합 프로세스  SPM은 학습할 Source/target언어를 분절단위(subwordunit)로분리  분절사전의 크기를 줄이면 OOV↓, bucket 용량 감소로 예측력 저하, 크기를 늘리면 OOV↑, 예측력 증가 분절모델 분절 독음 서비스부 “FAKE LOVE” “페이크 러브” 학습부 독음모델 분절학습기 Sentence Piece Model(SPM) 독음학습기 (NMT) _fa ke _love _페이 크 _러브 Monolingual corpus Parallel corpus 분절사전 전처리 전처리규칙 • 독음 구조 Data preparation Data understanding Evaluation DeploymentModeling Business understanding
  • 15. 데이터 가공 자동화 플로우 Modeling 02 Data preparation Data understanding Evaluation DeploymentModeling Business understanding Neural Machine Translation SEQUENCE TO SEQUENCE MODEL LSTM LSTM LSTM LSTM DecoderEncoder LSTMLSTM LSTM LSTM _FA • Sequence to sequence model(seq2seq) 인코더 (encoder) Context 디코더 (decoder) Text Input Translated output embedding embedding embedding embedding KE _LO VE <sos> embedding embedding embedding embedding _페이 크 _러브 Dense Dense Dense Dense Softmax Softmax Softmax Softmax _페이 크 _러브 <eos> Context
  • 16. 데이터 가공 자동화 플로우 Modeling 02 Data preparation Data understanding Evaluation DeploymentModeling Business understanding 페 이 크 러 Decoder <start> “Fake Love” 브 TOP 1 결과 추출 Decoder LSTM Decoder LSTM Decoder LSTM Decoder LSTM Decoder LSTM • Greedy Search
  • 17. 데이터 가공 자동화 플로우 Modeling 02 Data preparation Data understanding Evaluation DeploymentModeling Business understanding 브 START 훼 잌 럽 페 이 브 크 러 크 럽 리 러 후보자(Beam Size) = 2 부 <START> Decoder LSTM Decoder LSTM Decoder LSTM Decoder LSTM TOP N 결과 추출 페이크 러브 N - BEST BEST1 페이크 럽 훼이크 러브 페익 럽 BEST2 BEST3 BEST4 0.8932 0.6332 [확률] 0.5332 0.4322 Decoder LSTM 브 부 “Fake Love” • Beam Search
  • 18. 데이터 가공 자동화 플로우 Evaluation 02  1,000개 미등록(unseen)테스트 세트에 대한 측정 결과 1-gram기준 95.5% 정확도 달성 외국어 곡명 데이터 “Wake up!” 곡명 데이터 정답 “웨이크 업” 한글로 변환된 독음 결과 “웨이컵” BLEU* score 정확도(%) N-gram 3-gram 2-gram 1-gram 95% 90% 4-gram • 독음 결과를 인간이 고른 정답과 비교 (*)BLEU: Bilingual Evaluation Understudy Data preparation Data understanding Modeling DeploymentEvaluation Business understanding
  • 19. 데이터 가공 자동화 플로우 Evaluation 02 특징 음악 원천 데이터 Human transBot BLEU-1 경음화 sell your soul 셀유어소울 셀유어쏘울 0.8 모음 변이 Nee armstrong 니암스트롱 니아름스트롱 0.67 다중 출력 remembering the summer nights 리멤버링 더 썸머 나이츠|리멤버링 더 썸머 나잇 리멤버링 더 썸머 나잇츠 1.0 특수문자 by'n by 바이엔바이 바이바이 0.78 you're nobody 'til somebody loves you 유얼 노바디 틸 썸바디 러브스유 유아 노바틸 틸 썸바디 러브 유 0.77 묵음 gay chicks 게이 칙스 게이 치식스 0.6 유음 /l/ 삽입 turet 튤렛 튜렛 0.5 숫자 the 25th chapter 더 트웬티파이브쓰 챕터 더 투 피투프스 챕터 0.29 영문화된 한글 hwajangpoom 화장품 훼장 펌 0.25 긴 문장 in the wee small hours of the morning 인 더 위 스몰 하우어스 오브 더 모 닝 인 더 위 스몰 오크 오브 더 모닝 0.77 cries of despair coming from christians burning in jerusalem 크라이스 오브 디스페어 커밍 프롬 크리스챤스 버닝 인 예루살렘 프롬 프롬 크리스빈 인 예랄렘이제랄 0.28 • 오류 사례  Data, Data, Data! –더 많은 데이터 –전처리(특수문자, 기호, 숫자, …)를 통한 데이터 정제 –장문에 취약 -> 긴 문장 처리를 위한 분절 사전 최적화 Data preparation Data understanding Modeling DeploymentEvaluation Business understanding
  • 20. 데이터 가공 자동화 플로우 Deployment 02 항목 구분 2018.10 2019.04 요약 정확도 95.5% 96~97%  5단어 이하의 1,000개 미등록어에 대한 BLEU score 측정 결과 95~96% 수준으로 국내 최고 수준 성능 달성  수작업 최소화를 위해 99% 이상 목표  지속적인 학습 및 정제를 통해 목표 수준 달성 계획 변환속도 0.4 sec /개 0.03sec/개 최대 길이 4~5단어 6~7단어 이상 띄어쓰기 영향도 △ O  신규 contents의 다양한 케이스에 대하여 정확한 독음 결과 보장 혼합 언어(mixed language) 지원 △ △ 신조어(unseen) 대응 O O 특수문자 숫자, 기호 등 처리 △ △  지니뮤직 독음 학습 데이터 정제(숫자, 특수문자) 필요 다중출력 △ O  고도화 개발 완료 (greedy search -> beam search) 개발환경 Python 2.7, tensorflow 0.11.0 python3.6, tensorflow 1.12, cuda 8.0  tensorboard 웹인터페이스 O O  기존 데이터 입력 UI와 결합하여 실제 업무에서 활용성을 높임 도메인 확장성 O O  Youtube, 아프리카TV, 영어서적(2019.02) 플랫폼 언어처리 한국어 변환 품질/성능 • 구현 결과 – 음성인식/대화에서의 품질 요건 충족 – 생산성에 크게 기여 Data preparation Data understanding Modeling Evaluation Deployment Business understanding
  • 21. 데이터 가공 자동화 플로우 Deployment 02 • 자동화에 따른 생산성 향상 및 처리비용 감소 Manual Web AI { "ARTIST_ID": 80627044, "ACTION_FLAG": "I", "SONG_NAME": "West", "TTS": "웨스트", "KEYWORD2": [], "SONG_ID": 87877186, … { "ARTIST_ID": 80627044, "ACTION_FLAG": "I", "SONG_NAME": "West", "TTS": "", "KEYWORD2": [], "SONG_ID": 87877186, … ※ 곡명 독음 작업 예시 Web 저작도구 개발 독음기자료입력원이 직접 파일을 편집 671 981 213 146 20 평균 독음(1MD) : 671건 독음 1건당 비용 : 213원 비용(180만건 독음) : 3.83억 평균 독음(1MD) : 981건 독음 1건당 비용 : 146원 비용(180만건 독음) : 2.63억 평균 독음(1MD) : 7,000건 독음 1건당 비용 : 20원 비용(180만건 독음) : 0.36억 7,000 46% 614 % 31.4 % 86.3 % 생산성 6배 ↑, 비용 86% ↓ Data preparation Data understanding Modeling Evaluation Deployment Business understanding
  • 22. Summary 마무리 03 • 의미 –NMT 기술을 활용, 독음이라는 문제에 적용하여 고품질 및 차별적 기능을 달성 • 어려웠던 점 –레퍼런스 부재 –모델링 보다는 오히려 데이터 정제 등의 전처리 과정에 대부분의 시간 투입 –고품질의 데이터를 구축하기 위한 수작업 공수는 여전히 크다 • 서비스 –POI, TV, Commerce 등 영역 확대 –데이터 검증 인력과 기계와의 상호 과정 속에 반복학습이 가능한 데이터 선순환 체계 확립 필요 • 영역 확장 –데이터만 확보된다면 의미 관계에 있는 다른 Task 적용 가능 –기술적 진보는 우리로 하여금 모델링과 서비스에만 집중할 수 있게 도와줌 Task X Y Machine Translation A언어로 이루어진 문장 B언어로 이루어진 번역문 Machine Reading Comprehension Context와 질문 응답 Summarization 도큐먼트 요약문 Natural User Interface Command(Text/speech) Action Image captioning Text string Images … … …
  • 23. GiGA Genie음성/대화 품질 향상을 위한 독음 데이터 가공 자동화 QnA • 많은 데이터를 가진 간단한 모델은 정교한 모델을 압도한다* • 알고리즘이나 기술은 점점 개방화, 인프라 의존성 증가, 거대한 데이터를 수용 가능하게 발전해 왔다. • 기술이나 사고방식보다는 데이터 자체가 소중해지는 시대이다. • 데이터의 양과 질 사이에서 타협점을 찾아야 하는 고민은 계속된다. (*) Unreasonable effectiveness of data – Peter Norvic, etc. 에서 발췌