[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
그룹사의 자기소개서 데이터를 기반으로 진행했던 연구들을 진솔하게 담았습니다. 먼저 자기소개서만으로 서류 전형 합격/불합격을 딥러닝이 구분할 수 있는지에 대해 연구했던 과정을 소개합니다. 더불어 “AI가 자기소개서를 적어줄 수 있을까?” 라는 아이디어를 가지고 Transformer 딥러닝 모델로 자기소개서 문장이 생성되는 Prototype모델을 시연합니다. 끝으로 [Ctrl+C, Ctrl+V] 자기소개서를 딥러닝 모델로 어떻게 찾는지와 오타 데이터를 검정하는 방법을 소개합니다.
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
노재근(jack.roh) / kakao corp.(음성처리파트)
---
AI 시대가 이제 막 열렸습니다. 걸음마를 막 떼고 있는 AI 시대에 기본이 될 기반 기술인 음성 인식과 음성 합성에 대해 간단히 알아보는 세션을 갖고자 합니다. 먼저 음성 인식을 어떻게 해야 하는지 기본적인 원리를 알아보고, 현재 카카오가 가지고 있는 음성인식 및 합성 기술과 사용 중인 서비스에 대해서 알아보겠습니다. 음성인식이 왜 이렇게 어려운지, 어떻게 하면 잘되는지, 우리는 어떤 구조를 가지고 있는지, 음성인식 / 합성 쪽에서 앞으로 무엇을 하려고 하는지 등에 대해서 소개드리겠습니다. 음성인식에 대해서 전혀 모르시더라도 이해하기 쉽게 재미있는 예를 들어서 설명해 보겠습니다. 음성인식 분야에서 일하시는 분들은 우리가 어떻게 하는지 보시고, 좋은 아이디어들 얻어 갈 수 있는 시간이 되시도록 알차게 준비했습니다. 많이 오셔서 많이 얻어가시는 시간 되시길 바랍니다.
[Langcon2020]롯데의 딥러닝 모델은 어떻게 자기소개서를 읽고 있을까?ssuseraf7587
그룹사의 자기소개서 데이터를 기반으로 진행했던 연구들을 진솔하게 담았습니다. 먼저 자기소개서만으로 서류 전형 합격/불합격을 딥러닝이 구분할 수 있는지에 대해 연구했던 과정을 소개합니다. 더불어 “AI가 자기소개서를 적어줄 수 있을까?” 라는 아이디어를 가지고 Transformer 딥러닝 모델로 자기소개서 문장이 생성되는 Prototype모델을 시연합니다. 끝으로 [Ctrl+C, Ctrl+V] 자기소개서를 딥러닝 모델로 어떻게 찾는지와 오타 데이터를 검정하는 방법을 소개합니다.
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
노재근(jack.roh) / kakao corp.(음성처리파트)
---
AI 시대가 이제 막 열렸습니다. 걸음마를 막 떼고 있는 AI 시대에 기본이 될 기반 기술인 음성 인식과 음성 합성에 대해 간단히 알아보는 세션을 갖고자 합니다. 먼저 음성 인식을 어떻게 해야 하는지 기본적인 원리를 알아보고, 현재 카카오가 가지고 있는 음성인식 및 합성 기술과 사용 중인 서비스에 대해서 알아보겠습니다. 음성인식이 왜 이렇게 어려운지, 어떻게 하면 잘되는지, 우리는 어떤 구조를 가지고 있는지, 음성인식 / 합성 쪽에서 앞으로 무엇을 하려고 하는지 등에 대해서 소개드리겠습니다. 음성인식에 대해서 전혀 모르시더라도 이해하기 쉽게 재미있는 예를 들어서 설명해 보겠습니다. 음성인식 분야에서 일하시는 분들은 우리가 어떻게 하는지 보시고, 좋은 아이디어들 얻어 갈 수 있는 시간이 되시도록 알차게 준비했습니다. 많이 오셔서 많이 얻어가시는 시간 되시길 바랍니다.
This document discusses NUGU, an AI assistant created by SK Telecom. It provides information on NUGU's capabilities and growth, as well as how it is used by SK Telecom, third parties, and to benefit society. Key statistics show dramatic growth in NUGU's weekly and monthly active users from 2016 to 2019. The document outlines NUGU's architecture and technology components to enable natural language interactions across devices and platforms.
The NUGU SDK allows developers to build voice assistants across platforms using common APIs and interfaces. It provides modular components for audio playback, speech recognition, text-to-speech and more that can be customized. The SDK uses a dependency injection philosophy to isolate implementations and allow composite protocols, enabling services like automated bark recognition to be added.
The document discusses NUGU SDK, which allows developers to connect applications to NUGU AI assistants. It describes the SDK architecture including layers for the SDK, device control, and applications. It also outlines key SDK functions like device authentication flows, integrating with the SDK, and capability interfaces that applications use to control device functions through directives from the NUGU server. Extension agents allow supporting new capabilities by creating custom directives and applications.
[NUGU CONFERENCE 2019] 트랙 A-4 : Zero-shot learning for Personalized Text-to-S...NUGU developers
The document discusses NUGU's DNN TTS system and zero-shot learning speech synthesis technology. It provides an overview of T-Voice 1.0 and 1.5 systems, reviews pros and cons of different TTS approaches, and describes plans to develop a DNN-based personalized TTS system using techniques like speaker encoding networks and fine-tuning pre-trained models to generate voices for new speakers with limited training data.
[NUGU CONFERENCE 2019] 트랙 A-3 : NUGU 개인화 음악 추천 기술 소개NUGU developers
NUGU personalized music recommendation technology introduction
The document introduces NUGU's personalized music recommendation system. It discusses challenges like short listening durations and large music libraries. It presents a two-stage hybrid recommendation architecture that generates candidates with various logics before re-ranking based on user preferences and context. Context awareness considers factors like seasonality and occasions. A real-time feedback loop dynamically optimizes recommendations based on implicit and explicit user feedback. Future work includes generating personalized playlists based on time, place, and occasion preferences.
[NUGU CONFERENCE 2019] 트랙 A-2 : NUGU call 적용 기술 및 서비스 소개NUGU developers
NUGU call is a hands-free calling platform that allows connections anywhere through NUGU Touch Points. It supports multi-device connections under one account and has voice UX features like initiating and ending calls through voice commands. Voice quality is maintained through standards for loudness, frequency response, and other factors. Real-time communication uses internet protocols and signaling for call setup, media exchange, and termination. Upcoming features will expand NUGU call to support video calls and intelligent contextual commands.
4. 개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
아리아, 오늘 일정 알려줘!
네, 오늘 일정은 OOO 입니다.
네, 좋아하시는 OOO를
재생하겠습니다.
네, 휴대폰을 찾겠습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
알렉사, 쿠키 주문해줘!
네, 주문하신 제품을
구매하겠습니다.
5. 개인화 서비스
◼Amazon echo (2017. 1)
◼NUGU 스피커 / STB
알렉사, 쿠키 주문해줘!
아리아, 오늘 일정 알려줘!
네, OOO님의 오늘 일정은 OOO
입니다.
네, OOO님이 좋아하시는 OOO를
재생하겠습니다.
네, OOO님의 휴대폰을 찾겠습니다.
권한이 없습니다.
아리아, 신나는 노래 들려줘!
아리아, 내 폰 찾아줘!
6. 개인화 서비스
◼생체 인증 기술 필요
◼Voice user interface
◼ 마이크 입력 장치만 필요
◼ 과정이 자연스러움
◼ 원거리에서 인증 가능
◼ 정보량이 많음
화자, 성별, 연령, 언어, 감정
7. 개인화 서비스
◼개인정보 보호법
◼ 개인정보의 수집, 유출, 오용, 남용으로부터 사생활의 비밀 등을 보호
◼ 개인정보를 안전하게 저장 및 전송하는 것에 관한 사항을 규정
◼ 개인정보 : 고유식별정보, 비밀번호, 바이오정보 등
◼ 바이오정보
지문, 얼굴, 홍채, 정맥, 음성, 필적 등 개인을 식별할 수 있는
신체적 또는 행동적 특징에 관한 정보
개인을 인증 또는 식별하기 위하여 기술적으로 처리되는 개인정보
사진이나 음성정보 등은 특정 개인을 식별 또는 인증하기 위하여
기술적으로 처리되는 경우에 한해서만 바이오정보에 해당
8. 화자인식 기술 소개
◼화자 식별/인증
◼ 식별 (identification)
다수의 후보 화자 중 택일
◼ 인증 (verification)
단일 화자에 대한 신뢰도 측정
◼ 2 stages
등록(enrollment)
인식(recognition)
Multi-class
classification
Binary
classification
화자 등록
특징 추출 /
모델링
특징 추출 Scoring
화자 모델 1
화자 인식
결과
화자 인식
화자 모델 N
9. 화자인식 기술 소개
◼Text-dependent, text-independent 화자인식
◼ Text-dependent 화자인식 : 약속된 발화로 화자인식
◼ Text-independent 화자인식 : 발화에 상관없이 화자 인식
◼ 대부분의 AI 스피커는 text-dependent 화자인식 수행
wakeup word 사용
◼ 장, 단점
◼ 사용자 편의성, 인식 발화의 길이 고려 → text dependent 화자인식
Text-dependent Text-independent
등록 발화 약속된 발화(phonetic variability 없음) 아무 발화 (phonetic variability존재)
구현 쉬운 편 복잡함
등록 발화 수 적은 편 많은 편
인식 발화 길이 약속 발화 길이 길어야 함
10. 화자인식 기술 소개
◼GMM-UBM based approach
◼ 등록 화자별 확률 모델 : GMM
◼ 다양한 화자 특성을 반영한 확률 모델 : UBM
Feature
extraction
<등록>
<학습>
<인식>
result
UBMSpeaker 1Speaker 2Speaker 3Speaker M
MAP
Speaker
model
Feature
extraction
train
scoring
Feature
extraction
GMM : Gaussian mixture model
UBM : universal background model
MAP : Maximum a posterior probability
11. 화자인식 기술 소개
◼i-vector based approach
◼ 화자, 세션 특성 모두 반영
◼ 세션 variability 보상을 위해서 LDA, PLDA 등의 후처리 필요, 구현이 복잡한 편
Feature
extraction
<등록>
<학습>
<인식>
result
UBM
TVM
Speaker 1Speaker 2Speaker 3Speaker M
i-vector
extraction
i-vector
Feature
extraction
train
scoring
train
Feature
extraction
i-vector
extraction
i-vector
UBM : universal background model
TVM : total variability matrix
12. 화자인식 기술 소개
◼Embedding vector based approach
◼ 화자 특성만을 잘 표현하도록 학습, 환경 mismatch에 강인한 편
◼ long contextual information 고려, 구현이 비교적 쉬운 편, d-vector, x-vector
Feature
extraction
<등록>
<학습>
<인식>
result
DNNSpeaker 1Speaker 2Speaker 3Speaker M
Embedding vector
extraction
Embedding
vector
Feature
extraction
train
scoring
Feature
extraction
Embedding vector
extraction
Embedding
vector
Output layer
Hidden layer
Hidden layer
input layer
Embedding vector
화자 label
입력 feature
13. 화자인식 기술 소개
◼End-to-end approach
◼ 여러 component를 하나의 NN으로 통합
◼ 학습 화자 수가 많을 때 효과적
j-th speaker
centroid
k-th speaker
centroid
j-th speaker
embedding vector
generalized E2E loss
Triplet loss
Georg Heigold, Ignacio Moreno, Samy Bengio, and Noam Shazeer, “End-to-end text-dependent speaker verification,” in Acoustics, Speech and
Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016, pp. 5115–5119.
Tuple-based E2E loss
14. 화자인식 기술 소개
◼성능 평가
◼ 화자식별
오류율
◼ 화자인증
FAR(false acceptance rate)
미등록 화자를 인증
FRR(false rejection rate)
등록 화자를 거절
최적 threshold
FA, FR tradeoff 고려
Ref. J.H.L. Hansen and T. Hasan, “Speaker recognition by machines and humans: A tutorial review,” IEEE Signal Proc.
Mag., vol. 32, no. 6, pp. 74–99, 2015.
15. 기술 적용의 어려움
◼많은 종류의 음향 왜곡 요인 존재 (session variability)
◼ 외부 환경적 요인 : 잡음, 잔향, residual echo
◼ 화자 내부의 요인 : 감정, 건강, Rombard effect
에코제거
잡음
에코
잔향
잡음제거 잔향제거 음성검출 특징추출 화자인식
16. 기술 적용의 어려움
◼외부 환경적 요인 : Residual echo, 잡음
◼ 여러 PoC(Point of Contact)에서의 다양한 음향 특성
NUGU
(‘16.9)
NUGU mini
(‘17.8)Home
B tv x NUGU
(‘18.1)
T map x NUGU
(‘17.9)
JOON x NUGU
(‘17.10)
Cookies mini x NUGU
(‘18.4)
NUGU candle
(‘18.7)
Car
Mobile
NUGU Nemo
(‘19.4)
B tv x NUGU(AI2)
(‘19.8)
17. 화자인식 성능 개선
◼DNN embedding vector 추출
◼학습 데이터 확보
◼ 데이터 녹음 : 화자 수 확대
◼ Data augmentation : 잡음, RIR, 여러 POC
◼특징 정규화
◼ 발화 단위로 채널별 에너지 정규화
◼정확한 음성 구간 추출 : 정확한 forced alignment 개발
◼발화 속도 정규화
◼ Speaking rate normalization 수행 → target keyword 길이 고정
RIR : room impulse response
18. SKT 화자인식 시스템
◼화자인식 시스템 특징
◼ Text-dependent 화자인식 : wakeup word(‘아리아’, ‘팅커벨‘)
◼ 휴대폰으로 등록한 모델을 다른 여러 POC에서 공유
◼ 화자식별 → 화자인증
◼기술적 특징
◼ DNN의 embedding vector extraction
◼ 발화 단위로 채널별 에너지 정규화
◼ 정확한 forced alignment 적용
◼ Speaking rate normalization
19. SKT 화자인식 시스템
◼화자인식 엔진 : 등록, 학습, 인식 과정
Embedding
vector
wakeup alignment
Feature
norm.
SNR?
Speaker 1
Speaker 2
Speaker 3
Speaker M alignment
Feature
norm.
wakeup alignment
Feature
norm.
DNNtrain
Embedding
vector
scoring
low SNR
result
vector
extraction
vector
extraction
등록
인식
학습
20. SKT 화자인식 시스템
◼전체 flow
Device
인식서버
분배
Group ID,
음성 데이터 음성인식엔진
NUGU App
(wakeup, speex)
Align확인
SNR측정
화자모델
생성
[화자등록 서버] x M
Group ID별
화자모델 package
[모델 관리서버] x L
화자인식엔진
Group ID,
음성 데이터
Group ID 화자모델
package
계정관리
서버
[컨트롤 서버]
[인식 서버] x N
음성
데이터
ID별 화자모델
등록
성공
등록 성공 여부
화자 ID,
음성 데이터
음성데이터
등록성공 시
화자모델
인식결과,
화자 ID
인식결과,
화자 ID
[화자등록 Process]
[화자인식 Process]
21. SKT 화자인식 시스템
◼화자식별, 인증 성능
◼ Task : 6명 화자가 5회 발화 후 등록, 업체 수집(100명)
◼ 환경 : 휴대폰(등록, 근거리), 스피커(인식, 1m ~ 3m 원거리)
스피커 : NUGU, NUGU mini, NUGU candle
Clean, echo(-5 dB SER)
◼ 성능 평가 metric : 화자 식별(오류율, %), 화자 인증(EER, %)
task keyword
스피커
Clean Echo
식별(오류율)
아리아 0.67% 6.03%
팅커벨 0.54% 4.81%
인증(EER)
아리아 2.05% 6.97%
팅커벨 1.59% 6.15%
22. SKT 화자인식 시스템
◼등록 화자 수에 따른 성능 평가 결과(‘아리아’ keyword)
◼ 화자식별 오류율(%)
등록 화자 수가 증가 → 오류율 증가
23. SKT 화자인식 시스템
◼STB에서의 Live 성능 평가
◼ Task : 6명 화자가 5회 발화 후 등록, 구성원 대상(15명)
◼ 환경 : clean, echo(가요, -10 dB SER)
◼ 성능 평가 metric : 화자 인증(EER, %)
◼ 시간의 흐름에 따른 성능 평가 결과
환경 당일 1일 경과 2일 경과
Clean 6.46% 7.06% 6.24%
Echo 7.99% 9.10% 8.02%
24. 향후 계획
◼서비스 적용 및 확장
◼ NUGU 개인화 서비스 상용 적용
◼ 고객센터
◼기술 확장
◼ Text-independent 화자인식 개발
◼ 화자 분할 개발
◼ 연령 및 성별 분류
◼성능 고도화
◼ 상용 적용 이후 추가 학습에 의한 성능 향상
◼ 사용자 로그로부터 자동 clustering 후 등록 발화 확대