신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
Query suggestions as summarization in exploratory searchtaeseon ryu
오늘 업로드된 논문은 Query Suggestions as Summarization in Exploratory Search
라는 논문입니다.
검색은 크게 두 가지 카테고리로 분류를 해 볼 수 있습니다
Lookup과 Exploratory Search인데요
Lookup은 사용자가 정확한 목적을 가지고 있는 경우를 얘기를 하는데
Question answering이라던지
Fact retrieval 그 다음에 저기 내비게이션 써치등
여기 해당이 됩니다
일반적으로 저희가 많이 사용하는 그런 형태일 거고요
그 또 하나가 Exploratory Search 입니다
Exploratory Search는 사용자가 특정 도메인에 대한 정보를 얻거나
목적을 찾기 위한 검색을 하는 경우를 말하는데요
새로운 지식습득을 하거나 또는 탐색
그리고 비교 결과에 대한 분석 등을 위한 목적으로 합니다
논문은 흥미로운 방법으로 쿼리의 사용과 사용자 행동 및 인식에 미치는 영향을 조사하며 재미있는 결과를 내놓았습니다.
오늘 리뷰를 위해 자연어 처리팀 김은희 님이 자세한 논문 설명 도와주셨습니다.
오늘도 많은관심 미리 감사드립니다!
https://youtu.be/AVTZq2rWS0k
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
Query suggestions as summarization in exploratory searchtaeseon ryu
오늘 업로드된 논문은 Query Suggestions as Summarization in Exploratory Search
라는 논문입니다.
검색은 크게 두 가지 카테고리로 분류를 해 볼 수 있습니다
Lookup과 Exploratory Search인데요
Lookup은 사용자가 정확한 목적을 가지고 있는 경우를 얘기를 하는데
Question answering이라던지
Fact retrieval 그 다음에 저기 내비게이션 써치등
여기 해당이 됩니다
일반적으로 저희가 많이 사용하는 그런 형태일 거고요
그 또 하나가 Exploratory Search 입니다
Exploratory Search는 사용자가 특정 도메인에 대한 정보를 얻거나
목적을 찾기 위한 검색을 하는 경우를 말하는데요
새로운 지식습득을 하거나 또는 탐색
그리고 비교 결과에 대한 분석 등을 위한 목적으로 합니다
논문은 흥미로운 방법으로 쿼리의 사용과 사용자 행동 및 인식에 미치는 영향을 조사하며 재미있는 결과를 내놓았습니다.
오늘 리뷰를 위해 자연어 처리팀 김은희 님이 자세한 논문 설명 도와주셨습니다.
오늘도 많은관심 미리 감사드립니다!
https://youtu.be/AVTZq2rWS0k
이 강의에서는 파이썬의 정수, 실수 자료형과 문자들을 다룰 때 사용하는 자료형인 문자열 자료형에 대해 알아보도록 하겠습니다.
컴퓨터가 처리하는 데이터는 숫자, 문자, 부울값, 문자열, 혹은 이들의 조합이 있는데 이러한 데이터의 유형이 바로 자료형입니다. 파이썬에서는 부울형, 숫자형(정수,실수,복소수), 문자열, 리스트, 튜플, 집합, 딕셔너리와 같은 기본 자료형이 있습니다.
파이썬에서는 문자열의 메소드로 포매팅을 위한 format(), 파싱을 위한 parse(), capitalize(), center(), casefold(), count(), endswith(), expandtabs(), encode(), find(), index(), isalnum(), isdecimal()등이 제공됩니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
Deep learning hands-on using Keras for CNN &RNN
딥러닝 라이브러리인 Keras 를 이용한 CNN (동물식별)과 RNN (주식가격예측)에 대한 소프트웨어 코드와 데이터를 제공하고 수강생이 각자 노트북을 지참하여 강사의 설명을 들으며 실제 실행을 해본다.
이 강의에서는 파이썬의 정수, 실수 자료형과 문자들을 다룰 때 사용하는 자료형인 문자열 자료형에 대해 알아보도록 하겠습니다.
컴퓨터가 처리하는 데이터는 숫자, 문자, 부울값, 문자열, 혹은 이들의 조합이 있는데 이러한 데이터의 유형이 바로 자료형입니다. 파이썬에서는 부울형, 숫자형(정수,실수,복소수), 문자열, 리스트, 튜플, 집합, 딕셔너리와 같은 기본 자료형이 있습니다.
파이썬에서는 문자열의 메소드로 포매팅을 위한 format(), 파싱을 위한 parse(), capitalize(), center(), casefold(), count(), endswith(), expandtabs(), encode(), find(), index(), isalnum(), isdecimal()등이 제공됩니다.
- 강의 키노트 자료는 다음 링크를 통해 다운 받으세요
https://drive.google.com/drive/folders/1UrrO4_ch4xcIErbExstwpUVY6vFvPdkW
- 강의 소스코드는 다음 링크를 통해 다운 받으세요
https://github.com/dongupak/Basic-Python-Programming
Deep learning hands-on using Keras for CNN &RNN
딥러닝 라이브러리인 Keras 를 이용한 CNN (동물식별)과 RNN (주식가격예측)에 대한 소프트웨어 코드와 데이터를 제공하고 수강생이 각자 노트북을 지참하여 강사의 설명을 들으며 실제 실행을 해본다.
백인걸_Ask Optimal Question_alignings LLM with Retriever's preference in C...Ingeol Baek
본 논문은 conversational search 에서 query rewriting 을 진행한 논문 각 new query의 dense retireval 을 통과 시켜 나온 ranking을 바탕으로 query rewriting 모델을 학습시킨 논문
Open domain QA task에서와 달리 Conversational search 에서는 dialogue 에서의 뉘양스까지 확장된 버전이다. 본 저자는 RETPO라는 방식을 제안했다. conversation에서 follow-up question에 대해서 retrieval-preference를 align시켜 학습된 LLM을 사용했다. 이전 방식들은 rewrite then retrieve 방식을 사용했고 이는 retrieval performance가 향상되지만 크게 영향을 주진 못했다고 한다. 이런 문제점을 바탕으로 retrievers’ preference를 완전히 사용할 수 있는 방식을 제안한다.
2. 마이크로소프트연구소와의 협업 영역
커리큘럼 혁신
• 교재 및 수업 개발
• 커리큘럼 자원제공
• 초청강연
인재육성
• 인턴십
• 박사과정 펠로우십
• 패컬티 펠로우십
연구협력
• 연구 주제별
프로젝트
• 패컬티 특별
프로젝트
• 방문 연구원
프로그램
학술교류
• 연례교수회의
• 21세기 컴퓨팅
컨퍼런스
• 지역 별 워크샵
컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성
4. 연구 분야 개요
유선/무선 전송
음성 신호 저장
음성 압축
음성 변환
잡음 제거
음성 강화
음성 발생 (발화)
음성 취득 (청취)
1472
실제 음성
문자-음성 변환
음성 / 화자 인식
휴먼-컴퓨터
인터페이스 (HCI)
감정 인식
음성 신호 처리
5. • 연구 협력 개요
• 지난 7년간 마이크로소프트연구소 아시아 Speech 그룹(그룹장: Dr. Frank Soong)과 지속적으로 진행
• 연구 주제
• 2008~09년 : 음성/음악 신호로부터 사용자 정보 추출
• 2010~11년 : 동영상 캡션을 위한 통합 음성인식 시스템
• 2011~12년 : 키넥트의 오디오-비디오 정보를 이용한 다중 사용자 위치 추정
• 2012~13년 : 여기 신호 모델링 개선을 이용한 HMM 기반의 TTS시스템 성능 향상
• 2013~14년 : 통계적 모델 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술
• 2014~현재 : 신경망 구조 기반의 다중 언어 TTS 시스템의 효과적인 구현
• 진행 방법: 순환 구조 연구 협력
• 마이크로소프트연구소 아시아 자체 지원 혹은 마이크로소프트연구소 아시아/정부 공동 지원 프로젝트
• 연구 주제 및 목표 도출
• 온라인 논의 혹은 그룹 직접 미팅을 통한 결과 분석 및 논의
• 마이크로소프트연구소 아시아 연구소 방문 그룹 미팅
• 프로젝트 성과 발표
• 연구 결과 및 향후 연구 방향에 대한 토의
연구협력 분야에서의 협업
마이크로소프트연구소 Speech group과의 미팅 中
6. 인재육성 분야에서의 협업
선발 과정 인턴 기간 인턴 이후
참여연구원들의 통합 평가를 통해 인턴쉽 선발
- 1차 서류 심사
- 2차 1차 면접 (자질 및 역량, 인성 등)
- 3차 마이크로소프트연구소 아시아 멘토와 on-site 1:1 면접
마이크로소프트연구소 아시아 (베이징) 인턴쉽 (6개월) - 7명
마이크로소프트연구소 (시애틀) 인턴쉽 (3개월) - 5명
박사과정 펠로우쉽 – 2명
지속적 멘토링을 통해 해외 학회 및 저널에 논문 발표
(해외 학회 6편, 해외 저널 1편, 준비 3편)
7. • 마이크로소프트연구소 Speech Group의 기술 발표 및 데모 시연
• 최신 기술 동향 및 향후 발전 방향 파악
• Korean Day를 통한 학술 교류
• 마이크로소프트연구소와 프로젝트에 참여했던
연구팀들의 기술 발표 및 데모 시연을 통해 다양한 분야의 기술 접할 수 있는 기회
학술교류 분야에서의 협업
2013년도 Korean day
Korean day에서 참여 연구팀들의 기술 발표 및 데모 시연 中
8. • 국제적으로 명성이 높은 해외 기관 연구팀으로부터 본 연구팀에서 기획한 연구 과제의 수행
방법 및 결과에 대한 질적인 평가를 객관적으로 받을 수 있음
• 학문으로만 존재하는 연구 결과가 아니라 사회에 도움이 될 수 있는 기술에 관한 연구,
그리고 단기적 성과 보다는 장기적 관점 하에 꾸준히 연구를 진행할 수 있다는 측면에서
매우 바람직함
• 연구 능력이 뛰어나고, 동기가 뚜렷한 참여 대학원생들에게 해외기관에서 인턴쉽을 수행할
기회를 부여하므로 차세대 리더로 성장할 젊은 인재들의 국제화 감각을 높일 수 있음
마이크로소프트연구소와의 협업의 특징
9. • 세계 시장 선점을 위해서는 국내에서 자체적으로 기술력을 확보하는 노력 뿐만 아니라
관련 연구 분야를 선도하는 글로벌 기업과의 공동 연구를 활성화하여 보다 적극적으로
기술력을 향상시키기 위한 노력이 필요함
• 치열한 글로벌 시장에서의 경쟁력을 높이기 위해서는 뛰어난 연구 능력과 열린 마음을
가진 젊은 인재를 양성하기 위한 다양한 연구/교육 프로그램이 확대되어야 함
• 정부와 마이크로소프트가 함께 지원하는 본 프로그램은 국내 대학에 재학 중인 많은
대학원생들에게 매우 독특하고 특별한 기회와 경험을 제공하고 있으므로 이를 더욱
확대할 수 있는 방안 마련이 필요함
향후 협업 계획 및 발전 방향
11. • 입력 텍스트 분석
• 텍스트 전처리, 구문 분석, 발음 변환
• 음성 신호 처리
• 운율 조절, 음성 신호 생성
• 활용 분야
• 안내 방송: 자동 응답 시스템, 대중 교통 안내, 네비게이션
• 장애인을 위한 시스템: 스크린 리더, 음성 합성기
• 기타: 스마트 기기, 음성 번역기, 오락용/교육용 어플리케이션 등
문자-음성 변환 (TTS) 기술 개요 (1)
입력 텍스트 분석 음성 신호 처리
12. • 현재 지하철 안내 방송
• 여러명의 성우가 직접 녹음
• 추가 녹음이 필요할 時,
• 성우가 아프거나 부재중이거나 목소리에 변화가 있다면 녹음을 하기까지 시간이 걸리며
다시 처음부터 녹음해야 하는 경우도 발생 가능
문자-음성 변환 (TTS) 기술 개요 (2) - 필요성
TTS 사용 時
편리성 증가 & 음성의 일관성 유지 & 시간 및 비용 절감 가능
13. 문자-음성 변환 (TTS) 기술 개요 (3) – 기술동향
• 기술 동향
• 음성은 차세대 보조 입·출력 방식이 될 가능성
이 매우 높음
• 예) Microsoft Cortana는 음성 인식 및 합성 기
술로 사용자에게 서비스 제공
• 활용 분야가 매우 다양함
• 웨어러블 기기
• 인공지능 로봇
• 자동차
마이크로소프트 밴드
인공지능 로봇
(영화 ‘빅히어로’, ‘인터스텔라’ 中)
감정 로봇 ‘Pepper’
자동차 내부 환경
[출처]
”Get Started with Cortana” -
http://youtube.com/watch?v=tQFrd6SEiLM
14. • 목표: 실제 사람이 말하는 것처럼 자연스러운 음성 합성
• 깨끗한 합성음질 및 자연스러운 운율 등
• 음성 합성 방식
• 포먼트 합성 [DECtalk]
• 음성 합성에 필요한 파라미터 값들에 대한 규칙이 정해져 있고,
이를 이용하여 음성 신호를 생성하는 방식
• 데이터베이스 기반의 음성 조각 연결 합성 [AT&T]
• 미리 녹음해 놓은 음성 데이터베이스에서 텍스트에
해당하는 음성 신호 조각을 선택하여 연결하는 방식
• 데이터베이스 기반의 통계적 파라메트릭 모델 합성 [HTS]
• 통계적으로 훈련된 모델로부터 생성된 음성 파라미터 값을
이용하여 음성 신호를 생성하는 방식
문자-음성 변환 (TTS) 기술 개요 (4)
[출처]
DECtalk : http://www.speechfxinc.com/dectalk.html
AT&T : http://www2.research.att.com/~ttsweb/tts/demo.php
HTS : http://hts.sp.nitech.ac.jp/nitech-naist-hts_blizzard2006
15. • 소스(source)-필터(filter) 모델
• 음성 신호는 소스-필터 모델로 표현될 수 있음
• 필터: 성도 전달 함수
• 음원: 여기 (excitation) 모델
• 유성음 – 펄스 신호
• 무성음 – 잡음 신호
문자-음성 변환 (TTS) 기술 개요 (5) – 음성 발생 모델
)n(sˆ)z(A1
1
e(n)
gain
impulse train
random noise
pitch
V
UV
여기신호
음원
성도
전달함수
합성음
합성음의 품질은 음성 발생 모델의 성능에 의해 큰 영향을 받음.
16. • 연구 분야
• 사람과 기계 (Human-Computer), 혹은 사람과 사람 (Human-Human)과의 자연스러운 인터페이스를 위한
핵심 기술인 ‘음성합성 (Speech synthesis, Text-to-Speech)’ 시스템의 성능 향상을 위한 연구
• 연구 내용 및 성과
• 연산량 및 메모리가 제한된 경우에 적용 가능한 은닉 마르코프 모델 (HMM; Hidden Markov Model)을
이용한 통계 기반 합성 방법의 성능 개선 연구
• 최근 기계 학습 (machine learning) 분야에서 각광받고 있는 deep learning (DNN; Deep Neural
Network) 기반의 음성 합성 시스템 구현 및 성능 향상을 통한 기술 선도
• 다국어 지원이 가능한 음성합성 시스템으로 확장하기 위한 필수 기술 연구를 통해 향후 개인별 맞춤
시스템으로 활용 가능성 타진
• 공동연구를 주도했던 연구원들이 해외 인턴십에 참여하여 연구의 연속성 유지
• 마이크로소프트연구소 아시아 멘토와의 1:1 멘토링을 통한 연구 능력 향상 및 다양한 연구 수행 방법 경험
지난 3년간 공동 연구 내용 요약
17. • 주제 : 여기 (excitation) 신호 모델링 개선을 이용한 HMM 기반의 TTS 시스템 성능 향상
• 기간 : 2012.08 ~ 2013.06 (11개월)
• 목표
• 여기 신호 모델링 개선을 통해 통계적 모델의 훈련 정확도를 높임으로써 합성음의 성능 향상을 목표로 함
• 제안한 여기 신호 모델 (Time-Frequency Trajectory Excitation, TFTE)
• 여기 신호를 시간-주파수 축에서 천천히/빠르게 변하는 성분으로 분리하여 각 성분 특성에 맞게 모델을 설
계함으로써 통계적 모델의 정확도를 향상시킴
연구 프로젝트 I (1)
음성
데이터베이스
특성 추출
음성 신호
생성
합성음
파라미터
생성
모델 훈련
입력
문장
그림. HMM 기반의 TTS 시스템 구성도
그림. 제안한 여기 신호 모델 (TFTE)
18. • 실험 환경
• 데이터베이스: 한국어 남성 화자
• 훈련/테스트 문장: 약 3,000/20문장
• 성능평가
• 객관적 성능 평가
• 데이터의 오차 및 왜곡도가 작다는 것은
통계적 모델 훈련이 잘 되었음을 의미
• 제안한 모델 (TFTE)이 기존 방법에 비해
성능이 매우 뛰어남
• 주관적 청취 평가 (선호도 평가)
• 참여 인원 : 20명
• X : 선호도가 비슷한 경우
연구 프로젝트 I (2)
그림. 정규화된 평균 자승 오차 그림. 스펙트럼 왜곡도
그림. 선호도 결과
< 여기 신호 모델 비교군 >
제안한 모델 : TFTE
비교군 :
• 녹음 원본 : 최종 목표
• PoN : 하향 기준점
• STRAIGHT : 현재 기술 中 상향 기준점
19. • 주제 : 신경망 (DNN; Deep Neural Network) 기반의 TTS 시스템을 위한 효율적인 파형 모델링 기술
• 기간 : 2013.11 ~ 2014.06 (8개월)
• 연구 배경
• DNN은 뇌의 신경망 구조를 따라 만든 모델로 입력과 출력 데이터간의 관계를 매우 정확히 추정 가능함
• 음성 인식, 영상 신호처리, 인공 지능 분야에 접목되어 성능 향상에 매우 큰 기여
• DNN 기반의 음성 합성 연구는 아직 초기 단계임
연구 프로젝트 II (1)
︙ ︙ ︙ ︙ ︙
은닉층입력층 출력층
입력
데이터
출력
데이터
그림. 신경망 (DNN) 구조그림. 사람 뇌의 신경망
20. • 연구 목표
• DNN 기반 TTS 시스템 구현 및 성능 향상
• 데이터 입출력 사이의 비선형적인 관계를 예측할 수 있는 DNN의 장점을 활용하여 소스-필터 및 음성 파
형 모델의 정확도를 높이기 위한 훈련 과정 도입
• 소스-필터 모델
• 음성 신호를 소스-필터 모델 파라미터로 변환하여 통계적 모델을 훈련시킴
• 파형 생성 모델
• 음성 신호 파형 자체를 모델링 함
• 모델 파라미터로 변환시 발생하는 왜곡을 감소시키고자 함
• 데이터 간의 비선형적인 특성 관계를 예측하는 DNN의 장점을 활용하고자 함
연구 프로젝트 II (2)
21. • 실험 환경
• 데이터베이스: 한국어 남성 화자
• 훈련/테스트 문장: 약 3,000/20 문장
• 성능 평가
• 객관적 성능 평가
• 데이터의 오차 및 왜곡도가 적다는 것은 통계적 모델 훈련이 잘 되었음을 의미
• DNN을 이용한 방법이 기존의 통계적 모델 방법인 HMM보다 성능이 더 우수함
연구 프로젝트 II (3)
시스템
측정 항목
TFTE-DNN
(duration: known)
TFTE-HMM
512*3 1024*3
스펙트럼 왜곡도 (LSD) [dB] 3.10 3.12 5.27
SEW 정규화
평균 제곱 오차 (NMSE)
0.31 0.31 0.39
F0 표준 오차 (RMSE) [Hz] 24.11 24.12 26.91
22. • 주제 : 신경망 (DNN) 기반의 다중 언어 TTS 시스템 구현
• 기간 : 2014.09 ~ 2015.06 (10개월)
• 연구 배경
• 여러 언어의 단어가 포함되어 있는 문장에 대해
자연스러운 합성음 제공
• 특정 언어용으로 설계된 TTS 시스템을 다른 언어의
시스템으로 쉽게 확장 가능
• 고려 사항
• 다중 언어 데이터베이스를 어떻게 구축할 것인가?
• 다중 화자 및 언어의 공통 특징 정보를 어떻게 추출할 것인가?
• 다중 언어 TTS 시스템 구현을 위하여 어떤 방식의 DNN 훈련 방법을 사용해야 하는가?
연구 프로젝트 III (1)
여러분, 왼쪽에 보이는 것은
Paris의 la tour Eiffel입니다.
23. • 제안한 신경망 구조 기반의 다중 언어 TTS 시스템 구성도
• 연구 진행 중인 기술
• 화자간의 특성 그리고 언어간의 특성 차이를 정규화하는 기술
• 음성 기호 (음소)와 음성 신호 파라미터 간의 관계 법칙 (mapping rule) 설계 Deep learning
• 참고
: 다국어 지원 시스템으로서 응용 분야 다변화를 위해 매우 중요한 기술
연구 프로젝트 III (2)
그림. 제안하는 시스템 구성도 예시
︙ ︙ ︙ ︙ ︙
은닉층입력층 출력층
일본어 DB
음소정보
음성 변환
한국어 DB
영어 DB
독일어 DB
음성 변환
한국어 DB
영어 DB
독일어 DB
24. • 음성을 이용한 HCI (Human Computer Interface or Interaction) 기술
• 자연스럽고 매우 편리하다는 장점으로 인해 지난 수 십 년 동안 활발히 연구되어 왔으며, 앞으로도 꾸준히
연구가 진행될 것으로 예측됨
• 음성 합성 기술
• 관련 IT 기술의 발전과 컴퓨터 성능 향상으로 인해 합성된 음성의 품질이 자연스러워지고 있음
• 글로벌 통신 및 인터넷 확장, 그리고 문화 교류가 활발해짐에 따라 국가/지역간의 심리적 거리가 좁혀지고
있으며, 이에 따라 다국어 지원 시스템에 대한 필요성은 지속적으로 높아질 수 밖에 없음
• 한 명의 화자가 단순하게 책을 읽는 톤의 목소리에서 다양한 목소리 특성을 지닌 화자가 자연스럽게 감정
을 표현하는 듯한 시스템으로 확장 연구도 활발히 진행 중임
발표 요약