ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"Hajime Mihara
第55回 コンピュータビジョン勉強会@関東 ICCV読み会の資料です。
"Learning Single Camera Depth Estimation using Dual-Pixels"について解説しております。
https://kantocv.connpass.com/event/148011/
ICCV19読み会 "Learning Single Camera Depth Estimation using Dual-Pixels"Hajime Mihara
第55回 コンピュータビジョン勉強会@関東 ICCV読み会の資料です。
"Learning Single Camera Depth Estimation using Dual-Pixels"について解説しております。
https://kantocv.connpass.com/event/148011/
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
CVPR2019読み会で発表したRethinking the Evaluation of Video Summariesの説明スライドです。論文自体は映像要約全体を分析しており、読み応えがありました。説明スライドがあっているかどうかよくわからないので、詳しくは本人に聞いてください。よろしくおねがいします。
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
CVPR2019読み会で発表したRethinking the Evaluation of Video Summariesの説明スライドです。論文自体は映像要約全体を分析しており、読み応えがありました。説明スライドがあっているかどうかよくわからないので、詳しくは本人に聞いてください。よろしくおねがいします。
스타트업에 가장 필요한 것은? 바로 스피드입니다.
오픈 API는 스타트업이 스피드업할 수 있는 유용한 도구라 할 수 있습니다.
품질 좋은 오픈 API,
즉 가이드나 플랫폼 SDK까지 잘 갖추고 있는 오픈 API를 활용한다면
더욱더 빠르게 서비스를 개발해 혁신을 가속화할 수 있을 것입니다.
5월 10일, 스타트업의 스피드업을 도울 네이버 오픈 API를 소개합니다.
신동광, 박태준, 박용효, 임수연, 김인숙. (2014, 9월). 영어 말하기 자동채점 프로그램의 현재와 미래. 한국멀티미디어언어교육학회 2014년 가을 학술대회 발표논문, 서울.
[초록]
본 연구는 영어 말하기 자동채점 프로그램의 개발을 통해 학교현장에서의 현
실적인 말하기 평가의 부담을 덜어주기 위해 2년간의 연구 프로젝트로 진행되었
다. 이를 위해 1차년도 연구에서는 말하기 자동채점 프로그램의 프로토타입을 개
발하였다. 2차년 연구에서는 이를 바탕으로 영어 말하기 자동채점 프로그램 음성
인식기의 인식률을 개선하여 영어 말하기 자동채점 프로그램의 성능을 향상시키
고 채점 기준을 상세화하며 추가적인 자동채점의 채점 자질을 발굴하여 자동채점
의 채점 알고리듬을 개선하고자 하였으며, 끝으로 영어 말하기 자동채점 프로그
램의 개선된 성능을 검증하고자 하였다.
먼저, 음성인식 고도화를 위하여 음성인식 시스템을 구성하는
사전처리(Preprocessing) 작업, 음향 모델링(Acoustic Modeling), 발음
사전(Phoneme Dictionary), 언어 모델링(Language Modeling) 그리고 발화
검증(Utterance Verification)에 최적화된 여러 기능을 적용하였다. 또한
자동채점의 최적화에 사용될 기준점수의 신뢰성 확보를 위해서 2인 채점
평균값을 기준점수로 활용하기 보다는 5인 채점 최빈값 및 평균값을 기준점수로
적용하며 총체적 채점을 시범적으로 적용해 보았다. 채점 자질 추가 선정을
위하여 신호처리 자질, 음성인식 자질 그리고 언어 이해 자질별로 새로운 자질을
적용하였고, 채점 자질의 복잡한 속성을 기계 채점이 일부 반영하지 못하는
한계를 보완하고 인간 채점자의 채점 경향에 최대한 근접하기 위해 채점
전문가를 대상으로 채점 자질 가중치 부여를 실시하였다. 마지막으로, 말하기
기계 채점 고도화를 위하여 최대 엔트로피(Maximum Entropy, ME) 방식과 다중
회귀(Multiple Regression, MR) 방식과 더불어 최근 데이터 마이닝과 패턴 인식
분야에서 많이 쓰이는 서포트벡터머신(Support Vector Machine, SVM) 방식을
새롭게 적용하였다.
연구결과를 살펴보면, 먼저 기준점수를 최빈값으로 대체하였을 효과는
미미했다. 엄격성 면에서도 자동채점이 인간채점보다 엄격하게 채점하는 경향을
보였다. 또한 분석적 채점 결과와 비교해 보았을 때, 총체적 채점 결과가 전체적으로 신뢰도가 높았으며 전체 신뢰도 역시 양호한 결과를 미루어 볼 때,
앞으로의 영어 말하기 자동채점 프로그램의 방식은 총체적 채점 방식에 맞춰
개발할 때 보다 향상된 결과가 예상되며 일선 학교에
발표자: 허희수(서울시립대 박사과정)
발표일: 2018.7.
최근 음성인식 기술이 적용된 인공지능 스피커, 스마트 가전 등이 보급되면서 화자인식의 필요성이나 기술에 대한 관심이 증가하고 있습니다.
본 발표에서는 먼저 화자인식이 동작하는 과정이나 원리를 간략하게 설명합니다. 그 뒤에, 심층 신경망이 화자인식 시스템에 적용되는 과정을 몇 가지 연구들을 통해 보입니다.
마지막으로 화자인식과 관련한 최신의 연구들과 앞으로의 연구 방향을 소개하면서 발표를 마무리합니다.
20. 포먼트 합성
음향 정보를 기반으로 하여 규칙과 필터를 이용하여 각각의 포먼트를 합성
1980년 이전 대부분의 합성 방식
MITalk
DECtalk
Stephen Hawking
20
21. 포먼트 합성
Stephen Hawking: http://www.youtube.com/watch?v=w0QY4cGY0pU
21
22. 편집 합성
음성 데이터베이스를 기반으로 개별 단위를 편집하여 합성
최초의 편집 합성 시스템: Talking Clock (1936)
단어나 구를 녹음
녹음된 단위를 편집하여 합성
Radio Free Vestibule (1994)
Bell Labs TTS: 1977, 1985
22
23. 편집 합성
Diphone Synthesis
두 음소의 중간 지점과 중간 지점 구간
음향적으로 안정 구간을 연결하여 합성
가능한 모든 다이폰을 포함하도록 녹음하여 음성 DB를 구축
Unit Selection Synthesis
Diphone보다 긴 구간을 단위로 설정(구 ~ 문장도 가능)
한 단위에 많은 후보를 확보하기 위하여 장시간 녹음
후보 가운데 가장 적합한 단위를 선정
23
24. 통계 기반 파라미터 합성
편집 합성의 문제점
음성 처리(변조)가 용이하지 않음.
DB가 충분하지 않은 경우에 성능이 저하됨.
HMM 기반 파라미터 음성합성
DB로부터 통계적인 방법으로 파라미터를 학습.
파라미터의 조정을 통한 음성 변조가 용이함.
기존 편집 합성 성능을 보완할 수 있음.
편집 합성(USS) vs. 파라미터 합성(HMM)
Roger
Nina
24
25. 편집 합성 vs. 파라미터 합성
USS
HTS
고품질
불연속성
Hit or Miss
Vocoded speech(buzzy)
연속성
안정적
대용량 DB
(고비용)
소용량 DB
음성 변조 불가
음성 변조 가능
25
27. 언어처리부
운율 예측부
음성 합성부
Text input
Text To Speech
언어모델
운율모델
음향모델
Language Pack
Text Corpus
Speech Corpus
언어처리부
모델 생성부
음성처리부
음성합성(Text-to-Speech)
27
28. 언어처리부
텍스트정규화(Text Normalization)
예제
일본이 최근 미국 보잉사로부터 도입한 E 767기 흔히 AWACS라고 불리는 조기경보 통제기로 미국도 아직 보유하지 못한 최신예깁니다
대장균 균이 가장 많이 검출된 제품은 일경식품의 와퍼로 1g당 4만마리가 나왔으며 한국 맥도널드의 빅맥에서도 1g당 64만마리가 검출됐습니다.
문장 내의 숫자, 기호, 외국어, 등 여러가지 문제들을 처리하는 모듈
방법론: 규칙 기반 혹은 통계 기반 방법
28
30. 운율처리부
운율 경계 및 액센트 추정
예제
아버지가방에들어가신다.
규칙 기반 혹은 통계 기반 방법
30
31. 편집 합성: Unit Selection Synthesis
합성 방법: 전사된 DB 가운데 합성하고자 하는 최적의 단위를 선정
최적의 의미
Target cost: Find closest match in terms of
Phonetic context
F0, stress, phrase position
Join cost: Find best join with neighboring units
Matching formants + other spectral characteristics
Matching energy
Matching F0
31
32. 편집 합성(Unit Selection Synthesis)
Total Costs
We now have weights (per phone type) for features set between target and database units
Find best path of units through database that minimize:
Standard problem solvable with Viterbi search with beam width constraint for pruning
32
37. NVOICE: NAVER 다국어 음성 합성 엔진
개발 언어
한국어
영어
일본어
합성 방식
Unit Selection Synthesis (USS)
대용량 엔진
소용량 엔진
Statistical Parametric Synthesis: HTS
Hybrid
37
38. 엔진 구성(USS)
Text Pre-processing
Morpheme Analysis
Text Normalization
Grapheme-to-Phoneme Conversion
Prosody Prediction
Unit Selection & Concatenation
Speech Effect
Speaking rate
Conversion
<Mixing BGM>
Speech Encoder
MA Dictionary & Models
TN Dictionary
TN Dictionary & Models
Models
TTSDB
Effect Presets
Speech Output (Streaming, Files-raw, wav, mp3, spx)
38
39. 발성목록 설계
도메인 별 모집단 코퍼스
국내/외 신문 텍스트 사용
14개 큰 도메인, 244개 상세 도메인 구성
문장선정 알고리즘
Word 기반으로 문장을 선정
WCR + CCR + Entropy 조합으로 문장을 선정
WCR : Word Cover Rate, 모집단 문장셋 전체 고유 단어 수와 선정 문장셋의 고유 단어 수 비율
CCR : 각 고유단어의 발생빈도(확률)을 고려한 WCR, 모집단 코퍼스의 coverage
Entropy : 각 고유 단어 발생빈도(확률) 을 이용한 선정 문장의 평균 정보량
39
40. 화자 선정
M 명 성우 예비 녹음
음성합성 전문가 선호도 평가 후 N 명 후보 압축(N < M)
N명 성우에 대한 K 문장 샘플 녹음
K 문장을 이용한 프로토타입 보이스폰트 생성
합성엔진 & 신호처리 적합도 원어민 평가 음성합성 전문가 평가
평가 종합
최종 성우 선정
40
41. 화자 선정
원음 평가 방법
평가자: 일반인 및 전문가
평가 방법론 정립
청지각 평가(일반인 및 전문가)
음향음성학적 분석: Long Term Average Spectrum (LTAS) 분석
전문 성우에 있어서 분석 시 3~4k 대역에 강한 에너지가 나타난다는 기존 연구를 기반
-20
0
20
40
60
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
41
44. 언어처리부: TN (영어)
규칙 커버리지
word 18 38%
number 24 50%
symbol 3 6%
etc 3 6%
word
number
symbol
etc
Category
# of rules
examples
English Word
18
well-being, July 14, SCI, IV, ef:ef:ef, …
Number
24
617-932-9209, 1/4/95, 7:35:20 a.m., …
Symbol
3
$13.6 million, $2.3, symbol break index, …
etc.
3
quotation, punctuation, …
44
45. 품사 태깅 정확도
95.54%
초당 분석 문장 수
약 1,022 문장 (1 문장당 평균 20토큰)
초당 분석 토큰 수
약 21,180 토큰
메모리 사용량
약 11MB
사전 및 모델 크기
약 3MB
내용
끊어 읽기 및 발음 등 합성에서의 형태소 사전 편집의 용이성을 제공
성능
언어처리부: 품사 태거 (영어)
45
46. 내용
영/한/중/일 인명/지명에 대한 예외 발음 사전 구축
CMU 사전에 다중 발음 정보 정제 및 동철 이음어에 대한 품사 정보 및 개체명 정보 부착
구축 규모
언어처리부: 예외발음 사전 구축(영어)
전체
지명
인명(이름)
인명(성)
인명(예외)
영어
168,185
105,877
14,234
48,074
-
중국어
58,090
17,879
38,449
298
1,464
한국어
54,022
8,067
45,044
160
751
일본어
83,783
42,826
23,462
13,857
3,638
CMU사전
8,891 단어 (전체 결과는 다중 발음 포함 9,119 단어, CMU 사전 전체 단어 중 약 7% 차지)
46
47. G2P 성능 (정확도)
운율 경계 모델링 추정 성능
언어처리부(한국어)
Precision
Recall
F1
접어(Clitic)
76.68%
72.78%
74.68%
강세구(AP)
85.42%
89.60%
87.46%
억양구(IP)
87.42%
80.93%
84.05%
Precision
음절
98.41%
단어(어절)
95.23%
문장
71.50%%
47
48. Context rule 을 반영한 음질 개선
Boundary
Phoneme
Cost function cost(푙, 푐,푟)=푙푏_푐(푙)∗푤_푙푏 (푐)+푟푏_푐(푟)∗푤_푟푏 (푐) + 푙푝_푐(푙)∗ 푤_푡푙 (푙,푐)+ 푟푝_푐(푟)∗ 푤_푡푟 (푟,푐)
음성합성부 : 합성유닛 선정 알고리듬 개선
LLP
Left
phone
Right
phone
RRP
LLB
RB
Center
phone
LB
RRB
48
49. 합성 엔진부
보이스폰트(DB)
메모리 사용량(한국어 소용량 엔진)
Unit Compression
130MB
Unit Reduction
25MB
운율 추정부
1M
Viterbi 탐색부
0.1MB
Cpstrum 코드북
0.1MB
49
51. 음성합성 샘플(영어)
Vanity and pride are different two things, though the words are often used synonymously. A person may be proud without being vain. Pride relates more to our opinion of ourselves, vanity, to that we would have others think of us. Jane Austen
51