SlideShare a Scribd company logo
1 of 77
[T2] Statistical voice conversion 
with direct waveform modeling
Tomoki TODA (tomoki@icts.nagoya‐u.ac.jp)
Kazuhiro KOBAYASHI (kobayashi.kazuhiro@g.sp.m.is.nagoya‐u.ac.jp)
Tomoki HAYASHI (hayashi.tomoki@g.sp.m.is.nagoya‐u.ac.jp)
Nagoya University, Japan
Sept. 15th, 2019
Goal of This Tutorial
• Through this tutorial, you will
• Grasp the basics of VC!
• Catch up recent progress of VC techniques!
• Develop a baseline VC system!
• Develop a neural vocoder!
• Develop a more sophisticated VC system w/ neural vocoder!
Introduction: 1
Let’s quickly learn an overview of voice conversion (VC) techniques 
and how to develop VC systems using freely‐available software!
Lecturers
Tomoki TODA
Nagoya University
Kazuhiro KOBAYASHI
Nagoya University /
TARVO Inc.
Tomoki HAYASHI
Nagoya University /
HDL Co. Inc.
Introduction: 2
Outline
• 09:00‐10:30   Overview of VC techniques
• Lecturer: Tomoki TODA
• Review of the basics of VC and recent progress especially highlighting 
direct waveform modeling techniques
• 10:30‐11:00   Break
• 11:00‐12:30   Introduction of freely‐available software
• Lecturer: Kazuhiro KOBAYASHI and Tomoki HAYASHI
• Development of VC system with WaveNet vocoder by using 
“sprocket” and “PytorchWaveNetVocoder”
Introduction: 3
Outline of Overview
• Let’s review VC progress!
• Basics of VC
• Is VC useful?
• How to do VC?
• Improvements of VC
• What is important to handle speech?
• Can we make VC framework more flexible?
• Which VC techniques are really helpful?
• Let’s review recent progress of waveform modeling!
• Basics of waveform modeling
• Let’s revisit vocoder!
• Progress of waveform modeling in VC
• How to avoid using vocoder?
• How to improve vocoder?
Let’s quickly learn an overview 
of VC techniques!
Outline
Basis of VC
• Usefulness of VC
• Typical VC frameworks
• VC applications
Voice Conversion (VC)
Output speechInput speech
VC
• Technique to modify speech waveform to convert non‐/para‐linguistic 
information while preserving linguistic information
Converted as if
 uttered by a specific target speaker
 uttered by a specific target speaking style
 uttered by a specific …
while keeping linguistic contents unchanged
Q2. How can we do it?
Q1. Is such a technique useful?
Basics: 1
Excitation generation 
beyond constraints
Articulation
beyond constraints
Q1. Is VC Really Useful?
Excitation 
generation
Articulation Speech
Hello…Hello…Hello…
Hello!
Normal speech organs
would be virtually implanted!
Even if some speech 
organs were lost…
Possible to augment our speech production [Toda, ’14]
by intentionally control non‐linguistic information!
Ans.  Yes! Potential to break down barriers existing in speech communication!
VC
Converted 
speech 
Basics: 2
Q2. How to Convert Speech?
Converted
speech
Input 
speech
Conversion
Converted speech parameters
SynthesisAnalysis
Speech parameters
Ans.  Modify speech parameters w/ source‐filter model (i.e., vocoder)
Spectral parameter
Excitation
Pulse train
Gaussian noise
Synthetic speech
Synthesis filter
)(zH
][*][][ nenhnx 
F0 & voiced/unvoiced
Speech parameters (extracted from speech signal      )
][ne
Basics: 3
Voice Conversion w/ Vocoder
Realtime speech modification 
software (Herium)
[Prof. Banno, Meijyo Univ.]
Excitation parameters (e.g., fundamental frequency)
Shorter period
Longer period
Higher pitch!
Lower pitch!
Time
Time
Time
Extend 
frequency 
Shrink 
frequency
Longer vocal tract!
Frequency
Power
Frequency
Power
Frequency
Power
Resonance parameters (e.g., spectral envelope)
Shorter vocal tract!
Input speech 
parameters
Rule‐based conversion
(w/ time‐invariant function)
Converted speech 
parameters
Basics: 4
Q2+. How to More Flexibly Convert Speech?
Training 
data
Statistical VC = Signal processing + Machine learning
Ans.  Develop statistical conversion function to model nonlinear mapping!
Converted
speech
Input 
speech
Statistical
conversion
Converted speech 
parameters
SynthesisAnalysis
Speech parameters
Basics: 5
Demo: Character Voice Changer
• Convert my voice into specific characters’ voices
Realtime statistical VC software
[Dr. Kobayashi, Nagoya Univ.]
Famous virtual singer
Basics: 6
Various VC Frameworks
Input text Target speech
Input text
Target speech
Input speech
Target speechInput speech
1. Speech input
2. Text input
3. Speech and text input
• Typical VC framework
• VC‐related frameworks
x
L
x
L
y
y
y
e.g., real‐time processing for
human‐to‐human communication
e.g., Text‐to‐Speech synthesis for
man‐machine communication
e.g., manual design of specific 
target speaker/character’s voices
Basics: 7
• Described as a regression problem
• Supervised training using utterance pairs of source & target speech
Basic Framework of Statistical VC
Target speaker
Conversion model
Please say
the same thing.
Please say
the same thing.
Let’s convert
my voice.
Let’s convert
my voice.
Source speech Target speech
1. Training with parallel data (around 50 utterance pairs)
2. Conversion of any utterance while keeping linguistic  contents unchanged
Source speaker
[Abe; ’90]
Example: speaker conversion
Basics: 8
Training and Conversion Steps
Analysis
Source feature sequence
1x
1
ˆy
 tt xy λfˆ 
2x
2
ˆy
Tx
Tyˆ
Conversion 
model
Synthesis
Source speech waveform
Converted feature sequence
Converted speech waveform
Basics: 9
Analysis
1x
1
ˆy
2x
2
ˆy
Tx
Tyˆ
Analysis
Source speech waveform
Target speech waveform
Training
Source feature sequence
Target feature sequence
Conversion
• Development of augmented speech production
An Example of VC Application
Break down 
barriers!
Create new 
expressions!
From vocal 
disorder’s voice
to a naturally 
sounding voice
From very soft 
murmur
to intelligible 
voice
From current 
singing voice
to younger voice
to elder voice
Speaking aid to recover a lost voice
Silent speech interface to with cellphone while keeping silent!
Voice changer or vocal effector to produce a desired voice
[Toda; ’14]
Basics: 10
Talk anytime 
and anywhere!
Risk of VC
• Need to look at a possibility that statistical VC is misused for spoofing…
• Real‐time VC makes it possible for someone to speak with your voices…
• Shall we stop VC research?
No.  There are many useful applications making our society better!
• What can we do?
• Collaborate with anti‐spoofing research [Wu; ’15]
• ASVspoof (automatic speaker verification spoofing and countermeasures 
challenge) has been held since 2015. [Wu; ’17][Kinnunen; ’17]
• Need to widely tell people how to use statistical VC correctly!
VC needs to be socially recognized as a kitchen knife.
Basics: 11
Improvements of VC
• Techniques to model speech acoustics
• Flexible training process
• Evaluation of various techniques
Speech 
waveform
a r a y u rsil u g e N j i ts u
Phoneme 
sequence
あらゆる 現実Silence
Word 
sequence
Difficulty in Handling Speech Waveform
Sentence 「あらゆる現実を全て自分の方へ・・・」
• Need to properly model characteristics of speech waveform
• How to model long‐term dependency over a sequence?
• How to model fluctuation components caused by our physical speech 
production mechanism?
* Sorry for Japanese example
Improvements: 1
VC Research Progress
VQ [Abe; ’90]
GMM [Stylianou; ’98]
Trajectory conversion  
[Toda; ’07]
RNN [Sun; ’15]
CNN [Kaneko; ’17]
Seq2Seq [Zhang; ’19]
MMSE [Stylianou; ’98]
GV [Toda; ’07]
MS [Takamichi; ’16]
GAN 
[Saito; ’18][Kaneko; ’17]
PPG [Sun; ’16]
CVAE [Hsu; ’16]
VQ‐VAE
[van den Oord; ’17]
VCC2016
[Toda; ’16]
VCC2018
[Lorenzo‐
Trueba; ’18]
Frame‐based 
conversion
Sequence‐based 
conversion
Seq‐to‐seq 
conversion
Error minimization
Regularization w/
higher‐order stats
Adversarial training
Reconstruction‐
based training
How to model long‐
term dependency?
How to model 
natural fluctuation?
How to handle 
nonparallel data?
Adaptation
How to 
evaluate?
Linear regression 
[Mouchtaris; ’06]
Eigenvoice [Toda; ’06]
Challenge
1990
2000
2010
Improvements: 2
VC Research Progress
VQ [Abe; ’90]
GMM [Stylianou; ’98]
Trajectory conversion  
[Toda; ’07]
RNN [Sun; ’15]
CNN [Kaneko; ’17]
Seq2Seq [Zhang; ’19]
MMSE [Stylianou; ’98]
GV [Toda; ’07]
MS [Takamichi; ’16]
GAN 
[Saito; ’18][Kaneko; ’17]
PPG [Sun; ’16]
CVAE [Hsu; ’16]
VQ‐VAE
[van den Oord; ’17]
VCC2016
[Toda; ’16]
VCC2018
[Lorenzo‐
Trueba; ’18]
Frame‐based 
conversion
Sequence‐based 
conversion
Seq‐to‐seq 
conversion
Error minimization
Regularization w/
higher‐order stats
Adversarial training
Reconstruction‐
based training
How to model long‐
term dependency?
How to model 
natural fluctuation?
How to handle 
nonparallel data?
Adaptation
How to 
evaluate?
Linear regression 
[Mouchtaris; ’06]
Eigenvoice [Toda; ’06]
Challenge
1990
2000
2010
More details are shown in pp. 17—29 
of https://bit.ly/2m7mDHp
Improvements: 3
Frame‐based Conversion
• Convert speech features frame by frame independently
• Source feature vector                   :
• Target feature vector                    :
• Statistical model parameter set :
• Converted feature vector            :
ty
tx
tyˆ
λ
 tt xy λfˆ 
1x
1
ˆy
2x
2
ˆy
Tx
Tyˆ
3x
3
ˆy
Frame‐based conversion function
Improvements: 4
Training Process
• Modeling correspondence of source feature into target feature
Source voice
Target voice
Source features
Target features
,,
2
2
1
1












y
x
y
x
Feature extraction 
Conversion 
model 
Joint features
,, 21 xx
,, 21 yy
Time‐alignment Model training
 tt xy λfˆ 
Implemented in sprocket [Kobayashi; ’18b]!
Improvements: 5
From Frame‐based to Sequence‐based Process
[Toda; ’07]
Source feature sequence
Converted feature sequence
Joint conversion
1x
1
ˆy
 tt xy λfˆ 
2x
2
ˆy
Tx
Tyˆ
3x
3
ˆy
1x
1
ˆy
2x
2
ˆy
Tx
Tyˆ
3x
3
ˆy
   TT xxxyyy λ ,,,fˆ,,ˆ,ˆ 2121  
Frame‐based conversion Sequence‐based conversion
Source feature sequence
Converted feature sequence
• Conversion considering inter‐frame correlation over an utterance to 
properly model speech dynamics
Improvements: 6
  |(),|(,|maxargˆ,,ˆ )(
1
,,
1
1
y
tt
T
t
ttT PPP
T
vλXyλXyyy
yy
 


Source feature 
sequence TXtX2X1X
Converted static
feature sequence Tyˆ1
ˆy 2
ˆy tyˆ
[Toda; ’07]
Conditional p.d.f.
for static features
Conditional p.d.f. for 
dynamic features
(= linearly transformed)
Function of static features
GMM
Converted 
static features
• Simultaneously convert all frames over a time sequence (e.g., utterance)
Conversion w/ MLPG(Maxim Likelihood Parameter Generation [Tokuda; ’00])
Implemented in sprocket!
𝑃 𝑿 , 𝒚 , ∆𝒚 |𝝀
Improvements: 7
Seq‐to‐Seq Conversion w/ Attention Mechanism
• Use encoder‐decoder with attention to convert a source feature sequence 
into a target feature sequence without using time‐alignment
• Conditional modeling of the target sequence given the source sequence
• Capable of converting prosodic features (e.g., F0 pattern, duration) by directly 
handling mel‐spectrogram rather than vocoder parameters
[Zhang; ’19]
Encoder based on RNN/CNN
Auto‐regressive decoder
based on RNN w/ attention
Encoder‐decoder
Source feature sequence
Converted mel‐spectrum sequence
𝒚 , 𝒚 , … , 𝒚 f 𝒙 , 𝒙 , … , 𝒙
𝒙 𝒙𝒙
𝒚 𝒚 𝒚
Latent feature 
sequence
𝒙 𝒙
𝒉 𝒉
𝒚 𝒚 𝒚
https://jxzhanggg.github.io/Text‐supervised‐Seq2SeqVC/ Improvements: 8
VC Research Progress
VQ [Abe; ’90]
GMM [Stylianou; ’98]
Trajectory conversion  
[Toda; ’07]
RNN [Sun; ’15]
CNN [Kaneko; ’17]
Seq2Seq [Zhang; ’19]
MMSE [Stylianou; ’98]
GV [Toda; ’07]
MS [Takamichi; ’16]
GAN 
[Saito; ’18][Kaneko; ’17]
PPG [Sun; ’16]
CVAE [Hsu; ’16]
VQ‐VAE
[van den Oord; ’17]
VCC2016
[Toda; ’16]
VCC2018
[Lorenzo‐
Trueba; ’18]
Frame‐based 
conversion
Sequence‐based 
conversion
Seq‐to‐seq 
conversion
Error minimization
Regularization w/
higher‐order stats
Adversarial training
Reconstruction‐
based training
How to model long‐
term dependency?
How to model 
natural fluctuation?
How to handle 
nonparallel data?
Adaptation
How to 
evaluate?
Linear regression 
[Mouchtaris; ’06]
Eigenvoice [Toda; ’06]
Challenge
1990
2000
2010
Improvements: 9
More details are shown in pp. 30—36 
of https://bit.ly/2m7mDHp
Global Variance (GV) Modeling
• Use GV of target speech parameters over an utterance as a feature to 
capture oversmoothing effects
• Use GV likelihood as a regularization term in conversion [Toda; ’07] (also 
possible to design postfilter [Toda; ’12] or use it in training [Zen; ’12][Hwang; ’13])
  







T
t
T
ddtd y
T
y
T
v
1
2
1
,,
)( 11


y
0 1 2 3
Time [sec]
0
1
‐1
)( y
dv
dy
[Toda; ’07]
  
)|(),|(,|maxargˆ,,ˆ )()(
1
,,
1
1
vy
tt
T
t
ttT PPP
T
λvλXyλXyyy
yy
 


Conditional p.d.f.
for static features
p.d.f. of GV
(= nonlinearly 
transformed)
Conditional p.d.f. for 
dynamic features
(= linearly transformed)
Converted 
static features
Implemented in sprocket!
Function of static features
Improvements: 10
Modulation frequency 
components
0 Hz
0.25 Hz
0.5 Hz
~ Hz





=
……
From GV to Modulation Spectrum (MS)
0 1 2 3
0
1
‐1
)( y
dv
dy
Decompose a parameter 
sequence into individual 
modulation frequency 
components
Time [sec]
)(
1,
y
dv
)(
2,
y
dv
)(
,
y
fdv
)(
0,
y
dv
p.d.f. modeling of their 
power values (i.e., their GVs)
Parameter 
sequence
Incorporate them into
the objective function 
[Takamichi; ’15] or design 
postfilter [Takamichi; ’16]
[Takamichi; ’16]
Improvements: 11
Regularization w/ GAN [Goodfellow; ’14]
• Design a regularization term in a totally data‐driven manner instead of 
using hand‐crafted features (GV and MS)
[Saito; ’18]
Conversion 
network
𝒚
Discriminator 
network
0: Converted
1: Natural target
1x 2x Tx3x
1
ˆy 2
ˆy Tyˆ3
ˆy
𝒚 𝒚 𝒚
Source 
features
Target 
features
Converted 
features
Conversion error 
𝐿 𝒚, 𝒚
Adversarial loss  𝐿 𝒚 ∝ 𝑝 0|𝒚
Trained by minimizing
𝐿 𝒚, 𝒚 𝜔 𝐿 𝒚
Trained by maximizing
1 𝐿 𝒚 𝐿 𝒚
∝ 𝑝 1|𝒚 𝑝 0|𝒚
Improvements: 12
VC Research Progress
VQ [Abe; ’90]
GMM [Stylianou; ’98]
Trajectory conversion  
[Toda; ’07]
RNN [Sun; ’15]
CNN [Kaneko; ’17]
Seq2Seq [Zhang; ’19]
MMSE [Stylianou; ’98]
GV [Toda; ’07]
MS [Takamichi; ’16]
GAN 
[Saito; ’18][Kaneko; ’17]
PPG [Sun; ’16]
CVAE [Hsu; ’16]
VQ‐VAE
[van den Oord; ’17]
VCC2016
[Toda; ’16]
VCC2018
[Lorenzo‐
Trueba; ’18]
Frame‐based 
conversion
Sequence‐based 
conversion
Seq‐to‐seq 
conversion
Error minimization
Regularization w/
higher‐order stats
Adversarial training
Reconstruction‐
based training
How to model long‐
term dependency?
How to model 
natural fluctuation?
How to handle 
nonparallel data?
Adaptation
How to 
evaluate?
Linear regression 
[Mouchtaris; ’06]
Eigenvoice [Toda; ’06]
Challenge
1990
2000
2010
Improvements: 13
More details are shown in pp. 43—54 
of https://bit.ly/2m7mDHp
Speaker‐Independent Feature Extraction
• Extract phoneme posteriorgram (PPG) as speaker‐independent contextual 
features and use them as input of the conversion network
Phone recognizer
1x 2x Tx3xSource feature 
sequence
Target feature 
sequence
𝒚 𝒚 𝒚 𝒚
𝒑 𝒑 𝒑 𝒑
PPG
Target‐dependent 
conversion network
No longer need to use 
parallel data!
Target 
speech data
PPG data
Phone 
recognizer
Conversion 
network
Remove speaker‐
dependencies!
Add speaker‐
dependencies!
[Sun; ’16]
Improvements: 14
Nonparallel Training w/ VAE 
• Use conditional variational autoencoder (VAE) to factorize speech features 
in a totally unsupervised manner [Hsu; ’17]
• Capable of using unpaired utterances between source and target speakers
• VQ‐VAE [van den Oord; ’17]: directly use speech waveform as observation data, 
making it possible to jointly convert spectral and prosodic features
Encoder
network tz
Decoder
network
Speaker 
code
Linguistic contents
Gaussian prior  𝑁 𝟎, 𝑰
Remove speaker
dependencies
Add speaker 
dependencies
)(s
w
𝑡 1: 𝑇
𝑠 1: 𝑆
𝒀 𝒀
Minimize reconstruction loss
Improvements: 15
VC Research Progress
VQ [Abe; ’90]
GMM [Stylianou; ’98]
Trajectory conversion  
[Toda; ’07]
RNN [Sun; ’15]
CNN [Kaneko; ’17]
Seq2Seq [Zhang; ’19]
MMSE [Stylianou; ’98]
GV [Toda; ’07]
MS [Takamichi; ’16]
GAN 
[Saito; ’18][Kaneko; ’17]
PPG [Sun; ’16]
CVAE [Hsu; ’16]
VQ‐VAE
[van den Oord; ’17]
VCC2016
[Toda; ’16]
VCC2018
[Lorenzo‐
Trueba; ’18]
Frame‐based 
conversion
Sequence‐based 
conversion
Seq‐to‐seq 
conversion
Error minimization
Regularization w/
higher‐order stats
Adversarial training
Reconstruction‐
based training
How to model long‐
term dependency?
How to model 
natural fluctuation?
How to handle 
nonparallel data?
Adaptation
How to 
evaluate?
Linear regression 
[Mouchtaris; ’06]
Eigenvoice [Toda; ’06]
Challenge
1990
2000
2010
Improvements: 16
More details are shown in pp. 55—64 
of https://bit.ly/2m7mDHp
Voice Conversion Challenges (VCCs)
• Conducted to better understand different VC techniques by comparing 
their performance using a freely‐available dataset as a common dataset
• VCC2016 [Toda; ’16] and VCC2018 [Lorenzo‐Trueba; ’18]
• Tasks: speaker conversion
• Parallel training (VCC2016 & VCC2018) and nonparallel training (VCC2018)
• Perceptual evaluation: naturalness and speaker similarity by listening tests
• Datasets: VCC 2016 and VCC2018 datasets designed using DAPS [Mysore, ’15]
VCC2018 # of speakers # of sentences
Source
speakers
2 females & 2 males 81 for training
& 35 for evaluation
Target
speakers
2 females & 2 males 81 for training
Other source
speakers
2 females & 2 males Other 81 for training
& 35 for evaluation
Parallel
training tsk
Nonparallel
training task
Improvements: 17
Overall Results of VCC2018 Listening Tests
100
80
60
40
20
0
1 2 3 4 5
MOS on naturalness
Similarity score [%]
100
80
60
40
20
0
1 2 3 4 5
MOS on naturalness
Similarity score [%]
Baseline
[Kobayashi; ’18b]
N17 system (NU)
[Tobing; ’18]
N10 system [Liu; ’18]
Baseline
[Kobayashi; ’18b]
N17 system (NU) [Wu; ’18]
N10 system [Liu; ’18]
Parallel training task
• 23 submitted systems
• 1 baseline (developed w/ sprocket)
Nonparallel training task
• 11 submitted systems
• 1 baseline (developed w/ sprocket)
Improvements: 18
• Effectiveness of waveform generation process w/o traditional vocoder
• Effectiveness of alignment‐free training based on reconstruction process
Findings through VCC2018
Input 
speech
Feature
conversion
Synthesis w/ 
traditional vocoder
Analysis
Converted 
speech
Synthesis w/ 
neural vocoderTop 2 systems (N10 and N17)
Direct waveform 
modification
Baseline system
Input 
features
Speaker‐
independent 
features
Encoding Decoding
Reconstructed 
features
Speaker information
Improvements: 19
Announcement: CycleVAE
[Tobing; ’19b]
• Better disentanglement performance in VAE‐based nonparallel training
Encoder
network tz
Decoder
network
Source 
speaker𝑁 𝟎, 𝑰
𝒀
𝒘
𝒀
Encoder
network tz
𝑁 𝟎, 𝑰
𝒀
𝒘
Target 
speaker
Decoder
network
𝒀
Source 
speaker
𝒘
Reconstruction loss
Cyclic 
reconstruction loss
Tobing et al., “Non‐parallel voice conversion with cyclic variational autoencoder,”
Poster session, 14:30‐16:30, Mon. 16, INTERSPEECH 2019
Optimize networks by 
minimizing both losses
Improvements: 20
Basics of Waveform Modeling
• Typical approaches
• Probabilistic approach
• Issues to be addressed
Input 
speech
Feature
conversion
Synthesis w/ 
traditional vocoder
Analysis
Converted 
speech
Typical Approaches to Waveform Generation
• Parametric approach (vocoder)
• Concatenative approach
Speech waveform Short‐time analysis
Speech parameters
Waveform generation
Source‐filter model
Segmentation
Waveform segments
Concatenation
Segment (symbol) selection
Symbolization
Generated
speech waveform
Speech waveform
Generated
speech waveform
Vocoder: 1
• Probabilistic approach (e.g., linear predictive analysis [Itakura; ’68], mel‐
generalized cepstrum analysis [Tokuda; ’94])
• Formulation as a probabilistic model parameter estimation process
• Deterministic approach (e.g., STRAIGHT [Kawahara; ’99],WORLD [Morise; ’16],
aQHM [Pantazis; ’11])
• Estimation of parameters to accurately represent/reproduce speech signals
How to Parameterize Speech Waveform?
e[n]: Source excitation 
(Gaussian noise)
H(z): Resonance filter 
(spectral envelope)
x[n]: Speech waveform
(observation)
Estimation
x[n]: Speech waveform 
(observation)
Fundamental frequency 
(F0) extraction
Removal harmonic 
structures
Resonance filter
(spectral envelope)
Vocoder: 2
𝐸 𝑧 𝐴 𝑧 𝑋 𝑧
Speech waveform  𝑥 𝑛
FIR filter 𝐴 𝑧
Prediction error 𝑒 𝑛
• Prediction of a current sample with linear combination of past samples
• Predictive parameter estimation by minimizing a sum of squared 
prediction errors  𝑒 𝑛 𝑥 𝑛 𝑥 𝑛 within a short‐time frame
Probabilistic Method: Linear Predictive Analysis
From past D samples
n
Predict a current sample
x[n]x[n-1]x[n-D] ・・・
LP parameters:  𝑎 , … , 𝑎
Linear prediction (LP):
[Itakura; ’68]
𝑥 𝑛 𝑎 𝑥 𝑛 1 ⋯ 𝑎 𝑥 𝑛 𝐷
𝐴 𝑧 1 𝑎 𝑧
Determined by
minimizing ∑ 𝑒 𝑛
Vocoder: 3
• Viewed as Gaussian process
Formulated as Maximum Likelihood Estimation
[Itakura; ’68]
𝑋 𝑧 𝐻 𝑧 𝐸 𝑧
Speech waveform  𝑥 𝑛
Inverse filter 𝐻 𝑧 𝐴 𝑧
Prediction error 𝑒 𝑛
𝑝 𝑥 1 , … , 𝑥 𝑁 | 𝝀 N 𝑥 𝑛 ; 𝑎 𝑥 𝑛 1 ⋯ 𝑎 𝑥 𝑛 𝐷 , 𝜎
Model parameters
𝝀 𝑎 , … , 𝑎 , 𝜎
N 𝒙; 𝟎, 𝜎 𝑨⊺
𝑨 𝑨 : Lower band matrix 
consisting of  𝑎 , … , 𝑎
𝝀 arg max
𝝀
𝑝 𝑥 1 , … , 𝑥 𝑁 | 𝝀
LP analysis  Maximum likelihood estimation
𝐻 𝑧 1 𝑎 𝑧
Auto‐regressive (AR) model Joint probability densityGaussian noise
N 0, 𝜎 𝑝 𝑥 1 , … , 𝑥 𝑁
Vocoder: 4
Mel‐Generalized Cepstrum Analysis
• Unified approach to LP analysis and cepstrum analysis
First‐order all‐pass function:
𝑧
𝑧 𝛼
1 𝛼𝑧
, 𝛼 1
Resonance filter w/ mel‐generalized cepstrum coefficients 𝑐 , 𝑚 :
Hyper parameter  𝛾 to control 
spectral representation
𝛾 1 All‐pole model
(i.e., LP analysis)
𝛾 0 Exponential model 
(i.e., cepstrum analysis)
Hyper parameter  𝛼 to control frequency warping
𝛼 0 Expand lower frequency band
𝛼 0 Expand higher frequency band
[Tokuda; ’94]
𝐻 𝑧
1 𝛾 𝑐 , 𝑚 𝑧 , 1 𝛾 0
exp 𝑐 , 𝑚 𝑧 , 𝛾 0
Warped frequency (rad)
Frequency (rad)

2

0 2/
𝛼 0.5
𝛼 0
𝛼 0.5
Vocoder: 5
Example of Extracted Spectral Envelope
Frequency (kHz)
Logmagnitude(dB)
0
100
50
0 4.0 8.0 0
All‐pole model
(LP analysis)
4.0 8.0 4.0 8.00
0
100
50
0
100
50
Exponential model
(cepstrum analysis)
𝛼 0 𝛼 0.35 𝛼 0.47
𝛾 0
𝛾
1
2
𝛾 1
* From HTS slides ver. 2.3 released by HTS Working Group (http://hts.sp.nitech.ac.jp/?Download)
Vocoder: 6
• Use excitation model to generate an excitation signal to be filtered
• Use MLSA filter [Imai; ’83] to design synthesis filter corresponding to 
• Synthesis filter in LP method (i.e.,  𝛾 1, 𝛼 0) 
• Synthesis filter in cepstrum method (i.e.,  𝛾 0, 𝛼 0) 
Generation Process (Synthesis Filtering)
𝑋 𝑧 𝐻 𝑧 𝐸 𝑧
Speech waveform  𝑥 𝑛
Synthesis filter 𝐻 𝑧Excitation
𝑒 𝑛
𝐻 𝑧 1 𝑐 , 𝑚 𝑧
𝐻 𝑧 exp 𝑐 , 𝑚 𝑧
Pulse train
Gaussian noise
𝑅 𝑐 , 𝑚 𝑧
Pade approximation to model 
exponential function w/ rational function 
exp 𝑥 𝑅 𝑥
1 ∑ 𝐴 , 𝑥
1 ∑ 𝐴 , 𝑥
AR generation process
Vocoder: 7
Essential Issues of Traditional Approaches
• Issues of speech waveform parameterization
• Need to assume stationary process in frame analysis (e.g., tackled in 
[Tokuda; ’15])
• Need to assume Gaussian process
• Hard to model temporal structure (phase components) (e.g., tackled in 
[Maia; ’13] [Juvela; ’16])
• Hard to accurately model fluctuation (stochastic components)
• How to model source excitation parameters in the probabilistic approach
• How to model spectral envelope parameters in the deterministic 
approach (e.g., tackled in [Toda; ’07] [Takamichi; ’16])
• Issues of waveform segmentation and concatenation
• Less flexible generation process
• Hard to design a segment selection function
I think we didn’t have any perfect solutions until Sept. 2016…
Vocoder: 8
Input 
speech
Feature
conversion
Synthesis w/ 
traditional vocoder
Analysis
Converted 
speech
Direct waveform 
modification
Baseline system
Progress of Waveform Modeling 
in VC
• Direct waveform modification
• Implementation of neural vocoder
Difficulties of Excitation Modeling
• Hard to generate a natural excitation signal by using excitation models…
Converted speech 
waveform  𝑦 𝑛
Time‐varying synthesis
filter 𝐻 𝑧
Converted 
excitation
𝑒 𝑛
Pulse train
Gaussian noise
Converted excitation 
parameter sequence
Converted spectral 
parameter sequence
Not necessary to convert excitation parameters in some VC applications, 
e.g., same‐gender singing voice conversion, where F0 values of source and 
target voices are similar to each other…
Shall we use natural excitation signals of source speech?
DIFFVC: 1
Filtering w/ Mel‐Cepstrum Differential
• Convert only spectral parameter sequence
Converted mel‐cepstrum:  𝑐 , 𝑚
Converted speech 
waveform  𝑦 𝑛Target synthesis
filter  𝐻 𝑧
Source speech 
waveform  𝑥 𝑛 Source inverse 
filter 𝐻 𝑧
𝑒 𝑛
𝐸 𝑧 𝐻 𝑧 𝑋 𝑧
Source mel‐cepstrum:  𝑐 , 𝑚
𝐻
/
𝑧
𝐻 𝑧
𝐻 𝑧
exp ∑ 𝑐 , 𝑚 𝑧
exp ∑ 𝑐 , 𝑚 𝑧
exp 𝑐 , 𝑚 𝑐 , 𝑚 𝑧
Mel‐cepstrum differential
𝑌 𝑧 𝐻 𝑧 𝐸 𝑧
Differential 
filter  𝐻
/
𝑧
𝑌 𝑧 𝐻
/
𝑧 𝑋 𝑧 𝐻 𝑧 𝐻 𝑧 𝑋 𝑧
𝑥 𝑛 𝑦 𝑛
Equivalent to 
DIFFVC: 2
• Apply time‐variant filtering to input speech waveform to convert its 
spectral envelope only
Input speech
waveform
Time-variant filter Converted speech
waveform
DIFFVC: VC w/ Direct Waveform Modification
[Kobayashi; ’18a]
)(ˆ )/(
zH xy
t
• GOOD: Keep natural phase components!
• GOOD: Alleviate the over‐smoothing effects!
• BAD: Not convert excitation parameters (e.g., F0)
 λyx |, ttp
GMM
ttt xyd 
 λdx |, ttp
DIFFGMM
Variable transformation
Sequence of mel‐cepstrum
differentials
Converted
parameters =
𝑐 , 𝑚 𝑐 , 𝑚 𝑐 , 𝑚
𝒄 , , 𝒄 , , … , 𝒄 ,
DIFFVC: 3
Frequency
Power
Frequency
Power
Waveform Modification for F0 Conversion
• Use of duration conversion w/ WSOLA and resampling for F0 conversion
e.g., if setting F0 transformation ratio to 2 (i.e., 100 Hz to 200 Hz),
1.  Make duration of input waveform double w/ WSOLA while keeping F0 values
2.  Resample the modified waveform to make its duration half
Input waveform
Duration modified 
waveform
1.1.  Extract frames by windowing
1.2  Find the best concatenation point
1.3  Overlap and add
F0 modified 
waveform
Deletion or
down sampling
Duration modified 
waveform
Note that spectrum envelope is also converted due to 
the frequency warping effect caused by resampling…
DIFFVC: 4
DIFFVC w/ F0 Conversion
• Use F0 modified waveform as input speech in spectral conversion
Implemented in sprocket!
Source speech Target speech
Source 
speech
Training process
Conversion process
WSOLA & 
resampling
F0 transformed 
source speech
MLSA 
filtering
Converted 
speech
F0 transformed 
source speech
WSOLA & 
resampling
Distorted!
Necessary to train a conversion 
model dependently on the F0
transformation ratio
Waveform domain
Feature 
conversion
Mel‐cepstrum
differentials
Conversion model training
From distorted voice 
into clean voice
Conversion 
model
DIFFVC: 5
Announcement: Generalized Implementation
• Generalized implementation to handle arbitrary VC models (e.g., VAE)
Huang et al., “Generalization of spectrum differential based direct waveform modification 
for voice conversion,”
Poster session, 15:30‐17:00, Fri. 20, SSW10 (The 10th ISCA Speech Synthesis Workshop)
Source speech 
𝑥 𝑛
Modified source
speech  𝑥′ 𝑛
WSOLA
Mel‐cepstrum
sequence of 
𝑥′ 𝑛
Mel‐cepstrum
analysis
Modified 
excitation signal 
𝑒 𝑛
MLSA inverse 
filtering
Converted 
speech
MLSA 
filtering
Mel‐cepstrum
sequence of  𝑥 𝑛
Linear 
interpolation
Less distorted thanks to 
flat spectral envelope
Duration‐modified signal
DIFFVC: 6
Usual 
conversion 
model
Converted 
mel‐cepstrum
Conversion
F0 transformed 
excitation signal 
𝑒 𝑛
𝛼Resampling 𝛼
Announcement: DIFFVC vs VC
• DIFFVC is more robust against background sounds than VC w/ vocoder!
Kurita et al., “Robustness of statistical voice conversion based on direct waveform 
modification against background sounds,”
Poster session, 14:30‐16:30, Mon. 16, INTERSPEECH 2019
Good
Sound quality
Bad
DIFFVC
VC
DIFFVC
VC
DIFFVC: 7
Progress of Waveform Modeling 
in VC
• Direct waveform modification
• Implementation of neural vocoder
Input 
speech
Feature
conversion
Synthesis w/ 
traditional vocoder
Analysis
Converted 
speech
Synthesis w/ 
neural vocoderTop 2 systems (N10 and N17)
Epoch‐Making: WaveNet
tx
1
z1
z1
z1
z
Deep CNN
• Dilated causal convolution
• Residual network
• Gated activation
Random 
sampling
Nonlinear prediction
Long receptive field (e.g., 3,000 past values)
 tptttt xxxxP h,,,,| 21  
AR model (Markov model)Linguistic 
context th
th
[van den Oord; ’16b]
Predictive distribution of tx
Quantized waveform
= Discrete symbol sequence
• Probabilistic generation model for waveforms
• Naturally sounding speech generated by random sampling
• Capable of well modeling stochastic components of speech signals
WaveNet VC: 1
Discrete Symbol Sequence Modeling
• Represent speech waveform as discrete symbol sequence
• 16 bits to 8 bits w/ μ‐law quantization
• Handle discrete symbols w/ 256 classes
• Probability mass modeling w/ higher‐order Markov model (i.e., AR model 
for discrete variables)
• Formulated as classification problem (256 classes at each time sample)
• Similar to the concatenative approach!
𝑝 𝑥 , … , 𝑥 𝑝 𝑥 |𝑥 , … , 𝑥 ≅ 𝑝 𝑥 |𝑥 , … , 𝑥
a, a, b, c, a, d, d, …
μ‐law
quantization
16 bit waveform 8 bit waveform
Discrete symbol 
sequence
Symbolization
Dependent on all past samples Dependent only past L samples
[van den Oord; ’16b]
WaveNet VC: 2
Dilated Causal Convolution
• Efficient convolution over many past samples (i.e., looooong history)
𝑥
𝑝 𝑥 |𝑥 , … , 𝑥
𝑥𝑥
Input
Hidden layer
(dilation = 1)
Hidden layer
(dilation = 2)
Output
(dilation = 4)
3 layers
8×1 convolution is achieved by using 2×1 convolution 3 times!
2×1 convolution operation 𝒙 𝒙𝑨 𝑨 𝒃𝒚
# of channels
Feature extraction
𝑓 𝑥 , … , 𝑥
From past 8 samples
𝑓 𝑥 , … , 𝑥
From past 4 samples
𝑓 𝑥 , 𝑥
From past 2 samples
[van den Oord; ’16b]
WaveNet VC: 3
Network structure
⋮
Inputs
Residual 
block
To skip 
connection
To next residual block
Output
Auxiliary feature
+
Example:
10 layers×3 stacks
Residual block1 × 1
Residual block1 × 1
Residual block1 × 1
Residual block1 × 1
Causal
2 ×1 dilated
Gated
1 × 1
1 ×1
+
+
ReLU
Softmax
1 ×1
ReLU
1 ×1
Skip connections [He; ’16]
Gated
activation
[van den Oord; ’16a]
Residual
connection
[He; ’16]
• Predict output using all features extracted at individual layers
𝑧 , tanh 𝑦 , 𝜎 𝑦 ,
⋮
WaveNet VC: 4
Training Process and Generation Process
• Training process
• Maximize likelihood function of Markov model (= cross‐entropy minimization)
argmax 𝑝 𝑥 , … , 𝑥 argmin ln 𝑝 𝑥 |𝑥 , … , 𝑥
• Generation process
• Random sampling one by one as auto‐regressive model
𝑥 ~ 𝑝 𝑥 |𝑥 , … , 𝑥
Already generated past L samples
Predictive distribution (256 classes) at time step n
WaveNet VC: 5
Implementation of WaveNet as Vocoder
• Use acoustic features, such as vocoder parameters or mel‐spectrogram,    
as auxiliary features
• Need to adjust their time‐resolution to that of waveform, e.g., use upsampling
layer to convert 200 Hz feature sequence (i.e., 5 ms shift) to 16 kHz
• Capable of generating naturally sounding speech waveform even if using 
only 500 utterances in speaker‐dependent WaveNet training [Hayashi; ’17]
Good
Sound quality
Bad
WaveNet VC: 6
[Tamamori; ’17]
Comparison to Traditional Approaches
Probabilistic 
approach (vocoder)
Concatenative 
approach
WaveNet vocoder
Stationary assumption Necessary Not necessary Not necessary
Gaussian assumption Necessary Not necessary Not necessary
Phase modeling Hard Copied w/ exemplar Well handled
Fluctuation modeling Hard Copied w/ exemplar Well handled
Generation process Random sampling 
w/ excitation model
Exemplar selection Random sampling 
w/o excitation model
Optimization Well formulated Not well formulated Well formulated
Minimum unit Sample‐by‐sample Segment‐by‐segment Sample‐by‐sample
Training data Not necessary Huge‐sized data Large‐sized data
Controllability Very high Very limited Quite high
but still limited
WaveNet vocoder may be regarded as a hybrid approach 
(i.e., sample‐by‐sample selection)!
WaveNet VC: 7
Effective Technique: Noise Shaping
• Perceptually suppress noises caused in waveform generation process
• Control their frequency patterns to make them hardly perceived
Frequency
Power
Speech
Noise
Frequency
Power
Speech
Noise
Less perceived by 
auditory masking effect!Shaping
Quantize the error signal  𝑒 (with flatter 
spectral envelope) generated by LP analysis
Reconstruct the signal by inverse‐filtering  
the quantized error signal  𝑒̂ ( 𝑒 𝑛 )
Linear prediction
𝑠̂
𝑠̃
Quantization
𝑒̂
𝑠̂
𝑠̃
𝑠
𝑒
Linear predictionEncoder Decoder
Example: predictive pulse code modulation (PPCM) [Atal; ’78] 
Error signal Reconstructed signal
AR filtering
WaveNet VC: 8
𝐴 𝑧
𝑆 𝑧 𝐸 𝑧
𝑛
𝐸 𝑧
𝑁 𝑧
𝑆 𝑧
𝐻 𝑧 𝑁 𝑧
𝐻 𝑧
𝐴 𝑧
Implementation of Noise Shaping Implemented in 
PytorchWaveNetVocoder!
Generation process
Training process
Speech 
dataset
Design of time‐invariant 
noise weighting filter H(z)-1
QuantizationFiltering
Feature extraction
WaveNet
training
Auxiliary features
WaveNet
f
Averaged mel cepstrum
Dequantization
Prediction of
quantized signal
Auxiliary features
WaveNet
• Applied to both prediction and quantization noises [Tachibana; ’18] rather than only 
quantization noise [Yoshimura; ’18]
Time‐invariant inverse filtering
Filtering Speech
Time‐invariant noise 
shaping filter H(z)
f
Time‐invariant 
synthesis filtering
WaveNet VC: 9
VC with WaveNet Vocoder
• Implementation of WaveNet as a data‐driven vocoder for VC
• Significant improvement of speaker similarity yielded by just using WaveNet
vocoder in VC [Kobayashi; ’17]
• Could also reduce adverse effects of some errors on converted speech by 
training WaveNet vocoder using the converted features
Input 
speech
Statistical
conversion
Converted features
Analysis
Input features
Feature
extraction error
Conversion error
Converted
speech
Synthesis w/ 
WaveNet vocoder
Less affected by errors?
However, it is hard to train WaveNet vocoder directly using the converted features 
owing to different temporal structures (i.e., time‐alignment issue)…
Will be developed w/ sprocket and PytorchWaveNetVocoder!
WaveNet VC: 10
WaveNet Fine‐Tuning w/ CycleRNN
• Generate training data for training WaveNet vocoder
• Use cyclic conversion (as intra‐speaker conversion [Kobayashi; ’17])
• Reduce acoustic mismatches between training and conversion
• Free from temporal structure mismatches between features and waveforms
Source features  𝒙
Target waveforms  𝒔 𝒚
RNN  𝐺 𝒙⇒𝒚
[Tobing; ’19a]
Target features  𝒚
DTW loss
Cycle loss
WaveNet
vocoder
RNN  𝐺 𝒚⇒𝒙
𝐺 𝒙⇒𝒚 𝐺 𝒚⇒𝒙 𝒚𝐺 𝒚⇒𝒙 𝒚
Capable of handling
𝐺 𝒙⇒𝒚 𝒙 as well
Converted features
𝐺 𝒙⇒𝒚 𝒙
WaveNet VC: 11
Announcement: Quasi‐Periodic WaveNet (QPNet)
• Dynamically change dilation length based on F0 value
• Significantly improve F0 controllability and reduce the network size
Wu et al., “Quasi‐periodic WaveNet vocoder: a pitch dependent dilated convolution model  
for parametric speech generation,” Oral session, 12:20‐12:40, Mon. 16, INTERSPEECH 2019
Wu et al., “Statistical voice conversion with Quasi‐periodic WaveNet vocoder,” Poster
session, 15:30‐17:00, Fri. 20, SSW10 (The 10th ISCA Speech Synthesis Workshop)
WaveNet VC: 12
[Wu; ’19]
𝑥𝑥𝑥
Input
𝑥
𝑇
1
𝑇
3
𝑇
2 𝑇 1/𝐹 ,
1st layer
F0 dependent dilation length: 𝑇
2
𝑥𝑥
𝑇
2
𝑇
1
𝑇
3
𝑇
1
𝑇
1
𝑥𝑥𝑥
2nd layer
Dilation length  𝑇
Dilation length  2𝑇
Summary
• Reviewed VC progress!
• Basics of VC
• There are many useful VC applications
• Statistical VC  signal processing  machine learning  kitchen knife
• Improvements of VC
• Modeling dynamics and fluctuation components of speech acoustics
• Nonparallel training based on the reconstruction framework
• Evaluation in voice conversion challenges
• Reviewed recent progress of waveform modeling!
• Basics of waveform modeling
• Essential issues of waveform generation with traditional vocoder
• Progress of waveform modeling in VC
• DIFFVC based on direct waveform modification to avoid using vocoder
• Implementation of WaveNet vocoder for VC and further improvements
Summary
We plan to use Google Colab in hands‐on.
You need to use the following 3 items:
Internet connection, Google account, & Google chrome browser
Please set up your laptop PC before starting the last half session.
Materials of hands‐on are available from
• Hands‐on notes: https://bit.ly/328LwSS
Hands‐on Session
References
[Abe; ’90] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara.  Voice conversion through vector quantization.  J. 
Acoust. Soc. Jpn (E), Vol. 11, No. 2, pp. 71–76, 1990.
[Atal; ’78] B.S. Atal, M.R. Scroeder .Predictive coding of speech signals and subjective error criteria.  Proc. 
IEEE ICASSP, pp. 247–254, 1978.
[Hayashi; ’17] T. Hayashi, A. Tamamori, K. Kobayashi, K. Takeda, T. Toda.  An investigation of multi‐speaker 
training for WaveNet vocoder.  Proc. IEEE ASRU, pp. 712–718, 2017.
[He; ’16] K. He, X. Zhang, S. Ren, J. Sun.  Deep residual learning for image recognition.  Proc. CVPR, pp. 770–
778, 2016.
[Hsu; ’16] C.‐C. Hsu, H.‐T. Hwang, Y.‐C. Wu, Y. Tsao, H.‐M. Wang.  Voice conversion from non‐parallel corpora 
using variational auto‐encoder.  Proc. APSIPA ASC, 6 pages, 2016.
[Hsu; ’17] C.‐C. Hsu, H.‐T. Hwang, Y.‐C. Wu, Y. Tsao, H.‐M. Wang.  Voice conversion from unaligned corpora 
using variational autoencoding Wasserstein generative adversarial networks.  Proc. INTERSPEECH, pp. 
3364–3368, 2017. 
[Huang; ’19] W.‐C. Huang, Y.‐C. Wu, K. Kobayashi, Y.‐H. Peng, H.‐T. Hwang, P.L. Tobing, Y. Tsao, H.‐M. Wang, T. 
Toda.  Generalization of spectrum differential based direct waveform modification for voice conversion.  
Proc. ISCA SSW10, pp. 57–62, 2019.
[Hwang; ’13] H. Hwang, Y. Tsao, H. Wang, Y. Wang, S. Chen.  Incorporating global variance in the training 
phase of GMM‐based voice conversion.  Proc. APSIPA ASC, 6 pages, 2013.
[Imai; ’83] S. Imai, K. Sumita, C. Furuichi.  Mel log spectrum approximation (MLSA) filter for speech 
synthesis.  Electron. Commun. Japan (Part 1: Communications), Vol. 66, No. 2, pp. 10–18, 1983.
[Itakura; ’68] F. Itakura, S. Saito.  Analysis synthesis telephony based upon the maximum likelihood method.  
Proc. ICA, C‐5‐5, pp. C17–20, 1968.
[Juvela; ’16] L. Juvela, B. Bollepalli, M. Airaksinen, P. Alku.  High‐pitched excitation generation for glottal 
vocoding in statistical parametric speech synthesis using a deep neural network.  Proc. IEEE ICASSP, pp. 
5120–5124, 2016.
References: 1
[Kaneko; ’17] T. Kaneko, H. Kameoka, K. Hiramatsu, K. Kashino.  Sequence‐to‐sequence voice conversion 
with similarity metric learned using generative adversarial networks.  Proc. INTERSPEECH,  pp. 1283–1287, 
2017.
[Kawahara; ’99] H. Kawahara, I. Masuda‐Katsuse, A. de Cheveigne.   Restructuring speech representations 
using a pitch‐adaptive time‐frequency smoothing and an instantaneous‐frequency‐based F0 extraction: 
possible role of a repetitive structure in sounds.   Speech Commun., Vol. 27, No. 3–4, pp. 187–207, 1999.
[Kinnunen; ’17] T. Kinnunen, M. Sahidullah, H. Delgado, M. Todisco, N. Evans, J. Yamagishi, K.A. Lee.  The 
ASVspoof 2017 Challenge: assessing the limits of replay spoofing attack detection.  Proc. INTERSPEECH, pp. 
2‐‐6, 2017.
[Kobayashi; ’17] K. Kobayashi, T. Hayashi, A. Tamamori, T. Toda.  Statistical voice conversion with WaveNet‐
based waveform generation.  Proc. INTERSPEECH, pp. 1138–1142, 2017.
[Kobayashi; ’18a] K. Kobayashi, T. Toda, S. Nakamura.  Intra‐gender statistical singing voice conversion with 
direct waveform modification using log‐spectral differential.  Speech Commun., Vol. 99, pp. 211–220, 2018.
[Kobayashi; ’18b] K. Kobayashi, T. Toda.  sprocket: open‐source voice conversion software.  Proc. Odyssey, 
pp. 203–210, 2018.
[Kurita; ’19] Y. Kurita, K. Kobayashi, K. Takeda, T. Toda.  Robustness of statistical voice conversion based on 
direct waveform modification against background sounds.  Proc. INTERSPEECH, pp. 684–688, 2019.
[Liu; ’18] L.‐J. Liu, Z.‐H. Ling, Y. Jiang, M. Zhou, L.‐R. Dai.  WaveNet Vocoder with Limited Training Data for 
Voice Conversion.  Proc. INTERSPEECH, pp. 1983–1987, 2018.
[Lorenzo‐Trueba; ’18] J. Lorenzo‐Trueba, J. Yamagishi, T. Toda, D. Saito, F. Villavicencio, T. Kinnunen, Z. Ling.  
The voice conversion challenge 2018: promoting development of parallel and nonparallel methods.  Proc. 
Odyssey, pp. 195–202, 2018.
[Maia; ’13] R. Maia, M. Akamine, M. Gales.  Complex cepstrum for statistical parametric speech synthesis.  
Speech Commun., Vol. 55, No. 5, pp. 606–618, 2013.
References: 2
[Morise; ’16] M. Morise, F. Yokomori, K. Ozawa.  WORLD: a vocoder‐based high‐quality speech synthesis 
system for real‐time applications.  IEICE Trans. Inf. & Syst., Vol. E99‐D, No. 7, pp. 1877–1884, 2016.
[Mouchtaris; ’06] A. Mouchtaris, J.V. der Spiegel, P. Mueller.  Nonparallel training for voice conversion based 
on a parameter adaptation approach.  IEEE Trans. Audio, Speech & Lang. Process., Vol. 14, No. 3, pp. 952–
963, 2006.
[Mysore, ’15] G. J. Mysore.  Can we automatically transform speech recorded on common consumer 
devices in real‐world environments into professional production quality speech? – a dataset, insights, and 
challenges.  IEEE Signal Process. Letters, Vol. 22, No. 8, pp. 1006–1010, 2015.
[Pantazis; ’11] Y. Pantazis, O. Rosec, Y. Stylianou.  Adaptive AM–FM signal decomposition with application to 
speech analysis.  IEEE Trans. Audio, Speech, & Lang. Process., Vol. 19, No. 2, pp. 290–300, 2011.
[Saito; ’18] Y. Saito, S. Takamichi, H. Saruwatari.  Statistical parametric speech synthesis incorporating 
generative adversarial networks.  IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 26, No. 1, pp. 84–96, 
2018.
[Stylianou; ’98] Y. Stylianou, O. Cappe, E. Moulines.  Continuous probabilistic transform for voice conversion.  
IEEE Trans. Speech & Audio Process., Vol. 6, No. 2, pp. 131–142, 1998.
[Sun; ’15] L. Sun, S. Kang, K. Li, H.M. Meng.  Voice conversion using deep bidirectional long short‐term 
memory based recurrent neural networks.  Proc. IEEE ICASSP, pp. 4869–4873, 2015.
[Sun; ’16] L. Sun, K. Li, H. Wang, S. Kang, H.M. Meng.  Phonetic posteriorgrams for many‐to‐one voice 
conversion without parallel data training.  Proc. IEEE ICME, 6 pages, 2016.
[Tachibana; ’18] K. Tachibana, T. Toda, Y. Shiga, H. Kawai.   An investigation of noise shaping with perceptual 
weighting for WaveNet‐based speech generation.   Proc. IEEE ICASSP, pp. 5664–5668, 2018. 
[Takamichi; ’15] S. Takamichi, T. Toda, A.W. Black, S. Nakamura.  Modulation spectrum‐constrained 
trajectory training algorithm for HMM‐based speech synthesis.  Proc. INTERSPEECH, pp. 1206–1210, 2015. 
References: 3
[Takamichi; ’16] S. Takamichi, T. Toda, A.W. Black, G. Neubig, S. Sakti, S. Nakamura.  Post‐filters to modify 
the modulation spectrum for statistical parametric speech synthesis.  IEEE/ACM Trans. Audio, Speech & 
Lang. Process., Vol. 24, No. 4, pp. 755–767, 2016. 
[Tamamori; ’17] A. Tamamori, T. Hayashi, K. Kobayashi, K. Takeda, T. Toda.  Speaker‐dependent WaveNet
vocoder.  Proc. INTERSPEECH, pp. 1118–1122, 2017. 
[Tobing; ’18] P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda.  NU voice conversion system for the voice 
conversion challenge 2018.  Proc. Odyssey, pp. 219–226, 2018.
[Tobing; ’19a] P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda.  Voice conversion with cyclic recurrent 
neural network and fine‐tuned WaveNet vocoder.  Proc. IEEE ICASSP, pp. 6815–6819, 2019.
[Tobing; ’19b] P.L. Tobing, Y. Wu, T. Hayashi, K. Kobayashi, T. Toda.  Non‐parallel voice conversion with cyclic 
variational autoencoder.  Proc. INTERSPEECH, pp. 674–678, 2019.
[Toda; ’06] T. Toda, Y. Ohtani, K. Shikano.  Eigenvoice conversion based on Gaussian mixture model.  Proc. 
INTERSPEECH, pp. 2446–2449, 2006.
[Toda; ’07] T. Toda, A.W. Black, K. Tokuda.  Voice conversion based on maximum likelihood estimation of 
spectral parameter trajectory.  IEEE Trans. Audio, Speech & Lang. Process., Vol. 15, No. 8, pp. 2222–2235, 
2007.
[Toda; ’12] T. Toda, T. Muramatsu, H. Banno.  Implementation of computationally efficient real‐time voice 
conversion.  Proc. INTERSPEECH, 4 pages, 2012.
[Toda, ’14] T. Toda.  Augmented speech production based on real‐time statistical voice conversion.  Proc. 
GlobalSIP, pp. 755–759, 2014.
[Toda; ’16] T. Toda, L.‐H. Chen, D. Saito, F. Villavicencio, M. Wester, Z. Wu, J. Yamagishi.  The Voice 
Conversion Challenge 2016.  Proc. INTERSPEECH, pp. 1632–1636, 2016. 
[Tokuda; ’94] K. Tokuda, T. Kobayashi, T. Masuko, S. Imai.  Mel‐generalized cepstral analysis —a unified 
approach to speech spectral estimation.  Proc. ICSLP, vol.3, pp.1043–1046, 1994. 
References: 4
[Tokuda; ’00] K. Tokuda, T. Yoshimura, T. Masuko, T. Kobayashi, T. Kitamura.  Speech parameter generation 
algorithms for HMM‐based speech synthesis.  Proc. IEEE ICASSP, pp. 1315–1318, 2000.
[Tokuda; ’15] K. Tokuda, H. Zen.  Directly modeling speech waveforms by neural networks for statistical 
parametric speech synthesis. Proc. IEEE ICASSP, pp. 4215–4219, 2015.
[van den Oord; ’16a] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, K. Kavukcuoglu.  
Conditional image generation with PixelCNN decoders.  arXiv preprint, arXiv:1606.05328, 13 pages, 2016.
[van den Oord; ’16b] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. 
Kalchbrenner, A. W. Senior, and K. Kavukcuoglu.  WaveNet: a generative model for raw audio.  arXiv preprint, 
arXiv:1609.03499, 15 pages, 2016.
[van den Oord; ’17] A. van den Oord, O. Vinyals, K. Kavukcuoglu.  Neural discrete representation learning.  
arXiv preprint, arXiv:1711.00937, 11 pages, 2017.
[Wu; ’15] Z. Wu, N. Evans, T. Kinnunen, J. Yamagishi, F. Alegre, H. Li.  Spoofing and countermeasures for 
speaker verification: A survey.  Speech Commun.  Vol. 66, pp. 130–153, 2015.
[Wu; ’17] Z. Wu, J. Yamagishi, T. Kinnunen, C. Hanilci, M. Sahidullah, A. Sizov, N. Evans, M. Todisco, H. 
Delgado.  ASVspoof: the automatic speaker verification spoofing and countermeasures challenge.  IEEE J. 
Sel. Topics in Signal Process., Vol. 11, No. 4, pp. 588–604, 2017.
[Wu; ’18] Y.‐C. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda.  The NU non‐parallel voice conversion 
system for the voice conversion challenge 2018.  Proc. Odyssey, pp. 211–218, 2018.
[Wu; ’19] Y.‐C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda.  Quasi‐periodic WaveNet vocoder: a pitch 
dependent dilated convolution model for parametric speech generation.  Proc. INTERSPEECH , pp. 196–200, 
2019. 
[Yoshimura; ’18] T. Yoshimura, K. Hashimoto, K. Oura, Y. Nankaku, K. Tokuda.  Mel‐cepstrum‐based 
quantization noise shaping applied to neural‐network‐based speech waveform synthesis.  IEEE/ACM Trans. 
Audio, Speech & Lang. Process., Vol. 26, No. 7, pp. 1173–1180, 2018.
[Zen; ’12] H. Zen, M.J.F. Gales, Y. Nankaku, K. Tokuda.  Product of experts for statistical parametric speech 
synthesis.  IEEE Trans. Audio, Speech & Lang. Process., Vol. 20, No. 3, pp. 794–805, 2012.
References: 5
[Zhang; ’19] J.‐X. Zhang, Z.‐H. Ling, L.‐J. Liu, Y. Jiang, L.‐R. Dai.  Sequence‐to‐sequence acoustic modeling for 
voice conversion.  IEEE/ACM Trans. Audio, Speech & Lang. Process., Vol. 27, No. 3, pp. 631–644, 2019.
<Special issues>
• E. Moulines, Y. Sagisaka,  Voice conversion: state of the art and perspectives.  Speech Commun., Vol. 16, 
No. 2, 1995.
• Y. Stylianou, T. Toda, C.‐H. Wu, A. Kain, O. Rosec.  The special section on voice transformation.  IEEE 
Trans. Audio, Speech & Lang., Vol. 18, No. 5, 2010.
<Survey>
• H. Mohammadi, A. Kain.  An overview of voice conversion systems.  Speech Commun. Vol. 88, pp. 65–82, 
2017.
<Slides>
• HTS Working group.  HTS slides ver. 2.3.  http://hts.sp.nitech.ac.jp/?Download
• T. Toda.  Advanced voice conversion.  Speech Processing Courses in Crete (SPCC 2018), July 2018. 
https://www.slideshare.net/NU_I_TODALAB/advanced‐voice‐conversion
• T. Toda.  Hands on voice conversion.  Speech Processing Courses in Crete (SPCC 2018), July 2018. 
https://www.slideshare.net/NU_I_TODALAB/hands‐on‐voice‐conversion
References: 6

More Related Content

What's hot

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響NU_I_TODALAB
 
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介Kentaro Tachibana
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~Yui Sudo
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech SynthesisDeep Learning JP
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...Akira Tamamori
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトNU_I_TODALAB
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術Yuma Koizumi
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正Shinnosuke Takamichi
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentationYuki Saito
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)Shinnosuke Takamichi
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術NU_I_TODALAB
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組みAtsushi_Ando
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろうShinnosuke Takamichi
 

What's hot (20)

独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響WaveNetが音声合成研究に与える影響
WaveNetが音声合成研究に与える影響
 
声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介声質変換の概要と最新手法の紹介
声質変換の概要と最新手法の紹介
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクトCREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 

Similar to Statistical voice conversion with direct waveform modeling made simple

Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Introduction to Matsuo Laboratory (ENG).pptx
Introduction to Matsuo Laboratory (ENG).pptxIntroduction to Matsuo Laboratory (ENG).pptx
Introduction to Matsuo Laboratory (ENG).pptxMatsuo Lab
 
Introduction to Software Engineering Course
Introduction to Software Engineering CourseIntroduction to Software Engineering Course
Introduction to Software Engineering CourseMd. Shafiuzzaman Hira
 
Approaches to supporting Open Educational Resource projects
Approaches to supporting Open Educational Resource projectsApproaches to supporting Open Educational Resource projects
Approaches to supporting Open Educational Resource projectsR. John Robertson
 
Paola Marchionni, Working with JISC
Paola Marchionni, Working with JISCPaola Marchionni, Working with JISC
Paola Marchionni, Working with JISCAlastair Dunning
 
JISC Expectations for Projects
JISC Expectations for ProjectsJISC Expectations for Projects
JISC Expectations for ProjectsJisc
 
Keynote ACIS/AAI2014 conference
Keynote ACIS/AAI2014 conferenceKeynote ACIS/AAI2014 conference
Keynote ACIS/AAI2014 conferenceKyoto University
 
Search-based Software Testing (SBST) '22
Search-based Software Testing (SBST) '22Search-based Software Testing (SBST) '22
Search-based Software Testing (SBST) '22Sebastiano Panichella
 
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...OECD Environment
 
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"SushantGautam10
 
Ja sakai update_sakai_conference_2012
Ja sakai update_sakai_conference_2012Ja sakai update_sakai_conference_2012
Ja sakai update_sakai_conference_2012yuji tokiwa
 
2020.03.08 RoboCup@Home Education (Introduction) [EN]
2020.03.08 RoboCup@Home Education (Introduction) [EN]2020.03.08 RoboCup@Home Education (Introduction) [EN]
2020.03.08 RoboCup@Home Education (Introduction) [EN]Jeffrey Too Chuan TAN
 
Stewart T M But Surely It’S Harmless Web
Stewart T M But Surely It’S Harmless WebStewart T M But Surely It’S Harmless Web
Stewart T M But Surely It’S Harmless Webterry_stewart
 
The 2nd Intl. Workshop on NL-based Software Engineering
The 2nd Intl. Workshop on NL-based Software EngineeringThe 2nd Intl. Workshop on NL-based Software Engineering
The 2nd Intl. Workshop on NL-based Software EngineeringSebastiano Panichella
 
2020.01.20 RoboCup@Home Education (Introduction) [EN]
2020.01.20 RoboCup@Home Education (Introduction) [EN]2020.01.20 RoboCup@Home Education (Introduction) [EN]
2020.01.20 RoboCup@Home Education (Introduction) [EN]Jeffrey Too Chuan TAN
 
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docx
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docxDr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docx
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docxkanepbyrne80830
 

Similar to Statistical voice conversion with direct waveform modeling made simple (20)

Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Introduction to Matsuo Laboratory (ENG).pptx
Introduction to Matsuo Laboratory (ENG).pptxIntroduction to Matsuo Laboratory (ENG).pptx
Introduction to Matsuo Laboratory (ENG).pptx
 
Introduction to Software Engineering Course
Introduction to Software Engineering CourseIntroduction to Software Engineering Course
Introduction to Software Engineering Course
 
Approaches to supporting Open Educational Resource projects
Approaches to supporting Open Educational Resource projectsApproaches to supporting Open Educational Resource projects
Approaches to supporting Open Educational Resource projects
 
Paola Marchionni, Working with JISC
Paola Marchionni, Working with JISCPaola Marchionni, Working with JISC
Paola Marchionni, Working with JISC
 
JISC Expectations for Projects
JISC Expectations for ProjectsJISC Expectations for Projects
JISC Expectations for Projects
 
Working with JISC
Working with JISCWorking with JISC
Working with JISC
 
Keynote ACIS/AAI2014 conference
Keynote ACIS/AAI2014 conferenceKeynote ACIS/AAI2014 conference
Keynote ACIS/AAI2014 conference
 
Search-based Software Testing (SBST) '22
Search-based Software Testing (SBST) '22Search-based Software Testing (SBST) '22
Search-based Software Testing (SBST) '22
 
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...
Introduction of the webinar on the Adverse Outcome Pathways Knowledge Base an...
 
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"
Bachelor in Computer Engineering Minor Project " MULTI-LEARNING PLATFORM"
 
Ja sakai update_sakai_conference_2012
Ja sakai update_sakai_conference_2012Ja sakai update_sakai_conference_2012
Ja sakai update_sakai_conference_2012
 
Mini Project- Introductory Presentation
Mini Project- Introductory PresentationMini Project- Introductory Presentation
Mini Project- Introductory Presentation
 
2020.03.08 RoboCup@Home Education (Introduction) [EN]
2020.03.08 RoboCup@Home Education (Introduction) [EN]2020.03.08 RoboCup@Home Education (Introduction) [EN]
2020.03.08 RoboCup@Home Education (Introduction) [EN]
 
Mike knight
Mike knightMike knight
Mike knight
 
Stewart T M But Surely It’S Harmless Web
Stewart T M But Surely It’S Harmless WebStewart T M But Surely It’S Harmless Web
Stewart T M But Surely It’S Harmless Web
 
The 2nd Intl. Workshop on NL-based Software Engineering
The 2nd Intl. Workshop on NL-based Software EngineeringThe 2nd Intl. Workshop on NL-based Software Engineering
The 2nd Intl. Workshop on NL-based Software Engineering
 
2020.01.20 RoboCup@Home Education (Introduction) [EN]
2020.01.20 RoboCup@Home Education (Introduction) [EN]2020.01.20 RoboCup@Home Education (Introduction) [EN]
2020.01.20 RoboCup@Home Education (Introduction) [EN]
 
Update on activities of J-OCW
Update on activities of J-OCWUpdate on activities of J-OCW
Update on activities of J-OCW
 
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docx
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docxDr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docx
Dr. Sam Musa01-01-2017Network LAN Design with VoIP and Wireles.docx
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionNU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?NU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 

More from NU_I_TODALAB (18)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Interactive voice conversion for augmented speech production
Interactive voice conversion for augmented speech productionInteractive voice conversion for augmented speech production
Interactive voice conversion for augmented speech production
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 
音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?音声信号の分析と加工 - 音声を自在に変換するには?
音声信号の分析と加工 - 音声を自在に変換するには?
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 

Recently uploaded

"Exploring the Essential Functions and Design Considerations of Spillways in ...
"Exploring the Essential Functions and Design Considerations of Spillways in ..."Exploring the Essential Functions and Design Considerations of Spillways in ...
"Exploring the Essential Functions and Design Considerations of Spillways in ...Erbil Polytechnic University
 
welding defects observed during the welding
welding defects observed during the weldingwelding defects observed during the welding
welding defects observed during the weldingMuhammadUzairLiaqat
 
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTION
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTIONTHE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTION
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTIONjhunlian
 
Risk Management in Engineering Construction Project
Risk Management in Engineering Construction ProjectRisk Management in Engineering Construction Project
Risk Management in Engineering Construction ProjectErbil Polytechnic University
 
Engineering Drawing section of solid
Engineering Drawing     section of solidEngineering Drawing     section of solid
Engineering Drawing section of solidnamansinghjarodiya
 
Instrumentation, measurement and control of bio process parameters ( Temperat...
Instrumentation, measurement and control of bio process parameters ( Temperat...Instrumentation, measurement and control of bio process parameters ( Temperat...
Instrumentation, measurement and control of bio process parameters ( Temperat...121011101441
 
DM Pillar Training Manual.ppt will be useful in deploying TPM in project
DM Pillar Training Manual.ppt will be useful in deploying TPM in projectDM Pillar Training Manual.ppt will be useful in deploying TPM in project
DM Pillar Training Manual.ppt will be useful in deploying TPM in projectssuserb6619e
 
BSNL Internship Training presentation.pptx
BSNL Internship Training presentation.pptxBSNL Internship Training presentation.pptx
BSNL Internship Training presentation.pptxNiranjanYadav41
 
Earthing details of Electrical Substation
Earthing details of Electrical SubstationEarthing details of Electrical Substation
Earthing details of Electrical Substationstephanwindworld
 
Sachpazis Costas: Geotechnical Engineering: A student's Perspective Introduction
Sachpazis Costas: Geotechnical Engineering: A student's Perspective IntroductionSachpazis Costas: Geotechnical Engineering: A student's Perspective Introduction
Sachpazis Costas: Geotechnical Engineering: A student's Perspective IntroductionDr.Costas Sachpazis
 
home automation using Arduino by Aditya Prasad
home automation using Arduino by Aditya Prasadhome automation using Arduino by Aditya Prasad
home automation using Arduino by Aditya Prasadaditya806802
 
Virtual memory management in Operating System
Virtual memory management in Operating SystemVirtual memory management in Operating System
Virtual memory management in Operating SystemRashmi Bhat
 
Transport layer issues and challenges - Guide
Transport layer issues and challenges - GuideTransport layer issues and challenges - Guide
Transport layer issues and challenges - GuideGOPINATHS437943
 
multiple access in wireless communication
multiple access in wireless communicationmultiple access in wireless communication
multiple access in wireless communicationpanditadesh123
 
System Simulation and Modelling with types and Event Scheduling
System Simulation and Modelling with types and Event SchedulingSystem Simulation and Modelling with types and Event Scheduling
System Simulation and Modelling with types and Event SchedulingBootNeck1
 
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...Erbil Polytechnic University
 
Mine Environment II Lab_MI10448MI__________.pptx
Mine Environment II Lab_MI10448MI__________.pptxMine Environment II Lab_MI10448MI__________.pptx
Mine Environment II Lab_MI10448MI__________.pptxRomil Mishra
 
Autonomous emergency braking system (aeb) ppt.ppt
Autonomous emergency braking system (aeb) ppt.pptAutonomous emergency braking system (aeb) ppt.ppt
Autonomous emergency braking system (aeb) ppt.pptbibisarnayak0
 

Recently uploaded (20)

"Exploring the Essential Functions and Design Considerations of Spillways in ...
"Exploring the Essential Functions and Design Considerations of Spillways in ..."Exploring the Essential Functions and Design Considerations of Spillways in ...
"Exploring the Essential Functions and Design Considerations of Spillways in ...
 
welding defects observed during the welding
welding defects observed during the weldingwelding defects observed during the welding
welding defects observed during the welding
 
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTION
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTIONTHE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTION
THE SENDAI FRAMEWORK FOR DISASTER RISK REDUCTION
 
Risk Management in Engineering Construction Project
Risk Management in Engineering Construction ProjectRisk Management in Engineering Construction Project
Risk Management in Engineering Construction Project
 
Engineering Drawing section of solid
Engineering Drawing     section of solidEngineering Drawing     section of solid
Engineering Drawing section of solid
 
Instrumentation, measurement and control of bio process parameters ( Temperat...
Instrumentation, measurement and control of bio process parameters ( Temperat...Instrumentation, measurement and control of bio process parameters ( Temperat...
Instrumentation, measurement and control of bio process parameters ( Temperat...
 
DM Pillar Training Manual.ppt will be useful in deploying TPM in project
DM Pillar Training Manual.ppt will be useful in deploying TPM in projectDM Pillar Training Manual.ppt will be useful in deploying TPM in project
DM Pillar Training Manual.ppt will be useful in deploying TPM in project
 
BSNL Internship Training presentation.pptx
BSNL Internship Training presentation.pptxBSNL Internship Training presentation.pptx
BSNL Internship Training presentation.pptx
 
Earthing details of Electrical Substation
Earthing details of Electrical SubstationEarthing details of Electrical Substation
Earthing details of Electrical Substation
 
Sachpazis Costas: Geotechnical Engineering: A student's Perspective Introduction
Sachpazis Costas: Geotechnical Engineering: A student's Perspective IntroductionSachpazis Costas: Geotechnical Engineering: A student's Perspective Introduction
Sachpazis Costas: Geotechnical Engineering: A student's Perspective Introduction
 
home automation using Arduino by Aditya Prasad
home automation using Arduino by Aditya Prasadhome automation using Arduino by Aditya Prasad
home automation using Arduino by Aditya Prasad
 
Virtual memory management in Operating System
Virtual memory management in Operating SystemVirtual memory management in Operating System
Virtual memory management in Operating System
 
Transport layer issues and challenges - Guide
Transport layer issues and challenges - GuideTransport layer issues and challenges - Guide
Transport layer issues and challenges - Guide
 
multiple access in wireless communication
multiple access in wireless communicationmultiple access in wireless communication
multiple access in wireless communication
 
System Simulation and Modelling with types and Event Scheduling
System Simulation and Modelling with types and Event SchedulingSystem Simulation and Modelling with types and Event Scheduling
System Simulation and Modelling with types and Event Scheduling
 
Designing pile caps according to ACI 318-19.pptx
Designing pile caps according to ACI 318-19.pptxDesigning pile caps according to ACI 318-19.pptx
Designing pile caps according to ACI 318-19.pptx
 
Design and analysis of solar grass cutter.pdf
Design and analysis of solar grass cutter.pdfDesign and analysis of solar grass cutter.pdf
Design and analysis of solar grass cutter.pdf
 
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...
Comparative study of High-rise Building Using ETABS,SAP200 and SAFE., SAFE an...
 
Mine Environment II Lab_MI10448MI__________.pptx
Mine Environment II Lab_MI10448MI__________.pptxMine Environment II Lab_MI10448MI__________.pptx
Mine Environment II Lab_MI10448MI__________.pptx
 
Autonomous emergency braking system (aeb) ppt.ppt
Autonomous emergency braking system (aeb) ppt.pptAutonomous emergency braking system (aeb) ppt.ppt
Autonomous emergency braking system (aeb) ppt.ppt
 

Statistical voice conversion with direct waveform modeling made simple