音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
北村大地, "音源分離における音響モデリング," 日本音響学会 サマーセミナー 招待講演, September 11th, 2017.
Daichi Kitamura, "Acoustic modeling in audio source separation," The Acoustical Society of Japan, Summer Seminar Invited Talk, September 11th, 2017.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
APSIPA ASC 2021
Ding Ma, Wen-Chin Huang, Tomoki Toda: Investigation of text-to-speech-based synthetic parallel data for sequence-to-sequence non-parallel voice conversion, Dec. 2021
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
Interactive voice conversion for augmented speech productionNU_I_TODALAB
Invited Talk at SNL 2021
Title: "Interactive voice conversion for augmented speech production"
Speaker: Tomoki Toda
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
Recent progress on voice conversion: What is next?NU_I_TODALAB
Invited Talk at IEEE SLT 2021
Title: "Recent progress on voice conversion: What is next?"
Speaker: Tomoki Toda
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
IEEE ICASSP 2020
Koichi Miyazaki, Tatsuya Komatsu, Tomoki Hayashi, Shinji Watanabe, Tomoki Toda, Kazuya Takeda, Weakly-supervised sound event detection with self-attention, May 2020
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
Lecture slides by Tomoki Toda
Tutorial [T2] at INTERSPEECH 2019
Title: "Statistical voice conversion with direct waveform modeling"
Lecturers: Tomoki Toda, Kazuhiro Kobayashi, Tomoki Hayashi
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
2018 Speech Processing Courses in Crete (SPCC2018)
"Toawrds flexible and intelligible end-to-end speech synthesis systems"
Hands-on slides
Tomoki Toda: Hands on Voice Conversion, July 26, 2018
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
2018 Speech Processing Courses in Crete (SPCC2018)
"Toawrds flexible and intelligible end-to-end speech synthesis systems"
Lecture slides
Tomoki Toda: Advanced Voice Conversion, July 26, 2018
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
IEEE International Workshop on Machine Learning for Signal Processing (MLSP2017)
Nominated For Best Student Paper Award (student: Shogo Seki)
Shogo Seki, Hirokazu Kameoka, Tomoki Toda, Kazuya Takeda: Missing Component Restoration for Masked Speech Signals based on Time-Domain Spectrogram Factorization,Sep. 2017
Toda Laboratory, Department of Intelligent Systems, Graduate School of Informatics, Nagoya University
4. 音声波形
a r a y u rsil u g e N j i ts u
音素系列
あらゆる 現実無音
単語系列
はじめに・・・音信号の特徴
文 「あらゆる現実を全て自分の方へ・・・」
• 一例として音声に着目すると・・・
• 時系列データである.
• 確率的なゆらぎを持つ.
• 内部に階層的な構造を持つ.
などなど・・・
2
18. • 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
3. 集積:フレーム特徴量を集積する
T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
10
19. • 系列中のフレーム特徴量は独立同分布に従うと仮定
• 混合正規分布モデル(GMM)による確率密度のモデル化
• 例:音声の話者性を捉える特徴量を抽出
• 平均ベクトルセットを系列単位の特徴量として使用
• 音韻系列が異なる場合,異なるモデル間で
各混合要素の対応をとるのは困難
3. 集積:フレーム特徴量を集積する
T
t
M
m
m
s
m
s
tm
T
t
ss
t
ss
T
s
PP
1 1
)()(
1
)()()()()(
1 ,;||,, Σμxλxλxx N
M個の正規分布の足し合わせ
= 音韻依存性を周辺化により緩和
話者 s の特徴量系列
(音韻・話者依存)
混合重み
(音韻依存)
平均ベクトル
(音韻・話者依存)
共分散行列
(音韻依存)
系列中の全ての
特徴量をまとめ上げ
音韻A
音韻B
音韻C
音韻C
音韻A
音韻C
?
10