Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinnosuke Takamichi
PDF, PPTX
1,473 views
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価(日本音響学会2020年 秋季講演発表会)
Technology
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 16
2
/ 16
3
/ 16
4
/ 16
5
/ 16
6
/ 16
7
/ 16
8
/ 16
9
/ 16
10
/ 16
11
/ 16
12
/ 16
13
/ 16
14
/ 16
15
/ 16
16
/ 16
More Related Content
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
PDF
Interspeech2022 参加報告
by
Yuki Saito
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
PDF
音情報処理における特徴表現
by
NU_I_TODALAB
PPTX
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
by
YosukeKashiwagi1
PDF
深層学習を利用した音声強調
by
Yuma Koizumi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
Interspeech2022 参加報告
by
Yuki Saito
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
音情報処理における特徴表現
by
NU_I_TODALAB
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
by
YosukeKashiwagi1
深層学習を利用した音声強調
by
Yuma Koizumi
What's hot
PDF
CMA-ESサンプラーによるハイパーパラメータ最適化 at Optuna Meetup #1
by
Masashi Shibata
PDF
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
by
ARISE analytics
PDF
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
PPTX
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
PDF
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
by
Tomoki Yoshida
PDF
機械学習のためのベイズ最適化入門
by
hoxo_m
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
PDF
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
PDF
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
by
Deep Learning JP
PPTX
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
by
Deep Learning JP
PDF
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PPTX
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
PPTX
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
by
Daichi Kitamura
PPTX
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
PPTX
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
by
Daichi Kitamura
PDF
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
by
Naoya Takahashi
PPTX
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
by
Daichi Kitamura
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
CMA-ESサンプラーによるハイパーパラメータ最適化 at Optuna Meetup #1
by
Masashi Shibata
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
by
ARISE analytics
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
機械学習を民主化する取り組み
by
Yoshitaka Ushiku
凸最適化 〜 双対定理とソルバーCVXPYの紹介 〜
by
Tomoki Yoshida
機械学習のためのベイズ最適化入門
by
hoxo_m
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
強化学習と逆強化学習を組み合わせた模倣学習
by
Eiji Uchibe
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
by
Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
by
Deep Learning JP
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
音源分離における音響モデリング(Acoustic modeling in audio source separation)
by
Daichi Kitamura
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
by
Daichi Kitamura
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
by
Yui Sudo
独立性基準を用いた非負値行列因子分解の効果的な初期値決定法(Statistical-independence-based efficient initia...
by
Daichi Kitamura
音源分離 ~DNN音源分離の基礎から最新技術まで~ Tokyo bishbash #3
by
Naoya Takahashi
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
by
Daichi Kitamura
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
Similar to サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
PDF
Neural text-to-speech and voice conversion
by
Yuki Saito
PDF
Nakai22sp03 presentation
by
Yuki Saito
PDF
深層学習と音響信号処理
by
Yuma Koizumi
PDF
音声認識と深層学習
by
Preferred Networks
PDF
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
by
NU_I_TODALAB
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
by
ssuserf54db1
PDF
ICASSP読み会2020
by
Yuki Saito
PPTX
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
by
貴史 益子
PDF
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
by
Yuta Matsunaga
PDF
分布あるいはモーメント間距離最小化に基づく統計的音声合成
by
Shinnosuke Takamichi
PPTX
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
by
Yui Sudo
PDF
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
by
Tsubasa Ochiai
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
by
Takaaki Saeki
PPTX
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
by
TaikiNakamura
PDF
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
PDF
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
by
Yahoo!デベロッパーネットワーク
PDF
saito2017asj_vc
by
Yuki Saito
PDF
Saito18asj_s
by
Yuki Saito
PDF
Deep learning for acoustic modeling in parametric speech generation
by
Yuki Saito
Neural text-to-speech and voice conversion
by
Yuki Saito
Nakai22sp03 presentation
by
Yuki Saito
深層学習と音響信号処理
by
Yuma Koizumi
音声認識と深層学習
by
Preferred Networks
DNN音響モデルにおける特徴量抽出の諸相
by
Takuya Yoshioka
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
by
NU_I_TODALAB
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
by
ssuserf54db1
ICASSP読み会2020
by
Yuki Saito
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
by
貴史 益子
微分可能な信号処理に基づく音声合成器を用いた DNN 音声パラメータ推定の検討
by
Yuta Matsunaga
分布あるいはモーメント間距離最小化に基づく統計的音声合成
by
Shinnosuke Takamichi
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
by
Yui Sudo
音学シンポジウム2025 招待講演 遠隔会話音声認識のための音声強調フロントエンド:概要と我々の取り組み
by
Tsubasa Ochiai
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
by
Takaaki Saeki
深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討
by
TaikiNakamura
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
by
Yahoo!デベロッパーネットワーク
saito2017asj_vc
by
Yuki Saito
Saito18asj_s
by
Yuki Saito
Deep learning for acoustic modeling in parametric speech generation
by
Yuki Saito
More from Shinnosuke Takamichi
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
PDF
統計的ボイチェン研究事情
by
Shinnosuke Takamichi
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
PDF
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
PPTX
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
統計的ボイチェン研究事情
by
Shinnosuke Takamichi
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
1.
サブバンドフィルタリングに基づく リアルタイム広帯域DNN声質変換の実装と評価 ☆佐伯高明,齋藤佑樹,高道慎之介,猿渡洋 (東大院・情報理工) SLP研究会 2020/02/13 日本音響学会2020年 秋季講演発表会
1-2-11
2.
/16本発表の概要 ❑ 背景 ▪ 声質変換では,話者再現度だけでなくリアルタイム性・音質が重要 ▪
従来のリアルタイム声質変換では,狭帯域 (16 kHz) 音声のみ変換可能 ▪ 高音質なフルバンド (48 kHz) リアルタイム声質変換の実現が目的 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算効率の評価の結果,1CPUでのリアルタイム動作を確認 ▪ 変換音声の品質評価の結果,Benchmark手法より有意に高い自然性 2
3.
/16既存のリアルタイム声質変換の課題 ❑ 従来のリアルタイム声質変換 [Toda12][Arakawa19] ▪
変換された音響特徴量から信号処理に基づくボコーダで波形生成 ▪ 狭帯域 (16 kHz) 音声を遅延50 ms程度で変換可能 ▪ 信号処理に基づくボコーダによるアーティファクト ▪ 変換可能な帯域幅が狭く,変換音声が低音質 3 ConversionAnalysis Synthesis Source feature Converted feature Narrow-band source speech Narrow-band converted speech
4.
/16本研究でのアプローチ ❑ 差分スペクトル法に基づく声質変換 [Kobayashi18] ▪
ボコーダを用いず,波形領域でのフィルタリングにより変換 ▪ 帯域拡張すると品質・計算量面で問題 ➢ サブバンドフィルタリングによる解決法を提案 [Saeki20] 4 ⊗ Full-band source speech Full-band converted speech DNN Convolution Analysis 𝐶(𝑋) 𝐶(𝐷) 𝑓(𝐷) Real cepstrum of source speech Real cepstrum of Differential filter Differential filter in time domain
5.
/16サブバンドフィルタリングによる広帯域声質変換 [佐伯20] ❑ サブバンド処理により,0-8
kHzのみをモデル化・変換 [佐伯20] ▪ 変動の大きい高域をそのまま使うことで,変換音声の音質を向上 ▪ フィルタをかける波形のサンプル数が減り,計算量を削減 ❑ フィルタのタップ長を短く打ち切ることで,さらに計算量削減 [Saeki20] 5 Pass through ⊗ 0-8 kHz 8-24 kHz DNN Short-tap truncated filter Convolution 0-24 kHz 0-24 kHz 𝑪(𝑿) 𝑪(𝐷) 𝒇(𝑙)
6.
/16リアルタイム・オンライン広帯域声質変換 6 Offline変換 (発話ごとに処理)
[佐伯20] Online変換 (フレームごとに処理) ❑ サブバンドフィルタリングによる声質変換はオフライン変換を想定 ❑ リアルタイムフルバンド声質変換のためのオンライン実装 Sub-band analysis Conversion 0 -8 kHz 8 -2 4 kHz Pass throug h Sub-band synthesis Sub-band analysis Pass throug hConversion 0 -8 kHz 8 -2 4 kHz Sub-band synthesis
7.
/16提案するシステムの主要部 7 ❑ 分析部:
変換元話者の音声をサブバンド処理し,低域から特徴量抽出 ❑ 変換部: DNNでケプストラム変換し,差分フィルタを推定 ❑ 合成部: 変換先話者の音声波形を得る � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering wind ow shift
8.
/16その他の部分 8 ❑ F0変換:
入力波形を一定F0比だけPICOLA [森田1986] でピッチシフト ❑ 特徴量分析時にプリエンファシスを適用 � ( ) � ( ) 0 -8 kHz 8 -2 4 kHz Processing each fram e within 5 m s DNN Pass throug h ⊗ � ( ) Filtering window shift F0 transform ation. Pre-em p hasis De-em p hasis
9.
実験的評価
10.
/16評価の概要 10 Evaluation cases
male-to-male (m2m), female-to-female (f2f) female-to-male (f2m), male-to-female (m2f) Dataset f2f: JSUTcorpus [Sonobe17] Voice Actress corpus [y_benjo17] m2m, f2m, m2f: JVS corpus [Takamichi19] Train / Valid / Test 80 sentences / 10 sentences / 10 sentences DFT length Proposed: 512 samples Benchmark: 2048 samples DNN architecture Multi layer perceptron with 2 hidden layers CPU Intel (R) core (TM) i7-6850K CPU @ 3.60 GHz ❑ Proposed methodとBenchmarkを比較 ▪ Benchmark: 差分スペクトル法を広帯域音声に帯域分割なしで適用 ❑ 評価内容 ▪ 計算効率: FLOPSによる計算量概算 & Real-time factor (RTF) 計測 ▪ 変換音声品質: 主観評価実験
11.
/16計算量の評価 11 ❑ FLOPS:
1秒間に浮動小数点演算が何回行えるかという指標 ❑ 1秒間のフルバンド音声を処理するのにかかる計算量をFLOPS単位で概算 ❑ 理論上はモバイル端末でもリアルタイム変換が可能 ➢ Iphone6 single CPU: 2.8 GFLOPS (理論値) ➢ Intel core i7-6850K single CPU: 14.4 GFLOPS (理論値) Analysis Conversion Synthesis Other Total Benchmark 0.21 3.04 16.80 0.30 20.4 Proposed 0.74 0.37 1.05 0.30 2.5 単位はGFLOPS 350 % 12 % 6% 12 %
12.
/16処理時間の計測 12 1CPUでRTF <
1 を達成し,リアルタイム動作を確認 ❑ RTFによる評価 ▪ 1フレームごとの処理時間を算出し,波形の長さ (5 ms) で除算 ▪ 全フレームでのRTFの平均値を算出 Analysis Conversion Synthesis Other Total Benchmark 0.02 0.33 2.82 0.06 3.23 Proposed 0.16 0.14 0.22 0.06 0.58 800 % 42 % 8% 18 %
13.
/16オンライン・オフラインの品質比較 13 Online Score
Offline [佐伯20] m2m 0.493 0.507 m2m f2f 0.487 0.513 f2f Online Score Offline [佐伯20] m2m 0.483 0.517 m2m f2f 0.510 0.490 f2f Speaker similarity Speech quality ❑ Online実装とOffline実装 [佐伯20]の品質を主観評価実験により比較 ▪ 各ケース30人の評価者 • 話者性についてのXABテスト,音質についてのABテスト オンライン変換 vs. オフライン変換に有意差なく,変換音声の品質は同等
14.
/16変換音声品質の絶対評価 14 ❑ 自然性をmean
opinion score (MOS) により評価 ▪ 同性間・異性間変換の各ケースにつき40人の聴取者が評価 提案するreal-time VCのMOSはbenchmarkより有意に高く,3.5程度 Error bar: 95 % confidence interval
15.
/16デモ 15 Source Target Narrow band Benchmark
Proposed Intra-gender (f2f) Cross-gender (m2f)
16.
/16まとめ 16 ❑ 研究目的 ▪
高音質なリアルタイム広帯域DNN声質変換の実現 ❑ 手法 ▪ サブバンド処理により低域 (0-8 kHz) のみをモデル化・変換 [佐伯20] ▪ 低域変換の際にフィルタ打ち切りを行うことで計算量削減 [Saeki20] ▪ リアルタイム・オンライン処理のための実装 & F0変換機構 ❑ 評価結果 ▪ 計算量の概算の結果,2.5 GFLOPS程度で広帯域音声を変換可能 ▪ RTF計測の結果,1CPUでのリアルタイム動作を確認 ▪ Online変換でも,offline変換 [佐伯20]と同等品質の変換音声を出力可能 ▪ そのまま帯域拡張したケース (Benchmark) より有意に高い自然性 ❑ 今後の課題 ▪ 実環境での頑健性の検討 ▪ さらなる変換音声品質の改善
Download