SlideShare a Scribd company logo
1 of 21
Download to read offline
第146回音声言語情報処理研究発表会
Fed-StarGANv2-VC:
連合学習を用いた多対多声質変換
平井龍之介,齋藤佑樹,猿渡洋(東大)
目次
- 声質変換の概説
- 連合学習の概説
- 提案手法とその評価
- まとめと今後の課題
要約
- 連合学習を用いてプライバシーを保護したまま声質変換を実現する手法の提案
01/19
研究分野: 声質変換 (Voice Conversion: VC)
X Y
「こんにちは」 「こんにちは」
変換器
男声
落ち着いた
女声
溌剌
発話内容 発話内容
音響的特徴 音響的特徴
そのまま
変化する
多対多声質変換の利用例
- ユーザ→プロ声優の声質変換
- ユーザ同士の声質変換
02/19
既存手法: StarGANv2-VC[1]
生成システム 識別システム
話者性の
ベクトル表現
03/19
一方向的/双方向的な機械学習アプローチ
04/19
双方向的アプローチが望ましい
双方向的アプローチの問題点: 個人情報漏洩リスク
音声データには個人情報が含まれる
- 発話内容 等
集約には個人情報漏洩のリスクがある
- 通信時の漏洩
- サーバへの不正アクセス 等
データを集約しない学習システムの構築が必要
05/19
関連研究: 連合学習[2]
2.学習
2.学習
1.配布
3.統合
選ばれなかった
クライアント パラメータ
ローカルなデータ クライアント
サーバ
各Round(反復の単位)の処理
1.選択したクライアントにモデルを配布
2.各クライアントは所有する
データでモデルを学習
3.サーバはモデルを統合
本実験では統合手法にFedAvg[3]を採用
06/19
連合学習の統合処理
データ数で重み付き平均を取る
統合: Federated Averaging
統合
配布・更新
07/19
連合学習の適用例(先行研究)
- 画風変換
- Federated CycleGAN
- Joonyoung Song and Jong Chul Ye. Federated CycleGAN for privacy-preserving image-to-
image translation, 2021.
- テキスト音声合成
- FedSpeech
- Ziyue Jiang, Yi Ren, Ming Lei, and Zhou Zhao. FedSpeech: Federated text-to-speech with
continual learning. In Proc. IJCAI, pp. 3829–3835, Montreal, Canada, Aug. 2021.
- 声質変換
- ???(まだ無い)
本研究の主眼: 声質変換技術への連合学習の適用とその影響の調査
08/19
StarGANv2-VCを構成するモデル全てに対し,連合学習を適用する手法
提案手法: Fed-StarGANv2-VC
既存手法(一方向的) 提案手法(双方向的)
09/19
nonIIDデータセット
- 変換対象をClient話者とAnchor話者に分類
- 1Client話者は連合学習の1クライアントに対応
- Client話者→クライアント端末のユーザの利用データ
- Anchor話者→サーバから供与される音声データ
- Anchor話者のデータ数とClient話者のデータ数が一致
するようにデータ数を調整
データセットに
含まれない変換ペア
10/19
連合学習におけるClient話者間の変換の間接的学習
11/19
- ただし, はクライアントのモデルパラメータ, はサーバのモデルパラメ
ータ, は影響度を決定するハイパーパラメータ
連合学習の課題: データ分布の非同一性
- クライアントの持つデータが異なる分布に従う→収束速度の低下
- 各クライアントのデータセットに過適合
- データ非同一性に起因する過適合への対策: FedProx[4]
- パラメータの更新式にサーバ側の(統合済み)モデルに引き戻す項を導入
統合済みモデルとの二乗誤差
12/19
実験
比較手法: Baseline (StarGANv2-VC) vs Proposed (Fed-StarGANv2-VC)
実験条件
Proposed間の比較: {200,400}Round学習,{1,3}Client選択,FedProx{なし,あり}
BaselineとProposedの比較: Baseline(700Epoch),Proposed(3Client選択,800Round,FedProx)
客観評価: 変換先話者との類似度(x-vector[9]コサイン類似度)
主観評価: 変換先話者との類似度(ABXテスト),音質(ABテスト)
実装 オープンソース実装[5]
データセット JVS[6] parallel100サブセット
有音部を結合→5秒毎に分割
{訓練/検証/評価}データ {3284,411,411}点
{Anchor,Client}話者 {10,30}話者(男女均等)
Optimizer AdamW[7]
BatchSize 10
Epoch/Round
(Proposedのみ)
10
x-vector
抽出器
x-vector extractor for Japanese
speech[8]
13/19
客観評価: 条件を変化させた際のProposedのx-vectorコサイン類似度
学習期間(Round数)が長い程性能が良い
各Roundで選択するクライアントの数が
多い方が性能が良い
FedProxを導入した方が性能が良い
学習期間(Round)を変化させた場合
各Roundで選択するクライアント数を変化させた場合
FedProxの導入の有無を変化させた場合
14/19
客観評価結果: 学習期間に対する x-vector コサイン類似度の変化
Client話者への変換
提案手法ではClient話者同士の変換も間接的に学習出来る
200Epoch時点でほぼ収束
Baseline Proposed
Anchor話者への変換
15/19
主観評価
BaselineとProposedは同等
or Proposedの方が優越
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
クライアントへのデータ分割手法が学習に影響している可能性を示唆
類似度(ABXテスト) 音質(ABテスト)
被験者は各基準,変換ペア毎に50人
16/19
音質評価: nonIIDデータセットが学習に与える影響
Anchor話者への変換
Anchor話者10人のデータとClient話者1人の
データが同じ量
→Anchor話者一人あたりのデータが少ない
Client話者への変換
Baselineが40人の声質変換を学習するのに
対して、Proposedでは各クライアントで
11人の声質変換を学習
→小さい課題への分割が学習を促進
Anchorへの変換→Baselineが優越
Clientへの変換→Proposedが優越
音質(ABテスト)
17/19
サンプル音声
Client話者→Anchor話者
Client話者→Client話者
入力音声 変換先サンプル Baselineでの変換 Proposedでの変換
入力音声 変換先サンプル Baselineでの変換 Proposedでの変換
音声サンプルリンク及びQRコード
https://drive.google.com/drive/folders/1QcCFnjuu39lv9sKbVFLnsORpOf0_VVI_?usp=sharing
18/19
A
A B
1
まとめ
目的: 声質変換モデルにおけるプライバシーを保護した状態での双方向的な学習の実現
提案法: 多対多声質変換モデルStarGANv2-VCに連合学習を適用
結果: Client話者のデータを各クライアントに分散させたまま,Client同士の声質変換の学
習を達成
今後の課題
- データ分布の非同一性の影響に対する更なる対策の導入
- 実環境での実験
19/19
参考文献
[1]Yinghao Aaron Li, Ali Asghar Zare, and Nima Mesgarani. StarGANv2-VC: A diverse, unsupervised, non-parallel framework for natural-sounding
voice conversion. In Proc. INTERSPEECH, pp. 1349–1353, Brno, Czechia, Sep. 2021.
[2]Jakub Koneˇcn´y, H. Brendan McMahan, Felix X. Yu, Peter Richtarik, Ananda Theertha Suresh, and Dave Bacon. Federated learning: strategies
for improving communication efficiency. In NIPS Workshop on Private Multi-Party Machine Learning, Barcelona, Spain, Dec. 2016.
[3]Brendan McMahan, Eider Moore, Daniel Ramage, Seth Hampson, and Blaise Aguera y Arcas. Communication-efficient learning of deep networks
from decentralized data. In Artificial Intelligence and Statistics, pp. 1273–1282, 2017.
[4]Tian Li, Anit Kumar Sahu, Manzil Zaheer, Maziar Sanjabi, Ameet Talwalkar, and Virginia Smith. Federated optimization in heterogeneous networks.
In Proc. AMTL,Long Beach, USA, Apr. 2019.
[5]https://github.com/yl4579/StarGANv2-VC
[6]Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama,
Naoko Tanji, and Hiroshi Saruwatari. JSUT and JVS: Free Japanese voicecorpora for accelerating speech synthesis research. Acoustical Science
and Technology,Vol. 41, No. 5, pp. 761–768, Sep. 2020.
[7]Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In Proc.ICLR, Palais des Congr`es Neptune, Toulon, France, Apr. 2017.
[8]Takaki Hamada and Shinnosuke Takamichi. x-vector extractor for Japanese speech,2022.https://github.com/sarulab-speech/xvector_jtubespeech.
[9]D. Snyder, D. Garcia-Romero, G. Sell, D. Povey, and S. Khudanpur. X-vectors:Robust DNN embeddings for speaker recognition. In Proc. ICASSP,
pp. 5329–5333,Calgary, Alberta, Canada, Apr. 2018.

More Related Content

What's hot

What's hot (20)

強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
畳み込みLstm
畳み込みLstm畳み込みLstm
畳み込みLstm
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
異常音検知の実用化に向けて
異常音検知の実用化に向けて異常音検知の実用化に向けて
異常音検知の実用化に向けて
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
[DL輪読会]SOM-VAE: Interpretable Discrete Representation Learning on Time Series
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展[DL輪読会]Control as Inferenceと発展
[DL輪読会]Control as Inferenceと発展
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 

Similar to hirai23slp03.pdf

Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Yui Sudo
 
Jla stepup2(20100822)
Jla stepup2(20100822)Jla stepup2(20100822)
Jla stepup2(20100822)
真 岡本
 
小松左京が遺した夢
小松左京が遺した夢小松左京が遺した夢
小松左京が遺した夢
Almond_Andel
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)
真 岡本
 

Similar to hirai23slp03.pdf (20)

音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
 
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...Deep-Learning-Based  Environmental Sound Segmentation - Integration of Sound ...
Deep-Learning-Based Environmental Sound Segmentation - Integration of Sound ...
 
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATIONTEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
TEACHER-STUDENT DEEP CLUSTERING FOR LOW-DELAY SINGLE CHANNEL SPEECH SEPARATION
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
Nishimoto110111twcu p2
Nishimoto110111twcu p2Nishimoto110111twcu p2
Nishimoto110111twcu p2
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
Jla stepup2(20100822)
Jla stepup2(20100822)Jla stepup2(20100822)
Jla stepup2(20100822)
 
2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて2014LETシンポジウム WritingMaetriXについて
2014LETシンポジウム WritingMaetriXについて
 
Sig kbs slide-20181123_ota
Sig kbs slide-20181123_otaSig kbs slide-20181123_ota
Sig kbs slide-20181123_ota
 
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
小松左京が遺した夢
小松左京が遺した夢小松左京が遺した夢
小松左京が遺した夢
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)
 
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイトMicrosoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
Microsoft Imagine Cupと深層学習を用いた音源分離技術について_言語音声ナイト
 
Sig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_otaSig kst 34th-1_20180802_ota
Sig kst 34th-1_20180802_ota
 
生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術生活支援ロボットのマルチモーダル言語理解技術
生活支援ロボットのマルチモーダル言語理解技術
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi第8回Language and Robotics研究会20221010_AkiraTaniguchi
第8回Language and Robotics研究会20221010_AkiraTaniguchi
 

More from Yuki Saito

More from Yuki Saito (20)

fujii22apsipa_asc
fujii22apsipa_ascfujii22apsipa_asc
fujii22apsipa_asc
 
nakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdfnakai22apsipa_presentation.pdf
nakai22apsipa_presentation.pdf
 
saito22research_talk_at_NUS
saito22research_talk_at_NUSsaito22research_talk_at_NUS
saito22research_talk_at_NUS
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Saito21asj Autumn Meeting
Saito21asj Autumn MeetingSaito21asj Autumn Meeting
Saito21asj Autumn Meeting
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
Interspeech2020 reading
Interspeech2020 readingInterspeech2020 reading
Interspeech2020 reading
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
 
Saito20asj s slide_published
Saito20asj s slide_publishedSaito20asj s slide_published
Saito20asj s slide_published
 
Saito19asjAutumn_DeNA
Saito19asjAutumn_DeNASaito19asjAutumn_DeNA
Saito19asjAutumn_DeNA
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
 
Une18apsipa
Une18apsipaUne18apsipa
Une18apsipa
 
Saito18sp03
Saito18sp03Saito18sp03
Saito18sp03
 
Saito18asj_s
Saito18asj_sSaito18asj_s
Saito18asj_s
 
Saito17asjA
Saito17asjASaito17asjA
Saito17asjA
 
釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会釧路高専情報工学科向け進学説明会
釧路高専情報工学科向け進学説明会
 

hirai23slp03.pdf