Submit Search
Upload
統計的ボイチェン研究事情
•
6 likes
•
2,149 views
Shinnosuke Takamichi
Follow
VRSionUP!6 「先端ボイチェン研究」 招待講演
Read less
Read more
Technology
Report
Share
Report
Share
1 of 13
Download now
Download to read offline
Recommended
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
Recommended
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
Deep Learning JP
音声生成の基礎と音声学
音声生成の基礎と音声学
Akinori Ito
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
Yuki Saito
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
深層学習を用いた音源定位、音源分離、クラス分類の統合~環境音セグメンテーション手法の紹介~
Yui Sudo
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
Shinnosuke Takamichi
Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料
Yasuhisa Kondo
More Related Content
What's hot
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Keisuke Imoto
深層学習を利用した音声強調
深層学習を利用した音声強調
Yuma Koizumi
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
Yuma Koizumi
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
Kouta Nakayama
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
Daichi Kitamura
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
Shinnosuke Takamichi
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
Keisuke Imoto
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
Yuki Saito
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
モデル高速化百選
モデル高速化百選
Yusuke Uchida
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
NU_I_TODALAB
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
What's hot
(20)
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
Onoma-to-wave: オノマトペを利用した環境音合成手法の提案
深層学習を利用した音声強調
深層学習を利用した音声強調
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
音情報処理における特徴表現
音情報処理における特徴表現
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
実環境音響信号処理における収音技術
実環境音響信号処理における収音技術
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
BERT分類ワークショップ.pptx
BERT分類ワークショップ.pptx
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
z変換をやさしく教えて下さい (音響学入門ペディア)
z変換をやさしく教えて下さい (音響学入門ペディア)
環境音の特徴を活用した音響イベント検出・シーン分類
環境音の特徴を活用した音響イベント検出・シーン分類
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
[DL Hacks]Visdomを使ったデータ可視化
[DL Hacks]Visdomを使ったデータ可視化
モデル高速化百選
モデル高速化百選
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
音声の声質を変換する技術とその応用
音声の声質を変換する技術とその応用
AHC-Lab M1勉強会 論文の読み方・書き方
AHC-Lab M1勉強会 論文の読み方・書き方
Similar to 統計的ボイチェン研究事情
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料
Yasuhisa Kondo
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
Takuya Nishimoto
2012年情報社会学会年会知識共有セッション
2012年情報社会学会年会知識共有セッション
Akiko Orita
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
Akinori Ito
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
nico_ura
20110708 ウラ懇談会第一回会合議事内容
20110708 ウラ懇談会第一回会合議事内容
uracon
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
nico_ura
“ゲームの力”で教育・社会を変える試み
“ゲームの力”で教育・社会を変える試み
Yoshihiro Kishimoto
ビブリオバトルにおける コミュニティ形成のダイナミクス
ビブリオバトルにおける コミュニティ形成のダイナミクス
Tadahiro Taniguchi
検索力ってどうよ(PCカンファレンス2006分科会)
検索力ってどうよ(PCカンファレンス2006分科会)
Sunami Hokuto
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
Similar to 統計的ボイチェン研究事情
(12)
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料
学会・研究会の情報保障におけるソーシャルネットワークの役割
学会・研究会の情報保障におけるソーシャルネットワークの役割
2012年情報社会学会年会知識共有セッション
2012年情報社会学会年会知識共有セッション
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
20110708 ウラ懇談会第一回会合議事内容
20110708 ウラ懇談会第一回会合議事内容
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
20110708 周波数オークションに関するウラ懇談会第一回会合議事内容
“ゲームの力”で教育・社会を変える試み
“ゲームの力”で教育・社会を変える試み
ビブリオバトルにおける コミュニティ形成のダイナミクス
ビブリオバトルにおける コミュニティ形成のダイナミクス
検索力ってどうよ(PCカンファレンス2006分科会)
検索力ってどうよ(PCカンファレンス2006分科会)
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
More from Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
More from Shinnosuke Takamichi
(20)
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Recently uploaded
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Recently uploaded
(12)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
統計的ボイチェン研究事情
1.
07/16/2019©Shinnosuke Takamichi, The University
of Tokyo 統計的ボイチェン研究事情 高道 慎之介 @forthshinji (東京大学) #VRSionUp!6「先端ボイチェン研究」招待講演 本発表の一部 (p.4, 5) は総務省の委託「知覚モデルに基づくストレスフリーな リアルタイム広帯域音声変換の研究」を受けて実施したものです.
2.
統計的ボイチェン研究事情 平たく言えば「音声と機械学習 (ディープラーニングなど)を使って 構築するボイチェン」
3.
/13 私の研究グループの目標 3 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して HOYA NPSS
4.
/13 今日お話しする内容 4 特定の他者にリアルタイムでなりきるボイスチェンジャ 他人との「声のつながり」を見つけるボイスグラフ 「声の誤り」を学習・付与するボイスエフェクタ 次世代ボイスチェンジャに向けた我々の試み
5.
/13 リアルタイムボイスチェンジャー (話者変換) 5 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] 音声合成・変換コンペ (2015,
2016) で品質世界一になった技術と 森勢先生のWORLDを利用.普通の laptop PC で50msレイテンシで動作.
6.
/13 技術の中身 6 基本周波数 スペクトル包絡 非周期性指標 基本周波数 スペクトル包絡 非周期性指標 DNN (ディープ ニューラル ネットワーク) 単純な変換規則では,特定の他者への声変換は難しい.なので, 話者の声を事前収録して,その音声データから変換規則を自動学習
7.
/137 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング [Saito19] 人間の声の関係性を計算できないか? このアンケートを4,000人に対して実施
8.
/138 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19] このデータは 数カ月以内に公開予定 (ただし研究用データベース向け)
9.
/13 音声の特徴量から「声の関係」を当てる 9 基本周波数 包絡 非周期 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Saito19] 手元の音声データを使って,音声から 「声の関係性」を当てるDNNを作れば… 新しい声が入っても「声の 関係性」を自動で見つけられる! → 声のユニーク性調査も可能?
10.
/13 ニューラル・ダブル・トラッキング 10 [Tamaru19] NDT Random pitch modulation based
on deep generative models 深層生成モデルを用いて「人間の音声はこう間違う」を学習 (理論上は1秒レイテンシーくらいで動く)
11.
/13 原理 11 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Tamaru19] 人間の繰り返し歌唱データから,DNNは「声の間違い方」を事前学習 加工時には「自然な声の間違い方」をランダムで付与 正しい間違い方を付与
12.
/13 総務省SCOPE:知覚モデルに基づくストレス フリーなリアルタイム広帯域音声変換 12 通常の遠隔コミュニケーション リアルタイム音声変換を介した遠隔コミュニケーション 言語情報 (音韻など) パラ言語情報 (感情など) 非言語情報
(話者性など) 自己聴取音による情報確認 言語 パラ言語 非言語 言語 パラ言語 非言語 音 声 変 換 意図しない情報変換が行われる恐れ エラーを含む音声のフィードバックでユーザに負荷 https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
13.
/13 今後のボイチェンに期待すること 現在の統計的ボイチェン研究 – 高品質化・高速化がメイン
これからのボイチェンに期待すること (我々が目指すこと) – ヒトとコトをどこまで分離できる? • 今は,人間の肉体と生成できる音声コンテンツが紐づいている • 聞き手の音声知覚モデリングが必要 – 話し手の人格をどこまで制御できる? • リアルタイムボイチェンは,自分で聴く自分の声を制御できる • 話し手の音声知覚モデリングが必要 – 音声コンテンツ制作をどう変えられる? • 「この研究は声優の仕事を奪うのでは」と言われるが個人的には 「奪うことはあり得ないが,声優の在り方が変わる」と考える. 13
Download now