Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinnosuke Takamichi
PDF, PPTX
2,188 views
統計的ボイチェン研究事情
VRSionUP!6 「先端ボイチェン研究」 招待講演
Technology
◦
Read more
6
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 13
2
/ 13
3
/ 13
4
/ 13
5
/ 13
6
/ 13
7
/ 13
8
/ 13
9
/ 13
10
/ 13
11
/ 13
12
/ 13
13
/ 13
More Related Content
PDF
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
PDF
音情報処理における特徴表現
by
NU_I_TODALAB
PDF
GAN-based statistical speech synthesis (in Japanese)
by
Yuki Saito
PDF
Neural text-to-speech and voice conversion
by
Yuki Saito
PDF
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
PPTX
[DL輪読会]Flow-based Deep Generative Models
by
Deep Learning JP
PDF
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
PDF
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
深層生成モデルに基づく音声合成技術
by
NU_I_TODALAB
音情報処理における特徴表現
by
NU_I_TODALAB
GAN-based statistical speech synthesis (in Japanese)
by
Yuki Saito
Neural text-to-speech and voice conversion
by
Yuki Saito
音声の声質を変換する技術とその応用
by
NU_I_TODALAB
[DL輪読会]Flow-based Deep Generative Models
by
Deep Learning JP
環境音の特徴を活用した音響イベント検出・シーン分類
by
Keisuke Imoto
短時間発話を用いた話者照合のための音声加工の効果に関する検討
by
Shinnosuke Takamichi
What's hot
PDF
AHC-Lab M1勉強会 論文の読み方・書き方
by
Shinagawa Seitaro
PDF
Nishimura22slp03 presentation
by
Yuki Saito
PDF
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
PDF
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
PPTX
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
by
Deep Learning JP
PDF
Nakai22sp03 presentation
by
Yuki Saito
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
by
Deep Learning JP
PPTX
深層強化学習による自動運転車両の経路探索に関する研究
by
harmonylab
PDF
機械学習モデルの判断根拠の説明
by
Satoshi Hara
PDF
深層生成モデルと世界モデル
by
Masahiro Suzuki
PDF
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
PDF
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
by
NU_I_TODALAB
PPTX
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
by
Daichi Kitamura
PDF
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
PDF
WaveNetが音声合成研究に与える影響
by
NU_I_TODALAB
PDF
研究室における研究・実装ノウハウの共有
by
Naoaki Okazaki
PPTX
深層学習の数理:カーネル法, スパース推定との接点
by
Taiji Suzuki
PDF
異常音検知に対する深層学習適用事例
by
NU_I_TODALAB
PPTX
【DL輪読会】マルチモーダル 基盤モデル
by
Deep Learning JP
PDF
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
AHC-Lab M1勉強会 論文の読み方・書き方
by
Shinagawa Seitaro
Nishimura22slp03 presentation
by
Yuki Saito
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
by
Shinnosuke Takamichi
JVS:フリーの日本語多数話者音声コーパス
by
Shinnosuke Takamichi
[DL輪読会]Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images
by
Deep Learning JP
Nakai22sp03 presentation
by
Yuki Saito
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
by
Deep Learning JP
深層強化学習による自動運転車両の経路探索に関する研究
by
harmonylab
機械学習モデルの判断根拠の説明
by
Satoshi Hara
深層生成モデルと世界モデル
by
Masahiro Suzuki
音声感情認識の分野動向と実用化に向けたNTTの取り組み
by
Atsushi_Ando
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
by
NU_I_TODALAB
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
by
Daichi Kitamura
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
by
Deep Learning JP
WaveNetが音声合成研究に与える影響
by
NU_I_TODALAB
研究室における研究・実装ノウハウの共有
by
Naoaki Okazaki
深層学習の数理:カーネル法, スパース推定との接点
by
Taiji Suzuki
異常音検知に対する深層学習適用事例
by
NU_I_TODALAB
【DL輪読会】マルチモーダル 基盤モデル
by
Deep Learning JP
やさしく音声分析法を学ぶ: ケプストラム分析とLPC分析
by
Shinnosuke Takamichi
Similar to 統計的ボイチェン研究事情
PPTX
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
by
GREE VR Studio Lab
PDF
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
PDF
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
PDF
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
by
Takaaki Saeki
PDF
任意話者間声質変換の研究開発
by
gree_tech
PDF
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
PDF
ICASSP読み会2020
by
Yuki Saito
PDF
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
by
ssuserf54db1
PDF
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
PDF
Thesis introduction audo_signal_processing
by
MakotoShirasu
PDF
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
PPTX
NIPS2017報告 SPEECH & AUDIO
by
Koichiro Mori
PDF
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
PDF
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
PDF
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
by
NU_I_TODALAB
PDF
音声合成の今昔と深層学習を用いた音声合成
by
Genki Ishibashi
PDF
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
by
Deep Learning JP
PDF
saito2017asj_vc
by
Yuki Saito
PDF
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
PDF
Interspeech2022 参加報告
by
Yuki Saito
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
by
GREE VR Studio Lab
音声コーパス設計と次世代音声研究に向けた提言
by
Shinnosuke Takamichi
統計的音声合成変換と近年の発展
by
Shinnosuke Takamichi
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
by
Takaaki Saeki
任意話者間声質変換の研究開発
by
gree_tech
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
by
Shinnosuke Takamichi
ICASSP読み会2020
by
Yuki Saito
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
by
ssuserf54db1
国際会議 interspeech 2020 報告
by
Shinnosuke Takamichi
Thesis introduction audo_signal_processing
by
MakotoShirasu
音声合成研究を加速させるためのコーパスデザイン
by
Shinnosuke Takamichi
NIPS2017報告 SPEECH & AUDIO
by
Koichiro Mori
ICASSP2019 音声&音響読み会 テーマ発表音声生成
by
Kentaro Tachibana
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
by
Shinnosuke Takamichi
音学シンポジウム2025「音声研究の知見がニューラルボコーダの発展にもたらす効果」
by
NU_I_TODALAB
音声合成の今昔と深層学習を用いた音声合成
by
Genki Ishibashi
[DL輪読会]Towards End-to-End Prosody Transfer for Expressive Speech Synthesis wi...
by
Deep Learning JP
saito2017asj_vc
by
Yuki Saito
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
by
Shinnosuke Takamichi
Interspeech2022 参加報告
by
Yuki Saito
More from Shinnosuke Takamichi
PDF
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
PDF
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
PDF
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
PDF
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
PDF
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
PDF
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
PDF
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
PDF
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
PDF
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
PDF
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
PDF
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
PDF
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
PDF
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
PDF
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
PPTX
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
PPTX
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
by
Shinnosuke Takamichi
PPTX
外国人留学生日本語の音声合成における話者性を保持した韻律補正
by
Shinnosuke Takamichi
PPTX
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
by
Shinnosuke Takamichi
PDF
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
by
Shinnosuke Takamichi
PDF
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
by
Shinnosuke Takamichi
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
by
Shinnosuke Takamichi
音声合成のコーパスをつくろう
by
Shinnosuke Takamichi
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
by
Shinnosuke Takamichi
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
by
Shinnosuke Takamichi
P J S: 音素バランスを考慮した日本語歌声コーパス
by
Shinnosuke Takamichi
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
by
Shinnosuke Takamichi
論文紹介 Unsupervised training of neural mask-based beamforming
by
Shinnosuke Takamichi
論文紹介 Building the Singapore English National Speech Corpus
by
Shinnosuke Takamichi
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
by
Shinnosuke Takamichi
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
by
Shinnosuke Takamichi
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
by
Shinnosuke Takamichi
音声合成・変換の国際コンペティションへの 参加を振り返って
by
Shinnosuke Takamichi
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
by
Shinnosuke Takamichi
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
by
Shinnosuke Takamichi
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
by
Shinnosuke Takamichi
外国人留学生日本語の音声合成における話者性を保持した韻律補正
by
Shinnosuke Takamichi
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
by
Shinnosuke Takamichi
SLP研究会201902 正弦関数摂動 von Mises 分布 DNN の モード近似を用いた位相復元
by
Shinnosuke Takamichi
モーメントマッチングに基づくDNN 合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用
by
Shinnosuke Takamichi
Recently uploaded
PDF
20260119_VIoTLT_vol22_kitazaki_v1___.pdf
by
Ayachika Kitazaki
PDF
TomokaEdakawa_職種と講義の関係推定に基づく履修支援システムの基礎検討_HCI2026
by
Matsushita Laboratory
PDF
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
PDF
maisugimoto_曖昧さを含む仕様書の改善を目的としたアノテーション支援ツールの検討_HCI2025.pdf
by
Matsushita Laboratory
PDF
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
PDF
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
20260119_VIoTLT_vol22_kitazaki_v1___.pdf
by
Ayachika Kitazaki
TomokaEdakawa_職種と講義の関係推定に基づく履修支援システムの基礎検討_HCI2026
by
Matsushita Laboratory
自転車ユーザ参加型路面画像センシングによる点字ブロック検出における性能向上方法の模索 (20260123 SeMI研)
by
Yuto Matsuda
maisugimoto_曖昧さを含む仕様書の改善を目的としたアノテーション支援ツールの検討_HCI2025.pdf
by
Matsushita Laboratory
Team Topology Adaptive Organizational Design for Rapid Delivery of Valuable S...
by
akipii ogaoga
ST2024_PM1_2_Case_study_of_local_newspaper_company.pdf
by
akipii ogaoga
統計的ボイチェン研究事情
1.
07/16/2019©Shinnosuke Takamichi, The University
of Tokyo 統計的ボイチェン研究事情 高道 慎之介 @forthshinji (東京大学) #VRSionUp!6「先端ボイチェン研究」招待講演 本発表の一部 (p.4, 5) は総務省の委託「知覚モデルに基づくストレスフリーな リアルタイム広帯域音声変換の研究」を受けて実施したものです.
2.
統計的ボイチェン研究事情 平たく言えば「音声と機械学習 (ディープラーニングなど)を使って 構築するボイチェン」
3.
/13 私の研究グループの目標 3 音声変換 音声合成 全ての人間・計算機が 身体・文化・時間を超えて 音声でコミュニケーション できる社会を目指して HOYA NPSS
4.
/13 今日お話しする内容 4 特定の他者にリアルタイムでなりきるボイスチェンジャ 他人との「声のつながり」を見つけるボイスグラフ 「声の誤り」を学習・付与するボイスエフェクタ 次世代ボイスチェンジャに向けた我々の試み
5.
/13 リアルタイムボイスチェンジャー (話者変換) 5 https://www.youtube.com/watch?v=P9rGqoYnfCg [Arakawa19] 音声合成・変換コンペ (2015,
2016) で品質世界一になった技術と 森勢先生のWORLDを利用.普通の laptop PC で50msレイテンシで動作.
6.
/13 技術の中身 6 基本周波数 スペクトル包絡 非周期性指標 基本周波数 スペクトル包絡 非周期性指標 DNN (ディープ ニューラル ネットワーク) 単純な変換規則では,特定の他者への声変換は難しい.なので, 話者の声を事前収録して,その音声データから変換規則を自動学習
7.
/137 クラウドソーシングを用いた 話者間類似度の大規模主観スコアリング [Saito19] 人間の声の関係性を計算できないか? このアンケートを4,000人に対して実施
8.
/138 類似度スコアに基づく話者グラフを用いた 話者間類似度の可視化 F051 F146B F048 特定の話者に 類似した話者 多数の話者に 類似した話者F093 F127 [Saito19] このデータは 数カ月以内に公開予定 (ただし研究用データベース向け)
9.
/13 音声の特徴量から「声の関係」を当てる 9 基本周波数 包絡 非周期 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Saito19] 手元の音声データを使って,音声から 「声の関係性」を当てるDNNを作れば… 新しい声が入っても「声の 関係性」を自動で見つけられる! → 声のユニーク性調査も可能?
10.
/13 ニューラル・ダブル・トラッキング 10 [Tamaru19] NDT Random pitch modulation based
on deep generative models 深層生成モデルを用いて「人間の音声はこう間違う」を学習 (理論上は1秒レイテンシーくらいで動く)
11.
/13 原理 11 基本周波数 包絡 非周期 基本周波数 包絡 非周期 [Tamaru19] 人間の繰り返し歌唱データから,DNNは「声の間違い方」を事前学習 加工時には「自然な声の間違い方」をランダムで付与 正しい間違い方を付与
12.
/13 総務省SCOPE:知覚モデルに基づくストレス フリーなリアルタイム広帯域音声変換 12 通常の遠隔コミュニケーション リアルタイム音声変換を介した遠隔コミュニケーション 言語情報 (音韻など) パラ言語情報 (感情など) 非言語情報
(話者性など) 自己聴取音による情報確認 言語 パラ言語 非言語 言語 パラ言語 非言語 音 声 変 換 意図しない情報変換が行われる恐れ エラーを含む音声のフィードバックでユーザに負荷 https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
13.
/13 今後のボイチェンに期待すること 現在の統計的ボイチェン研究 – 高品質化・高速化がメイン
これからのボイチェンに期待すること (我々が目指すこと) – ヒトとコトをどこまで分離できる? • 今は,人間の肉体と生成できる音声コンテンツが紐づいている • 聞き手の音声知覚モデリングが必要 – 話し手の人格をどこまで制御できる? • リアルタイムボイチェンは,自分で聴く自分の声を制御できる • 話し手の音声知覚モデリングが必要 – 音声コンテンツ制作をどう変えられる? • 「この研究は声優の仕事を奪うのでは」と言われるが個人的には 「奪うことはあり得ないが,声優の在り方が変わる」と考える. 13
Download