Submit Search
Upload
音声分析合成[6].pptx
•
Download as PPTX, PDF
•
0 likes
•
42 views
Natsumi KOBAYASHI
Follow
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
Read less
Read more
Engineering
Slideshow view
Report
Share
Slideshow view
Report
Share
1 of 28
Download now
Recommended
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[7].pptx
音声分析合成[7].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[5].pptx
音声分析合成[5].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[1].pptx
音声分析合成[1].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[2].pptx
音声分析合成[2].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[4].pptx
音声分析合成[4].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[3].pptx
音声分析合成[3].pptx
Natsumi KOBAYASHI
音の評価のための心理学的測定法の第三章のスライドです。尺度更生法のME法についてまとめています。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_3.pptx
seminar-text_3.pptx
Natsumi KOBAYASHI
音の評価のための心理的測定法の内容をまとめたスライドです。第二章の内容です。調整法や恒常法について紹介しています。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_2.pptx
seminar-text_2.pptx
Natsumi KOBAYASHI
Recommended
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[7].pptx
音声分析合成[7].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[5].pptx
音声分析合成[5].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[1].pptx
音声分析合成[1].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[2].pptx
音声分析合成[2].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[4].pptx
音声分析合成[4].pptx
Natsumi KOBAYASHI
音声分析合成( 森勢将雅 著)のまとめスライドです。 書誌情報 日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
音声分析合成[3].pptx
音声分析合成[3].pptx
Natsumi KOBAYASHI
音の評価のための心理学的測定法の第三章のスライドです。尺度更生法のME法についてまとめています。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_3.pptx
seminar-text_3.pptx
Natsumi KOBAYASHI
音の評価のための心理的測定法の内容をまとめたスライドです。第二章の内容です。調整法や恒常法について紹介しています。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_2.pptx
seminar-text_2.pptx
Natsumi KOBAYASHI
音の評価のための心理的測定法の内容をまとめたスライドです。第一章の内容です。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_1.pptx
seminar-text_1.pptx
Natsumi KOBAYASHI
トポロジカルマッピングを用いた音声モーフィングの論文紹介スライドです。 論文情報 “Voice Morphing Using the Generative Topographic Mapping” 著者 Christina ORPHANIDOU, Irena M .MOROZ, Stephen J.ROBERTS (オックスフォード大学) 掲載誌 学内誌 発表年 2004年
seminar-paper_mapping.pptx
seminar-paper_mapping.pptx
Natsumi KOBAYASHI
議事録の自動化などで用いられる話者特定に関する論文紹介スライドです。 論文情報 “Improve Overlapped Speech Handling for Speaker Diarization” 著者 Lawrence Livermore National Laboratory,International Computer Science Institute(アメリカカリフォルニア州にある研究所) 掲載誌 INTERSPEECH 2011
seminar-paper_diarization.pptx
seminar-paper_diarization.pptx
Natsumi KOBAYASHI
CCAスペクトル変換を用いた音声モーフィングの論文紹介スライドです。 論文情報 “Cross Gender Voice Morphing using Canonical Correlation Analysis” 著者 Irum Baseer, Rabeea Basir (University of Engineering and Technology Taxila, Pakistan) 掲載誌 2017International Conference on Communication, Computing and Digital Systems(C-CODE)
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
Natsumi KOBAYASHI
声道長補正の技術の論文紹介スライドです。 論文情報 ”Rapid Vocal Tract Length Normalization using Maximum Likelihood Estimation” 著者 Tadashi Emori and Koichi Shinoda 掲載誌 Eurospeech 2001
seminar-paper_vtln.pptx
seminar-paper_vtln.pptx
Natsumi KOBAYASHI
他者の歌い方を真似するカラオケアプリケーションの論文紹介スライドです。 論文情報 “Voice Morphing System for Impersonating in Karaoke Applications” 著者 Pedro Cano, Jordi Bonada 掲載誌 ICMC2000 発表年 2000
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
海外の音声の流暢なアクセントを転写する技術の論文紹介スライドです。 論文情報 ” Foreign Accent Conversion through Voice Morphing” 著者 Sandesh Aryal,Danie Felps,and Ricardo Gutierrez-Osuna 掲載誌 INTERSPEECH2013
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
顔交換の画像加工技術であるFace Swapping に関する論文の紹介スライドである。 論文情報 “Face Swapping: Realistic Image Synthesis Based on Facial Landmarks Alignment” 2019年 Dongyue Chen,Qiusheng Chen,Jianjun Wu,Xiaosheng Yu,Tong Jia
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
Natsumi KOBAYASHI
高品質音声システムで用いられることを前提とした非周期性指標推定システムであるD4Cの論文紹介スライドである。 論文情報 “D4C,a band –aperiodicity estimator for high-quality speech synthesis” Author : Masanori Morise Speech Communication, vol. 84, pp. 57-65, Nov. 2016.
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
Natsumi KOBAYASHI
2003年に発表されたPoisson Image Editingの論文紹介スライドです。 論文情報 「Poisson Image Editing」(2003) 著者:Patrick Perez, Michel Gangnet and Andrew Blake SIGGRAPH(アメリカコンピュータ学会の国際会議) 2004年に発表されたPIEの実装論文のスライドは以下になります。 https://www.slideshare.net/ssuser76fc60/pieyamazakipptx-251990856
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
Natsumi KOBAYASHI
2004に書かれた高品質音声モーフィングに関する論文の紹介スライドです。 論文情報 “High quality voice morphing“(2004) 著者 Hui Ye & Steve Young (University of Cambridge) ICASSP2004
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
音声分析合成系の一つであるWORLDの実時間実装の論文である。 論文情報 「音声分析合成システムWORLDにより 実時間音声合成を実現するための拡張と実装例」 著者 森勢将雅 発行年 2016年 情報処理学会研究報告
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
Natsumi KOBAYASHI
2003年に発表されたPIEの日本語実装論文です。 論文情報 「勾配ベースの画像編集 : Poisson Image Editing」(2010) ・著者:山崎 俊彦 (東京大学大学院 情報理工学系研究科 電子情報学専攻) ・映像情報メディア学会誌64巻に掲載 PIEの論文情報 「Poisson Image Editing」(2003) ・著者 : Patrick Perez ,Michel Gangnet, Andrew Blake ・Microsoft Research UK
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
Natsumi KOBAYASHI
More Related Content
More from Natsumi KOBAYASHI
音の評価のための心理的測定法の内容をまとめたスライドです。第一章の内容です。 書誌情報 音響テクノロジーシリーズ④ 「音の評価のための心理学的測定法」 発行年 1998年 著者 難波精一郎・桑野園子 共著
seminar-text_1.pptx
seminar-text_1.pptx
Natsumi KOBAYASHI
トポロジカルマッピングを用いた音声モーフィングの論文紹介スライドです。 論文情報 “Voice Morphing Using the Generative Topographic Mapping” 著者 Christina ORPHANIDOU, Irena M .MOROZ, Stephen J.ROBERTS (オックスフォード大学) 掲載誌 学内誌 発表年 2004年
seminar-paper_mapping.pptx
seminar-paper_mapping.pptx
Natsumi KOBAYASHI
議事録の自動化などで用いられる話者特定に関する論文紹介スライドです。 論文情報 “Improve Overlapped Speech Handling for Speaker Diarization” 著者 Lawrence Livermore National Laboratory,International Computer Science Institute(アメリカカリフォルニア州にある研究所) 掲載誌 INTERSPEECH 2011
seminar-paper_diarization.pptx
seminar-paper_diarization.pptx
Natsumi KOBAYASHI
CCAスペクトル変換を用いた音声モーフィングの論文紹介スライドです。 論文情報 “Cross Gender Voice Morphing using Canonical Correlation Analysis” 著者 Irum Baseer, Rabeea Basir (University of Engineering and Technology Taxila, Pakistan) 掲載誌 2017International Conference on Communication, Computing and Digital Systems(C-CODE)
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
Natsumi KOBAYASHI
声道長補正の技術の論文紹介スライドです。 論文情報 ”Rapid Vocal Tract Length Normalization using Maximum Likelihood Estimation” 著者 Tadashi Emori and Koichi Shinoda 掲載誌 Eurospeech 2001
seminar-paper_vtln.pptx
seminar-paper_vtln.pptx
Natsumi KOBAYASHI
他者の歌い方を真似するカラオケアプリケーションの論文紹介スライドです。 論文情報 “Voice Morphing System for Impersonating in Karaoke Applications” 著者 Pedro Cano, Jordi Bonada 掲載誌 ICMC2000 発表年 2000
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
海外の音声の流暢なアクセントを転写する技術の論文紹介スライドです。 論文情報 ” Foreign Accent Conversion through Voice Morphing” 著者 Sandesh Aryal,Danie Felps,and Ricardo Gutierrez-Osuna 掲載誌 INTERSPEECH2013
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
Natsumi KOBAYASHI
顔交換の画像加工技術であるFace Swapping に関する論文の紹介スライドである。 論文情報 “Face Swapping: Realistic Image Synthesis Based on Facial Landmarks Alignment” 2019年 Dongyue Chen,Qiusheng Chen,Jianjun Wu,Xiaosheng Yu,Tong Jia
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
Natsumi KOBAYASHI
高品質音声システムで用いられることを前提とした非周期性指標推定システムであるD4Cの論文紹介スライドである。 論文情報 “D4C,a band –aperiodicity estimator for high-quality speech synthesis” Author : Masanori Morise Speech Communication, vol. 84, pp. 57-65, Nov. 2016.
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
Natsumi KOBAYASHI
2003年に発表されたPoisson Image Editingの論文紹介スライドです。 論文情報 「Poisson Image Editing」(2003) 著者:Patrick Perez, Michel Gangnet and Andrew Blake SIGGRAPH(アメリカコンピュータ学会の国際会議) 2004年に発表されたPIEの実装論文のスライドは以下になります。 https://www.slideshare.net/ssuser76fc60/pieyamazakipptx-251990856
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
Natsumi KOBAYASHI
2004に書かれた高品質音声モーフィングに関する論文の紹介スライドです。 論文情報 “High quality voice morphing“(2004) 著者 Hui Ye & Steve Young (University of Cambridge) ICASSP2004
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
Natsumi KOBAYASHI
音声分析合成系の一つであるWORLDの実時間実装の論文である。 論文情報 「音声分析合成システムWORLDにより 実時間音声合成を実現するための拡張と実装例」 著者 森勢将雅 発行年 2016年 情報処理学会研究報告
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
Natsumi KOBAYASHI
2003年に発表されたPIEの日本語実装論文です。 論文情報 「勾配ベースの画像編集 : Poisson Image Editing」(2010) ・著者:山崎 俊彦 (東京大学大学院 情報理工学系研究科 電子情報学専攻) ・映像情報メディア学会誌64巻に掲載 PIEの論文情報 「Poisson Image Editing」(2003) ・著者 : Patrick Perez ,Michel Gangnet, Andrew Blake ・Microsoft Research UK
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
Natsumi KOBAYASHI
More from Natsumi KOBAYASHI
(13)
seminar-text_1.pptx
seminar-text_1.pptx
seminar-paper_mapping.pptx
seminar-paper_mapping.pptx
seminar-paper_diarization.pptx
seminar-paper_diarization.pptx
seminar-paper_VMusingCCA.pptx
seminar-paper_VMusingCCA.pptx
seminar-paper_vtln.pptx
seminar-paper_vtln.pptx
seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
seminar-paper_ForeignAccentConv.pptx
seminar-paper_ForeignAccentConv.pptx
論文紹介FaceSwap-dongyue.pptx
論文紹介FaceSwap-dongyue.pptx
論文紹介D4C-morise.pptx
論文紹介D4C-morise.pptx
論文紹介PIE-patrick.pptx
論文紹介PIE-patrick.pptx
論文紹介Morphing-hui.pptx
論文紹介Morphing-hui.pptx
論文紹介Morphing-morise.pptx
論文紹介Morphing-morise.pptx
論文紹介PIE-yamazaki.pptx
論文紹介PIE-yamazaki.pptx
音声分析合成[6].pptx
1.
日本音響学会 編 音響テクノロジーシリーズ22 音声分析合成 [6]
2.
本の紹介 日本音響学会 編
音響テクノロジーシリーズ22 音声分析合成 森勢 将雅 著
3.
発表計画 1.基礎知識 スライド発表はしない 2.音声のパラメータ表現 ①
第一回で説明 3.基本周波数の推定 ② 第二回で説明 4.スペクトル包絡の推定 ③ 第三回で説明 5.非周期性指標の推定 ④ 第四回で説明 6.高精度に計算するコツ ⑤ 第五回で説明 7.音声の加工技術 ⑥ ←今回説明 8.音声品質の主観評価方法 ⑦
4.
第6章 章立て 7.1 基本周波数の加工 7.2
スペクトル包絡の加工 7.3 発話時間の加工 7.4 複数パラメータを組み合わせた加工 7.5 音声モーフィング 7.6 音声合成への加工
5.
はじめに ◆音声の加工技術は簡単なものから難しいものまで存在 <例> [簡単] 声の高さ
[高度] 声質変換 この章での目的 パラメータを加工することで何が起きるか理解する
6.
7.1 基本周波数の加工
7.
7.1.1 基本的な加工 ◆メル尺度 …
音の高さに対する人間の知覚 ◇初歩的な処理 𝑓0 𝑛 = 𝛼𝑓0(𝑛) ◇特徴 ・声を低くする際に品質劣化しやすい →音声が低いとスペクトルの長波が多い
8.
◆抑揚 … 発話全体に対する基本周波数のパターン 基本周波数の高低差を大きい
→ 抑揚が強い ◇対数基本周波数の積(基本周波数のべき乗)で表す 𝑓0 𝑛 = 𝑓0 𝑓0(𝑛) 𝑓0 𝛼 𝑓0 = 𝑛=0 𝑁−1 𝑓0(𝑛) 1/𝑁 𝑁基本周波数軌跡の長さ(有声音のフレーム数) 7.1.2 抑揚の大きさの加工
9.
7.1.3 基本周波数を行うための軸変換 人間の知覚特性は対数軸上で等間隔(近似的) 実際にはメル軸上で等間隔 周波数軸とメル軸は非線形 ◆メル軸 𝑚𝑒𝑙 𝑓
= 1127.01048log( 𝑓 700 + 1)
10.
7.2スペクトル包絡の加工
11.
7.2.1 加工に関する基本的な考え方 スペクトルは多次元で情報量も多い →何を扱いたいか考える必要がある ・フォルマント(母音) ・スペクトル重心(声の明るさ) など
12.
7.2.2フィルタリングによる加工 もっとも簡単な加工 時間波形における畳み込み 適切な変換関数を設計し、スペクトル包絡に乗ずる 𝐻 𝑘 =
𝛼 𝑘 𝐻 𝑘 ・特定の周波数レンジを強調・減衰
13.
7.2.3 スペクトル包絡の伸縮による音色 の加工 ◇容易に実現可能 &
劣化が少ない 𝐻 𝛼𝑘 = 𝐻 𝑘 スペクトル包絡を𝛼倍 → 声道を1/𝛼倍
14.
7.3 発話時間の加工
15.
7.3 発話時間の加工 ◇発話時間の線形伸縮 扱う3つのパラメータをそれぞれ𝛼倍すればよい 注意点 単純な線形伸縮を行うと破裂音もα倍になる →破裂音が摩擦音化してしまう
16.
7.4 複数パラメータを組み合わせた加工
17.
7.4 複数パラメータを組み合わせた加工 目的に応じて効果的な加工法がある [性別の変換] ・基本周波数、スペクトルの操作 [有声音の無声化] ・有声区間を無声化する [音高錯覚] 音の高低の知覚の要因は 基本周波数や声道長
など 基本周波数は大きく声道長を短く→高音錯覚
18.
7.5 音声モーフィング
19.
◆音声モーフィング 同一テキストを話す2つの音声から中間的な印象の音声を作る ×波形を2つ足して2で割る →2つの音声が同時に鳴るだけ ◎パラメータを取り出してモーフィングのための手順をとる
20.
7.5.1 時間・周波数軸上のラベル付け ◇フォルマントが変化する時刻とフォルマントに相当する特 徴点を与える
21.
7.5.2 時間・周波数軸の非線形伸縮 ◇加工の目的 対応点が与えられたフォルマントを対応する周波数にシフトすること ◆区分線形補間による非線形伸縮 𝐻 𝛼(𝑘)
= 𝐻 𝑘 … 𝐻 𝑘 は対数包絡スペクトル
22.
7.5.3 伸縮された時間周波数表現におけ る加重平均 モーフィング率を𝛽、対応点のシフトスペクトルを𝐻𝑎 𝐻𝑏 𝐻
𝑘, 𝑛 = 1 − 𝛽 𝐻𝑎 𝑘, 𝑛 + 𝛽𝐻𝑏 𝑘, 𝑛 ◇音声モーフィングの品質 ・フォルマント周波数の近い音声同士だと周波数の伸縮量が 少ないため高い ・男女間だと劣化しやすい
23.
7.6 歌声合成への応用
24.
7.6.0 はじめに ◆代表的な歌声加工ソフト VOCALOID …
歌声の波形の生成 Auto-tune、Melodyne … 人間の音声を加工 ・話し声と歌声の違い ・加工する際の注意 に本章で触れる
25.
7.6.1 歌声の高さに関する単位 基本周波数 …
単位はHz 音楽分野で用いる単位 … cent(セント) 12平均律の半音を100cent 12平均律では1オクターブ12等分される →1200cent
26.
7.6.2 微細構造 人間は基本周波数を固定することは不可能 楽譜の通り正確に歌う場合も同様 →音階の高さに固定してしまうと不自然 →緩やかな変動成分を追加することで自然に
27.
7.6.3 ビブラート ビブラートは歌声の重要要素 また、個人性が強く出る ①ビブラート速度 ビブラート振幅 ②ビブラート速度の時間変化 ③ビブラート振幅の時間変化 ④ビブラートの長さ ⑤ビブラートが 振幅に与える影響
28.
7.6.4 歌唱フォルマント ◆話し声では現れない歌声特有のフォルマント ・男性のオペラ歌手などによくみられる ・おもに3000Hzで観測される 歌声らしさを増すためには、この歌唱フォルマントを足すこ とが効果的
Editor's Notes
log 𝑓 0 = 1 N 𝑛=0 𝑁−1 log( 𝑓 0 (𝑛))
Download now