Successfully reported this slideshow.

「転声こえうらない」を通したボイスチェンジャー品質改善のための定性分析と考察

0

Share

1 of 15
1 of 15

「転声こえうらない」を通したボイスチェンジャー品質改善のための定性分析と考察

0

Share

Download to read offline

「転声こえうらない」を通したボイスチェンジャー品質改善のための定性分析と考察

堀部貴紀(REALITY/明治大),白井暁彦(REALITY),森勢将雅(明治大),
日本音響学会2021年春季研究発表会
[Web] https://www.mtg.acoustics.jp/poster.html#2-2P-9
[Slides] https://vr.gree.net/wp-content/uploads/2021/04/ASJ2021S-Slides-20210311.pdf
[Details] https://vr.gree.net/lab/demo/voice/

「転声こえうらない」を通したボイスチェンジャー品質改善のための定性分析と考察

堀部貴紀(REALITY/明治大),白井暁彦(REALITY),森勢将雅(明治大),
日本音響学会2021年春季研究発表会
[Web] https://www.mtg.acoustics.jp/poster.html#2-2P-9
[Slides] https://vr.gree.net/wp-content/uploads/2021/04/ASJ2021S-Slides-20210311.pdf
[Details] https://vr.gree.net/lab/demo/voice/

More Related Content

More from GREE VR Studio Lab

「転声こえうらない」を通したボイスチェンジャー品質改善のための定性分析と考察

  1. 1. 「転声こえうらない」を通した ボイスチェンジャー品質改善のための 定性分析と考察 ☆堀部貴紀 (REALITY/明治大), △白井暁彦 (REALITY), 森勢将雅 (明治大)
  2. 2. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 ● ブラウザのみで利用できる 無料ボイスチェンジャーサービス ● WebAudio経由で保存した10秒間の音声を ボコーダーに渡してサーバ上で変換する ● 声のタイプに対応したプリセット (声の高さ:pitch, 声の特徴:formant) ● ユーザは同意に基づき実験に参加 「転声こえうらない」 https://vr.gree.net/lab/vc/ 2
  3. 3. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 背景:いつでもどこでも「なりたい自分」になれるvocoder ● 収録者のなりたい声のタイプを選ぶ(キャラクターの雰囲気で選びたい) ● 気軽に利用できる ● スマホで収録する 【満足できる品質には至らない例】 ● 収録者の声質の推定 [1] ● 収録時に混入する背景雑音 ● キャラクターとの印象 目的:収録時に混入する背景雑音のフィードバック なりたいスタイル 外の騒音 エアコン 部屋の環境や持ち方 3
  4. 4. ● Nisimura ら Operating A Public Spoken Guidance System In Real Environment[2] ○ 公共の場で長期運用されている音声案内システム ○ 子供, 大人,笑い,咳,その他に分類された学習データから 5クラスの混合ガウス分布モデル (Gaussian Mixture Model: GMM) を作成 ○ 無効入力の85%を検出 ● 藤田 ら 単語の頻度と音響の特徴を利用したSVMによる無効入力の棄却[3] ○ 音響特徴量に加え,音声認識による Bag-of-Words (BoW) を特徴量とした Support Vector Machine (SVM) による無効入力の棄却を検討 ○ GMMのみでの手法に比べ,分類誤り率を抑制することに成功 ⇒ ボイスチェンジャー目的の実環境で収録した音声品質を評価する事例は多くはない ○ [音声コマンドと異なり] 自由な発話が多く、有意なBoWを生成しづらい ○ [ユーザが満足できる品質] 混入したノイズを推定→ユーザに即時フィードバック ✓ [成功すれば] ユーザが体感できる形で品質を改善できる可能性 関連研究 4 [1] 堀部貴紀, 石原達馬, 白井暁彦, 森勢将雅,『転声こえうらない』利用者の基本周波数分析,   研究報告音楽情報科学(MUS), 2020-MUS-127(18), 1-6, 2020. [2]R. Nisimura et al., Operating A Public Spoken Guidance System In Real Environment   Interspeech’ 2005, pp. 845– 848, 2005. [3]藤田洋子 他, 単語の頻度と音響の特徴を利用したSVMによる無効入力の棄却,   情報処理学会研究報告. SLP, 音声言 語情報処理, 80, C1-C6, 2010.
  5. 5. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 まとめ:ボイスチェンジャーのための多様なノイズ分類と 高速化手法を大量のプレイヤーデータから獲得した 5 [手法1] 非線形・線形モデルのSVMによるノイズ分類 ● 非線形モデルのSVMがノイズ分類に有効 [手法2] 音声テキスト変換 (Speech-to-Text: STT)による評価 ● テキスト化された文字数の変化を客観的指標とする有効性 [手法3] 手法1と手法2を組み合わせる ● 手法1と手法2の処理時間を比較 ● リアルタイム声質変換に対する実時間フィードバックのための検討 ● Zoomなど快適なオンライン環境をフィードバックする手法 ● 利用者自身が収録環境をボイチェンに適したものに近づけられる
  6. 6. 手法1:音響信号的特徴量を学習させたSVMを 複数のモデルで構築 6 ● 音響信号的特徴量 (表1) ● Python3.7 ○ MFCC:Librosaライブラリ ○ SVM:Scikit-learnライブラリ ■ 計4種類のモデルを構築 (表2) ● 教師データセットに対する 誤分類率を使って自動化を試みる メル周波数ケプストラム係数 (MFCC) ΔMFCC 再生時間 信号対雑音比 13次元 13次元 最大10秒 表1:音響信号的特徴量 モデル 線形:LinearSVC() 非線形:SVC() 多クラス分類 One-vs-One (OvO) Linear-OvO NonLinear-OvO One-vs-Rest (OvR) Linear-OvR NonLinear-OvR 表2:手法1で用いたモデル
  7. 7. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 7 Unknown User (recording in 10 sec) Web based voice transform (WORLD) Excellent Teaching Data Set (Evaluator) Transformed Voice (with original) SVM-Based Classification 手法1
  8. 8. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 1. 変換後音声を聴く 2. 「内容を聞き取れない/音質の改善を要する」 と感じた場合は,変換前の音声を聴く 3. 主要な要因を推定し,ラベル付けする (2)において当てはまらないサンプル →「改善不要」 8 手法1:教師データセット構築 N=686件 割合(%) 改善不要 74.1 変換パラメータが極端 5.8 短すぎる発話・発話なし 5.5 周期性ノイズ 2.3 発話が途切れ途切れ 1.6 ボソボソ声 上記以外 波形なし (モデル学習では除外) 1.2 他者の会話 1.0 発話品質が低い 1.0 その他環境, 非周期性 0.9 空調などの音響 0.7 マイクに息が当たっている 0.6 屋外で収録 0.4 マイクなどに触れている 0.3 音楽 その他ノイズ テレビなどの音 人工的な処理 0.1 反響するような空間で収録 被験者による音声の分類結果
  9. 9. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 結果1:SVMによる誤分類率 9 Linear-OvO/Linear-OvR ● 改善必要なサンプルを「改善不要」と分類 ● [利点] 学習時間がともに0.15hと短い NonLinear-OvO/NonLinear-OvR ● 被験者と学習の分類が一致した ⇨ノイズ分類に1番有効な結果となった ● [欠点] 学習時間が12h, 23.5hと長い N=176件 OvO (%) OvR (%) Linear Non-Linear 96.0 0.6 93.8 0.6 表:SVMによる誤分類率 被験者により19種類のノイズ要因に分類されたサンプ ルのうち、被験者のラベル付けと異なる分類結果になっ たものの割合
  10. 10. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 手法2: 音声テキスト変換 (Speech-to-Text: STT)による評価 10 ● Googleが提供しているAPIを使用 Cloud Speech-to-Text:https://cloud.google.com/speech-to-text ● 評価項目:客観的「聞き取りやすさ」 ● 変換前後の変化を比較 ○ テキスト化された文字数 ○ 音声の各単語に割り当てられた 尤度を集計し、計算された信頼度 https://cloud.google.com/speech-to-text/docs/basics#confidence-values
  11. 11. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 結果2-1: 音声テキスト変換 (Speech-to-Text: STT)による評価 もと音声 声質変換後 「いつまで寝てるんだよ早く起きてよ」 信頼度 = 0.93 「サンタさんが早く来てよ」 信頼度 = 0.77 劣化 「十八歳はお酒もタバコもやらない人選挙は言われるんだぜ」 信頼度 = 0.91 「実際お酒もタバコもやらない総選挙」 信頼度 = 0.90 劣化 11 「ローソンお盆ですベルモンドバンデラスです」 信頼度 = 0.78 「ロサンゼルスモンドバンデラス」 信頼度 = 0.86 改善? 「認めたくないものだな自分自身の 若さ故の生意気な声というものは」 信頼度 = 0.88 文字変化無 信頼度低下 「認めたくないものだな自分自身の 若さ故の生意気な声というものは」 信頼度=0.93 (ユーザーの自由な発話につき不明) (ユーザーの自由な発話につき不明) お題から 「18歳はお酒もタバコもやれないけれど…選挙は…やれるんだぜ!」 お題から 「認めたくないものだな、自分自身の、若さゆえ生意気な声というものは…」
  12. 12. 12 結果2-2: 音声テキスト変換 (Speech-to-Text: STT)による評価 ● 文字数や信頼度の減少 ⇨変換過程でのノイズ増大による品質低下 影響するノイズが混入している可能性があると、 分類するフィルタへの応用 ● 文字数の増加 ⇨変換過程でのノイズの変化がSTTに影響しない 【今後】 ● STTに影響するノイズの特定 ⇨STT単独での品質に影響する要因の フィードバックができる可能性 (注1) 判定不能:APIによりSTTが実行されなかった音声サンプル (注2) 信頼度は小数点以下2桁までで比較
  13. 13. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 手法3:手法1と手法2を組み合わせる 13 音声収録 ノイズ分類 (NonLinear-OvO) (変換前音声に対して) 音声テキスト変換 (変換後音声に対して) 音声テキスト変換 声質変換処理 平均処理時間:1.68s 平均処理時間:1.61s 文字数変化の比較 音声収録 ノイズ分類 (NonLinear-OvO) (変換前音声に対して) 音声テキスト変換 (変換後音声に対して) 音声テキスト変換 声質変換処理 平均処理時間:1.61s 文字数変化の比較 平均処理時間:1.68s 判定処理 ・並列化可能 ・マイクロサービス化してAPI Google Speech-To-Text API Python: Scikit-learn ※いずれのフィルタで検知した場合も 品質が低く変換する必要はない ユーザに情報表示 Google Speech-To-Text API Python: Scikit-learn 合計 4.97sec
  14. 14. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 結果3:手法1と手法2を組み合わせる 14 音声収録 ノイズ分類 (NonLinear-OvO) (変換前音声に対して) 音声テキスト変換 (変換後音声に対して) 音声テキスト変換 声質変換処理 平均処理時間:1.68s 平均処理時間:1.61s 文字数変化の比較 音声収録 ノイズ分類 (NonLinear-OvO) (変換前音声に対して) 音声テキスト変換 (変換後音声に対して) 音声テキスト変換 声質変換処理 平均処理時間:1.61s 文字数変化の比較 平均処理時間:1.68s 判定処理 ・並列化可能 ・マイクロサービス化してAPI Google Speech-To-Text API Python: Scikit-learn ※いずれのフィルタで検知した場合も 品質が低く変換する必要はない ユーザに情報表示 Google Speech-To-Text API Python: Scikit-learn 合計 4.97sec 1.61s で判定, 即時にユーザに フィードバックを返す機能を加えて 最長 3.29sec で処理可能
  15. 15. 「『転声こえうらない』を通したボイスチェンジャー品質改善のための定性分析と考察」音響学会2021春 Web公開版 発表まとめ: 「転声こえうらない」を通したボイスチェンジャー 品質改善のための定性分析と考察 15 [手法1] 非線形・線形モデルのSVMによるノイズ分類 → 非線形モデルのSVMがノイズ分類に有効(学習時間、クラス数を絞るためにも) [手法2] 音声テキスト変換 (Speech-to-Text: STT)による評価 → テキスト化された文字数の変化を客観的指標とする(シンプル、実装が平易、学習不要) [手法3] 手法1と手法2を組み合わせる → 1.61s で判定, 即時にユーザにフィードバックを返しつつ、最長 3.29sec で処理可能 【その他】 ● ビデオ会議への応用(本人が気づき辛い Web会議での快適な音声品質への貢献) ● 抑揚や感情などを加えたモデルへの応用

×