Successfully reported this slideshow.

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法

2

Share

1 of 44
1 of 44

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法

2

Share

Download to read offline

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 (SLP研究会2021/03)

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法 (SLP研究会2021/03)

More Related Content

More from Shinnosuke Takamichi

Related Books

Free with a 14 day trial from Scribd

See all

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法

  1. 1. リアルタイムDNN音声変換 フィードバックによる キャラクタ性の獲得手法 倉田 将希,高道 慎之介,佐伯 高明,荒川 陸, 齋藤 佑樹,樋口 啓太,猿渡 洋 (東京大学) SLP研究会 2021.3.4
  2. 2. 目次 2021/3/4 2 はじめに ➢ 研究の背景 ➢ 研究の概要 ➢ パラ言語情報と個人性 ➢ リアルタイムDNN音声変換 ➢ リアルタイムDNN音声変換の問題点 ➢ リアルタイム音声変換フィードバック ➢ 外音制御 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 ➢ まとめと考察 SLP研究会 /23
  3. 3. 2021/3/4 3 研究の背景① 音声コミュニケーション ◆人間にとってコミュニケーションは必要不可欠 ◆テキスト,音声,身振り手振り,表情,・・・ ◆音声コミュニケーションで伝達される情報は3種類 キャラクタ性の要 身体的制約 ◆身体的制約を超えたコミュニケーションの実現に向けて ◆計算機を用いた音声変換の研究も盛んに 言語情報 パラ言語情報 非言語情報 テキスト化 〇 × × 話し手の意図 - 意図的 無関係 例 単語,疑問文 抑揚,強勢 身体に起因する情報 [Fukuoka17] [Ladd+85] [Stylianou+98] SLP研究会 /23
  4. 4. 2021/3/4 4 研究の背景② 音声変換 ◆音声変換:非言語情報を変換する技術の総称 ◆言語情報は発話者のものを保持 ◆抑揚や強勢は定量化が困難なため変換が困難 ⇒ 音声(話者)変換では発話者のパラ言語情報が直接的に反映 ⇒ 特徴的なパラ言語情報を持つ目標話者に音声変換するとき 目標話者のキャラクタ性の再現度は非常に低い 言語情報 パラ言語情報 非言語情報 例 単語,疑問文 抑揚,強勢 身体に起因する情報 音声変換時 保持 変換困難 高精度に変換 ・スペクトル特徴量(音色) ・基本周波数(音高) ・非周期性指標(かすれ) など SLP研究会 /23
  5. 5. 2021/3/4 5 研究の概要 問題:音声変換ではパラ言語情報の変換が困難 (キャラクタ性が再現されない) ⇒ 変換音声に所望の目標話者のキャラクタ性を付与するような 発話変容を発話者自身にさせるような手法の確立をしたい 提案法:音声変換による出力音声を発話者にリアルタイムに フィードバックし発話変容させる 一人称視点(ユーザ視点)と三人称視点の評価実験: ✓ 特に演技経験のないユーザに対して目標話者の再現度を向上させた ✓ 音高を変換してフィードバックするだけでも十分な効果があった SLP研究会 /23
  6. 6. 目次 2021/3/4 6 ➢ 研究の背景 ➢ 研究の概要 背景知識と問題意識 ➢ パラ言語情報と個人性 ➢ リアルタイムDNN音声変換 ➢ リアルタイムDNN音声変換の問題点 ➢ リアルタイム音声変換フィードバック ➢ 外音制御 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 ➢ まとめと考察 SLP研究会 /23
  7. 7. 2021/3/4 7 パラ言語情報に含まれる個人性 ◆パラ言語情報は,発話者が意図的に付与 = キャラクタ性の要 ◆特に,基本周波数𝐹0のレンジや継続時間,パタンの影響が大きい ◆𝐹0が高く長く発話された音声ほどメッセージ性が強いと知覚された ◆音声の高さ,長さ,速度,強調順位に関する知覚の研究 ◆𝐹0のパタンによって聞き手が受けるプロフェッショナルさが異なる ◆アマチュアとプロのニュースキャスターの音声比較の研究 ◆典型的なDNN(Deep Neural Network) に基づく音声変換では,𝐹0の 変換規則は単純(線形変換など) ◆発話者のパラ言語情報が直接的に反映 ⇒ 単純な音声変換においてもパラ言語情報を操作したい [Ozuru+20] [Fukuoka17] SLP研究会 /23
  8. 8. 2021/3/4 8 リアルタイムDNN音声変換 以下の各処理を再帰的に低遅延に行うことで実現 ◆解析部 : 入力音声波形から特徴量を抽出 ◆変換部 : 入力話者から目標話者へ特徴量変換 ◆波形合成部 : 変換後の特徴量から音声波形を合成 ◆パラ言語情報の変換規則は単純 log 𝐹0 power メルケプストラム log 𝐹0 power 非周期性指標 メルケプストラム 線形 DNN 入力話者特徴量 目標話者特徴量 [Arakawa+19] アルゴリズム遅延 ≃50 ms SLP研究会 /23
  9. 9. 2021/3/4 9 リアルタイムDNN音声変換の問題点 ◆リアルタイム性とモデルの複雑性はトレードオフ ⇒ 変換音声に目標話者のキャラクタ性が含まれるように, 発話者自身に発話(抑揚・強勢)を変容させる枠組みを作る ◆ことばの鎖(Speech chain) の欠落 ◆自ら聴取した発話音声に基づいて音声を生成する一連の処理のこと ◆リアルタイム音声変換の分野は第三者視点での品質評価が主流で 聴覚フィードバックや相互作用は考慮されてこなかった 言語情報 パラ言語情報 非言語情報 DNNに基づく 話者変換 保持 変換困難 高精度に変換可能 [Denes+93] リアルタイムではより困難 SLP研究会 /23
  10. 10. 目次 2021/3/4 10 ➢ 研究の背景 ➢ 研究の概要 ➢ パラ言語情報と個人性 ➢ リアルタイムDNN音声変換 ➢ リアルタイムDNN音声変換の問題点 提案手法 ➢ リアルタイム音声変換フィードバック ➢ 外音制御 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 ➢ まとめと考察 SLP研究会 /23
  11. 11. ◆音声変換を要素に含む Speech chain を構成する ◆自己聴取音(自分で聴く自分の声)のうち空気伝導音を抑圧 フィードバックまでの時間的ズレによる吃音症状を抑制 2021/3/4 11 提案法:発話変容を促すフィードバックシステム おじいさんは 山へ芝刈り・・・ 音声入力 密閉型ヘッドホン + アクティブノイズ キャンセレーション機能 おじいさんは 山へ芝刈り・・・ リアルタイム フィードバック (新規性) ユーザ リアルタイムDNN音声変換 目標話者 [Arakawa+19] 空気伝導音抑圧 変換処理の 時間的ズレ SLP研究会 /23 聴取&生成
  12. 12. 目次 2021/3/4 12 ➢ 研究の背景 ➢ 研究の概要 ➢ パラ言語情報と個人性 ➢ リアルタイムDNN音声変換 ➢ リアルタイムDNN音声変換の問題点 ➢ リアルタイム音声変換フィードバック ➢ 外音制御 実験的評価 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 ➢ まとめと考察 SLP研究会 /23
  13. 13. 2021/3/4 13 一人称評価実験 条件 ◆一人称主観評価実験(ユーザ視点) タスク : 4つのフィードバック条件でアニメキャラクタを模倣して発話 主観評価項目 : 各フィードバック条件で以下の6項目を5段階評価 • ①没入感②似せられた度合③遅延④音質⑤有用性⑥今後も使いたいか 被験者 : ユーザ14名(男性8,女性6 / 演技経験者5,未経験者9) フィードバック遅延 : 190 ms(オーディオ入出力 140 ms + 変換 50 ms) 男性日本語母語 キャラクタ1名 FBありの 2手法のみ SLP研究会 /23 no FB (conventional) chara FF (reference) 実際音声 chara FB (proposed) non-chara FB (control) 音声変換 音声変換 ↑FBありの2手法(音高は同程度)↑
  14. 14. 2021/3/4 SLP研究会 14 一人称実験 実験全体手順 DNN学習用音声収録 ◆ ATR音素バランス 95文 DNN学習 ◆ 変換FBのある2条件用 一人称評価実験 ◆ 40文読み上げ:ランダム順 ◆ アニメから引用したセリフ20文・・・① ◆ ATR音素バランス20文・・・② ◆ 4フィードバック条件:ランダム順 ◆ 10文(①5文+②5文)×4条件 ◆ 6項目評価:フィードバック条件ごと 三人称評価実験 被験者(ユーザ)ごとに DNN変換モデルを学習. non-chara FB条件とchara FB条件用 /23
  15. 15. 2021/3/4 15 一人称実験 事前アンケート結果 ◆事前に被験者14名の目標キャラクタへの親密度を測定した ◆キャラクタを模倣する前に参考映像を鑑賞させた(5分程度) ◆目標キャラクタの登場するアニメ + DNN学習用音声データ ◆7割以上の被験者が,キャラクタを模倣するにあたり,参考映像が 「役に立った / とても役に立った」と回答した アニメを観た経験回数 (主観) キャラクタに関する知識 (主観) キャラクタに関する知識 (客観) [人] 主観的な キャラクタ親密度は ばらつくが, 客観的には 一定以上の 親密度のある集団 ☝ 公式サイトをもとに作成した 項目について知っていた度合を 3ランクに分けた SLP研究会 /23
  16. 16. 2021/3/4 16 一人称実験 6項目のANOVA検定結果 ◆統計的 ANOVA 検定の結果(𝑝値,有意確率𝑝 = 0.05) 演技経験 交互作用 フィードバック条件 没入感 似せられた度合 FB遅延 FB音質 FBの有用性 今後も使いたいか FBありの 2手法*のみ *non-chara FB & chara FB 目標キャラクタのFBが 有効である可能性を 示唆 (有意水準に近い) 評価項目 影響あり (有意差あり) ↑FBあり2手法(音高は同程度)↑ SLP研究会 /23
  17. 17. 2021/3/4 17 一人称実験 B/H FDR correctionの検定結果 ◆有意な影響が見られた要因内でさらに検定(有意確率 𝑝 = 0.05) 演技経験 交互作用 フィードバック条件 評価項目 影響あり (有意差あり) 没入感 似せられた度合 演技未経験者の 没入感が高い no FB (conventional) chara FF (reference) chara FB (proposed) non-chara FB (control) フィードバック条件間での有意差検定 Similarity Immersion no FB – non-chara FB no FB – chara FB no FB – chara FF non-chara FB – chara FB non-chara FB – chara FF chara FB – chara FF 没入感 似せられた度合 目標キャラクタの 実発話音声を聴取 した条件と,その他 条件の間のみ有意差 従来法に比べて, 提案手法の方が, 似せられた度合が 高くなる“傾向”は 見られた (有意水準に近い) SLP研究会 /23 FB遅延を改善 すれば向上?
  18. 18. 2021/3/4 18 一人称実験 自由記述アンケート ◆演技経験者 ◆模倣しようとすればするほど,自分のイメージに没入するように なるため,音声アシストが耳に入りづらくなった. ◆演技未経験者 ◆no FBは素の自分の声を聴いてしまい役に入り込めなたっかが, フィードバックありの手法は自分でない声が聴けるため, 没入しやすかった. ◆間の取り方を調整することで,変換音声を目標キャラクタに近づ けられたように思う. ➢演技未経験者の方が音声FBを積極的に活用する傾向にある? ➢没入感評価が演技未経験者で高くなった(𝑝 = 0.044)結果にも影響? SLP研究会 /23 変換音声に関する肯定的な意見多数
  19. 19. 2021/3/4 19 三人称評価実験 条件 ◆三人称主観評価実験(第三者視点) タスク : 被験者の発話音声を目標キャラクタに変換した音声を評価 主観評価項目 : 2項目を別々にAB/XAB評価 対比較 : フィードバック条件(評価数44),性別,演技経験(評価数66) 評価者 : 11名 自然性 人間らしさ,自然さ キャラクタ性の再現度 目標キャラクタのキャラクタ性の再現度合 AB XAB A B いずれかが異なる音声を対提示 *chara FF(reference)は除いた SLP研究会 /23
  20. 20. 2021/3/4 20 三人称実験 フィードバック条件対 ◆フィードバック条件対で選択された平均と95%信頼区間 発話者の性別に表示 自然性 キャラクタ性の再現度 自然性 キャラクタ性の再現度 男性話者 女性話者 自然性は従来法 で最も高い 男性話者は 提案手法が高評価 FB遅延による 吃音症状が 影響したか? 自然性は従来法 で最も高い 発話者の性別で 傾向が異なる 女性話者は 提案手法が低評価 SLP研究会 /23
  21. 21. 2021/3/4 21 三人称実験 性別対・演技経験対 ◆性別対・演技経験対で選択された平均と95%信頼区間 no FB non-chara FB 自然性 キャラクタ性の再現度 chara FB no FB non-chara FB chara FB 自然性 キャラクタ性の再現度 キャラクタ性再現度は 男性話者が高い FBのある条件では演技未経験者の キャラクタ性再現度が高い. 一方で自然性は低い. 目標キャラクタとの 性別の一致が影響? 演技未経験者の方が 積極的にFBを活用? SLP研究会 /23
  22. 22. 目次 2021/3/4 22 ➢ 研究の背景 ➢ 研究の概要 ➢ リアルタイム音声変換フィードバック ➢ 外音制御 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 結論 ➢ まとめと考察 ➢ パラ言語情報と個人性 ➢ リアルタイムDNN音声変換 ➢ リアルタイムDNN音声変換の問題点 SLP研究会 /23
  23. 23. 2021/3/4 23 まとめと考察 ◆目的 : 変換音声に所望のキャラクタ性を付与するよう発話変容をさせたい ◆提案法 : リアルタイムDNN音声変換フィードバックによる発話変容 ◆提案法の効果 : 一人称 : キャラクタ性の再現度を向上させる傾向が見られた 三人称 : 演技未経験者でキャラクタ性再現度が有意に向上した ただし,自然性はフィードバックなしの場合(従来法)と比べて低下 音高を近づけるだけでも十分なフィードバック効果があった ◆展望(仮説): • オーディオ入出力遅延による人工的吃音 の改善 • 演技経験者は音声アシストを活用しない傾向にあるのか • 男性被験者にも有用な傾向があったのは目標話者と性別が一致するためか • 𝐹0(音高)を目標話者に近づけるだけで十分な効果があることは確かか [Lee50, Lincoln+06] SLP研究会 /23
  24. 24. 付録 Appendix 2021/3/4 24 ➢ 一人称(ユーザ視点)評価 ➢ 三人称(第三者視点)評価 ➢ 音声の生成過程と音声特徴量 ➢ アニメーションにおけるパラ言語情報 ➢ 聴覚フィードバックと吃音 ➢ Speech chain SLP研究会 /23
  25. 25. 2021/3/4 25 音声の生成過程と音声特徴量 ◆スペクトル包絡 : 音色 ⇒ 口や舌の形により付与 ◆基本周波数(𝐹0) : 音高 ⇒ 声帯の振動によって生成 ◆非周期性指標 : かすれ具合 ◆メルケプストラム : 人間の聴覚特性を考慮したスペクトル特徴量 ⇒ これら特徴量を分離・抽出して,学習や変換が行われる [Takamichi19] 畳み込み = 音声 SLP研究会 /23
  26. 26. 音声特徴量の詳細 ◆メルケプストラム : 聴覚特性を考慮したスペクトル特徴量 ◆低周波数領域では細かい分解能,高周波数領域で粗い分解能 ◆周波数をメル周波数に変換してから計算するケプストラム ◆ケプストラム : 対数パワースペクトルを時間波形と見なしてDFT ◆非周期性指標 : かすれ具合 ◆スペクトル包絡の各周波数パワーでの非周期的な雑音成分の割合 ◆非周期性指標が大きいほどかすれた声になる ◆有声音と無声音 : 発音する際に,声帯が振動するかしないか ◆有声音 : 声帯が振動して発音.基本周波数𝐹0が存在 ◆無声音 : 声帯は振動しない.基本周波数𝐹0が存在しない 2021/3/4 26 SLP研究会 /23
  27. 27. アニメーションにおけるパラ言語情報 ◆アニメキャラクタのキャラクタ性の知覚における特有の形態 1. 「声の代行者」としての話者が 2. 「独自の想像力に基づき表現」した音声が 3. 「キャラクタの音声」として第三者に受け入れられる ◆キャラクタの世界の“現実”を,発話者の自己に内在化する ことで「内面から発生した欲動」として表現させた実践もある ◆体現的(embodied)パフォーマンス の考え方に基づく ◆個人性と深み,内面的複雑さのある表現形態 ◆提案システムは変換音声をフィードバックすることで 目標キャラクタを発話者に内在化させ独創的に表現させること を目指す [Morikawa+02] [Naito15] [Crafton13] [Suan17] 2021/3/4 27 SLP研究会 /23
  28. 28. 聴覚フィードバックと吃音 ◆AAF : 変容聴覚フィードバック(Altered Auditory Feedback) ◆入力音声と僅かに異なる音声に変換してフィードバックする ◆DAF(Delayed Auditory Feedback) : 遅延聴覚フィードバック ◆FAF(Frequency Altered Feedback) : 変調聴覚フィードバック ◆吃音患者に対しては吃音を抑制させる効果がある ◆50 ms の遅延 ,1/4 octave変調 が 必要最低変化量 ◆非吃音患者には,逆に吃音症状を誘発してしまう ◆本研究の評価実験は190 msの遅延 ◆FB条件下で吃音症状が生じ,音声の自然性が低下してしまった [Lincoln+06] [Kalinowski+96] [Stuart+96] [Lee50] 2021/3/4 28 SLP研究会 /23
  29. 29. ことばの鎖 Speech chain ◆ことばの鎖(Speech chain) ◆音声の聴取(聴覚系)と音声の生成(生成系)の相互作用 ◆音声コミュニケーションにおける一連の音声処理 ◆音声変換の分野では,第三者による品質評価が主流で, ユーザ視点の聴取と生成の相互作用は考慮されてこなかった 相手の音声 耳 脳 口 自分の音声 聴取 生成 2021/3/4 29 SLP研究会 /23
  30. 30. リアルタイムDNN音声変換 [Arakawa+19] フレーム長25 ms ずらし幅5 ms DNNの学習時に 人工的にデータを水増し (データ拡張)することで 品質を向上している 2021/3/4 30 SLP研究会 /23
  31. 31. 自己表現拡張のためのメディア処理 ◆Body ownership illusion ◆見た目の変化に伴って,行動が変容するという錯覚 ◆VRの分野でも研究が盛ん ◆ユーザとアバタに同期した多感覚刺激を与えると身体所有感が生まれた ◆自己の身体の代替となるアバタの外見に即して,ユーザの態度や振る舞 い,自身への印象も変容した(プロテウス効果) ◆見た目の変化が一人称視点での心理的効果を誘発する ◆本研究は Speech ownership illusion を目的にしているといえる ◆自己聴取音を制御することで, 身体制約を超えた音声表現を獲得させる ◆一人称視点での心理的効果を誘発するか [Oyanagi+17] [Yee+07] 2021/3/4 31 [Tabitha+13] SLP研究会 /23
  32. 32. 一人称実験 被験者14名の詳細 ◆性別・演技経験の各指標が一定数含まれるよう配慮 ◆演技経験は被験者の申告により得た ◆演技経験者5名の演技経験年数 : 半年,1年半,8年,9年,16年 ◆音声変換器の使用経験や音声分野の研究に対しては素人 2021/3/4 32 SLP研究会 /23
  33. 33. 一人称実験 DNN学習用音声 ◆被験者14名と目標キャラクタの95文パラレル音声データを収録 ◆ATR音素バランスセット(A01-B45) ◆1文ごとに参考音源を聴取させ,音高はこれに合わせるよう指示 ◆目標キャラクタとは異なる参照話者の読み上げ音声 ◆𝐹0レンジは目標キャラクタとほぼ一致 ◆予備実験での結果に基づいている ◆目標キャラクタの実際音声は聴取させない ◆目標キャラクタの発話を記憶する学習効果を避ける 参考音源 参考音源話者 目標キャラクタ 𝐹0平均 221.818 Hz 215.252 Hz 𝐹0分散 4748.48 4300.12 2021/3/4 33 SLP研究会 /23
  34. 34. 2021/3/4 34 一人称評価実験 条件(一部再掲) ◆キャラクタを模倣する前に参考映像を鑑賞させた(5分程度) ◆目標キャラクタの登場するアニメ + DNN学習用音声データ ◆模倣するセリフは全40文 ◆実際のアニメから引用した高模倣親密度セリフ : 20文 ◆ATR音素バランスセットの低模倣親密度セリフ : 20文 ◆4つのフィードバック条件で10文ずつランダムに読み上げさせた ◆事前に被験者の目標キャラクタへの親密度を測定した アニメを観た経験回数 (主観) キャラクタに関する知識 (主観) キャラクタに関する知識 (客観) [人] 主観的な キャラクタ親密度は ばらつくが, 客観的には 一定以上の 親密度のある集団 SLP研究会 /23
  35. 35. 一人称実験 参考映像の有用性の評価 ◆7割以上の被験者が「役に立った/とても役に立った」と回答 2021/3/4 35 SLP研究会 /23
  36. 36. 一人称実験 セリフ原稿と模倣しやすさ ◆実際のアニメから引用されたセリフほど模倣しやすさが高い ◆目標キャラクタに特に似せられたと思うセリフ(獲得票数) ◆特に,アニメに登場するキャラクタ名の含まれたセリフは, 獲得票数が多くなる傾向にあった ◆特定の母音に対して,模倣親密度が高いと答えた被験者もいた FB条件 実際のセリフ ATR音素バランス chara FF 以外 71 15 chara FF 31 12 模倣親密度が高い 模倣親密度が低い 2021/3/4 36 SLP研究会 /23
  37. 37. 一人称実験 統計的検定手法 ◆ANOVA検定 ◆演技経験,フィードバック条件,交互作用が評価に影響するのか ◆有意水準5%(𝑝 = 0.05)で検定 ◆混合計画を用いた ◆Benjamini / Hochberg FDR correction ◆ANOVA 検定において有意な影響がある,と判断された要因の中の どの要素の組み合わせにおいて有意差があるのかの多重検定法 ◆第一種の過誤の割合の期待値(FDR)を制御し𝑝値を補正 ◆第一種の過誤 : 有意差がないのに有意差がある,としてしまう誤り ◆有意差が検出されやすい ◆本発表及び原稿中では補正後の𝑝値で統計的に検定した 2021/3/4 37 SLP研究会 /23
  38. 38. 一人称実験 没入感と演技経験 ◆いずれのFB条件でも演技未経験者による没入感評価が高い Better 2021/3/4 38 SLP研究会 /23
  39. 39. 一人称実験 似せられた度合 ◆検定結果も考慮すると,提案手法(chara FB)は,従来法(no FB) よりも,似せられた度合に対する評価が高い「傾向」にある AVE = 2.14 AVE = 3.00 2021/3/4 39 SLP研究会 /23
  40. 40. 一人称実験 実験風景 2021/3/4 40 SLP研究会 /23
  41. 41. 三人称実験 その他の条件 ◆自然性評価(AB),キャラクタ性の再現度評価(XAB)の留意点 ◆それぞれ全24問を対提示 ◆フィードバック,性別,演技経験のいずれかを対にした ◆ABを聴く順番や回数に制限はなし ◆XABの見本音声Xは一人称実験の参考映像を再編集し使用 ◆視聴する回数に制限は設けなかったが評価開始後の再生は禁止 A B A/Bのテキスト A/Bの音声 異なる条件(A/B) 同一条件 12問 12問 2021/3/4 41 SLP研究会 /23
  42. 42. 2021/3/4 SLP研究会 42 三人称実験 音声変換アルゴリズム ◆一人称実験で用いたリアルタイムの変換アルゴリズムとは 異なるアルゴリズム を使用 ◆von Mises分布DNNを導入 ◆位相のような周期変数の確率密度関数(von Mises 分布)を 条件つき分布として有する深層生成モデル ◆モデルパラメータは最尤推定で学習 ⇒ 振幅スペクトログラムからの位相復元に適用 ◆リアルタイムDNN音声変換に比較して,高品質な音声変換を実現 [Takamichi+18] SLP研究会 /23
  43. 43. 三人称実験 評価者のキャラクタ親密度 ◆アニメの視聴経験と目標キャラクタの音声に対するイメージ 目標キャラクタ 2021/3/4 43 SLP研究会 /23
  44. 44. 三人称実験 一貫した傾向がない項目の要因 ◆高模倣親密度セリフの偏り ⇒ × ◆一人称実験の被験者が,特に似せやすいセリフとして選んだ 上位5つのセリフの偏りを調査 ◆偏りはなく,すべての対提示において同等に分布していた ◆音声(セリフ)の長さの違い ◆ポーズ位置の回数の差で比較 ◆一定の傾向はみてとれる ◆ポーズ位置の回数と,音声の 長さが比例関係にあるわけで はなく,明確には判断できない 2021/3/4 44 SLP研究会 /23

×