Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

897 views

Published on

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

Published in: Technology
  • I'd advise you to use this service: ⇒ www.HelpWriting.net ⇐ The price of your order will depend on the deadline and type of paper (e.g. bachelor, undergraduate etc). The more time you have before the deadline - the less price of the order you will have. Thus, this service offers high-quality essays at the optimal price.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Get the best essay, research papers or dissertations. from ⇒ www.WritePaper.info ⇐ A team of professional authors with huge experience will give u a result that will overcome your expectations.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (2019 Update) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download Full EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download Full doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download PDF EBOOK here { https://soo.gd/irt2 } ......................................................................................................................... Download EPUB Ebook here { https://soo.gd/irt2 } ......................................................................................................................... Download doc Ebook here { https://soo.gd/irt2 } ......................................................................................................................... ......................................................................................................................... ................................................................................................................................... eBook is an electronic version of a traditional print book THIS can be read by using a personal computer or by using an eBook reader. (An eBook reader can be a software application for use on a computer such as Microsoft's free Reader application, or a book-sized computer THIS is used solely as a reading device such as Nuvomedia's Rocket eBook.) Users can purchase an eBook on diskette or CD, but the most popular method of getting an eBook is to purchase a downloadable file of the eBook (or other reading material) from a Web site (such as Barnes and Noble) to be read from the user's computer or reading device. Generally, an eBook can be downloaded in five minutes or less ......................................................................................................................... .............. Browse by Genre Available eBooks .............................................................................................................................. Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, ......................................................................................................................... ......................................................................................................................... .....BEST SELLER FOR EBOOK RECOMMEND............................................................. ......................................................................................................................... Blowout: Corrupted Democracy, Rogue State Russia, and the Richest, Most Destructive Industry on Earth,-- The Ride of a Lifetime: Lessons Learned from 15 Years as CEO of the Walt Disney Company,-- Call Sign Chaos: Learning to Lead,-- StrengthsFinder 2.0,-- Stillness Is the Key,-- She Said: Breaking the Sexual Harassment Story THIS Helped Ignite a Movement,-- Atomic Habits: An Easy & Proven Way to Build Good Habits & Break Bad Ones,-- Everything Is Figureoutable,-- What It Takes: Lessons in the Pursuit of Excellence,-- Rich Dad Poor Dad: What the Rich Teach Their Kids About Money THIS the Poor and Middle Class Do Not!,-- The Total Money Makeover: Classic Edition: A Proven Plan for Financial Fitness,-- Shut Up and Listen!: Hard Business Truths THIS Will Help You Succeed, ......................................................................................................................... .........................................................................................................................
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

日本音響学会2017秋 ”Moment-matching networkに基づく一期一会音声合成における発話間変動の評価”

  1. 1. Moment-matching networkに基づく 一期一会音声合成における発話間変動の評価 ○高道 慎之介†1,郡山 知樹†2,齋藤 佑樹†1,猿渡 洋†1 日本音響学会 2017年 秋季研究発表会 1-8-9 (†1:東大院・情報理工,†2:東工大)
  2. 2. /12 概要  発話間変動 – 同一コンテキストに対する音声の変動  一期一会音声合成 [Takamichi et al., INTERSPEECH2017.] – Moment-matching networkに基づく音響モデリング – 音質を劣化させずに,音声パラメータをランダム生成可能  本報告:一期一会音声合成の発話間変動を定量的に評価 – 繰り返し発話された自然音声と比較 2 “Hello” “Hello”
  3. 3. /12 通常のDNN音声合成 (Mean squared errorの最小化) 3 Mean squared error Linguistic feats. Static-delta mean vectors ⋯ ⋯ ⋯ ⋯ time 𝑡 = 1 ⋯ ⋯ ⋯ ⋯ ⋯ time 𝑡 = 𝑇 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ [Wu et al., 2016.] 𝒚𝒚 𝒙 条件付き分布𝑃 𝒚|𝒙 として正規分布を仮定した最尤推定
  4. 4. /12 一期一会音声合成 (条件付きMMDの最小化) 4 Conditional MMD Linguistic feats. 𝒚 Static-delta mean vectors 𝒚 ⋯ Generated speech params. Natural speech params. Parameter generation ⋯ 𝑁 𝟎, 𝑰 Frame-wise noise generator time 𝑡 = 1 time 𝑡 = 𝑇 𝒙 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ モーメントマッチングによる経験分布表現に基づくサンプリング
  5. 5. /12 MMD (Maximum Mean Discrepancy) 5  2つのデータセットの統計量の不一致指標   Moment-matching network [Li et al., 2015.] – MMDを最小化するように、ノイズ入力のDNNを学習 𝑁 𝟎, 𝑰 𝒚 𝒚 MMD = Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 + Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝟏 ⋅ 𝑲 𝒚,𝒚 𝒚, 𝒚 のグラム行列 𝒚, 𝒚 𝒚, 𝒚 ⋯ ⋯ ⋯ ⋯
  6. 6. /12 条件付きMMD (CMMD: Conditional MMD)  条件付き分布の統計量の不一致を計算 [Ren et al., 2016.]  Conditional moment-matching network [Ren et al., 2016.] – CMMDを最小化するように、 𝒙 &ノイズを入力とするDNNを学習 6 𝒙, 𝒙 のグラム行列の逆行列を含む行列 𝑁 𝟎, 𝑰 𝒚 𝒙 ⋯ ⋯ ⋯ ⋯ 𝒚 CMMD = Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 + Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 − 2Tr 𝑳 𝒙 ⋅ 𝑲 𝒚,𝒚 𝒙
  7. 7. /12 前回までの報告と今回の報告  前回までの報告:音質評価 – 1. 通常のDNN音声合成より,一期一会音声合成は高品質 – 2. スペクトルのランダム生成は,最尤生成と同程度の音質  今回の報告 – そのランダム性 (発話間変動) を定量評価 – 繰り返し音声を新たに収録 7
  8. 8. 実験的評価 8
  9. 9. /12 実験条件 9 項目 値・設定 学習データ 女性1名,日本語4000文 評価データ ATR音素バランスJセット53文 (後述) 入力特徴量 442次元コンテキスト 出力特徴量 40次元メルケプストラム,連続対数F0,有声/無声 ラベル,5帯域非周期性指標 入力ノイズ 5次元/フレーム.正規分布からランダム生成 ネットワーク構造 Feed-Forward グラム行列の カーネル ガウスカーネル (予備実験で線形カーネル・多項式 カーネルも使用したが,大きな変化はなし)
  10. 10. /12 発話間変動の評価法  評価用データセットの作成 – 自然音声:評価データ (Jセット53文) を5回ずつ繰り返し収録 – 合成音声:各文に対して100回ランダム生成  評価対象手法 – 動的特徴量を考慮したパラメータ生成 [Tokuda et al., 2000.] あり/なし • なしの場合は,静的特徴量を直接推定 – スペクトル,連続対数F0,有声/無声ラベル,音素継続長生成  評価法 – 自然音声同士,合成音声同士で発話間変動を計算 • スペクトル:メルケプストラム歪み • 連続対数F0・継続長:二乗誤差 • 有声/無声ラベル:誤りフレーム数 10
  11. 11. /12 評価結果 11 パラメータ パラメータ生成 発話間変動 自然音声の発話 間変動との比 スペクトル あり 0.095 1.6 [%] なし 0.202 3.4 [%] 連続対数F0 あり 0.60e-5 0.014 [%] なし 1.85e-5 0.042 [%] 有声/無声 - 4.02e-3 2.7 [%] 音素継続長 - 0.557 17.3 [%] ・生成した音素継続長は,自然音声と比較して17%程度の発話間変動 - 他のパラメータは数%程度 ・パラメータ生成を入れない方が,発話間変動は改善
  12. 12. /12 まとめ  一期一会音声合成 – 合成するごとに異なる音声パラメータを生成 – → 発話間変動を有する合成音声  実験的評価・結果 – 合成音声パラメータの発話間変動を定量的に評価 – → 自然音声と比較して,音素継続長は17%程度の変動 – → それ以外の特徴量は数%程度  今後の予定 – 発話間変動の主観評価 – 発話間変動の改善 12

×