SlideShare a Scribd company logo
リアルタイムDNN音声変換
フィードバックによる
キャラクタ性の獲得手法
倉田 将希,高道 慎之介,佐伯 高明,荒川 陸,
齋藤 佑樹,樋口 啓太,猿渡 洋
(東京大学)
SLP研究会 2021.3.4
目次
2021/3/4 2
はじめに
➢ 研究の背景
➢ 研究の概要
➢ パラ言語情報と個人性
➢ リアルタイムDNN音声変換
➢ リアルタイムDNN音声変換の問題点
➢ リアルタイム音声変換フィードバック
➢ 外音制御
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
➢ まとめと考察
SLP研究会 /23
2021/3/4 3
研究の背景① 音声コミュニケーション
◆人間にとってコミュニケーションは必要不可欠
◆テキスト,音声,身振り手振り,表情,・・・
◆音声コミュニケーションで伝達される情報は3種類
キャラクタ性の要 身体的制約
◆身体的制約を超えたコミュニケーションの実現に向けて
◆計算機を用いた音声変換の研究も盛んに
言語情報 パラ言語情報 非言語情報
テキスト化 〇 × ×
話し手の意図 - 意図的 無関係
例 単語,疑問文 抑揚,強勢 身体に起因する情報
[Fukuoka17]
[Ladd+85]
[Stylianou+98]
SLP研究会 /23
2021/3/4 4
研究の背景② 音声変換
◆音声変換:非言語情報を変換する技術の総称
◆言語情報は発話者のものを保持
◆抑揚や強勢は定量化が困難なため変換が困難
⇒ 音声(話者)変換では発話者のパラ言語情報が直接的に反映
⇒ 特徴的なパラ言語情報を持つ目標話者に音声変換するとき
目標話者のキャラクタ性の再現度は非常に低い
言語情報 パラ言語情報 非言語情報
例 単語,疑問文 抑揚,強勢 身体に起因する情報
音声変換時 保持 変換困難 高精度に変換
・スペクトル特徴量(音色)
・基本周波数(音高)
・非周期性指標(かすれ)
など
SLP研究会 /23
2021/3/4 5
研究の概要
問題:音声変換ではパラ言語情報の変換が困難
(キャラクタ性が再現されない)
⇒ 変換音声に所望の目標話者のキャラクタ性を付与するような
発話変容を発話者自身にさせるような手法の確立をしたい
提案法:音声変換による出力音声を発話者にリアルタイムに
フィードバックし発話変容させる
一人称視点(ユーザ視点)と三人称視点の評価実験:
✓ 特に演技経験のないユーザに対して目標話者の再現度を向上させた
✓ 音高を変換してフィードバックするだけでも十分な効果があった
SLP研究会 /23
目次
2021/3/4 6
➢ 研究の背景
➢ 研究の概要
背景知識と問題意識
➢ パラ言語情報と個人性
➢ リアルタイムDNN音声変換
➢ リアルタイムDNN音声変換の問題点
➢ リアルタイム音声変換フィードバック
➢ 外音制御
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
➢ まとめと考察
SLP研究会 /23
2021/3/4 7
パラ言語情報に含まれる個人性
◆パラ言語情報は,発話者が意図的に付与 = キャラクタ性の要
◆特に,基本周波数𝐹0のレンジや継続時間,パタンの影響が大きい
◆𝐹0が高く長く発話された音声ほどメッセージ性が強いと知覚された
◆音声の高さ,長さ,速度,強調順位に関する知覚の研究
◆𝐹0のパタンによって聞き手が受けるプロフェッショナルさが異なる
◆アマチュアとプロのニュースキャスターの音声比較の研究
◆典型的なDNN(Deep Neural Network) に基づく音声変換では,𝐹0の
変換規則は単純(線形変換など)
◆発話者のパラ言語情報が直接的に反映
⇒ 単純な音声変換においてもパラ言語情報を操作したい
[Ozuru+20]
[Fukuoka17]
SLP研究会 /23
2021/3/4 8
リアルタイムDNN音声変換
以下の各処理を再帰的に低遅延に行うことで実現
◆解析部 : 入力音声波形から特徴量を抽出
◆変換部 : 入力話者から目標話者へ特徴量変換
◆波形合成部 : 変換後の特徴量から音声波形を合成
◆パラ言語情報の変換規則は単純
log 𝐹0
power
メルケプストラム
log 𝐹0
power
非周期性指標
メルケプストラム
線形
DNN
入力話者特徴量 目標話者特徴量
[Arakawa+19]
アルゴリズム遅延
≃50 ms
SLP研究会 /23
2021/3/4 9
リアルタイムDNN音声変換の問題点
◆リアルタイム性とモデルの複雑性はトレードオフ
⇒ 変換音声に目標話者のキャラクタ性が含まれるように,
発話者自身に発話(抑揚・強勢)を変容させる枠組みを作る
◆ことばの鎖(Speech chain) の欠落
◆自ら聴取した発話音声に基づいて音声を生成する一連の処理のこと
◆リアルタイム音声変換の分野は第三者視点での品質評価が主流で
聴覚フィードバックや相互作用は考慮されてこなかった
言語情報 パラ言語情報 非言語情報
DNNに基づく
話者変換
保持 変換困難 高精度に変換可能
[Denes+93]
リアルタイムではより困難
SLP研究会 /23
目次
2021/3/4 10
➢ 研究の背景
➢ 研究の概要
➢ パラ言語情報と個人性
➢ リアルタイムDNN音声変換
➢ リアルタイムDNN音声変換の問題点
提案手法
➢ リアルタイム音声変換フィードバック
➢ 外音制御
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
➢ まとめと考察
SLP研究会 /23
◆音声変換を要素に含む Speech chain を構成する
◆自己聴取音(自分で聴く自分の声)のうち空気伝導音を抑圧
フィードバックまでの時間的ズレによる吃音症状を抑制
2021/3/4 11
提案法:発話変容を促すフィードバックシステム
おじいさんは
山へ芝刈り・・・
音声入力
密閉型ヘッドホン
+ アクティブノイズ
キャンセレーション機能
おじいさんは
山へ芝刈り・・・
リアルタイム
フィードバック
(新規性)
ユーザ
リアルタイムDNN音声変換
目標話者
[Arakawa+19]
空気伝導音抑圧
変換処理の
時間的ズレ
SLP研究会 /23
聴取&生成
目次
2021/3/4 12
➢ 研究の背景
➢ 研究の概要
➢ パラ言語情報と個人性
➢ リアルタイムDNN音声変換
➢ リアルタイムDNN音声変換の問題点
➢ リアルタイム音声変換フィードバック
➢ 外音制御
実験的評価
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
➢ まとめと考察
SLP研究会 /23
2021/3/4 13
一人称評価実験 条件
◆一人称主観評価実験(ユーザ視点)
タスク : 4つのフィードバック条件でアニメキャラクタを模倣して発話
主観評価項目 : 各フィードバック条件で以下の6項目を5段階評価
• ①没入感②似せられた度合③遅延④音質⑤有用性⑥今後も使いたいか
被験者 : ユーザ14名(男性8,女性6 / 演技経験者5,未経験者9)
フィードバック遅延 : 190 ms(オーディオ入出力 140 ms + 変換 50 ms)
男性日本語母語
キャラクタ1名
FBありの
2手法のみ
SLP研究会 /23
no FB
(conventional)
chara FF
(reference)
実際音声
chara FB
(proposed)
non-chara FB
(control)
音声変換
音声変換
↑FBありの2手法(音高は同程度)↑
2021/3/4 SLP研究会 14
一人称実験 実験全体手順
DNN学習用音声収録
◆ ATR音素バランス 95文
DNN学習
◆ 変換FBのある2条件用
一人称評価実験
◆ 40文読み上げ:ランダム順
◆ アニメから引用したセリフ20文・・・①
◆ ATR音素バランス20文・・・②
◆ 4フィードバック条件:ランダム順
◆ 10文(①5文+②5文)×4条件
◆ 6項目評価:フィードバック条件ごと
三人称評価実験
被験者(ユーザ)ごとに
DNN変換モデルを学習.
non-chara FB条件とchara FB条件用
/23
2021/3/4 15
一人称実験 事前アンケート結果
◆事前に被験者14名の目標キャラクタへの親密度を測定した
◆キャラクタを模倣する前に参考映像を鑑賞させた(5分程度)
◆目標キャラクタの登場するアニメ + DNN学習用音声データ
◆7割以上の被験者が,キャラクタを模倣するにあたり,参考映像が
「役に立った / とても役に立った」と回答した
アニメを観た経験回数
(主観)
キャラクタに関する知識
(主観)
キャラクタに関する知識
(客観)
[人]
主観的な
キャラクタ親密度は
ばらつくが,
客観的には
一定以上の
親密度のある集団
☝
公式サイトをもとに作成した
項目について知っていた度合を
3ランクに分けた
SLP研究会 /23
2021/3/4 16
一人称実験 6項目のANOVA検定結果
◆統計的 ANOVA 検定の結果(𝑝値,有意確率𝑝 = 0.05)
演技経験 交互作用
フィードバック条件
没入感
似せられた度合
FB遅延
FB音質
FBの有用性
今後も使いたいか
FBありの
2手法*のみ
*non-chara FB
& chara FB
目標キャラクタのFBが
有効である可能性を
示唆
(有意水準に近い)
評価項目
影響あり
(有意差あり)
↑FBあり2手法(音高は同程度)↑
SLP研究会 /23
2021/3/4 17
一人称実験 B/H FDR correctionの検定結果
◆有意な影響が見られた要因内でさらに検定(有意確率 𝑝 = 0.05)
演技経験 交互作用
フィードバック条件
評価項目
影響あり
(有意差あり)
没入感
似せられた度合
演技未経験者の
没入感が高い
no FB
(conventional)
chara FF
(reference)
chara FB
(proposed)
non-chara FB
(control)
フィードバック条件間での有意差検定
Similarity
Immersion
no FB – non-chara FB
no FB – chara FB
no FB – chara FF
non-chara FB – chara FB
non-chara FB – chara FF
chara FB – chara FF
没入感 似せられた度合
目標キャラクタの
実発話音声を聴取
した条件と,その他
条件の間のみ有意差
従来法に比べて,
提案手法の方が,
似せられた度合が
高くなる“傾向”は
見られた
(有意水準に近い)
SLP研究会 /23
FB遅延を改善
すれば向上?
2021/3/4 18
一人称実験 自由記述アンケート
◆演技経験者
◆模倣しようとすればするほど,自分のイメージに没入するように
なるため,音声アシストが耳に入りづらくなった.
◆演技未経験者
◆no FBは素の自分の声を聴いてしまい役に入り込めなたっかが,
フィードバックありの手法は自分でない声が聴けるため,
没入しやすかった.
◆間の取り方を調整することで,変換音声を目標キャラクタに近づ
けられたように思う.
➢演技未経験者の方が音声FBを積極的に活用する傾向にある?
➢没入感評価が演技未経験者で高くなった(𝑝 = 0.044)結果にも影響?
SLP研究会 /23
変換音声に関する肯定的な意見多数
2021/3/4 19
三人称評価実験 条件
◆三人称主観評価実験(第三者視点)
タスク : 被験者の発話音声を目標キャラクタに変換した音声を評価
主観評価項目 : 2項目を別々にAB/XAB評価
対比較 : フィードバック条件(評価数44),性別,演技経験(評価数66)
評価者 : 11名
自然性 人間らしさ,自然さ
キャラクタ性の再現度 目標キャラクタのキャラクタ性の再現度合
AB
XAB
A B
いずれかが異なる音声を対提示
*chara FF(reference)は除いた
SLP研究会 /23
2021/3/4 20
三人称実験 フィードバック条件対
◆フィードバック条件対で選択された平均と95%信頼区間
発話者の性別に表示
自然性 キャラクタ性の再現度
自然性 キャラクタ性の再現度
男性話者
女性話者
自然性は従来法
で最も高い 男性話者は
提案手法が高評価
FB遅延による
吃音症状が
影響したか?
自然性は従来法
で最も高い
発話者の性別で
傾向が異なる
女性話者は
提案手法が低評価
SLP研究会 /23
2021/3/4 21
三人称実験 性別対・演技経験対
◆性別対・演技経験対で選択された平均と95%信頼区間
no FB
non-chara FB
自然性 キャラクタ性の再現度
chara FB
no FB
non-chara FB
chara FB
自然性 キャラクタ性の再現度
キャラクタ性再現度は
男性話者が高い
FBのある条件では演技未経験者の
キャラクタ性再現度が高い.
一方で自然性は低い.
目標キャラクタとの
性別の一致が影響?
演技未経験者の方が
積極的にFBを活用?
SLP研究会 /23
目次
2021/3/4 22
➢ 研究の背景
➢ 研究の概要
➢ リアルタイム音声変換フィードバック
➢ 外音制御
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
結論
➢ まとめと考察
➢ パラ言語情報と個人性
➢ リアルタイムDNN音声変換
➢ リアルタイムDNN音声変換の問題点
SLP研究会 /23
2021/3/4 23
まとめと考察
◆目的 : 変換音声に所望のキャラクタ性を付与するよう発話変容をさせたい
◆提案法 : リアルタイムDNN音声変換フィードバックによる発話変容
◆提案法の効果 :
一人称 : キャラクタ性の再現度を向上させる傾向が見られた
三人称 : 演技未経験者でキャラクタ性再現度が有意に向上した
ただし,自然性はフィードバックなしの場合(従来法)と比べて低下
音高を近づけるだけでも十分なフィードバック効果があった
◆展望(仮説):
• オーディオ入出力遅延による人工的吃音 の改善
• 演技経験者は音声アシストを活用しない傾向にあるのか
• 男性被験者にも有用な傾向があったのは目標話者と性別が一致するためか
• 𝐹0(音高)を目標話者に近づけるだけで十分な効果があることは確かか
[Lee50, Lincoln+06]
SLP研究会 /23
付録
Appendix
2021/3/4 24
➢ 一人称(ユーザ視点)評価
➢ 三人称(第三者視点)評価
➢ 音声の生成過程と音声特徴量
➢ アニメーションにおけるパラ言語情報
➢ 聴覚フィードバックと吃音
➢ Speech chain
SLP研究会 /23
2021/3/4 25
音声の生成過程と音声特徴量
◆スペクトル包絡 : 音色
⇒ 口や舌の形により付与
◆基本周波数(𝐹0) : 音高
⇒ 声帯の振動によって生成
◆非周期性指標 : かすれ具合
◆メルケプストラム : 人間の聴覚特性を考慮したスペクトル特徴量
⇒ これら特徴量を分離・抽出して,学習や変換が行われる
[Takamichi19]
畳み込み = 音声
SLP研究会 /23
音声特徴量の詳細
◆メルケプストラム : 聴覚特性を考慮したスペクトル特徴量
◆低周波数領域では細かい分解能,高周波数領域で粗い分解能
◆周波数をメル周波数に変換してから計算するケプストラム
◆ケプストラム : 対数パワースペクトルを時間波形と見なしてDFT
◆非周期性指標 : かすれ具合
◆スペクトル包絡の各周波数パワーでの非周期的な雑音成分の割合
◆非周期性指標が大きいほどかすれた声になる
◆有声音と無声音 : 発音する際に,声帯が振動するかしないか
◆有声音 : 声帯が振動して発音.基本周波数𝐹0が存在
◆無声音 : 声帯は振動しない.基本周波数𝐹0が存在しない
2021/3/4 26
SLP研究会 /23
アニメーションにおけるパラ言語情報
◆アニメキャラクタのキャラクタ性の知覚における特有の形態
1. 「声の代行者」としての話者が
2. 「独自の想像力に基づき表現」した音声が
3. 「キャラクタの音声」として第三者に受け入れられる
◆キャラクタの世界の“現実”を,発話者の自己に内在化する
ことで「内面から発生した欲動」として表現させた実践もある
◆体現的(embodied)パフォーマンス の考え方に基づく
◆個人性と深み,内面的複雑さのある表現形態
◆提案システムは変換音声をフィードバックすることで
目標キャラクタを発話者に内在化させ独創的に表現させること
を目指す
[Morikawa+02]
[Naito15]
[Crafton13]
[Suan17]
2021/3/4 27
SLP研究会 /23
聴覚フィードバックと吃音
◆AAF : 変容聴覚フィードバック(Altered Auditory Feedback)
◆入力音声と僅かに異なる音声に変換してフィードバックする
◆DAF(Delayed Auditory Feedback) : 遅延聴覚フィードバック
◆FAF(Frequency Altered Feedback) : 変調聴覚フィードバック
◆吃音患者に対しては吃音を抑制させる効果がある
◆50 ms の遅延 ,1/4 octave変調 が
必要最低変化量
◆非吃音患者には,逆に吃音症状を誘発してしまう
◆本研究の評価実験は190 msの遅延
◆FB条件下で吃音症状が生じ,音声の自然性が低下してしまった
[Lincoln+06]
[Kalinowski+96] [Stuart+96]
[Lee50]
2021/3/4 28
SLP研究会 /23
ことばの鎖 Speech chain
◆ことばの鎖(Speech chain)
◆音声の聴取(聴覚系)と音声の生成(生成系)の相互作用
◆音声コミュニケーションにおける一連の音声処理
◆音声変換の分野では,第三者による品質評価が主流で,
ユーザ視点の聴取と生成の相互作用は考慮されてこなかった
相手の音声
耳
脳
口
自分の音声
聴取
生成
2021/3/4 29
SLP研究会 /23
リアルタイムDNN音声変換 [Arakawa+19]
フレーム長25 ms
ずらし幅5 ms
DNNの学習時に
人工的にデータを水増し
(データ拡張)することで
品質を向上している
2021/3/4 30
SLP研究会 /23
自己表現拡張のためのメディア処理
◆Body ownership illusion
◆見た目の変化に伴って,行動が変容するという錯覚
◆VRの分野でも研究が盛ん
◆ユーザとアバタに同期した多感覚刺激を与えると身体所有感が生まれた
◆自己の身体の代替となるアバタの外見に即して,ユーザの態度や振る舞
い,自身への印象も変容した(プロテウス効果)
◆見た目の変化が一人称視点での心理的効果を誘発する
◆本研究は Speech ownership illusion を目的にしているといえる
◆自己聴取音を制御することで,
身体制約を超えた音声表現を獲得させる
◆一人称視点での心理的効果を誘発するか
[Oyanagi+17]
[Yee+07]
2021/3/4 31
[Tabitha+13]
SLP研究会 /23
一人称実験 被験者14名の詳細
◆性別・演技経験の各指標が一定数含まれるよう配慮
◆演技経験は被験者の申告により得た
◆演技経験者5名の演技経験年数 : 半年,1年半,8年,9年,16年
◆音声変換器の使用経験や音声分野の研究に対しては素人
2021/3/4 32
SLP研究会 /23
一人称実験 DNN学習用音声
◆被験者14名と目標キャラクタの95文パラレル音声データを収録
◆ATR音素バランスセット(A01-B45)
◆1文ごとに参考音源を聴取させ,音高はこれに合わせるよう指示
◆目標キャラクタとは異なる参照話者の読み上げ音声
◆𝐹0レンジは目標キャラクタとほぼ一致
◆予備実験での結果に基づいている
◆目標キャラクタの実際音声は聴取させない
◆目標キャラクタの発話を記憶する学習効果を避ける
参考音源
参考音源話者 目標キャラクタ
𝐹0平均 221.818 Hz 215.252 Hz
𝐹0分散 4748.48 4300.12
2021/3/4 33
SLP研究会 /23
2021/3/4 34
一人称評価実験 条件(一部再掲)
◆キャラクタを模倣する前に参考映像を鑑賞させた(5分程度)
◆目標キャラクタの登場するアニメ + DNN学習用音声データ
◆模倣するセリフは全40文
◆実際のアニメから引用した高模倣親密度セリフ : 20文
◆ATR音素バランスセットの低模倣親密度セリフ : 20文
◆4つのフィードバック条件で10文ずつランダムに読み上げさせた
◆事前に被験者の目標キャラクタへの親密度を測定した
アニメを観た経験回数
(主観)
キャラクタに関する知識
(主観)
キャラクタに関する知識
(客観)
[人]
主観的な
キャラクタ親密度は
ばらつくが,
客観的には
一定以上の
親密度のある集団
SLP研究会 /23
一人称実験 参考映像の有用性の評価
◆7割以上の被験者が「役に立った/とても役に立った」と回答
2021/3/4 35
SLP研究会 /23
一人称実験 セリフ原稿と模倣しやすさ
◆実際のアニメから引用されたセリフほど模倣しやすさが高い
◆目標キャラクタに特に似せられたと思うセリフ(獲得票数)
◆特に,アニメに登場するキャラクタ名の含まれたセリフは,
獲得票数が多くなる傾向にあった
◆特定の母音に対して,模倣親密度が高いと答えた被験者もいた
FB条件 実際のセリフ ATR音素バランス
chara FF 以外 71 15
chara FF 31 12
模倣親密度が高い 模倣親密度が低い
2021/3/4 36
SLP研究会 /23
一人称実験 統計的検定手法
◆ANOVA検定
◆演技経験,フィードバック条件,交互作用が評価に影響するのか
◆有意水準5%(𝑝 = 0.05)で検定
◆混合計画を用いた
◆Benjamini / Hochberg FDR correction
◆ANOVA 検定において有意な影響がある,と判断された要因の中の
どの要素の組み合わせにおいて有意差があるのかの多重検定法
◆第一種の過誤の割合の期待値(FDR)を制御し𝑝値を補正
◆第一種の過誤 : 有意差がないのに有意差がある,としてしまう誤り
◆有意差が検出されやすい
◆本発表及び原稿中では補正後の𝑝値で統計的に検定した
2021/3/4 37
SLP研究会 /23
一人称実験 没入感と演技経験
◆いずれのFB条件でも演技未経験者による没入感評価が高い
Better
2021/3/4 38
SLP研究会 /23
一人称実験 似せられた度合
◆検定結果も考慮すると,提案手法(chara FB)は,従来法(no FB)
よりも,似せられた度合に対する評価が高い「傾向」にある
AVE = 2.14 AVE = 3.00
2021/3/4 39
SLP研究会 /23
一人称実験 実験風景
2021/3/4 40
SLP研究会 /23
三人称実験 その他の条件
◆自然性評価(AB),キャラクタ性の再現度評価(XAB)の留意点
◆それぞれ全24問を対提示
◆フィードバック,性別,演技経験のいずれかを対にした
◆ABを聴く順番や回数に制限はなし
◆XABの見本音声Xは一人称実験の参考映像を再編集し使用
◆視聴する回数に制限は設けなかったが評価開始後の再生は禁止
A B
A/Bのテキスト
A/Bの音声
異なる条件(A/B)
同一条件
12問 12問
2021/3/4 41
SLP研究会 /23
2021/3/4 SLP研究会 42
三人称実験 音声変換アルゴリズム
◆一人称実験で用いたリアルタイムの変換アルゴリズムとは
異なるアルゴリズム を使用
◆von Mises分布DNNを導入
◆位相のような周期変数の確率密度関数(von Mises 分布)を
条件つき分布として有する深層生成モデル
◆モデルパラメータは最尤推定で学習
⇒ 振幅スペクトログラムからの位相復元に適用
◆リアルタイムDNN音声変換に比較して,高品質な音声変換を実現
[Takamichi+18]
SLP研究会 /23
三人称実験 評価者のキャラクタ親密度
◆アニメの視聴経験と目標キャラクタの音声に対するイメージ
目標キャラクタ
2021/3/4 43
SLP研究会 /23
三人称実験 一貫した傾向がない項目の要因
◆高模倣親密度セリフの偏り ⇒ ×
◆一人称実験の被験者が,特に似せやすいセリフとして選んだ
上位5つのセリフの偏りを調査
◆偏りはなく,すべての対提示において同等に分布していた
◆音声(セリフ)の長さの違い
◆ポーズ位置の回数の差で比較
◆一定の傾向はみてとれる
◆ポーズ位置の回数と,音声の
長さが比例関係にあるわけで
はなく,明確には判断できない
2021/3/4 44
SLP研究会 /23

More Related Content

What's hot

Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
Shinnosuke Takamichi
 

What's hot (20)

音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Saito2103slp
Saito2103slpSaito2103slp
Saito2103slp
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
楽器音色の主観評価 —多次元尺度法を用いた研究例の紹介—
楽器音色の主観評価 —多次元尺度法を用いた研究例の紹介—楽器音色の主観評価 —多次元尺度法を用いた研究例の紹介—
楽器音色の主観評価 —多次元尺度法を用いた研究例の紹介—
 
深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術深層生成モデルに基づく音声合成技術
深層生成モデルに基づく音声合成技術
 
Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討Moment matching networkを用いた音声パラメータのランダム生成の検討
Moment matching networkを用いた音声パラメータのランダム生成の検討
 
DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相DNN音響モデルにおける特徴量抽出の諸相
DNN音響モデルにおける特徴量抽出の諸相
 
音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用
音響信号に対する異常音検知技術と応用
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
音声生成の基礎と音声学
音声生成の基礎と音声学音声生成の基礎と音声学
音声生成の基礎と音声学
 
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...統計的独立性と低ランク行列分解理論に基づくブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
統計的独立性と低ランク行列分解理論に基づく ブラインド音源分離 –独立低ランク行列分析– Blind source separation based on...
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク敵対的学習による統合型ソースフィルタネットワーク
敵対的学習による統合型ソースフィルタネットワーク
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 

More from Shinnosuke Takamichi

Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
Generative moment matching net に基づく歌声のランダム変調ポストフィルタと double-tracking への応用
 

Recently uploaded

Structuring Teams and Portfolios for Success
Structuring Teams and Portfolios for SuccessStructuring Teams and Portfolios for Success
Structuring Teams and Portfolios for Success
UXDXConf
 

Recently uploaded (20)

Demystifying gRPC in .Net by John Staveley
Demystifying gRPC in .Net by John StaveleyDemystifying gRPC in .Net by John Staveley
Demystifying gRPC in .Net by John Staveley
 
Structuring Teams and Portfolios for Success
Structuring Teams and Portfolios for SuccessStructuring Teams and Portfolios for Success
Structuring Teams and Portfolios for Success
 
Intro in Product Management - Коротко про професію продакт менеджера
Intro in Product Management - Коротко про професію продакт менеджераIntro in Product Management - Коротко про професію продакт менеджера
Intro in Product Management - Коротко про професію продакт менеджера
 
Optimizing NoSQL Performance Through Observability
Optimizing NoSQL Performance Through ObservabilityOptimizing NoSQL Performance Through Observability
Optimizing NoSQL Performance Through Observability
 
Enterprise Security Monitoring, And Log Management.
Enterprise Security Monitoring, And Log Management.Enterprise Security Monitoring, And Log Management.
Enterprise Security Monitoring, And Log Management.
 
UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1UiPath Test Automation using UiPath Test Suite series, part 1
UiPath Test Automation using UiPath Test Suite series, part 1
 
10 Differences between Sales Cloud and CPQ, Blanka Doktorová
10 Differences between Sales Cloud and CPQ, Blanka Doktorová10 Differences between Sales Cloud and CPQ, Blanka Doktorová
10 Differences between Sales Cloud and CPQ, Blanka Doktorová
 
Agentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdfAgentic RAG What it is its types applications and implementation.pdf
Agentic RAG What it is its types applications and implementation.pdf
 
UiPath Test Automation using UiPath Test Suite series, part 2
UiPath Test Automation using UiPath Test Suite series, part 2UiPath Test Automation using UiPath Test Suite series, part 2
UiPath Test Automation using UiPath Test Suite series, part 2
 
To Graph or Not to Graph Knowledge Graph Architectures and LLMs
To Graph or Not to Graph Knowledge Graph Architectures and LLMsTo Graph or Not to Graph Knowledge Graph Architectures and LLMs
To Graph or Not to Graph Knowledge Graph Architectures and LLMs
 
IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptxIOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
IOS-PENTESTING-BEGINNERS-PRACTICAL-GUIDE-.pptx
 
Server-Driven User Interface (SDUI) at Priceline
Server-Driven User Interface (SDUI) at PricelineServer-Driven User Interface (SDUI) at Priceline
Server-Driven User Interface (SDUI) at Priceline
 
Kubernetes & AI - Beauty and the Beast !?! @KCD Istanbul 2024
Kubernetes & AI - Beauty and the Beast !?! @KCD Istanbul 2024Kubernetes & AI - Beauty and the Beast !?! @KCD Istanbul 2024
Kubernetes & AI - Beauty and the Beast !?! @KCD Istanbul 2024
 
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
Integrating Telephony Systems with Salesforce: Insights and Considerations, B...
 
Exploring UiPath Orchestrator API: updates and limits in 2024 🚀
Exploring UiPath Orchestrator API: updates and limits in 2024 🚀Exploring UiPath Orchestrator API: updates and limits in 2024 🚀
Exploring UiPath Orchestrator API: updates and limits in 2024 🚀
 
AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101AI presentation and introduction - Retrieval Augmented Generation RAG 101
AI presentation and introduction - Retrieval Augmented Generation RAG 101
 
Intelligent Gimbal FINAL PAPER Engineering.pdf
Intelligent Gimbal FINAL PAPER Engineering.pdfIntelligent Gimbal FINAL PAPER Engineering.pdf
Intelligent Gimbal FINAL PAPER Engineering.pdf
 
In-Depth Performance Testing Guide for IT Professionals
In-Depth Performance Testing Guide for IT ProfessionalsIn-Depth Performance Testing Guide for IT Professionals
In-Depth Performance Testing Guide for IT Professionals
 
"Impact of front-end architecture on development cost", Viktor Turskyi
"Impact of front-end architecture on development cost", Viktor Turskyi"Impact of front-end architecture on development cost", Viktor Turskyi
"Impact of front-end architecture on development cost", Viktor Turskyi
 
Introduction to Open Source RAG and RAG Evaluation
Introduction to Open Source RAG and RAG EvaluationIntroduction to Open Source RAG and RAG Evaluation
Introduction to Open Source RAG and RAG Evaluation
 

リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法