SlideShare a Scribd company logo
06/20/2019©Shinnosuke Takamichi,
The University of Tokyo
統計的音声合成変換と近年の発展
高道 慎之介
(東京大学 大学院情報理工学系研究科)
首都大学東京 トーク
/46
自己紹介
 名前
– 高道 慎之介 (たかみち しんのすけ)
 経歴
– 2009年 熊本電波高専 電子工学科 卒業 … 半導体など
– 2011年 長岡技科大 工学部 卒業 … 立体音響など
– 2016年 奈良先端大 博士課程 修了 … 音声合成など
– 2016年~ 東京大学 猿渡・小山研 助教 (2018年まで特任助教)
 専門
– 統計的音声合成・変換など
2
/46
猿渡・小山研究室
3
 猿渡洋(教授)

専門分野
音メディアシステム
教師無し最適化
統計・機械学習論的
信号処理
協力教員 郡山知樹先生
特任研究員 高宗さん
秘書 丹治さん
専門分野
音響信号処理
音場再生・伝送
(音響ホログラフ)
スパース信号処理
小山翔一(講師) 高道慎之介(助教)
専門分野
音声信号処理
統計的音声合成
声質変換
深層学習(DNN)
北村大地(客員研究員)
専門分野
音メディア信号処理
統計・機械学習論的
信号処理
音楽信号処理
博士課程学生4名
修士課程学生6+7名
柏野研学生1名
香川高専
/46
私の研究グループの目標
4
音声変換
音声合成
全ての人間・計算機が
身体・文化・時間を超えて
音声でコミュニケーション
できる社会を目指して
/46
High-quality voice conversion
5
http://voicetext.jp/voiceactor/
SAYAKA HIKARI
Conversion
(Conven-
tional)
/46
DNN-based real-time voice conversion
6
http://www.ytv.co.jp/conan
/item/tai.html
https://www.youtube.com/watch?v=P9rGqoYnfCg
[Arakawa19]
/46
Neural double-tracking
7
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
深層生成モデルを用いて「人間の音声はこう間違う」を学習
/46
本日の内容
8
音楽・歌声
音声知覚
言語教育
音声信号処理
音声コーパス
一期一会音声・歌声合成
9
音楽・歌声
/46
Neural double-tracking
10
[Tamaru19]
NDT
Random pitch modulation
based on deep generative models
これをどうやって実現しているのかを話します!
/46
一期一会音声合成
11
「正しく喋る」から「正しく間違えて喋る」音声合成へ
Human
Noise
Current TTS
Noise
Our approach
[Takamichi17]
/46
観測できる音声
畳み込むと…
Time
音声の生成過程
12
声帯を開閉させて
空気を振動させる!
音高の生成
音色の付与
口や舌を動かして
音色をつける!
/46
深層生成モデル:
Generative Adversarial Network (GAN)
 Generative adversarial network
– 分布間の近似 Jensen-Shannon divergence を最小化
– 生成モデルと,学習/生成データを識別する識別モデルを敵対
– 音声合成に適用されだしたのは2016年 (我々のグループ)
13
𝒚
1: natural
0: synthesized
Discriminator
Natural
[Goodfellow14]
Generator
Input
/46
別の生成モデル:
Generative moment-matching network
 Generative moment-matching network
– 分布のモーメント (平均,分散,…) 間の二乗距離を最小化
• モーメントは音声処理との相性が良い
– 実装上は,グラム行列のノルムの差を最小化
14
𝒚
Natural
Generator
Input
[Li15]
/46
Neural double-tracking の手順
1515
波形
合成
スペクトル
有声/無声
F0
スペクトル
有声/無声
F0
条件付きGMMN
(条件:F0包絡)
遅延
人間の
DT歌声から
学習
[Tamaru19]
/46
変調したF0系列の例
16
う さ
ぎ
う
さ
ぎ
Pitch(1が半音)
Time [s]
Non-filtered
Post-filtered (4 lines)
童謡「うさぎ」の一節
72
71
70
69
68
67
66
65
64
63
62
0.0 0.5 1.0 1.5 2.0 2.5
[Tamaru19]
自由に使える日本語音声コーパス
17
音声コーパス
/46
人文学 & 工学研究のための
オープンな日本語音声コーパス
18
大学 研究所企業・非研究者
人文学系
工学系
人文学系
工学系工学系
ここは有ったここが無かった
 人文学研究のための音声コーパスは豊富
– 国語研を中心に整備 [IEICE会誌 vol.102, no.6 の小特集を参照]
 工学研究 (特に音声合成の研究) のための音声コーパスは?
– 2015年頃から,専門知識不要の音声合成方式が加速
– 音声合成のコモディティ化が進み,研究分野・身分・国を超えた
技術・製品開発が加速すると予想
→ 2016年時点で,それに適切な日本語音声コーパスが無かった
/46
JSUTコーパス
19
[Sonobe17]
 スペック
– 単一話者読み上げ音声,10時間 (約7,600発話),48 kHzサンプリング
– 日本語常用漢字の音読み・訓読みを全てカバー
• Wikipedia やクラウドソーシング作文を利用
• 日本語end-to-end音声合成をサポートするため
– 身分などに依らず非商用なら無償利用可 (商用転換も可能)
 成果
– 2017/10に公開して60か国以上からダウンロード (約75%は国内)
– End-to-end 音声合成でも使用されるように [Ueno18]
– 商用利用への転換の実績も有り
日本語End-to-end音声合成のサンプル音声は,京都大学 河原先生・上乃さまに提供して頂いた
/46
JSUT コレクション:テキスト・歌・環境音を
音声でつなげるコーパス
20
JSUT
JSUT-songJSUT-vi
Singing voice (0.5 hrs)Vocal imitation (0.4 hrs)
Reading-style speech (10 hrs)
Single Japanese speaker’s voice
[new!] JSUT-book
Audiobook
[Future release]
[Takamichi18]
音声による抽象化・具体化を利用した多元的情報の融合へ
/46
Mozilla Common Voice:
パブリックデータとしての音声
21
https://voice.mozilla.org/en
主観的類似度を考慮した話者埋め込み
22
音声知覚
/46
話者埋め込み (speaker embedding)
 話者埋め込み … 発話者を何らかの数値で表現すること
– 声色制御への応用 … ユーザの所望する声色で話す音声合成
– 言語横断への応用 … 言語を超えて同じ人の声で話す音声合成
 従来法 … 客観値(音声特徴量間の距離)に基づく embedding
– 識別器 (d-vector) や auto-encoder の中間層の値で潜在空間を張る
– 話者性は「客観的に似ている = 主観的に似ている」ではない
– 張られた潜在空間は,人間の知覚と対応しておらず,解釈しにくい
23
1
0
0
0
0
⋯
Speaker
codes
Speech
params.
⋯
Softmax
cross-entropy
𝐿SCE 𝒄, 𝒄
𝑑-vector
𝒄 𝒄
/4624
クラウドソーシングを用いた
話者間類似度の大規模主観スコアリング
 話者対の音声を提示し, その主観的な類似度を評価
– JNAS [Itou et al., 1999] の女性話者153名を利用
• 話者毎に異なる発話 (テキスト非依存の話者間類似度を評価)
– 4,060名のワーカーが, 全話者対からランダム抽出された34対を評価
• 評価スコア: -3 (似ていない) ~ +3 (似ている) の整数
• 1つの話者対を異なる10名以上が評価
提示話者対サンプル
[Saito19]
/4625
類似度スコアに基づく話者グラフを用いた
話者間類似度の可視化
話者の配置は類似度スコアを用いた多次元尺度構成法で決定
F051
F146B
F048
特定の話者に
類似した話者
多数の話者に
類似した話者F093
F127
[Saito19]
/46
DNNを用いた話者埋め込みへの応用
26
Spk.
1
𝒅1
Spk.
𝑁s
𝒅 𝑁𝐬
⋯
𝐃⊤ 𝐃
⋯
Gram matrix
𝐊 𝐃
Calc.
kernel
𝑘 ⋅
𝐿SIM
mat
⋅
𝑁s
𝑁s
1
1
⋯
⋯
𝑁s1
⋯1
𝑁s
𝑘 𝒅1, 𝒅 𝑵s
𝑠1,𝑁s𝐒
Sim. score
matrix
𝐿SIM
(mat)
𝐃, 𝐒 = 𝐊 𝐃 − 𝐒 𝐹
2
 音声特徴量 (客観値) から話者類似度 (主観値) へのマッピング
– DNNを用いた行列ノルム最小化で実現
– 話者性のユニークさも表現可能
[Saito19]
/4627
話者埋め込みと話者間類似度スコアの
散布図・相関
(1) Conv. (2) Prop. (vec) (3) Prop. (mat) (4) Prop. (mat-re)
0.0 1.0−1.0
1.0
0.0
−1.0
Value of kernel 𝑘 𝒅𝑖, 𝒅𝑗
Similarityscore𝑠𝑖,𝑗
(a)Closed-Closed(b)Closed-Open
提案法により, 主観的類似度と高い相関を持つ話者埋め込みが学習可能
[Saito19]
ノンネイティブ音声合成
28
言語教育
/46
外国語スピーキング学習への挑戦
 外国語学習の目的
– 対象の外国語 (例:英語) を用いた円滑な音声コミュニケーション
 スピーキング学習では何を目標にすべきか?
– 母語話者 (例:英語話者) を目指すべき? → No.
– 外国語話者はある程度の発音逸脱を許容しているため,その許容
範囲に収まる発音であれば,訛った外国語でもOKなのでは?
 ノンネイティブ音声合成
– 学習者の訛りを生かしつつ,外国語話者に伝わる音声を生成
29
/46
日本人英語音声合成
30
従来法で生成
提案法で生成
学習に使用した音声 (ERJデータベースに含まれる
男子大学生のうち,評定スコアが最低)
“I can see that knife now.”
[Oshima16]
/46
日本人英語の音声合成のための韻律補正
 韻律の違い
– 日本語:モーラ等時性・ピッチアクセント
– 英語:ストレス等時性・ストレスアクセント
 韻律補正法
– 英語母語話者の韻律を利用
– 同じ枠組みは別言語でも可能
31
[Oshima16]
英語母語話者の
音響モデル
英語母語話者の
英語音声
日本語母語話者の
英語音声
韻律を補正した
日本語母語話者の
音響モデル
スペクトル
音源
パワー
継続長
スペクトル
音源
パワー
継続長
モデル
適応
パワーと継続長を
補正すればよい!
/46
中国人日本語の音声合成のための韻律補正
32
Conventional
Ours
Chinese-accented Japanese
uttered by a Chinese student
“私のテストの成績の悪さに,
母がカンカンに怒っています”
Text Text-to-speech
Voice building
Make the voice fluent.
[Sekizawa19]
方向統計DNNを用いた
位相モデリング
33
音声信号処理
/46
周期変数とは
34
𝑥
𝑦
𝑦 =
𝜋
2
+ 2𝜋𝑁
𝑦 = 𝜋 + 2𝜋𝑁
𝑦 =
3
2
𝜋 + 2𝜋𝑁
𝑦 = 2𝜋𝑁
𝑁 は任意の整数
音声信号処理では極座標を使う (例:フーリエ変換の振幅・位相) 一方で,
振幅 𝑥 のみが処理対象となる場合が多かった.
振幅 𝑥 から位相 𝑦を予測(復元)できるか?
/46
DNNを用いた位相推定
 位相:2𝜋の周期をもつ周期変数
– 2𝜋の周期性を持つ周期変数 𝒚 𝑡 = 𝑦𝑡,0, ⋯ , 𝑦𝑡,𝑓, ⋯ , 𝑦𝑡,𝐹
⊤
– 𝑦𝑡,𝑓 と 𝑦𝑡,𝑓 + 2𝜋𝑁 は等価(𝑁は整数)
 DNN学習に通常の二乗誤差最小化規範 (MSE) を使えない
– 二乗誤差最小化規範は等方性ガウス分布の尤度最大化に対応
– ガウス分布は変数の周期性に対応できない
35
argmax 𝑁 𝒚 𝑡; 𝒚 𝑡, 𝜎2
𝑰 → argmin 𝒚 𝑡 − 𝒚 𝑡
⊤
𝒚 𝑡 − 𝒚 𝑡
DNN
MSE
𝒚 𝑡
ならば,周期変数に対応する確率分布を導入すれば良い!
振幅 𝒙 𝑡 位相 𝒚 𝑡
/46
von Mises 分布
 von Mises 分布 … 周期変数のための確率分布
– 2次元の等方性ガウス分布から導出される対称周期分布
36
[Mardia99]
𝑃(vm) 𝑦; 𝜇, 𝜅 =
exp 𝜅 cos 𝑦 − 𝜇
2𝜋𝐼0 𝜅
𝑦
𝜋 2𝜋
𝜇
𝜅
0
𝑃(vm)𝑦;𝜇,𝜅
/46
von Mises 分布 DNN を用いた
位相モデリング
37
 von Mises 分布 DNN … 周期変数のための深層生成モデル
– 集中度パラメータ固定の von Mises 分布を条件付き確率分布に持つ
 von Mises 分布 DNN は,データ分布の対称性を暗に仮定
– ↓のような分布のモデル化精度は悪い.どうする?
𝜽 = argmin 𝐿(vm) 𝒚 𝑡, 𝜽 = argmin −cos 𝑦𝑡,𝑓 − 𝜇 𝑡,𝑓
𝑓
DNN 𝜽
振幅 𝒙 𝑡 𝐿 vm ⋅ 位相 𝒚 𝑡
平均 𝝁 𝑡
𝑦
0 𝜋 2𝜋
Count
[Takamichi18]
/46
正弦関数摂動 von Mises 分布
 von Mises 分布𝑃 vm 𝑦, 𝜇, 𝜅 に摂動項をかけた非対称周期分布
38
[Abe11]
𝑃 ssvm 𝑦, 𝜇, 𝜅, 𝜆 = 𝑃 vm 𝑦, 𝜇, 𝜅 ⋅ 1 + 𝜆 sin 𝑦 − 𝜇
𝑦
0 𝜋 2𝜋
𝑃ssvm
𝑦,𝜇,𝜅,𝜆
摂動パラメータ
/46
正弦関数摂動 von Mises分布DNNによる
位相推定 (正確には群遅延推定)
39
0
1
𝐹
𝑦𝑡,∗
𝐿 vm ⋅
𝜎 ⋅
× 𝛼 𝜅
(const.)
0
𝐹
𝜇 𝑡,∗
𝜅 𝑡,∗
tanh ⋅
× 𝛼 𝜆
(const.)
𝜆 𝑡,∗
𝐿 ss ⋅Mean
Concentration
Skew
Freq. index
𝑥 𝑡,∗
DNN学習時の損失関数は 𝐿 vm ⋅ と 𝐿 ss ⋅ の和
(von Mises由来) (正弦関数摂動由来)
摂動項の
対数
[Takamichi18]
/46
負の対数尤度の box plot
40
0.80
0.85
0.90
0.95
1.00
1.05
1.10
Negativeloglikelihood
Min
Max
Median
正弦関数摂動の導入により尤度が改善
[Takamichi18]
次世代の音声合成に向けて
41
/46
総務省SCOPE:知覚モデルに基づくストレス
フリーなリアルタイム広帯域音声変換
42
通常の遠隔コミュニケーション
リアルタイム音声変換を介した遠隔コミュニケーション
言語情報 (音韻など)
パラ言語情報 (感情など)
非言語情報 (話者性など)
自己聴取音による情報確認
言語
パラ言語
非言語
言語
パラ言語
非言語
音
声
変
換
意図しない情報変換が行われる恐れ
エラーを含む音声のフィードバックでユーザに負荷
https://sites.google.com/site/shinnosuketakamichi/research-topics/scope2019
/46
東大GAPプロジェクト:音声合成技術の研究開発・
商用利用を加速させる音声コーパスの設計・構築
43
https://sites.google.com/site/shinnosuketakamichi/research-topics/gap2019
読み上げ音声
歌声
感情音声
多言語音声
ノンネイティブ
多数話者音声
方言音声
成果物
研究なら無償
商用なら有償提供
企業
音声関連企業
研究開発部門を
持つ企業
音声プラット
フォームを
持つ企業
無償提供
ゆらぎ音声合成 (セコム)
方言音声合成 (若手研究)
~2018年度
音声翻訳 (基盤S)
省データ音声変換 (基盤A)
リアルタイム変換 (SCOPE)
取引先候補
迅速なコーパス整備による
基盤研究の加速
大学
学習済みモデルを
含めた技術提供
コーパスを頒布
構築技術提供で
社内の音声から
新コーパスを作成
コーパス構築技術
その他の音声その他の競争的資金
災害支援 (セコム一般)
/46
2019/07 SP/SLP研究会 招待講演
44
https://sites.google.com/site/shinnosuketakamichi/tutorial/slp201907
概要
2019年1月施行の著作権法30条の4等の改正により,研究における著作物の
利用が拡大された.そこで,改正著作権法でどこまでが許されているのかに
ついて明らかにすべく,弁護士による講演会を開く.
講演者
竹内 亮 先生 (鳥飼総合法律事務所)
http://www.torikai.gr.jp/author/takeuchi
まとめ
45
/46
まとめ
 我々の既発表研究を紹介
– 音楽・歌声
– 音声コーパス
– 音声知覚
– 言語教育
– 音声信号処理
 現在進行中のプロジェクトを紹介
– ストレスフリー音声変換
– 研究開発・商用利用を加速させる音声コーパスの設計・構築
– 著作物をコーパスとして使用するための講演会
46

More Related Content

What's hot

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
NU_I_TODALAB
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
Yoshitaka Ushiku
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
YosukeKashiwagi1
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
Yuma Koizumi
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
Yoshitaka Ushiku
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
NU_I_TODALAB
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
Deep Learning JP
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
Deep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
Hitomi Yanaka
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
Shinnosuke Takamichi
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
Shinnosuke Takamichi
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
G社のNMT論文を読んでみた
G社のNMT論文を読んでみたG社のNMT論文を読んでみた
G社のNMT論文を読んでみた
Toshiaki Nakazawa
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
nlab_utokyo
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
克海 納谷
 

What's hot (20)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向ICASSP 2019での音響信号処理分野の世界動向
ICASSP 2019での音響信号処理分野の世界動向
 
機械学習を民主化する取り組み
機械学習を民主化する取り組み機械学習を民主化する取り組み
機械学習を民主化する取り組み
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
【DL輪読会】A Time Series is Worth 64 Words: Long-term Forecasting with Transformers
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
 
音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言音声コーパス設計と次世代音声研究に向けた提言
音声コーパス設計と次世代音声研究に向けた提言
 
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
サブバンドフィルタリングに基づくリアルタイム広帯域DNN声質変換の実装と評価
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
G社のNMT論文を読んでみた
G社のNMT論文を読んでみたG社のNMT論文を読んでみた
G社のNMT論文を読んでみた
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験強化学習アルゴリズムPPOの解説と実験
強化学習アルゴリズムPPOの解説と実験
 

Similar to 統計的音声合成変換と近年の発展

外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
Shinnosuke Takamichi
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
Shinnosuke Takamichi
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
Shinnosuke Takamichi
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
Kosuke Sugai
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
Shinnosuke Takamichi
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
Kosuke Sugai
 
ベトナム人学習者のための日本語音声教育
ベトナム人学習者のための日本語音声教育ベトナム人学習者のための日本語音声教育
ベトナム人学習者のための日本語音声教育
Matsuda Makiko
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
Ken IshiKen
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
Kosuke Sugai
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
Shinnosuke Takamichi
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
Shinnosuke Takamichi
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
Shinnosuke Takamichi
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
Toshihiko Yamasaki
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語
Marie Adachi
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~
Shinnosuke Takamichi
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
Tomoyuki Kajiwara
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
Yuki Saito
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
kthrlab
 
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料2019LET九州沖縄講演資料
2019LET九州沖縄講演資料
Kosuke Sugai
 
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
GREE VR Studio Lab
 

Similar to 統計的音声合成変換と近年の発展 (20)

外国人留学生日本語の音声合成における 話者性を保持した韻律補正
外国人留学生日本語の音声合成における話者性を保持した韻律補正外国人留学生日本語の音声合成における話者性を保持した韻律補正
外国人留学生日本語の音声合成における 話者性を保持した韻律補正
 
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
テキスト音声合成技術と多様性への挑戦 (名古屋大学 知能システム特論)
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
日本語母語話者の音韻知覚単位について: モーラ数と持続時間長の関係
 
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
HMMに基づく日本人英語音声合成における中学生徒の英語音声を用いた評価
 
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
日本語モーラの持続時間長: 単音節語提示による知覚実験(JSLS2015)
 
ベトナム人学習者のための日本語音声教育
ベトナム人学習者のための日本語音声教育ベトナム人学習者のための日本語音声教育
ベトナム人学習者のための日本語音声教育
 
日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発日本語スピーキングテストSJ-CATの開発
日本語スピーキングテストSJ-CATの開発
 
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験日本語モーラの心理的実在再考 母音の単独提示による知覚実験
日本語モーラの心理的実在再考 母音の単独提示による知覚実験
 
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
SLP201805: 日本語韻律構造を考慮した prosody-aware subword embedding とDNN多方言音声合成への適用
 
JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス JVS:フリーの日本語多数話者音声コーパス
JVS:フリーの日本語多数話者音声コーパス
 
音声合成・変換の国際コンペティションへの 参加を振り返って
音声合成・変換の国際コンペティションへの  参加を振り返って音声合成・変換の国際コンペティションへの  参加を振り返って
音声合成・変換の国際コンペティションへの 参加を振り返って
 
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
【FIT2016チュートリアル】ここから始める情報処理 ~音声編~ by 東工大・篠崎先生
 
第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語第3回 京都外国語大学 日本語・日本語
第3回 京都外国語大学 日本語・日本語
 
私がビギナーの頃を振り返って ~20代の代表として~
私がビギナーの頃を振り返って~20代の代表として~私がビギナーの頃を振り返って~20代の代表として~
私がビギナーの頃を振り返って ~20代の代表として~
 
文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会文章読解支援のための語彙平易化@第1回NLP東京Dの会
文章読解支援のための語彙平易化@第1回NLP東京Dの会
 
saito2017asj_tts
saito2017asj_ttssaito2017asj_tts
saito2017asj_tts
 
音声認識の仕組みを知ろう
音声認識の仕組みを知ろう音声認識の仕組みを知ろう
音声認識の仕組みを知ろう
 
2019LET九州沖縄講演資料
2019LET九州沖縄講演資料2019LET九州沖縄講演資料
2019LET九州沖縄講演資料
 
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
#VRSionUp!6 特集「先端ボイチェン研究」Slideshare公開版
 

More from Shinnosuke Takamichi

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
Shinnosuke Takamichi
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
Shinnosuke Takamichi
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
Shinnosuke Takamichi
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
Shinnosuke Takamichi
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
Shinnosuke Takamichi
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
Shinnosuke Takamichi
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Shinnosuke Takamichi
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
Shinnosuke Takamichi
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
Shinnosuke Takamichi
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
Shinnosuke Takamichi
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
Shinnosuke Takamichi
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
Shinnosuke Takamichi
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
Shinnosuke Takamichi
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
Shinnosuke Takamichi
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
Shinnosuke Takamichi
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
Shinnosuke Takamichi
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
Shinnosuke Takamichi
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
Shinnosuke Takamichi
 

More from Shinnosuke Takamichi (20)

JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパスJTubeSpeech:  音声認識と話者照合のために YouTube から構築される日本語音声コーパス
JTubeSpeech: 音声認識と話者照合のために YouTube から構築される日本語音声コーパス
 
音声合成のコーパスをつくろう
音声合成のコーパスをつくろう音声合成のコーパスをつくろう
音声合成のコーパスをつくろう
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討短時間発話を用いた話者照合のための音声加工の効果に関する検討
短時間発話を用いた話者照合のための音声加工の効果に関する検討
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
ここまで来た&これから来る音声合成 (明治大学 先端メディアコロキウム)
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
 
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...Interspeech 2020 読み会 "Incremental Text to Speech for Neural  Sequence-to-Sequ...
Interspeech 2020 読み会 "Incremental Text to Speech for Neural Sequence-to-Sequ...
 
P J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパスP J S: 音素バランスを考慮した日本語歌声コーパス
P J S: 音素バランスを考慮した日本語歌声コーパス
 
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価音響モデル尤度に基づくsubword分割の韻律推定精度における評価
音響モデル尤度に基づくsubword分割の韻律推定精度における評価
 
論文紹介 Unsupervised training of neural mask-based beamforming
論文紹介 Unsupervised training of neural  mask-based beamforming論文紹介 Unsupervised training of neural  mask-based beamforming
論文紹介 Unsupervised training of neural mask-based beamforming
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
論文紹介 SANTLR: Speech Annotation Toolkit for Low Resource Languages
 
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
話者V2S攻撃: 話者認証から構築される 声質変換とその音声なりすまし可能性の評価
 
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
差分スペクトル法に基づく DNN 声質変換の計算量削減に向けたフィルタ推定
 
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-trackingユーザ歌唱のための generative moment matching network に基づく neural double-tracking
ユーザ歌唱のための generative moment matching network に基づく neural double-tracking
 
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
End-to-end 韻律推定に向けた DNN 音響モデルに基づく subword 分割
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
多様なカートシスを持つ雑音に対応した低ミュージカルノイズ DNN 音声強調
 
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
End-to-end 韻律推定に向けた subword lattice 構造を考慮した DNN 音響モデル学習
 

Recently uploaded

生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
Osaka University
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
harmonylab
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
嶋 是一 (Yoshikazu SHIMA)
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
Toru Tamaki
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
osamut
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
azuma satoshi
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
tazaki1
 

Recently uploaded (7)

生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
生成AIがもたらすコンテンツ経済圏の新時代  The New Era of Content Economy Brought by Generative AI
 
Generating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language ModelsGenerating Automatic Feedback on UI Mockups with Large Language Models
Generating Automatic Feedback on UI Mockups with Large Language Models
 
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
「進化するアプリ イマ×ミライ ~生成AIアプリへ続く道と新時代のアプリとは~」Interop24Tokyo APPS JAPAN B1-01講演
 
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
論文紹介:Deep Learning-Based Human Pose Estimation: A Survey
 
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMMハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
ハイブリッドクラウド研究会_Hyper-VとSystem Center Virtual Machine Manager セッションMM
 
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobodyロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
ロジックから状態を分離する技術/設計ナイト2024 by わいとん @ytnobody
 
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライドHumanoid Virtual Athletics Challenge2024 技術講習会 スライド
Humanoid Virtual Athletics Challenge2024 技術講習会 スライド
 

統計的音声合成変換と近年の発展