SlideShare a Scribd company logo
1 of 32
名古屋⼤学 情報基盤センター
CREST「共⽣インタラクション」
共創型⾳メディア機能拡張プロジェクト
⼾⽥ 智基
2021年2⽉18⽇
共創型機能拡張 = 既存機能 + 機械学習 + インタラクション
本講演の内容
• プロジェクトの概要
• 何をどう解くのか?どこを⽬指すのか?
• 研究内容の例
• 具体的に何をやっているのか?
JST CREST「⼈間と情報環境の共⽣インタラクション基盤技術の
創出と展開」領域の研究課題「⾳メディアコミュニケーションに
おける共創型機能拡張技術の創出」(2019年10⽉〜2025年3⽉)
についてご紹介します.
研究代表者:⼾⽥ 智基 研究分担者:⼩野 順貴 研究分担者:⻲岡 弘和
はじめに
プロジェクト概要
意図
⾔語情報
パラ⾔語情報
⾳声信号
意図
⾔語情報
パラ⾔語情報
歪んだ
⾳声信号
発声機能 聴覚機能
⾝体器官を⽤いた機能を必要とするがゆえに
• 障害・衰弱が⽣じると代替しづらい…
• ⾝体器官の物理的制約により出来ることが限られる…
情報技術を活⽤して
• 残存する他機能を駆使して,衰弱・消失した機能を回復できないか?
• 現状の機能を拡張して,より⾃由な発声・歌唱,聴取はできないか?
何を話す?
どう話す?
空気振動の伝搬
聴覚器官
発声器官
問題:⾳メディアコミュニケーションの限界
概要:1
⽬的:⾝体機能を拡張する技術の創出
• 機械学習を活⽤した機能拡張
• 解くべき課題は?
• データ駆動型システムを⾝体器官の⼀部として使いこなせるか?
• システムの挙動を如何に把握するか?
• どのように解くか?
• インタラクションを活⽤したユーザとシステムの共働創出
即時インタラクション
による意識的制御と
⻑期インタラクション
による技術習得を経て
無意識的制御
の実現へ
通常出せない⾳声・歌声
&通常聞けない聴取⾳
低遅延リアルタイム
⾳声変換・⾳源分離
既存機能による
⾳声・歌声&聴取⾳
概要:2
システム挙動の即時フィードバック
⇒ インタラクションを通したデータ駆動型システムの挙動理解
意図した通りの
⾳声・歌声
および聴取⾳
低遅延リアルタイム
統計的⾳信号処理
既存の発声機能
による⾳声・歌声
および聴取⾳
不随意的な挙動制御
⇒ 起こり得る挙動を保証
物理的制約
マルチモーダル
動作信号
意識的な挙動制御
⇒ 意図した挙動を実現
協⼒的動作の習得
(既存機能 + 機械学習) + インタラクション = 共創型機能拡張
= 従来型機能拡張
⼿法:共創型機能拡張
• 共創型発声機能・聴覚機能拡張技術の創出
概要:3
• マイルストーン
⽬標:具体的な応⽤技術の構築
障碍者・⾼齢者向け応⽤技術
• 発声・歌唱⽀援システム実⽤化
• 喉頭摘出者向け通話・歌唱
(カラオケ)⽤途
• 聴取⽀援システム実⽤化
• 分離機能付きワイヤレス型
補聴器
• プロトタイプシステム構築
• プロトタイプシステム構築
• 実現可能性の検証
5年後
3年後
発声・歌唱/聴覚機能の回復
• 表情豊かな発声・歌唱補助器
• 注⽬した⾳が聴ける補聴器
健常者向け応⽤技術
発声・歌唱/聴覚機能の増強
• 発声法習得や歌唱表現獲得
• 外国語⾳声の聞き取り⽀援
⾼精度な即時インタラクションを実現する基盤技術構築
⻑期インタラクションを活⽤する基盤技術構築
概要:4
研究体制
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
概要:5
具体的な研究内容の例
研究例①:発声拡張G
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
発声拡張G:1
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
通常⾳声
もしくは
電気⾳声
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:2
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:3
通常⾳声
もしくは
電気⾳声
歌唱⽀援デモ
発声拡張G:4
楽器演奏動作を⽤いた歌唱⽀援システム
• 動作信号として楽器演奏を⽤いた喉頭摘出者の歌唱⽀援
• 電気式⼈⼯喉頭を⽤いた発声による歌唱の実現
• 楽器演奏動作による⾳⾼パターン(メロディー)制御の実現
• 低遅延リアルタイム深層変換による声質制御の実現
変換歌声
⾳⾼パターン
⾳⾼パターン
変換処理
MIDI⾳⾼パターン
楽器
演奏
電気
⾳声
共振特徴量
変換処理
電気⾳声
特徴量系列
学習データ
電気⾳声&通常歌声
低遅延リアルタイム
深層変換
変換歌声
特徴量系列
変換
歌声
波形⽣成
処理
動作信号
⾃然な声質
へと変換
歌声らしい⾳⾼
パターンへと変換
楽器演奏による
メロディー制御
発声拡張G:5
⾝体動作を⽤いた歌唱表現制御
• カラオケ版歌唱⽀援システム
• 伴奏にあわせて歌唱(MIDI⾳⾼パターンは決め打ち)
• 腕の動作を利⽤したビブラート制御 [インタラクション2021にて発表予定]
発声拡張G:6
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:7
通常⾳声
もしくは
電気⾳声
• 物理的⽣成過程を内包した操作性の⾼い統合型ニューラルボコーダ
制御性に優れた深層波形⽣成モデル
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
波形⽣成
⾳声波形
特徴量
ソースフィルタモデル
統合モデル
従来型ボコーダ
STRAIGHT,
WORLD,…
LPCNet,
GlotGAN,
GELP,…
NSF,… QPNet,
QPPWG,
…
WaveNet,
WaveRNN,
PWG,…
パラメトリック型 深層ネット型
⽬指すモデル
発声拡張G:8
Quasi-Periodic Parallel WaveGAN: QPPWG
• 準周期信号に特化したネットワーク構造の考案
• 基本周波数に応じてDilationサイズが動的に変化する畳み込み層
• ⾮⾃⼰回帰型ニューラルボコーダParallel WaveGAN[Yamamoto; 2020]に導⼊
雑⾳波形
F0適応型
Dilated CNNs
固定型
Dilated CNNs
⾳声波形
発声拡張G:9
ネットワーク構造の⽐較
適応型
固定型
固定型
適応型
固定型
発声拡張G:10
発声拡張G:11
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
VCC2020のまとめ
(IEEE SLTトーク)
https://bit.ly/2M1mC5p
通常⾳声
もしくは
電気⾳声
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
研究例②:聴覚拡張G
聴覚拡張G:1
基盤技術:多チャンネルブラインド⾳源分離
• ⾳源モデルに合致するように分離⾏列を推定:最適化問題
分離⾳2
分離⾳1
混合⾳
分離
⾏列
W
⾳源モデル
⾳源モデル
• 分離⾏列の⾼速更新 (アルゴリズム)
• ⾳源モデルの精緻化
が重要
聴覚拡張G:2
低遅延リアルタイム4ch⾳源分離
4ch mic
⾳源分離:OFF
⾳源分離:ON
分離⾳1
分離⾳2
分離⾳3
分離⾳4
4話者が同時発話,4chマイクとノートPCでリアルタイム⾳源
分離処理後の⾳をビデオカメラの⾳響トラックに⼊⼒して撮影
• 補聴器応⽤を⽬指してリオン株式会社と共同で研究開発
聴覚拡張G:3
分離⾏列の推定/適⽤の2パス実装
分離⾏列の推定は周波数領域
分離⾏列の適⽤は時間領域 (FIRフィルタ実装)
逆フーリエ変換+⾮因果成分除去
⇒ 因果的FIRフィルタ
聴覚拡張G:4
分離⾏列の⾼速推定
IP1アルゴリズム
⾏ベクトルを
1つずつ更新
⾏ベクトルを
2つずつ更新
IP2アルゴリズム
ISSアルゴリズム
⾏基本変形により
分離⾏列を更新
逆数演算のみ チューニングパラメータを含まず
⽬的関数の単調減少を保証
聴覚拡張G:5
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
研究例③:機械学習G
機械学習G:1
基盤技術:クロスモーダル⾳声・顔画像⽣成
声と顔にある相関を⼿がかりに、
(1)与えられた顔画像の印象に合った声質に⼊⼒⾳声を変換
(2)⼊⼒⾳声に合った印象の顔画像を⽣成
⼊⼒⾳声の声質を、
⼊⼒顔画像に合わせて変換する
(1)
⼊⼒⾳声のみから
話者の顔を予測する
(2)
どんな声
かな?
こんな顔かな?
機械学習G:2
⾳声変換例,顔画像予測例
• ⾳声変換
• 顔画像予測
+
+
+
機械学習G:3
モデル構成と学習⽅法
Time
Time
⾔語情報
容貌特徴
できるだけ⼀致
させる
声質特徴
抽出器
Channel ⼊⼒⾳声 変換⾳声
⾔語情報
抽出器
容貌特徴
抽出器
⾳声
合成器
⼊⼒顔画像
顔画像
⽣成器
声質特徴
5つのニューラルネットワークを同時学習
⾔語情報抽出器
容貌特徴抽出器
⾳声合成器
声質特徴抽出器
顔画像⽣成器
: ⼊⼒⾳声の発話内容に相当する情報𝐳を抽出
: ⼊⼒顔画像の容貌に相当する情報𝐜を抽出
: 発話内容𝐳と画像特徴𝐜から⾳声𝐱を⽣成
: ⾳声𝐱の声質特徴に相当する情報𝐜̂を抽出
: 声質特徴𝐜̂から顔画像𝐲を⽣成
⽣成顔画像
機械学習G:4
クロスモーダル⾳声表情制御
• 別のモダリティ(顔画像)を⽤いて⾳声表情を制御
⼊⼒⾳声 出⼒⾳声
⼊⼒画像
顔表情認識技術と⾳声変換技術を
組み合わせたクロスモーダル⾳声変換
機械学習G:5
まとめ
• ⽬的:⾝体的制約を超える共創型発声機能・聴覚機能拡張
• 将来展望
• 新たな研究分野の開拓
• 共創型データ駆動⽅式を⼀般化して,様々な⾝体機能の拡張に関する
研究課題を創出
• 即時インタラクションと⻑期インタラクションを経て無意識的制御を
習得する過程の解明
• 社会への貢献および科学技術イノベーションと新産業の創出
• 発声・歌唱/聴取⽀援技術の実⽤化による障碍者・⾼齢者のQoL向上
• 能⼒増強技術を活⽤した新たな⾳メディアコミュニケーションの創造
• ⾳メディアによる伝達情報および認知情報の拡⼤
• 技術の有効性および危険性に関する周知活動を通した社会的認知の形成,
および,社会的承認の獲得(⇒CREST⼭岸プロジェクトと深く関連)
(既存機能 + 機械学習) + インタラクション = 共創型機能拡張
おわりに
プロジェクトホームぺージ
https://www.toda.is.i.nagoya-u.ac.jp/CREST/index.html
構築したソフトウェア
を順次公開
付録

More Related Content

What's hot

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元NU_I_TODALAB
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法Shinnosuke Takamichi
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークNU_I_TODALAB
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現NU_I_TODALAB
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調Yuma Koizumi
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法NU_I_TODALAB
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?NU_I_TODALAB
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)Daichi Kitamura
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...Daichi Kitamura
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離NU_I_TODALAB
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法NU_I_TODALAB
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)Yuki Saito
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversionYuki Saito
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離Kitamura Laboratory
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...Daichi Kitamura
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法NU_I_TODALAB
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...Deep Learning JP
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 

What's hot (20)

時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元
 
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
リアルタイムDNN音声変換フィードバックによるキャラクタ性の獲得手法
 
End-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head DecoderネットワークEnd-to-End音声認識ためのMulti-Head Decoderネットワーク
End-to-End音声認識ためのMulti-Head Decoderネットワーク
 
音情報処理における特徴表現
音情報処理における特徴表現音情報処理における特徴表現
音情報処理における特徴表現
 
深層学習を利用した音声強調
深層学習を利用した音声強調深層学習を利用した音声強調
深層学習を利用した音声強調
 
喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法喉頭摘出者のための歌唱支援を目指した電気音声変換法
喉頭摘出者のための歌唱支援を目指した電気音声変換法
 
Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?Recent progress on voice conversion: What is next?
Recent progress on voice conversion: What is next?
 
音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)音源分離における音響モデリング(Acoustic modeling in audio source separation)
音源分離における音響モデリング(Acoustic modeling in audio source separation)
 
Kameoka2017 ieice03
Kameoka2017 ieice03Kameoka2017 ieice03
Kameoka2017 ieice03
 
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
独立性に基づくブラインド音源分離の発展と独立低ランク行列分析 History of independence-based blind source sep...
 
信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離信号の独立性に基づく多チャンネル音源分離
信号の独立性に基づく多チャンネル音源分離
 
Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法Deep Neural Networkに基づく日常生活行動認識における適応手法
Deep Neural Networkに基づく日常生活行動認識における適応手法
 
GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)GAN-based statistical speech synthesis (in Japanese)
GAN-based statistical speech synthesis (in Japanese)
 
Neural text-to-speech and voice conversion
Neural text-to-speech and voice conversionNeural text-to-speech and voice conversion
Neural text-to-speech and voice conversion
 
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
調波打撃音分離の時間周波数マスクを用いた線形ブラインド音源分離
 
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
独立低ランク行列分析に基づく音源分離とその発展(Audio source separation based on independent low-rank...
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法
 
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...[DL輪読会]Diffusion-based Voice Conversion with Fast  Maximum Likelihood Samplin...
[DL輪読会]Diffusion-based Voice Conversion with Fast Maximum Likelihood Samplin...
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 

Similar to CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト

NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)真 岡本
 
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)Hironori Washizaki
 
地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料Yasuhisa Kondo
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21networkwan
 
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜KojiIshihara2
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01Shunsuke Kikuchi
 
河野ゼミ研究紹介20180702
河野ゼミ研究紹介20180702河野ゼミ研究紹介20180702
河野ゼミ研究紹介20180702義広 河野
 
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日Yoji Kiyota
 
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組みTakashi Okamoto
 
S3fire概要020112 it forum印刷用
S3fire概要020112 it forum印刷用S3fire概要020112 it forum印刷用
S3fire概要020112 it forum印刷用Yuriko Sawatani
 
OpenDataの利活用と日本における情報経済社会の推進
OpenDataの利活用と日本における情報経済社会の推進OpenDataの利活用と日本における情報経済社会の推進
OpenDataの利活用と日本における情報経済社会の推進Satoshi Iida
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化saireya _
 
20131213 itサービスに求められる人材像
20131213 itサービスに求められる人材像20131213 itサービスに求められる人材像
20131213 itサービスに求められる人材像jun_suto
 
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ー
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ーHCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ー
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ーRika Waida
 
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」kulibrarians
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)真 岡本
 

Similar to CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト (20)

NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)
 
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
社会やビジネスに新たな価値を生み出すソフトウェア工学 SE4BS(Software Engineering for Business and Society)
 
20130413m
20130413m20130413m
20130413m
 
地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料地球研「知の橋かけ」コアFS説明資料
地球研「知の橋かけ」コアFS説明資料
 
Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21Ezostyle WAN2010_02_21
Ezostyle WAN2010_02_21
 
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜
XR技術を使った市民参加型WSの開発 〜IT素人学生の目線で〜
 
菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01菊地の研究ポートフォリオ2019版 v1.01
菊地の研究ポートフォリオ2019版 v1.01
 
mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
河野ゼミ研究紹介20180702
河野ゼミ研究紹介20180702河野ゼミ研究紹介20180702
河野ゼミ研究紹介20180702
 
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
図書館総合展ネクスト主催フォーラム「アカデミックとリアルの谷を埋める道」基調講演 2011年11月11日
 
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み
最適化の視点から見た人工知能とSENSY社でのリサーチャー育成の取り組み
 
2013年度カリキュラムガイダンスver1.0
2013年度カリキュラムガイダンスver1.02013年度カリキュラムガイダンスver1.0
2013年度カリキュラムガイダンスver1.0
 
S3fire概要020112 it forum印刷用
S3fire概要020112 it forum印刷用S3fire概要020112 it forum印刷用
S3fire概要020112 it forum印刷用
 
OpenDataの利活用と日本における情報経済社会の推進
OpenDataの利活用と日本における情報経済社会の推進OpenDataの利活用と日本における情報経済社会の推進
OpenDataの利活用と日本における情報経済社会の推進
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化
 
20131213 itサービスに求められる人材像
20131213 itサービスに求められる人材像20131213 itサービスに求められる人材像
20131213 itサービスに求められる人材像
 
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ー
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ーHCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ー
HCD普及・啓発活動実践者のためのHCD入門講座雛形 ーβ版作成活動の報告ー
 
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」
20111209 ku-librarians勉強会 #142:「SDフォーラム参加報告:SDの視点から見た図書職員。又は図書系職員が見たSD」
 
Ipsj kansai(20100922)
Ipsj kansai(20100922)Ipsj kansai(20100922)
Ipsj kansai(20100922)
 
PBL as a Service
PBL as a ServicePBL as a Service
PBL as a Service
 

More from NU_I_TODALAB

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例NU_I_TODALAB
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022NU_I_TODALAB
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知NU_I_TODALAB
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...NU_I_TODALAB
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionNU_I_TODALAB
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingNU_I_TODALAB
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識NU_I_TODALAB
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法NU_I_TODALAB
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice ConversionNU_I_TODALAB
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice ConversionNU_I_TODALAB
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換NU_I_TODALAB
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...NU_I_TODALAB
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調NU_I_TODALAB
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離NU_I_TODALAB
 

More from NU_I_TODALAB (14)

異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例
異常音検知に対する深層学習適用事例
 
The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022The VoiceMOS Challenge 2022
The VoiceMOS Challenge 2022
 
距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知距離学習を導入した二値分類モデルによる異常音検知
距離学習を導入した二値分類モデルによる異常音検知
 
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
Investigation of Text-to-Speech based Synthetic Parallel Data for Sequence-to...
 
Weakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-AttentionWeakly-Supervised Sound Event Detection with Self-Attention
Weakly-Supervised Sound Event Detection with Self-Attention
 
Statistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modelingStatistical voice conversion with direct waveform modeling
Statistical voice conversion with direct waveform modeling
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法
 
Hands on Voice Conversion
Hands on Voice ConversionHands on Voice Conversion
Hands on Voice Conversion
 
Advanced Voice Conversion
Advanced Voice ConversionAdvanced Voice Conversion
Advanced Voice Conversion
 
CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換CTCに基づく音響イベントからの擬音語表現への変換
CTCに基づく音響イベントからの擬音語表現への変換
 
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
Missing Component Restoration for Masked Speech Signals based on Time-Domain ...
 
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
実環境下におけるサイレント音声通話の実現に向けた雑音環境変動に頑健な非可聴つぶやき強調
 
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
ケプストラム正則化NTFによるステレオチャネル楽曲音源分離
 

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト