名古屋⼤学 情報基盤センター
CREST「共⽣インタラクション」
共創型⾳メディア機能拡張プロジェクト
⼾⽥ 智基
2021年2⽉18⽇
共創型機能拡張 = 既存機能 + 機械学習 + インタラクション
本講演の内容
• プロジェクトの概要
• 何をどう解くのか?どこを⽬指すのか?
• 研究内容の例
• 具体的に何をやっているのか?
JST CREST「⼈間と情報環境の共⽣インタラクション基盤技術の
創出と展開」領域の研究課題「⾳メディアコミュニケーションに
おける共創型機能拡張技術の創出」(2019年10⽉〜2025年3⽉)
についてご紹介します.
研究代表者:⼾⽥ 智基 研究分担者:⼩野 順貴 研究分担者:⻲岡 弘和
はじめに
プロジェクト概要
意図
⾔語情報
パラ⾔語情報
⾳声信号
意図
⾔語情報
パラ⾔語情報
歪んだ
⾳声信号
発声機能 聴覚機能
⾝体器官を⽤いた機能を必要とするがゆえに
• 障害・衰弱が⽣じると代替しづらい…
• ⾝体器官の物理的制約により出来ることが限られる…
情報技術を活⽤して
• 残存する他機能を駆使して,衰弱・消失した機能を回復できないか?
• 現状の機能を拡張して,より⾃由な発声・歌唱,聴取はできないか?
何を話す?
どう話す?
空気振動の伝搬
聴覚器官
発声器官
問題:⾳メディアコミュニケーションの限界
概要:1
⽬的:⾝体機能を拡張する技術の創出
• 機械学習を活⽤した機能拡張
• 解くべき課題は?
• データ駆動型システムを⾝体器官の⼀部として使いこなせるか?
• システムの挙動を如何に把握するか?
• どのように解くか?
• インタラクションを活⽤したユーザとシステムの共働創出
即時インタラクション
による意識的制御と
⻑期インタラクション
による技術習得を経て
無意識的制御
の実現へ
通常出せない⾳声・歌声
&通常聞けない聴取⾳
低遅延リアルタイム
⾳声変換・⾳源分離
既存機能による
⾳声・歌声&聴取⾳
概要:2
システム挙動の即時フィードバック
⇒ インタラクションを通したデータ駆動型システムの挙動理解
意図した通りの
⾳声・歌声
および聴取⾳
低遅延リアルタイム
統計的⾳信号処理
既存の発声機能
による⾳声・歌声
および聴取⾳
不随意的な挙動制御
⇒ 起こり得る挙動を保証
物理的制約
マルチモーダル
動作信号
意識的な挙動制御
⇒ 意図した挙動を実現
協⼒的動作の習得
(既存機能 + 機械学習) + インタラクション = 共創型機能拡張
= 従来型機能拡張
⼿法:共創型機能拡張
• 共創型発声機能・聴覚機能拡張技術の創出
概要:3
• マイルストーン
⽬標:具体的な応⽤技術の構築
障碍者・⾼齢者向け応⽤技術
• 発声・歌唱⽀援システム実⽤化
• 喉頭摘出者向け通話・歌唱
(カラオケ)⽤途
• 聴取⽀援システム実⽤化
• 分離機能付きワイヤレス型
補聴器
• プロトタイプシステム構築
• プロトタイプシステム構築
• 実現可能性の検証
5年後
3年後
発声・歌唱/聴覚機能の回復
• 表情豊かな発声・歌唱補助器
• 注⽬した⾳が聴ける補聴器
健常者向け応⽤技術
発声・歌唱/聴覚機能の増強
• 発声法習得や歌唱表現獲得
• 外国語⾳声の聞き取り⽀援
⾼精度な即時インタラクションを実現する基盤技術構築
⻑期インタラクションを活⽤する基盤技術構築
概要:4
研究体制
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
概要:5
具体的な研究内容の例
研究例①:発声拡張G
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
発声拡張G:1
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
通常⾳声
もしくは
電気⾳声
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:2
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:3
通常⾳声
もしくは
電気⾳声
歌唱⽀援デモ
発声拡張G:4
楽器演奏動作を⽤いた歌唱⽀援システム
• 動作信号として楽器演奏を⽤いた喉頭摘出者の歌唱⽀援
• 電気式⼈⼯喉頭を⽤いた発声による歌唱の実現
• 楽器演奏動作による⾳⾼パターン(メロディー)制御の実現
• 低遅延リアルタイム深層変換による声質制御の実現
変換歌声
⾳⾼パターン
⾳⾼パターン
変換処理
MIDI⾳⾼パターン
楽器
演奏
電気
⾳声
共振特徴量
変換処理
電気⾳声
特徴量系列
学習データ
電気⾳声&通常歌声
低遅延リアルタイム
深層変換
変換歌声
特徴量系列
変換
歌声
波形⽣成
処理
動作信号
⾃然な声質
へと変換
歌声らしい⾳⾼
パターンへと変換
楽器演奏による
メロディー制御
発声拡張G:5
⾝体動作を⽤いた歌唱表現制御
• カラオケ版歌唱⽀援システム
• 伴奏にあわせて歌唱(MIDI⾳⾼パターンは決め打ち)
• 腕の動作を利⽤したビブラート制御 [インタラクション2021にて発表予定]
発声拡張G:6
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
発声拡張G:7
通常⾳声
もしくは
電気⾳声
• 物理的⽣成過程を内包した操作性の⾼い統合型ニューラルボコーダ
制御性に優れた深層波形⽣成モデル
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
共振付与
⾳源⽣成
⾳声波形
特徴量
波形⽣成
⾳声波形
特徴量
ソースフィルタモデル
統合モデル
従来型ボコーダ
STRAIGHT,
WORLD,…
LPCNet,
GlotGAN,
GELP,…
NSF,… QPNet,
QPPWG,
…
WaveNet,
WaveRNN,
PWG,…
パラメトリック型 深層ネット型
⽬指すモデル
発声拡張G:8
Quasi-Periodic Parallel WaveGAN: QPPWG
• 準周期信号に特化したネットワーク構造の考案
• 基本周波数に応じてDilationサイズが動的に変化する畳み込み層
• ⾮⾃⼰回帰型ニューラルボコーダParallel WaveGAN[Yamamoto; 2020]に導⼊
雑⾳波形
F0適応型
Dilated CNNs
固定型
Dilated CNNs
⾳声波形
発声拡張G:9
ネットワーク構造の⽐較
適応型
固定型
固定型
適応型
固定型
発声拡張G:10
発声拡張G:11
基盤技術:統計的⾳声変換
• 動作信号を活⽤した発声・歌唱機能拡張機能の実現
• 物理的制約を考慮した操作性の⾼い⾳声変換処理の実現
• ⾳声変換基盤技術の精度改善および低遅延リアルタイム処理の実現
所望の
⾳声・歌声
動作信号
楽器演奏
ボタン
操作
⾳源特性
深層変換
共振特性
深層変換
深層波形
⽣成
顔表情
⾝体動作
同時変換による
⾼精度化
操作性と
精度の両⽴
低遅延化・演算量削減
VCC2020のまとめ
(IEEE SLTトーク)
https://bit.ly/2M1mC5p
通常⾳声
もしくは
電気⾳声
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
研究例②:聴覚拡張G
聴覚拡張G:1
基盤技術:多チャンネルブラインド⾳源分離
• ⾳源モデルに合致するように分離⾏列を推定:最適化問題
分離⾳2
分離⾳1
混合⾳
分離
⾏列
W
⾳源モデル
⾳源モデル
• 分離⾏列の⾼速更新 (アルゴリズム)
• ⾳源モデルの精緻化
が重要
聴覚拡張G:2
低遅延リアルタイム4ch⾳源分離
4ch mic
⾳源分離:OFF
⾳源分離:ON
分離⾳1
分離⾳2
分離⾳3
分離⾳4
4話者が同時発話,4chマイクとノートPCでリアルタイム⾳源
分離処理後の⾳をビデオカメラの⾳響トラックに⼊⼒して撮影
• 補聴器応⽤を⽬指してリオン株式会社と共同で研究開発
聴覚拡張G:3
分離⾏列の推定/適⽤の2パス実装
分離⾏列の推定は周波数領域
分離⾏列の適⽤は時間領域 (FIRフィルタ実装)
逆フーリエ変換+⾮因果成分除去
⇒ 因果的FIRフィルタ
聴覚拡張G:4
分離⾏列の⾼速推定
IP1アルゴリズム
⾏ベクトルを
1つずつ更新
⾏ベクトルを
2つずつ更新
IP2アルゴリズム
ISSアルゴリズム
⾏基本変形により
分離⾏列を更新
逆数演算のみ チューニングパラメータを含まず
⽬的関数の単調減少を保証
聴覚拡張G:5
発声拡張G
(⼾⽥@名⼤)
聴覚拡張G
(⼩野)
機械学習G
(⻲岡)
低遅延⾳声変換
技術を軸とした
発声機能拡張に
関する研究
低遅延⾳源分離
技術を軸とした
聴覚機能拡張に
関する研究
マルチモーダル信号を
対象とした機械学習に
関する研究
研究例③:機械学習G
機械学習G:1
基盤技術:クロスモーダル⾳声・顔画像⽣成
声と顔にある相関を⼿がかりに、
(1)与えられた顔画像の印象に合った声質に⼊⼒⾳声を変換
(2)⼊⼒⾳声に合った印象の顔画像を⽣成
⼊⼒⾳声の声質を、
⼊⼒顔画像に合わせて変換する
(1)
⼊⼒⾳声のみから
話者の顔を予測する
(2)
どんな声
かな?
こんな顔かな?
機械学習G:2
⾳声変換例,顔画像予測例
• ⾳声変換
• 顔画像予測
+
+
+
機械学習G:3
モデル構成と学習⽅法
Time
Time
⾔語情報
容貌特徴
できるだけ⼀致
させる
声質特徴
抽出器
Channel ⼊⼒⾳声 変換⾳声
⾔語情報
抽出器
容貌特徴
抽出器
⾳声
合成器
⼊⼒顔画像
顔画像
⽣成器
声質特徴
5つのニューラルネットワークを同時学習
⾔語情報抽出器
容貌特徴抽出器
⾳声合成器
声質特徴抽出器
顔画像⽣成器
: ⼊⼒⾳声の発話内容に相当する情報𝐳を抽出
: ⼊⼒顔画像の容貌に相当する情報𝐜を抽出
: 発話内容𝐳と画像特徴𝐜から⾳声𝐱を⽣成
: ⾳声𝐱の声質特徴に相当する情報𝐜̂を抽出
: 声質特徴𝐜̂から顔画像𝐲を⽣成
⽣成顔画像
機械学習G:4
クロスモーダル⾳声表情制御
• 別のモダリティ(顔画像)を⽤いて⾳声表情を制御
⼊⼒⾳声 出⼒⾳声
⼊⼒画像
顔表情認識技術と⾳声変換技術を
組み合わせたクロスモーダル⾳声変換
機械学習G:5
まとめ
• ⽬的:⾝体的制約を超える共創型発声機能・聴覚機能拡張
• 将来展望
• 新たな研究分野の開拓
• 共創型データ駆動⽅式を⼀般化して,様々な⾝体機能の拡張に関する
研究課題を創出
• 即時インタラクションと⻑期インタラクションを経て無意識的制御を
習得する過程の解明
• 社会への貢献および科学技術イノベーションと新産業の創出
• 発声・歌唱/聴取⽀援技術の実⽤化による障碍者・⾼齢者のQoL向上
• 能⼒増強技術を活⽤した新たな⾳メディアコミュニケーションの創造
• ⾳メディアによる伝達情報および認知情報の拡⼤
• 技術の有効性および危険性に関する周知活動を通した社会的認知の形成,
および,社会的承認の獲得(⇒CREST⼭岸プロジェクトと深く関連)
(既存機能 + 機械学習) + インタラクション = 共創型機能拡張
おわりに
プロジェクトホームぺージ
https://www.toda.is.i.nagoya-u.ac.jp/CREST/index.html
構築したソフトウェア
を順次公開
付録

CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト