SlideShare a Scribd company logo
1 of 27
Download to read offline
ROCALOID
中国発のオープンソース歌声合成
@ejiwarp
自己紹介
Eji Warp (@ejiwarp)
● 07年からボカロ入りですが聴き専
● 最近「台湾長期出張」というキャラとなっています
● KEI「初音みっくす」台湾語版訳者
中国の歌声合成現状(1)
● 学界での研究はもちろんありますけれど、商業化せず
● 初音ミクのブレイク以降、見様見真似の売り出しが数点
→裊裊など
→中国人は自尊心だけ高いので不評
中国の歌声合成現状(2)
YAMAHA中国参入
→当地企業と連携でVOCALOID CHINA立ち上げ
→ただ初期目指すのは初音ミクのコピーだけ(と明言)
→当地企業の内情が混乱(ネットの暴露話以上にひどい)
→VOCALOID CHINAは2014年4月で撤退、VOCANESEへ
→事実上焼け野原状態。
中国の歌声合成現状(問題点)
● クリエイターは多数だが、ほぼプロ志向、もしくはすでにプロ
が多い(投稿ヤラセ疑惑)
● MIDI市場大きいが、アマチュア少ないゆえ思ったより受け
皿が浅い
● 経済的改善でコンテンツ消費者が多いけど、版権観念相変
わらず悪い
(一部は海賊版を買って日本企業損失させるのが中国国益につながる論理めちゃくちゃ)
● なんかいいところがない?
でも
● クリプトンは地道的クリエイターとコラボなどやり続ける
● UTAU中華組は有能(後述)
● 複数の歌声合成技術が今後立ち上げ(MUTA=嫣夕など)
(*:今後はこちらが話題になるはず)
● ROCALOID (本題)
ROCALOIDとは
● www.rocaloid.org & https://github.com/rocaloid
● 作者:华侃如さん(Hua Kanru、HN:SleepWalking)
● プログラム好きの中学生(当初、これから大学)
● 最初のモチベーションはボカロ好きの気になる女の子へいいところを見せるため
「とにかく初音ミクを中国語歌わせたい」(*:現音声提供者)
● 最近では学会で見ら論文を独自性加えて改変、実装して統合するなど、実装能
力が高い
ROCALOID1
● 切り貼り合成を独学で作り上げ
CVE=CyberVoice Engine
(VB.net使用)
● VOCALOIDの音声を吸い出しして再合成(クロ)
● 2011年土豆網で投稿、中国語「夕日坂」
● 7回もやり直し(中に6、7回投稿)
● アルゴリズムに限界があると感じて2012/10コード凍結
● ここまで一年以上
ROCALOID2
● 2012/12 CVE 書き直す
「Rocaloid Renaissance」
● 2013/1 二代目初音ミク中国語ライブラリー作成
Praat(http://praat.org)導入以外、独自ツールが多数
(UTAUのツールに不満が集う、後述)
● フォルマント操作など導入、切り貼りから脱却
ROCALOID2(cont.)
● 2013/3 CVE 書き直す二回目
FECSOLA(Formant Envelope Coefficient Shift and OverLap Add)
● 2013/4 吸い出し変換ツール、ライブラリー作成ツールなど
(日本語音声を中国語へ整形)
● 2013/5 二代目ライブラリー完成
● 大きく改善したがまだまだ程遠い、Githubへ公開
https://github.com/Sleepwalking/Rocaloid-old/
ROCALOID3へ
ここまで三年の月日
● 2013/7 まじめに信号合成を勉強、論文読み
● 2013/9 第三世代CVE3
● 独自汎用合成器化
特定ライブラリー(ミクさん)に依存しない。
(=そもそも版権問題がネック)
● 2013/12 CVE3完成、独自ライブラリーCHAN完成
● 一部大きく改善も、一部は前世代より劣化、CVE3.5着手
ROCALOID3(cont.)
● SMS、HNM、EpR導入
● 「LC-FECSOLA」
Linear Combination - Formant Envelope Components Shift and OverLap Add
● Xavier Serra先生の論文を参考したため、かなり
VOCALOID本家っぽい構造
● ライブラリーの多言語対応を重視
単独音だけ録音して、繋ぎをモーフィングとフォルマント遷移
で合成(複数言語だけではなく、アマチュア録音では長くと品質確保出来ないゆえ単独音も有利)
ROCALOID3(cont.2)
● 30%まで完成ですでに2万行コード
● 全体規模が大きいすぎるので、独自エディタの
完成前にUTAUに寄生
● RUCE(ROCALOIDのUTAU互換エンジン)
RUCE
● WAVではなく事前に合成しやすい形式でライブラリーを保
存
● WAVはあくまでUTAUのUI互換用で合成時使用しない
● resamplerも専用
● 音域は極めて広い、いじってもあまり破綻しない
● ノイズも少ない(=平滑化が激しい)
● 本家ボカロっぽい声に
RUCE合成比較デモ
再生出来ないからGoogle Driveで置きました
RUCEが誘発した問題
UTAU中華組へ協力を呼びかける時
● UTAUを無理やりあわせてるため性能制限と自称
● よく論文を根拠してUTAUの設計を扱ぎおろし言動が多数
「車輪作りのやり直しにしないように」
● UTAU中華組に協力を呼びかけるところ「これからの
ROCALOIDは技術的よい」と繰り返し
● UTAU中華組:「協力ところか喧嘩売ってきたわけ?」
RUCEが誘発した問題(2)
● 説明によってROCALOIDはmakefileで自動音源作成が可
能
● 作成環境のダウンロードが必要
● 作成者の作成手順をmakefileに記録、録音したoggに添附
して配信。
(新しいバージョンは録音し直さない限り、バグなどは一部変更した箇所の手順だけ配信するが可能)
● ある意味UTAUのDLL音源以上に高機能
● だが、(ROCALOID開発側が自称)「大学界隈のやり方」の
押し売りも
RUCEが誘発した問題(3)
● Parrtでスクリプト作成できると後処理がより簡単に
● よく英語資料を読む、既存フレームワークの使用
● かなり学会よりの思考(=調教否定論)
→以上がUTAUの音源作成者のモチベーションの否定
→効率とか正しいとか、UTAU中華組側を音源提供以上のことを思わない
→技術上の利点がむしろ喧嘩の起爆点
→結局UTAU界隈以外へ求む
→やりたい人はまずUTAUからやってるから、ほかは様子見だけ
→現状停滞
RUCEが誘発した問題(4)
● UTAU中華組が有能(重要)
UTAU中華組一部ではVOCALOID CHINAのいさごさに巻
き込まれたことあるため闘争に強い
● Praatへ移行する利点感じられません。
学習し直すほうが苦痛
● UTAUの独自ツールチェインが否定される
「大きなお世話よ!」
● 真っ向喧嘩まで発展(2014年10月頃)
三行まとめ
ROCALOID:「おれがかんがえたさいきょうのボカ
ロができたぞ」
「大学のみなさんはこうしてるだからお前らも学べ」
UTAU:「なにそれ聞きに耐えないモノだけど本気
言ってるの?」
RUCEからROCALOID3へ
● 現状ではRUCEは広がらない
● 独自エディターの作成を継続
問題点と今後の展望(1)
● 今までにない「まじめにVOCALOIDをパクる」
ある意味貴重な存在。コミュニティとの対話に問題あり。
● そこを直せば英語界隈、海外では歓迎される気がします
UTAUより「海外で求められてるモノ(無料にフリーなVOCALOID)」
に近い
問題点と今後の展望(2)
● 企業にとってVOCALOID、UTAU以外の選択肢になり得る
UTAU音源を宣伝目的として作成する企業にとっては上位のオルタナティブ
Eカプセル(夏語遙)はROCALOID採用検討中
追記:VOCALOIDとの比較(1)
● 作者によるアルゴリズム&実装比較
● ライブラリー版権部分の議論は割愛、Daisy
Synthesis Engine(VOCALOIDエンジン名、
Daisyプロジェクトの名残、以下DSE)に集中
● ROCALOIDの合成系は(前述通り)CVEと略称
追記:VOCALOIDとの比較(2)
合成系
1. ROCALOID3からは周波数領域操作なのでVOCALOID本家とは似ています。
(*:UTAUは現時点全部時間領域操作)
2. CVEのフォルマント操作はLO-FECSOLAというアルゴリズム、DSEはEpRソー
スフィルターでノンリニア伸縮操作を行う
3. CVEは周期同期するが、DSEは周期同期せず、Phase Vocoderに似ている。
4. 合成変調について、CVEはサンプリングしてからスペクトル包絡を近似する。
DSEは周波数領域へ変換してからサンプリングして位相差を調整する。
追記:VOCALOIDとの比較(3)
ライブラリーについて
● VOCALOIDのDDBにオリジナル波形、スペクトル特徴とパラメータを保存する。
● ROCALOID CDVBはオリジナル波形、周期特徴、フォルマントパラメータ、
ROCALOIDの辞典ファイルには音源特徴、音素組み合わせと5個発音記号対
応層を実装。
追記:VOCALOIDとの比較(4)
● VOCALOIDのVSQ/VSQXはMIDIと楽理ベースの記録に
発音特徴を描く
● ROCALOIDのRVSは楽理を合わせた保存せず、CVSは特
定音源に対して発音記号の繋ぎを最小単位で発音特徴を
描述
● ROCALOIDは独自のCVEDSP、VOCALOIDはIntel MKL
をライセンスして使用。

More Related Content

What's hot

グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門Masaya Dake
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)Trainocate Japan, Ltd.
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveTokoroten Nakayama
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例Tetsutaro Watanabe
 
Cloud Foundryで学ぶ、PaaSのしくみ講座
Cloud Foundryで学ぶ、PaaSのしくみ講座Cloud Foundryで学ぶ、PaaSのしくみ講座
Cloud Foundryで学ぶ、PaaSのしくみ講座Kazuto Kusama
 
インフラCICDの勘所
インフラCICDの勘所インフラCICDの勘所
インフラCICDの勘所Toru Makabe
 
Aws amplify studioが変えるフロントエンド開発の未来とは v2
Aws amplify studioが変えるフロントエンド開発の未来とは v2Aws amplify studioが変えるフロントエンド開発の未来とは v2
Aws amplify studioが変えるフロントエンド開発の未来とは v2Koitabashi Yoshitaka
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告Yuki Saito
 
TypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングTypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングkoji kobayashi
 
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタはじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタSatoyuki Tsukano
 
ドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したことドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したことBIGLOBE Inc.
 
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya MoritaInsight Technology, Inc.
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」Recruit Technologies
 
関数型プログラミングのデザインパターンひとめぐり
関数型プログラミングのデザインパターンひとめぐり関数型プログラミングのデザインパターンひとめぐり
関数型プログラミングのデザインパターンひとめぐりKazuyuki TAKASE
 
スイッチ・ルータのしくみ
スイッチ・ルータのしくみスイッチ・ルータのしくみ
スイッチ・ルータのしくみogatay
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audioDeep Learning JP
 
ドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDDドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDD増田 亨
 
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータ
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータU-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータ
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータTakatoshi Kakimoto
 

What's hot (20)

松尾研のご紹介
松尾研のご紹介松尾研のご紹介
松尾研のご紹介
 
グラフデータベース入門
グラフデータベース入門グラフデータベース入門
グラフデータベース入門
 
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
AWSとオンプレミスを繋ぐときに知っておきたいルーティングの基礎知識(CCSI監修!)
 
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
pgvectorを使ってChatGPTとPostgreSQLを連携してみよう!(PostgreSQL Conference Japan 2023 発表資料)
 
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLiveDXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
DXとかDevOpsとかのなんかいい感じのやつ 富士通TechLive
 
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
 
Cloud Foundryで学ぶ、PaaSのしくみ講座
Cloud Foundryで学ぶ、PaaSのしくみ講座Cloud Foundryで学ぶ、PaaSのしくみ講座
Cloud Foundryで学ぶ、PaaSのしくみ講座
 
インフラCICDの勘所
インフラCICDの勘所インフラCICDの勘所
インフラCICDの勘所
 
Aws amplify studioが変えるフロントエンド開発の未来とは v2
Aws amplify studioが変えるフロントエンド開発の未来とは v2Aws amplify studioが変えるフロントエンド開発の未来とは v2
Aws amplify studioが変えるフロントエンド開発の未来とは v2
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
TypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングTypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミング
 
はじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタはじめてのElasticsearchクラスタ
はじめてのElasticsearchクラスタ
 
ドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したことドメイン駆動設計 失敗したことと成功したこと
ドメイン駆動設計 失敗したことと成功したこと
 
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
[B31] LOGMinerってレプリケーションソフトで使われているけどどうなってる? by Toshiya Morita
 
リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」リクルートのWebサービスを支える「RAFTEL」
リクルートのWebサービスを支える「RAFTEL」
 
関数型プログラミングのデザインパターンひとめぐり
関数型プログラミングのデザインパターンひとめぐり関数型プログラミングのデザインパターンひとめぐり
関数型プログラミングのデザインパターンひとめぐり
 
スイッチ・ルータのしくみ
スイッチ・ルータのしくみスイッチ・ルータのしくみ
スイッチ・ルータのしくみ
 
[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio[DL輪読会]Wavenet a generative model for raw audio
[DL輪読会]Wavenet a generative model for raw audio
 
ドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDDドメイン駆動設計 の 実践 Part3 DDD
ドメイン駆動設計 の 実践 Part3 DDD
 
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータ
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータU-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータ
U-NEXTの動画配信ログ収集・分析、レコメンドエンジンを支えるトレジャーデータ
 

ROCALOID ~中国発のオープンソース歌声合成~