虛擬歌手打造經驗分享
徵音梅林
ㄓ ˊ
By MGdesigner
徵音梅林開發委員會執行委員
Shoichi.chou@gmail.com
07/20/2014 COSCUP 中研院
講者
● MGdesigner
● 本名 張正一
● 年齡:永遠 20 歲
● 徵音梅林開發委員會執行委員
● 中華民國維基媒體協會理事
● Ukuman 學院教學總監
● Ukuman 企業社執行副總
DEMO 表演者介紹
● 影像互動藝術: Yens ,作品嘗試多樣媒材與主
題,其中以實驗聲響為目前主要創作,包括
audio-visual 並製作一些聲音裝置。
● 樂手 - 巴西之吻爵士樂團的主唱羅竺、 BASS 手
弧菌, ps. 爵士相...
前情提要
我們在作啥 - 虛擬歌手
是的最有名的就是 Vocaloid 引擎
(代表音源:初音未來)
聽歌~
自肥一下 XD
免費的有日本 Utau
(代表音源:重音 Teto )
聽歌~
中國袅袅虛擬歌手
(約 Utau 技術層次)
http://www.yuyinniaoniao.com/
聽歌~
嗯~裊裊 ...
我們的東西呢?
聽一聽比較
未來跟梅林 “ Akihabara”
(都沒有後製)
歌聲合成品質可相提並論,
只差自動 pitch bend 的實作
(表情參數方面,徵求小天使 ~ )
如何達成這個成就?
分享我們的經(ㄒ一ㄝ ˇ )驗(ㄌㄟ ˋ )
與
當前成果
從程式技術談起
徵音梅林專案核心
● 日本森勢将雅教授的 EFB-GW 引擎
● 續上, open source&patent free
● 相容 UTAU 資料庫規格( oto.ini ) + 自己的改造
EFB-GW (GPL 新版 BSD)
● 任何聲音的音色,非單一頻率,而是多重頻率
● 人聲最重要的 F0 (基頻)用取樣機技術,升降音會被破壞
越高音、低音越不太對勁
●
取樣機技術也就是播放 wav 把音升 key 降 key 不變曲速
...
但是
森勢教授的引擎雖好,但需要針對 Utau 的規格相
容性作修正 + 連續音處理
EFB-GW PL 版( Paul Liu 改造)
也有別的 EFB-GW 變造版 ..but 那些日本傢伙沒
opensource....
單獨音與連續音技術差異
單獨音的組合
經過 30 年多研究,都不
自然,非常機器音
連續音的組合
可以很自然的接合
BA RA
BA a RA
混音運算
歸納:虛擬歌手歌聲逼真的兩大關鍵
● 音高上上下下調變時,波型不破壞
● 歌詞咬字相接時,發音過渡階段自然沒有機器
接合感
演唱旋律編輯器 JCadencii
● C#porting
● 處理 Utau 連續音參數有問題
● Cadencii 官方上游某版後停止對 Java 的 porting
我們的 C# 顧問 ENOMOTO ATSUSHI ( mono 開
發者之一) :
Cadencii 用了太多 windows native code 無法從
mono 端解決
崩潰 .... 得自己 fork 了 ... 徵求 JAVA 勇士
Paul 寫了 xvsqexec 的前導程式
Xvsqexec
JCadencii
EFB-GW-pl WAVtool-pl
歌曲 .xvsq
調變音高、參數等 每個音符組合
歌聲 .WAV
xvsqexec 特殊功能
● IPA based ( oto.ini 略改)
● 連續音可以像 Vocaloid 那樣自動判斷
● Vocaloid 輸入音符: あ , き , ば
● UTAU 連續音輸入音符:あ ,a き , I ば
資料的基礎 1
格式規劃
IPA 為基底
● 跟 Utau 不同,不只做日語
● 我們目前做了華語、日語、將來也許會有台、客
語(徵求幫手!!)
● 需要可以描述一切語言發音
● 不同語言有類似發音,可以重複利用
● 縮小需要錄音範圍
需要錄的音
● 要錄總共有 3600 的音檔
● 有真連續音跟單獨音
● 不是原先的 4000 多
錄音工程實務
● 初音未來當初錄音, 490 多個聲波檔,約 4 小時
錄完
● 所以平均一小時可以錄 122 個音檔
● 梅林日語加華語共 3600wav 拼 7X4=28 小時,
拼一天多就錄完?
人家是人月神話
我們是人日神話
當然不可能
● 聲優需要休息
● 錄音師( me 等)也需要休息
聲優的工作量
● 唱歌也是一種「運動」涉及數個肌肉群精準控制
● 要長時間穩定的控制音(ㄇㄥ ˊ )色(ㄉㄨ ˋ )
● 維持聲音品質 - 清晰度、無異音(口水聲)
● 如果一天連續工作八小時 .... 好比今天第一軌到
最後一軌都是我不停的在講
會有職業傷害 ...
摸索出自己的 sop
● 紙本紀錄
● 錄完一次馬上播放檢視
● 盡可能正副錄音師審核品質有問題馬上重錄
● 錄 50 分休 10 分左右
● 每天只錄 4~6 小時
錄音的數據
● 每個錄音檔有短有長
● 長的也有分簡單的跟考驗你繞口令能力的
● 最慢每小時 52 檔,最快 198 個檔案
難的檔案範例
請挑戰看看 3 秒唸完,而且音要發完整 :)
不然每天快馬加鞭超越極限
迎戰這些 ...
鐵定
恢復疲勞,消除活力。
為了兼顧正確性、聲優健康
● 雙倍錄音
1.由前往後錄
2.由後往前錄
● 多天分攤
人生就是有個 but..
● 華語區很大部份太在意咬字的正確性
● 一開始缺乏經驗,發音速度太慢、音音間隔太長
● 只適合做低於 BPM100 含以下的曲子
● 反正本來就要錄第二遍
● 好在日語發音較簡單 + 最後錄音觀念修正
● 高拍速曲沒問題
● 今天示範曲 Autumn Leaves.................... Field
是 160BPM
資料庫的編輯進度?
本來 3/15 初辦了第一次梅醬日
組織編輯兵團 but.....
● 照片
318 30 秒事件 ....
風起雲湧 ...
大家都很關心國家,請自行腦內補完 XD
大家四散了 .... 原本人工先做華語的進度裹足不前
好在
自動化 oto.ini 分析製作工具
● Ben Lau+ Chao Yuan
● 除了以前提到的三種
偵測演算法加上頻率
頻譜分析
Oto.ini 人工製作策略改變
● 先改作日語區( 492 多檔)
● 比較快達成成就!
● 餵給 oto.ini 分析自動產生器
線上 oto.ini 編輯器(芬達做)
線上編輯器展望
● tag 標線( offset 、子音部、母音區、先行發
聲、 overlap 等等)
● wiki 式團體協作 - 不懂 git 也可以團體協作
● 自動化工具線上輔助
徵求
● Packager (目前即使 Linux也還不夠方便)
● Cadencii fork + xvsqexec 接合
● 自動滑音
● 歌唱表情參數實作( Parameter) -pitch bend 、氣音控制、鼻音、力道
( att...
下一次梅醬日
請追蹤我們官網的BLOG訊息發布
或者
我本人的Plurk
Q&A time
謝謝大家
虛擬歌手打造經驗分享
虛擬歌手打造經驗分享
虛擬歌手打造經驗分享
虛擬歌手打造經驗分享
虛擬歌手打造經驗分享
Upcoming SlideShare
Loading in …5
×

虛擬歌手打造經驗分享

910 views

Published on

打造開源虛擬歌手徵音梅林的經驗分享,從技術到錄音工程都涵蓋

Published in: Engineering
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
910
On SlideShare
0
From Embeds
0
Number of Embeds
21
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

虛擬歌手打造經驗分享

  1. 1. 虛擬歌手打造經驗分享 徵音梅林 ㄓ ˊ By MGdesigner 徵音梅林開發委員會執行委員 Shoichi.chou@gmail.com 07/20/2014 COSCUP 中研院
  2. 2. 講者 ● MGdesigner ● 本名 張正一 ● 年齡:永遠 20 歲 ● 徵音梅林開發委員會執行委員 ● 中華民國維基媒體協會理事 ● Ukuman 學院教學總監 ● Ukuman 企業社執行副總
  3. 3. DEMO 表演者介紹 ● 影像互動藝術: Yens ,作品嘗試多樣媒材與主 題,其中以實驗聲響為目前主要創作,包括 audio-visual 並製作一些聲音裝置。 ● 樂手 - 巴西之吻爵士樂團的主唱羅竺、 BASS 手 弧菌, ps. 爵士相當於音樂界的理工科 .. 重理性 ● 羅竺也是徵音梅林的聲優 ● 工商服務:巴西之吻8/30四週年音樂會
  4. 4. 前情提要 我們在作啥 - 虛擬歌手
  5. 5. 是的最有名的就是 Vocaloid 引擎 (代表音源:初音未來)
  6. 6. 聽歌~ 自肥一下 XD
  7. 7. 免費的有日本 Utau (代表音源:重音 Teto )
  8. 8. 聽歌~
  9. 9. 中國袅袅虛擬歌手 (約 Utau 技術層次) http://www.yuyinniaoniao.com/
  10. 10. 聽歌~
  11. 11. 嗯~裊裊 ...
  12. 12. 我們的東西呢?
  13. 13. 聽一聽比較 未來跟梅林 “ Akihabara” (都沒有後製)
  14. 14. 歌聲合成品質可相提並論, 只差自動 pitch bend 的實作 (表情參數方面,徵求小天使 ~ )
  15. 15. 如何達成這個成就?
  16. 16. 分享我們的經(ㄒ一ㄝ ˇ )驗(ㄌㄟ ˋ ) 與 當前成果
  17. 17. 從程式技術談起
  18. 18. 徵音梅林專案核心 ● 日本森勢将雅教授的 EFB-GW 引擎 ● 續上, open source&patent free ● 相容 UTAU 資料庫規格( oto.ini ) + 自己的改造
  19. 19. EFB-GW (GPL 新版 BSD) ● 任何聲音的音色,非單一頻率,而是多重頻率 ● 人聲最重要的 F0 (基頻)用取樣機技術,升降音會被破壞 越高音、低音越不太對勁 ● 取樣機技術也就是播放 wav 把音升 key 降 key 不變曲速 ● 承上,會在失真容許限度內,分別取樣不同音高八度 ● 承上,樂器取樣機,可以(樂器就一種波形),但歌聲無法 ● F0 基頻不失真調變 - 傅立葉轉換 ● EFB-GW 引擎的演算法 World(比 Vocaloid2 更優)
  20. 20. 但是 森勢教授的引擎雖好,但需要針對 Utau 的規格相 容性作修正 + 連續音處理 EFB-GW PL 版( Paul Liu 改造) 也有別的 EFB-GW 變造版 ..but 那些日本傢伙沒 opensource....
  21. 21. 單獨音與連續音技術差異 單獨音的組合 經過 30 年多研究,都不 自然,非常機器音 連續音的組合 可以很自然的接合 BA RA BA a RA 混音運算
  22. 22. 歸納:虛擬歌手歌聲逼真的兩大關鍵 ● 音高上上下下調變時,波型不破壞 ● 歌詞咬字相接時,發音過渡階段自然沒有機器 接合感
  23. 23. 演唱旋律編輯器 JCadencii
  24. 24. ● C#porting ● 處理 Utau 連續音參數有問題 ● Cadencii 官方上游某版後停止對 Java 的 porting
  25. 25. 我們的 C# 顧問 ENOMOTO ATSUSHI ( mono 開 發者之一) : Cadencii 用了太多 windows native code 無法從 mono 端解決 崩潰 .... 得自己 fork 了 ... 徵求 JAVA 勇士
  26. 26. Paul 寫了 xvsqexec 的前導程式 Xvsqexec JCadencii EFB-GW-pl WAVtool-pl 歌曲 .xvsq 調變音高、參數等 每個音符組合 歌聲 .WAV
  27. 27. xvsqexec 特殊功能 ● IPA based ( oto.ini 略改) ● 連續音可以像 Vocaloid 那樣自動判斷 ● Vocaloid 輸入音符: あ , き , ば ● UTAU 連續音輸入音符:あ ,a き , I ば
  28. 28. 資料的基礎 1 格式規劃
  29. 29. IPA 為基底 ● 跟 Utau 不同,不只做日語 ● 我們目前做了華語、日語、將來也許會有台、客 語(徵求幫手!!) ● 需要可以描述一切語言發音 ● 不同語言有類似發音,可以重複利用 ● 縮小需要錄音範圍
  30. 30. 需要錄的音 ● 要錄總共有 3600 的音檔 ● 有真連續音跟單獨音 ● 不是原先的 4000 多
  31. 31. 錄音工程實務 ● 初音未來當初錄音, 490 多個聲波檔,約 4 小時 錄完 ● 所以平均一小時可以錄 122 個音檔 ● 梅林日語加華語共 3600wav 拼 7X4=28 小時, 拼一天多就錄完?
  32. 32. 人家是人月神話 我們是人日神話
  33. 33. 當然不可能 ● 聲優需要休息 ● 錄音師( me 等)也需要休息
  34. 34. 聲優的工作量 ● 唱歌也是一種「運動」涉及數個肌肉群精準控制 ● 要長時間穩定的控制音(ㄇㄥ ˊ )色(ㄉㄨ ˋ ) ● 維持聲音品質 - 清晰度、無異音(口水聲) ● 如果一天連續工作八小時 .... 好比今天第一軌到 最後一軌都是我不停的在講
  35. 35. 會有職業傷害 ...
  36. 36. 摸索出自己的 sop ● 紙本紀錄 ● 錄完一次馬上播放檢視 ● 盡可能正副錄音師審核品質有問題馬上重錄 ● 錄 50 分休 10 分左右 ● 每天只錄 4~6 小時
  37. 37. 錄音的數據 ● 每個錄音檔有短有長 ● 長的也有分簡單的跟考驗你繞口令能力的 ● 最慢每小時 52 檔,最快 198 個檔案
  38. 38. 難的檔案範例 請挑戰看看 3 秒唸完,而且音要發完整 :)
  39. 39. 不然每天快馬加鞭超越極限 迎戰這些 ...
  40. 40. 鐵定 恢復疲勞,消除活力。
  41. 41. 為了兼顧正確性、聲優健康 ● 雙倍錄音 1.由前往後錄 2.由後往前錄 ● 多天分攤
  42. 42. 人生就是有個 but.. ● 華語區很大部份太在意咬字的正確性 ● 一開始缺乏經驗,發音速度太慢、音音間隔太長 ● 只適合做低於 BPM100 含以下的曲子
  43. 43. ● 反正本來就要錄第二遍 ● 好在日語發音較簡單 + 最後錄音觀念修正 ● 高拍速曲沒問題 ● 今天示範曲 Autumn Leaves.................... Field 是 160BPM
  44. 44. 資料庫的編輯進度?
  45. 45. 本來 3/15 初辦了第一次梅醬日 組織編輯兵團 but..... ● 照片
  46. 46. 318 30 秒事件 ....
  47. 47. 風起雲湧 ... 大家都很關心國家,請自行腦內補完 XD
  48. 48. 大家四散了 .... 原本人工先做華語的進度裹足不前
  49. 49. 好在
  50. 50. 自動化 oto.ini 分析製作工具 ● Ben Lau+ Chao Yuan ● 除了以前提到的三種 偵測演算法加上頻率 頻譜分析
  51. 51. Oto.ini 人工製作策略改變 ● 先改作日語區( 492 多檔) ● 比較快達成成就! ● 餵給 oto.ini 分析自動產生器
  52. 52. 線上 oto.ini 編輯器(芬達做)
  53. 53. 線上編輯器展望 ● tag 標線( offset 、子音部、母音區、先行發 聲、 overlap 等等) ● wiki 式團體協作 - 不懂 git 也可以團體協作 ● 自動化工具線上輔助
  54. 54. 徵求 ● Packager (目前即使 Linux也還不夠方便) ● Cadencii fork + xvsqexec 接合 ● 自動滑音 ● 歌唱表情參數實作( Parameter) -pitch bend 、氣音控制、鼻音、力道 ( attack)、動態、空氣感 ● IPA能者 ● 台語專業人士 ● 3d modeler 、MMD ● maker(唱歌機器人) ● SD doll ? Smart doll ? ● Artist and musician
  55. 55. 下一次梅醬日 請追蹤我們官網的BLOG訊息發布 或者 我本人的Plurk
  56. 56. Q&A time 謝謝大家

×