SlideShare a Scribd company logo
1 of 16
Download to read offline
Ì-Thuân Kho-ki Iú-hān Kong-si Hâm
意傳科技有限公司 函
統一編號:58020378
聯絡人 kah 電話:蔡文莉 0911-913916
地址:51041 彰化縣員林市和平里中正路 543 巷 3 號
Email: a8568730@gmail.com
24219 Sin-pak-tshī Sin-tsng-khu Tiong-pênn-lōo 439 Hō Lâm-tòng 14 Lâu
24219 新北市新莊區中平路 439 號南棟 14 樓
Siū-bûn-tsiá(受文者):
文化部人文及出版司國家語言發展科
Huat-bûn sî-kan(發文時間):
2018 Nî 年 8 Gu hee 月 29 J tie日
Huat-bûn jī-hō(發文字號):
03 號
Tsú-tsí(主旨):
107 年度貴部推行語言多樣性友善環境補助作業補助的「臺灣媠聲 2.0」
計劃 計畫書變更申請 kah 實施計畫書前後對照版,請查照。
Suat-bîng(說明):
一、經與語言學專家討論過後,為讓本套語音合成系統更能仿擬一般人
生活用語與習性,擬增加句法標記共計 2000 句。
二、 因應未來新技術的發展,增加錄音時間。故相關錄音費、錄音室場
地費、音控費以及剪輯費之天數增加。
三、因此特別提出此變更案,希望能照以上這兩方向調整。詳細請參見
「計畫書變更申請書」kah「實施計畫書前後對照版」。
(意傳科技有限公司)推行 文化部推行語言多樣性友善環境補助作業 實施計畫書
一、 計畫名稱:
臺灣媠聲 2.0
二、 目 的:
近年來華語逐漸成為強勢語言,也使得華語語音服務普及化,像是火車、客運等運輸業者的廣播、
公共場所的提醒聲、或是大型活動的展場資訊,如此巨量的服務需求也加速成熟了華語語音合成技術。
但相較於華語,本土母語的語音服務以及相關語音技術開發則寥寥無幾,然而各家單位要招募或是任聘
短期的專業語音服務人才並不容易,此時語音合成就是個簡便省力的方式,藉由電腦程式將輸入的文字
自動轉換並輸出語音檔,提高產出的效率。同時也希望由臺語語音合成拋磚引玉,提昇公共場域或交通
運輸上的臺語語音普及度。
臺灣媠聲 2.0 是臺灣媠聲的優化版,推廣臺語、幫助語言學習的開源臺語語音合成計劃。電腦語音
合成是由程式將文字變成聲音,比起傳統錄音方式更為輕鬆省力,使語音應用也更為彈性。根據國家語
言發展法草案第十條說明,政府機關應提供「播音」等公共服務,像是各類機關的導覽、服務說明,就
能用語音合成,讓每個人的母語都能在公共場所出現,推廣母語更有可行性。
語言合成也能用在教材、有聲書等語言輔助學習,儘管目前市面上已有許多文字教材,但少有新穎
詞彙的參考資料,此時語音合成便可輔助開發設計數位多媒體教材,更加豐富多媒體情境的學習需求。
目前臺灣媠聲已經用在許多開源的公益專案,像是 iTaigi、台語兒、鬥拍字、寫啥物、傷倚矣。臺灣媠
聲當初因為僅一人開發,在苦無相關人力資源的協助下,未能完善全部功能,以致於影響語音的效果。
於此,為了增強社會上的母語語音能聽度,以及豐富資訊界對臺語語音合成的開源技術,希望藉由
這次的機會推出更完善的臺灣媠聲 2.0,讓臺語語音合成的聲音能更正確、更自然,增加臺語在公共場
所的能見度,達到語言平等的目標並回饋社會大眾。
三、 辦理期程:
工作月份 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 執行月數 對應章節
招募撰稿者 1
準備詞性、句法標
注語料
2 五(一)1
實作初步詞性、句
法對應系統
2 五(一)2
實作詞性、句法標
注人機介面
4 五(一)3
標注語料詞性、句
法
4 五(一)4
整合詞性、句法系 2 五(一)5
統
準備口語調語料 1 五(一)6
實作口語調標記人
機介面
1 五(一)7
人工標注口語調標
記
2 五(一)8
實作變調系統 2 五(一)9
詩文讀寫工作坊切
音、標注羅馬字
1 五(二)1
設計錄音文稿 3 五(二)2
錄語料 3 五(二)3
語料口語調標注 2 五(二)4
訓練語音合成模型 2 五(三)1
系統整合 1 五(三)2
相關資料公開發表 2 五(四)
四、 計畫內容:
臺灣媠聲是推廣台語、幫助語言學習的開源台語語音合成系統,將文字變成聲音,比起傳統錄音方
式更為輕鬆省力,使語音應用也更為彈性。語音合成系統也能結合網路服務,提供各機關團體使用。本
計劃推出臺灣媠聲 2.0,提昇整體語音服務品質。
圖一、提供網路服務,供各專案以及各種機關服務導覽使用
目前臺灣媠聲已經用在許多開源的公益專案,像是 iTaigi(圖二)、傷倚矣(圖三)、台語兒、鬥拍
字、寫啥物。其中 iTaigi 是月瀏覽量高達 11 萬以上的線上大眾臺語辭典,利用臺灣媠聲取得即時的語
音合成資料,不論詞彙、例句新舊都能播放出來,同時利於一般民眾透過聲音學習臺語讀寫。
圖二、iTaigi 自動產生語音
圖三、傷倚矣做影片
一套完整的臺語語音合成服務,需要充分善加利用臺語的語言特性,因此臺灣媠聲原團隊針對前一
版缺漏的臺語語音特性,撰寫更完善的變調系統和語音合成系統,整合出優化版的臺灣媠聲 2.0(圖四)。
圖四、臺灣媠聲 2.0 運作流程
我們將會:
1. 變調規則加強
2. 語音合成系統補足必要語音
3. 模型訓練整合
4. 相關資料公開發表
完成後,除了將臺灣媠聲 2.0 提供給既已使用臺灣媠聲的公益專案以外,計劃中所撰寫的程式皆以
CPAL 或 MIT 公開授權,語料及數學模型以 CC BY-SA 公開。
五、 實施方法:
(一)、變調規則加強
電腦能夠唸台語之前,得讓電腦先學會台語文怎麼唸。台語文的唸法是指平時說話發出的口語調,
而非書寫習慣的本調。以「火」舉例,火車、煙火的「火」是一樣的書寫拼音,但是用唸的就可發現聲
調不同。說話時,每個字根據其所在位置而適時改變聲調,形成一套巧妙的變調規則。
臺灣媠聲 2.0 計劃以楊允言老師「台語口語調系統實作研究」為基礎,實作出一套完整且穩定的台語
語句的變調系統。該研究提出 20 條口語調規則,其中有6條牽涉到詞性,。而「第五節 相關討論 kah 未
來改進方向」中的口語調錯誤原因(c)也有提到詞類歧異的問題,例如「研究」可以是動詞、也可以是名
詞。錯誤原因(h)明確指出口語調與句法有關。錯誤原因(c), (h)可以利用句法結構的分析器,來判斷該
詞是否變調。因此變調系統有兩個關鍵:詞性句法系統和變調規則分析器(圖五)。
圖五、變調系統運作流程
1. 準備詞性、句法標注語料
從團隊現有的開放語料庫當中,尋取 10,0002,000 句文字語料作為詞性語料庫的基礎。
2. 實作輔助人工初步詞性、句法對應系統
在沒有現成的臺語詞性標注工具之下,將參考句型相似且發展成熟的華語詞性工具,作為臺語詞性的
標注參考,將第一步準備好的臺語翻譯成華語,再標注華語的詞性,最後再用華語詞的詞性對應回去臺
語詞。
3. 實作輔助人工詞性、句法標注人機介面
台語詞性、句法需要人工標注過,所以需要設計一個人機介面,方便檢查。因為臺語有漢字、羅馬字
等兩種主流書寫法,若要標注詞性,並不適合以一般文書軟體編輯。一來程式難以解析,二來有錯誤無
法即時偵測。為了能更有效率校對臺語詞性、句法,需要撰寫一個網站介面,迅速完成目標。
4. 標注語料詞性、句法
聘請臺語文專業人士,使用第 3 步的人機介面,配合第 2 步的輔助工具,逐詞編纂第 1 步語料庫
10,0002,000 句的詞性句法。詞性將參考採用 CKIP 的分類原理,然而 CKIP 詞性是以華語為目標設計的,
並不一定完全適合臺語,因此必須調整詞性分類,建構出一套適合臺語的詞性分類。句法則參考 Chinese
PennTree 的結構,以「我 喜歡 豬」示意:
ROOT
|
IP
___|____
| VP
| ____|___
NP | NP
| | |
PN VV NN
| | |
我 喜歡 豬
5. 整合詞性、句法系統
在完成詞性標注後,我們可以用詞性語料庫,經過機器學習的技術,訓練出一個臺語詞性句法系統
(圖六)。
圖六、詞性句法系統取得流程
6. 準備口語調語料
從團隊現有的開放語料庫當中,尋取 2,000 句文字語料作為口語調語料庫的基礎。一般語料只有漢字
和本調臺羅,並未有口語調語料。需要尋找包含口語調資料的語料庫,挑選適合的 2,000 句臺語語料,
並準備用其口語調,自動判斷每一字的變調類型。
變調類型將採用「臺語口語調系統實作研究」的分類標準,分別為規則變調、本調、隨前變調、輕聲、
再變調、仔前變調、三連音變調、升調等八種。
7. 實作口語調標記人機介面
第 6 步的變調類型需要人工標注,確保資料的正確性。而臺語有漢字、羅馬字等兩種主流書寫法,若
要標注變調類型,並不適合以一般文書軟體編輯。一來程式難以解析,二來有打字錯誤無法即時偵測。
為了能更有效率標注口語調,需要撰寫一個網站介面,迅速完成目標。
8. 人工標注口語調標記
變調規則非常複雜,無法隨時用人工檢查系統錯誤。口語調標記的目的是用來自動追蹤變調系統的完
成度,因此正確度相當重要。而口語調語料的自動判斷變調,仍然需要人工標注,確保語料正確性。
我們將用第 7 步的人機介面,標注第 6 步準備的 2,000 句台語語句。口語調的標記是可以重覆利用的
資產,只要有標記,就可以實作出效果一樣的程式。因此口語調的標記一旦完成,往後若有別的計劃,
這個標記就是大家的基石。
9. 實作變調規則分析器
在臺語口語調系統實作研究中,標注 1,576 個音節約 158 句口語調標記,而觀察出 20 條變調規則,
正確率可高達 89%。臺灣媠聲 2.0 完成 20 條變調規則(註 1)後,我們將利用第 8 步標注的 2,000 句語口
語調標記,進行觀察,會再針對不足的地方加強變調規則分析器,接近可商用的水準。(圖七)
註 1. 在原本臺灣媠聲中,實作了臺語口語調系統實作 20 條中的 10 條(第 1、2、3、11、12、13、14、17、18、20 條),
其中臺灣媠聲 2.0 要實作的第 4、5、6、7、8、9 條與詞性相關,第 10、15、16、19 條則是各別詞的例外處理。
圖七、變調規則分析器取得流程
(二)、語音合成系統補足必要語音
圖八、語音合成系統取得流程
語音合成(圖八)需要同一個發音人的聲音。目前團隊擁有的開放語料當中,質量最佳的莫過於王秀
容老師的教育部閩南語辭典 18726 詞,以及在新北市一零四學年度九百例句工作坊裡 150 句錄音。因此將
以擴增王秀容老師(教育部閩南語辭典發音人)的語音為目標,蒐集王秀容老師的新北市一零三年詩文
讀寫工作坊的 5 篇錄音,參考 LJ Speech Dataset 及 Google Tacotron-2 的語料庫規模,並額外錄
製 224 小時的語音。
1. 詩文讀寫工作坊切音、標注羅馬字
新北市一零三年詩文讀寫工作坊裡有 5 篇王秀容老師的詩文錄音,3 篇童謠的錄音。將選用無背景音
樂的 5 篇詩文錄音,總計約略 28 分半。由於訓練語音合成的語音需要以句為單位,會將原本整篇的音檔
切做約略 540 句的音檔。而詩文語料有提供臺語漢字,仍然需要標注羅馬字,供程式訓練數學模型。
2. 設計錄音文稿
預計以「教育部 106 年委託辦理閩南語詞彙進階分級工作計畫」收集的公開語料為基礎,挑選錄音
文稿。並針對目前語音合成的結果進行分析,找出目前的弱點例如較罕見的第九調聲調,長句語音,並
設計相對應的文稿 200 句,讓發音人補足對應的語料。若以錄製 2 小時的新語料為目標,以一句 10 字 3
秒計算,需要除此之外,為了因應文體多元,除了以上來源之外,將額外準備 2400 句語句。
3. 錄語料
邀請王秀容老師前來錄音,場地以大學語言相關系所錄音室為優先以減少花費,並聘請音控人員協助
錄音。語音錄製後,請專業切音人士剪輯成一句一句的音檔。
4. 語料口語調標注
由撰稿者人工逐句標注變調標記,確保語音合成的語音品質。
因些需要將全部語料的變調標記標注過一次,包含教育部辭典 18726 詞、例句工作坊 150 句、詩文
讀寫 5 篇、新錄音 2400 句等語料。以詞性標注、口語調標記兩個半自動人工介面來進行,維持工作效率,
並確保資料格式完整。
(三)、模型訓練整合
目前使用 HTS(HMM-based speech synthesis system)語音合成工具。原理是將聲音分析成頻譜參數,
分門別類到口語標記 p, ph, b,… 各種音素上。在使用時,再將頻譜參數轉換成語音訊號。
1. 訓練語音合成模型
將語料轉換成 HTS 格式,並經由統計、機器學習等過程,取得語音合成的數學模型。彙整教育部辭
典、例句工作坊、詩文讀寫、新錄制的語料並統一資料格式之後,再利用原先臺灣媠聲的程式,轉換成
HTS 格式,並經由統計、機器學習等過程,取得語音合成的數學模型。
2. 系統整合
整合原先臺灣媠聲的程式,變調系統以及新版的語音合成數學模型到網路主機上,並維持穩定運作。
為了減輕網路主機成本以及讓服務更穩定,將選擇租賃網路虛擬主機。
最後,上線檢驗並測試在 iTaigi 和其他網站上能正常運作,確保服務穩定性。本計劃也會完全開放
此語音合成的網路服務,提供給有需要的專案。
(四)、相關資料公開發表
在網路上公開發表程式、語料,以及妥善整理過後的詞類分類原則、詞類句法標記語句、口語調標注
和實作方法。這些都是可重覆利用的成果,也期盼做為他人日後技術發展的參考。
六、 經費概算:(說明計畫總經費、自籌經費、申請補助經費)
以下以句為單位,一句以 10 字計算
項目 單價 數量說明 數量 金額 說明
工程師工作費 300250 每月 172 小時*11 月 1892
567,600
473,000
工作項目:五(一)1-3,5-7,9、五(二)1、
五(三)1-2、五(四)。
諮詢出席費 2000 25 人次 25 50,000
單價參考「中央政府各機關學校出席費及稿
費支給要點」
詞性標注 16.3 10000 句 2000 句
10000
2000
163,000
32,600
工作項目:五(一)4。單價參考「中央政府
各機關學校稿費支給基準數額表」特別稿件
撰稿費用
句法標注 50 2000 句 2000 100,000 工作項目:五(一)4。
變調標記標注 10 2000 句 2000 20,000
工作項目:五(一)8。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
詩文讀寫切音、
標注羅馬字 10 540 句 540 5,400
工作項目:五(二)1。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
設計錄音稿 10 2400 句 2400 24,000
工作項目:五(二)2。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
發音人錄音費 2000 4 工作天 14 工作天 414
8,00028
,000
工作項目:五(二)3。不含事先準備
錄音室場地費 2000 4 工作天 14 工作天 414
8,00028
,000
工作項目:五(二)3。優先找大學語言相關
系所錄音室,酌估場地費
音控費 2000 4 工作天 14 工作天 414
8,00028
,000
工作項目:五(二)3。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
音檔剪輯費 2000 4 工作天 14 工作天 414
8,00028
,000
工作項目:五(二)3。每個音檔需後製處理,
分句剪輯。
語料口語調標
注-自行設計
10 2400 句 2600 句 24002
600
24,0002
6,000
工作項目:五(二)4。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
項目 單價 數量說明 數量 金額 說明
200 句及額外
2400 句新語
料
撰稿費用
語料口語調標
注-教育部辭
典
1 18726 詞 18726 18,726
工作項目:五(二)4。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
語料口語調標
注-例句工作
坊
10 150 句 150 1,500
工作項目:五(二)4。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
語料口語調標
注-詩文讀寫
10 540 句 540 5,400
工作項目:五(二)4。單價參考「中央政府
各機關學校稿費支給基準數額表」一般稿件
撰稿費用
虛擬主機費 630788 11 個月 11
6,9308,
668
工作項目:五(三)2。linode 虛擬主機,每
月 20 美金,含國稅局海外扣繳 20%。
總計
868,556
874,214
• 總經費:868,556 874,214
• 自籌經費:568,556 574,214
• 申請補助:300,000
除了工程師工作費為經常性支出外,補助經費將用於:諮詢出席費、詞性標注、句法標注、變調規則
標注、詩文讀寫切音標注羅馬字、設計錄音稿、發音人錄音費、錄音室場地費、音控費、音檔剪輯費、
語料口語調標注、虛擬主機費。
七、 人力編制:(說明人力配置運用方式)
工作項目說明參考第五節實施方法的內容,不在此贅述。
人力 工作項目說明
工程師 五(一)1-3,5-7,9、五(二)1、五(三)1-2、五(四)
標注稿費 五(一)4,8、五(二)1, 2, 4
發音人錄音費 五(二)3
音檔剪輯 五(二)3
八、 預期效益:(對語言多樣性友善環境推動之正面影響)
臺灣媠聲 工研院 Cyberon TTS 臺灣媠聲 2.0
文字轉語音
Web 服務
賽微文字轉語音
Web 服務
(本計劃預定目標)
支援輸入教育部臺語
漢字
O 部份支援(註 1) X O
支援輸入教育部羅馬
字
O X 部份支援(註 2) O
支援輸入白話字 O O X O
支援輸入漢羅 O O X O
支援輸入連字符 O X O O
支援空白斷開羅馬字 O O X O
華語詞翻譯 X (註 3) O O X (註 3)
變調規則實作數量 10 (註 4) 5 (註 5) 2 (註 6) 20 (註 7)
支援第九調高升調 X X X O
開源程式 O X X O
開放語料 O X X O
開放模型 O X X O
附註
1. 支援:佇、佗。無支援:佮。
2. 不支援正式版,只支援數字版。
3. 考慮語言學習用途,避免臺語華語互相影響,華語翻譯以另一計劃處理。
4. 以臺語口語調系統實作研究的 20 條來看,第 1、2、3、11、12、13、14、17、18、20 條。
5. 以臺語口語調系統實作研究的 20 條來看,第 1、2、3、11、14 條規則。
6. 以臺語口語調系統實作研究的 20 條來看,第 1、2 條規則。
7. 將實作的第 4、5、6、7、8、9 條與詞性相關,第 10、15、16、19 條則是各別詞的例外處理。
(一)、 對社會之貢獻
所有目前合作的公益專案,都將能取得優化後的語音合成資料。iTaigi 截止 2017/10/29 總共收錄了
60996 詞(去掉同音詞)及 13836 條例句,其中高達 96.45%的詞彙及 100%的例句皆使用臺灣媠聲網路服
務,將獲得更優良清晰的合成語音品質。每月至少 11 萬瀏覽量將因為臺灣媠聲 2.0 的推出而受惠。
公共播音服務只需要藉由網路連線至臺灣媠聲 2.0,就能快速取得任意合成語音。紐西蘭的毛利語復
振成果舉世聞名,背後成功的關鍵在於翻轉毛利語在毛利人自己心中的地位,甚至改變各界對毛利語的
想法、肯定毛利語。當臺語使用者在公共場合廣泛地聽見自己的母語,「原來我的母語可以在公共場所
被聽見」、「原來我們這麼潮,電腦也會說母語」,社會肯定的力量更是一種心靈支持。
(二)、對研究之貢獻
本計劃所產生的語料,皆以 CC BY-SA 的方式公開授權。因此錄音檔、標注詞性句法及變調語料,
皆能供他人重覆利用。不要花費重覆的資源在同一件事上,讓資源能更有效率的利用。CC BY-SA 授權
項目條列如下:
1. 詞性句法標注結果 10,0002,000 句
2. 變調標注 2000 句
3. 教育部辭典 18726 詞變調規則
4. 例句工作坊 150 句變調規則
5. 詩文讀寫 5 篇切音結果
6. 詩文讀寫 5 篇羅馬字
7. 詩文讀寫 5 篇變調規則
8. 新錄音 2400 句 24 小時語音
9. 新錄音自行設計 200 句及額外 2400 句錄音文稿
10. 新錄音自行設計 200 句及額外 2400 句變調規則
11. 詞性句法標注模型
12. 語音合成模型
(三)、對資訊社群之貢獻
近年來開源程式的風氣逐漸茁壯,為了響應開源程式,本計劃所實作的程式,皆以 CPAL 或 MIT 授
權,促進開源社群風氣,讓資訊技術進步更加快速。授權項目條列如下(註 1):
1. 初步詞性對應系統
2. 詞性標注人機介面
3. 詞性系統
4. 口語調標記人機介面
5. 語音合成服務
註 1. 以本團隊撰寫的部份為主。若有整合到第三方工具或函式庫,該部份以其原始授權為主。
(四)、對其他母語之貢獻
1. 客語
客語和臺語同樣是漢語語系的一支,若往後要精進客語的語音合成,可以直接共享本計劃的成果。因
此,標注詞性及口語調的工作流程是相同的,像是工作內容中的實作初步詞性對應程式、實作詞性標注
人機介面、實作詞性系統、實作口語調標記人機介面、實作變調系統,皆是可以直接拿來使用的成果。
2. 族語
台灣有豐富的民族與語言,這些文化也極需要資訊技術的幫忙。不同族語的重音規則也不同,有些重
音會因為詞性不同,而出現在不同的音節。因此詞性的的初步標注、和介面仍然是一個可以再利用的資
源。
九、 檢附文件:(其他有關本計畫之補充說明文件)
(一)、臺灣媠聲開源程式碼
https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/wiki
(二)、本團隊語言合成服務
1. 鬥拍字-臺語語音合成:https://鬥拍字.意傳.台灣/
2. 手� -客語語音合成:https:// 手� .意傳.台灣
3. lamal-阿美語語音合成:https://lamal.意傳.台灣/
4. puniq-泰雅語語音合成:https://puniq.意傳.台灣/
5. sapuz-布農語語音合成:https://sapuz.意傳.台灣/
6. hapoy-賽夏語語音合成:https://hapoy.意傳.台灣/
(三)、使用本團隊語音合成服務的專案:
1. iTaigi:https://itaigi.tw
2. 台語兒:https://baconbao.github.io/TaiwaneseWizard/
3. 阿美語萌典:https://amis.moedict.tw/
(意傳科技有限公司)推行 文化部推行語言多樣性友善環境補助作業 計畫書變更申請
一、變更緣由:
本計畫案的主要目的是台語的語音合成,這半年經過語言學背景專家諮詢,有兩個方向需要調整:
1. 處理詞類歧異的問題
計畫以楊允言老師「台語口語調系統實作研究」的研究為基礎,而「第五節 相關討論 kah 未來改
進方向」中的口語調錯誤原因(c), (h)與句法有關,經諮詢後,專家建議增加句法標記。
因此為了處理詞類歧異的問題、加強變調規則的預則,將增加句法標記,並在預算的考量下,減
少詞性標記的數量。
2. 因應新技術的發展,調整錄音量
Google 團隊在 2017 年 12 月提出新 Deep learning 深度學習的技術 Tacotron-2[1],效果和傳統
語音技術大幅增日,逼近真人人聲,剛好今年(2018 年)陸續有許多 Open source 的專案[2][3]
實作 Tacotron-2。
因此台語用 Tacotron-2 新技術是可能的,為了配合未來新技術的需求以及語料永續利用的可能,
我們將計劃變更部份的預算到錄音項目,減少文字語料的處理數量。計畫仍會以 HTS(HMM-based
Speech Synthesis System)傳統技術為主,並呈現現階段 Tacotron-2 新技術的效果。
因此特別提出此變更案,希望能照這兩方向調整。
二、變更細項:
工作項目 內容
五(一) 增加句法標記。
五(一)1 減少詞性標記數量,從 10000 句調整成 2000 句。
五(一)2 增加句法標記。
五(一)3 增加句法標記。
五(一)4 增加句法標記,並減少數量,從 10000 句調整成
2000 句
五(一)5 增加句法標記。
五(二) 新錄音資料,錄音時間從 2 小時,調整至 24 小時
五(二)2 增補錄音文稿來源:教育部 106 年委託辦理閩南語
詞彙進階分級工作計畫
五(二)4 改以電腦半自動的方式處理
三、預算變更
項目 內容 調整前金額 調整後金額 原因
工程師工作費 單價從 300 調整至
250
567,600 473,000 配合總預算調整
諮詢出席費 新增諮詢出席費 0 50,000 諮詢,以便訂定詞
性句法標記原則
詞性標注 數量從 10000 句調
整成 2000 句
163,000 32,600 配合句法標注及錄
音時間,調整數量
句法標注 新增句法標注 0 100,000 變調規則與句法有
關
發音人錄音費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24
小時
錄音室場地費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24
小時
音控費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24
小時
音檔剪輯費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24
小時
語料口語調標注-自
行設計 200 句及額
外 2400 句新語料
設定範圍為「自行
設計 200 句及額外
2400 句新語料」,
增加 200 句
24,000 26,000 因應新增「教育部
106 年委託辦理閩
南語詞彙進階分級
工作計畫」錄音文
稿,故指定標記範
圍
虛擬主機費 每月單價從 630 調
整至 788
6,930 8,668 配合國稅局海外扣
繳 20%費用
預算總額 868556 885294
[1] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang,
Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis
Agiomyrgiannakis, Yonghui Wu
(Submitted on 16 Dec 2017 (v1), last revised 16 Feb 2018 (this version, v2))
[2] https://github.com/Rayhane-mamah/Tacotron-2
[3] https://github.com/NVIDIA/tacotron2

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

文化部推行語言多樣性友善環境補助案 107年度 臺灣媠聲 2.0 變更計劃書

  • 1. Ì-Thuân Kho-ki Iú-hān Kong-si Hâm 意傳科技有限公司 函 統一編號:58020378 聯絡人 kah 電話:蔡文莉 0911-913916 地址:51041 彰化縣員林市和平里中正路 543 巷 3 號 Email: a8568730@gmail.com 24219 Sin-pak-tshī Sin-tsng-khu Tiong-pênn-lōo 439 Hō Lâm-tòng 14 Lâu 24219 新北市新莊區中平路 439 號南棟 14 樓 Siū-bûn-tsiá(受文者): 文化部人文及出版司國家語言發展科 Huat-bûn sî-kan(發文時間): 2018 Nî 年 8 Gu hee 月 29 J tie日 Huat-bûn jī-hō(發文字號): 03 號 Tsú-tsí(主旨): 107 年度貴部推行語言多樣性友善環境補助作業補助的「臺灣媠聲 2.0」 計劃 計畫書變更申請 kah 實施計畫書前後對照版,請查照。 Suat-bîng(說明): 一、經與語言學專家討論過後,為讓本套語音合成系統更能仿擬一般人 生活用語與習性,擬增加句法標記共計 2000 句。 二、 因應未來新技術的發展,增加錄音時間。故相關錄音費、錄音室場 地費、音控費以及剪輯費之天數增加。 三、因此特別提出此變更案,希望能照以上這兩方向調整。詳細請參見 「計畫書變更申請書」kah「實施計畫書前後對照版」。
  • 2. (意傳科技有限公司)推行 文化部推行語言多樣性友善環境補助作業 實施計畫書 一、 計畫名稱: 臺灣媠聲 2.0 二、 目 的: 近年來華語逐漸成為強勢語言,也使得華語語音服務普及化,像是火車、客運等運輸業者的廣播、 公共場所的提醒聲、或是大型活動的展場資訊,如此巨量的服務需求也加速成熟了華語語音合成技術。 但相較於華語,本土母語的語音服務以及相關語音技術開發則寥寥無幾,然而各家單位要招募或是任聘 短期的專業語音服務人才並不容易,此時語音合成就是個簡便省力的方式,藉由電腦程式將輸入的文字 自動轉換並輸出語音檔,提高產出的效率。同時也希望由臺語語音合成拋磚引玉,提昇公共場域或交通 運輸上的臺語語音普及度。 臺灣媠聲 2.0 是臺灣媠聲的優化版,推廣臺語、幫助語言學習的開源臺語語音合成計劃。電腦語音 合成是由程式將文字變成聲音,比起傳統錄音方式更為輕鬆省力,使語音應用也更為彈性。根據國家語 言發展法草案第十條說明,政府機關應提供「播音」等公共服務,像是各類機關的導覽、服務說明,就 能用語音合成,讓每個人的母語都能在公共場所出現,推廣母語更有可行性。 語言合成也能用在教材、有聲書等語言輔助學習,儘管目前市面上已有許多文字教材,但少有新穎 詞彙的參考資料,此時語音合成便可輔助開發設計數位多媒體教材,更加豐富多媒體情境的學習需求。 目前臺灣媠聲已經用在許多開源的公益專案,像是 iTaigi、台語兒、鬥拍字、寫啥物、傷倚矣。臺灣媠 聲當初因為僅一人開發,在苦無相關人力資源的協助下,未能完善全部功能,以致於影響語音的效果。 於此,為了增強社會上的母語語音能聽度,以及豐富資訊界對臺語語音合成的開源技術,希望藉由 這次的機會推出更完善的臺灣媠聲 2.0,讓臺語語音合成的聲音能更正確、更自然,增加臺語在公共場 所的能見度,達到語言平等的目標並回饋社會大眾。 三、 辦理期程: 工作月份 1 月 2 月 3 月 4 月 5 月 6 月 7 月 8 月 9 月 10 月 11 月 執行月數 對應章節 招募撰稿者 1 準備詞性、句法標 注語料 2 五(一)1 實作初步詞性、句 法對應系統 2 五(一)2 實作詞性、句法標 注人機介面 4 五(一)3 標注語料詞性、句 法 4 五(一)4 整合詞性、句法系 2 五(一)5
  • 3. 統 準備口語調語料 1 五(一)6 實作口語調標記人 機介面 1 五(一)7 人工標注口語調標 記 2 五(一)8 實作變調系統 2 五(一)9 詩文讀寫工作坊切 音、標注羅馬字 1 五(二)1 設計錄音文稿 3 五(二)2 錄語料 3 五(二)3 語料口語調標注 2 五(二)4 訓練語音合成模型 2 五(三)1 系統整合 1 五(三)2 相關資料公開發表 2 五(四) 四、 計畫內容: 臺灣媠聲是推廣台語、幫助語言學習的開源台語語音合成系統,將文字變成聲音,比起傳統錄音方 式更為輕鬆省力,使語音應用也更為彈性。語音合成系統也能結合網路服務,提供各機關團體使用。本 計劃推出臺灣媠聲 2.0,提昇整體語音服務品質。 圖一、提供網路服務,供各專案以及各種機關服務導覽使用
  • 4. 目前臺灣媠聲已經用在許多開源的公益專案,像是 iTaigi(圖二)、傷倚矣(圖三)、台語兒、鬥拍 字、寫啥物。其中 iTaigi 是月瀏覽量高達 11 萬以上的線上大眾臺語辭典,利用臺灣媠聲取得即時的語 音合成資料,不論詞彙、例句新舊都能播放出來,同時利於一般民眾透過聲音學習臺語讀寫。 圖二、iTaigi 自動產生語音
  • 5. 圖三、傷倚矣做影片 一套完整的臺語語音合成服務,需要充分善加利用臺語的語言特性,因此臺灣媠聲原團隊針對前一 版缺漏的臺語語音特性,撰寫更完善的變調系統和語音合成系統,整合出優化版的臺灣媠聲 2.0(圖四)。 圖四、臺灣媠聲 2.0 運作流程 我們將會: 1. 變調規則加強 2. 語音合成系統補足必要語音 3. 模型訓練整合 4. 相關資料公開發表 完成後,除了將臺灣媠聲 2.0 提供給既已使用臺灣媠聲的公益專案以外,計劃中所撰寫的程式皆以 CPAL 或 MIT 公開授權,語料及數學模型以 CC BY-SA 公開。 五、 實施方法: (一)、變調規則加強 電腦能夠唸台語之前,得讓電腦先學會台語文怎麼唸。台語文的唸法是指平時說話發出的口語調, 而非書寫習慣的本調。以「火」舉例,火車、煙火的「火」是一樣的書寫拼音,但是用唸的就可發現聲 調不同。說話時,每個字根據其所在位置而適時改變聲調,形成一套巧妙的變調規則。 臺灣媠聲 2.0 計劃以楊允言老師「台語口語調系統實作研究」為基礎,實作出一套完整且穩定的台語 語句的變調系統。該研究提出 20 條口語調規則,其中有6條牽涉到詞性,。而「第五節 相關討論 kah 未 來改進方向」中的口語調錯誤原因(c)也有提到詞類歧異的問題,例如「研究」可以是動詞、也可以是名 詞。錯誤原因(h)明確指出口語調與句法有關。錯誤原因(c), (h)可以利用句法結構的分析器,來判斷該 詞是否變調。因此變調系統有兩個關鍵:詞性句法系統和變調規則分析器(圖五)。
  • 6. 圖五、變調系統運作流程 1. 準備詞性、句法標注語料 從團隊現有的開放語料庫當中,尋取 10,0002,000 句文字語料作為詞性語料庫的基礎。 2. 實作輔助人工初步詞性、句法對應系統 在沒有現成的臺語詞性標注工具之下,將參考句型相似且發展成熟的華語詞性工具,作為臺語詞性的 標注參考,將第一步準備好的臺語翻譯成華語,再標注華語的詞性,最後再用華語詞的詞性對應回去臺 語詞。 3. 實作輔助人工詞性、句法標注人機介面 台語詞性、句法需要人工標注過,所以需要設計一個人機介面,方便檢查。因為臺語有漢字、羅馬字 等兩種主流書寫法,若要標注詞性,並不適合以一般文書軟體編輯。一來程式難以解析,二來有錯誤無 法即時偵測。為了能更有效率校對臺語詞性、句法,需要撰寫一個網站介面,迅速完成目標。 4. 標注語料詞性、句法 聘請臺語文專業人士,使用第 3 步的人機介面,配合第 2 步的輔助工具,逐詞編纂第 1 步語料庫 10,0002,000 句的詞性句法。詞性將參考採用 CKIP 的分類原理,然而 CKIP 詞性是以華語為目標設計的, 並不一定完全適合臺語,因此必須調整詞性分類,建構出一套適合臺語的詞性分類。句法則參考 Chinese PennTree 的結構,以「我 喜歡 豬」示意: ROOT | IP ___|____ | VP | ____|___ NP | NP | | | PN VV NN
  • 7. | | | 我 喜歡 豬 5. 整合詞性、句法系統 在完成詞性標注後,我們可以用詞性語料庫,經過機器學習的技術,訓練出一個臺語詞性句法系統 (圖六)。 圖六、詞性句法系統取得流程 6. 準備口語調語料 從團隊現有的開放語料庫當中,尋取 2,000 句文字語料作為口語調語料庫的基礎。一般語料只有漢字 和本調臺羅,並未有口語調語料。需要尋找包含口語調資料的語料庫,挑選適合的 2,000 句臺語語料, 並準備用其口語調,自動判斷每一字的變調類型。 變調類型將採用「臺語口語調系統實作研究」的分類標準,分別為規則變調、本調、隨前變調、輕聲、 再變調、仔前變調、三連音變調、升調等八種。 7. 實作口語調標記人機介面 第 6 步的變調類型需要人工標注,確保資料的正確性。而臺語有漢字、羅馬字等兩種主流書寫法,若 要標注變調類型,並不適合以一般文書軟體編輯。一來程式難以解析,二來有打字錯誤無法即時偵測。 為了能更有效率標注口語調,需要撰寫一個網站介面,迅速完成目標。 8. 人工標注口語調標記 變調規則非常複雜,無法隨時用人工檢查系統錯誤。口語調標記的目的是用來自動追蹤變調系統的完 成度,因此正確度相當重要。而口語調語料的自動判斷變調,仍然需要人工標注,確保語料正確性。 我們將用第 7 步的人機介面,標注第 6 步準備的 2,000 句台語語句。口語調的標記是可以重覆利用的 資產,只要有標記,就可以實作出效果一樣的程式。因此口語調的標記一旦完成,往後若有別的計劃, 這個標記就是大家的基石。
  • 8. 9. 實作變調規則分析器 在臺語口語調系統實作研究中,標注 1,576 個音節約 158 句口語調標記,而觀察出 20 條變調規則, 正確率可高達 89%。臺灣媠聲 2.0 完成 20 條變調規則(註 1)後,我們將利用第 8 步標注的 2,000 句語口 語調標記,進行觀察,會再針對不足的地方加強變調規則分析器,接近可商用的水準。(圖七) 註 1. 在原本臺灣媠聲中,實作了臺語口語調系統實作 20 條中的 10 條(第 1、2、3、11、12、13、14、17、18、20 條), 其中臺灣媠聲 2.0 要實作的第 4、5、6、7、8、9 條與詞性相關,第 10、15、16、19 條則是各別詞的例外處理。 圖七、變調規則分析器取得流程 (二)、語音合成系統補足必要語音 圖八、語音合成系統取得流程 語音合成(圖八)需要同一個發音人的聲音。目前團隊擁有的開放語料當中,質量最佳的莫過於王秀 容老師的教育部閩南語辭典 18726 詞,以及在新北市一零四學年度九百例句工作坊裡 150 句錄音。因此將 以擴增王秀容老師(教育部閩南語辭典發音人)的語音為目標,蒐集王秀容老師的新北市一零三年詩文 讀寫工作坊的 5 篇錄音,參考 LJ Speech Dataset 及 Google Tacotron-2 的語料庫規模,並額外錄 製 224 小時的語音。 1. 詩文讀寫工作坊切音、標注羅馬字
  • 9. 新北市一零三年詩文讀寫工作坊裡有 5 篇王秀容老師的詩文錄音,3 篇童謠的錄音。將選用無背景音 樂的 5 篇詩文錄音,總計約略 28 分半。由於訓練語音合成的語音需要以句為單位,會將原本整篇的音檔 切做約略 540 句的音檔。而詩文語料有提供臺語漢字,仍然需要標注羅馬字,供程式訓練數學模型。 2. 設計錄音文稿 預計以「教育部 106 年委託辦理閩南語詞彙進階分級工作計畫」收集的公開語料為基礎,挑選錄音 文稿。並針對目前語音合成的結果進行分析,找出目前的弱點例如較罕見的第九調聲調,長句語音,並 設計相對應的文稿 200 句,讓發音人補足對應的語料。若以錄製 2 小時的新語料為目標,以一句 10 字 3 秒計算,需要除此之外,為了因應文體多元,除了以上來源之外,將額外準備 2400 句語句。 3. 錄語料 邀請王秀容老師前來錄音,場地以大學語言相關系所錄音室為優先以減少花費,並聘請音控人員協助 錄音。語音錄製後,請專業切音人士剪輯成一句一句的音檔。 4. 語料口語調標注 由撰稿者人工逐句標注變調標記,確保語音合成的語音品質。 因些需要將全部語料的變調標記標注過一次,包含教育部辭典 18726 詞、例句工作坊 150 句、詩文 讀寫 5 篇、新錄音 2400 句等語料。以詞性標注、口語調標記兩個半自動人工介面來進行,維持工作效率, 並確保資料格式完整。 (三)、模型訓練整合 目前使用 HTS(HMM-based speech synthesis system)語音合成工具。原理是將聲音分析成頻譜參數, 分門別類到口語標記 p, ph, b,… 各種音素上。在使用時,再將頻譜參數轉換成語音訊號。 1. 訓練語音合成模型 將語料轉換成 HTS 格式,並經由統計、機器學習等過程,取得語音合成的數學模型。彙整教育部辭 典、例句工作坊、詩文讀寫、新錄制的語料並統一資料格式之後,再利用原先臺灣媠聲的程式,轉換成 HTS 格式,並經由統計、機器學習等過程,取得語音合成的數學模型。 2. 系統整合
  • 10. 整合原先臺灣媠聲的程式,變調系統以及新版的語音合成數學模型到網路主機上,並維持穩定運作。 為了減輕網路主機成本以及讓服務更穩定,將選擇租賃網路虛擬主機。 最後,上線檢驗並測試在 iTaigi 和其他網站上能正常運作,確保服務穩定性。本計劃也會完全開放 此語音合成的網路服務,提供給有需要的專案。 (四)、相關資料公開發表 在網路上公開發表程式、語料,以及妥善整理過後的詞類分類原則、詞類句法標記語句、口語調標注 和實作方法。這些都是可重覆利用的成果,也期盼做為他人日後技術發展的參考。 六、 經費概算:(說明計畫總經費、自籌經費、申請補助經費) 以下以句為單位,一句以 10 字計算 項目 單價 數量說明 數量 金額 說明 工程師工作費 300250 每月 172 小時*11 月 1892 567,600 473,000 工作項目:五(一)1-3,5-7,9、五(二)1、 五(三)1-2、五(四)。 諮詢出席費 2000 25 人次 25 50,000 單價參考「中央政府各機關學校出席費及稿 費支給要點」 詞性標注 16.3 10000 句 2000 句 10000 2000 163,000 32,600 工作項目:五(一)4。單價參考「中央政府 各機關學校稿費支給基準數額表」特別稿件 撰稿費用 句法標注 50 2000 句 2000 100,000 工作項目:五(一)4。 變調標記標注 10 2000 句 2000 20,000 工作項目:五(一)8。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 詩文讀寫切音、 標注羅馬字 10 540 句 540 5,400 工作項目:五(二)1。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 設計錄音稿 10 2400 句 2400 24,000 工作項目:五(二)2。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 發音人錄音費 2000 4 工作天 14 工作天 414 8,00028 ,000 工作項目:五(二)3。不含事先準備 錄音室場地費 2000 4 工作天 14 工作天 414 8,00028 ,000 工作項目:五(二)3。優先找大學語言相關 系所錄音室,酌估場地費 音控費 2000 4 工作天 14 工作天 414 8,00028 ,000 工作項目:五(二)3。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 音檔剪輯費 2000 4 工作天 14 工作天 414 8,00028 ,000 工作項目:五(二)3。每個音檔需後製處理, 分句剪輯。 語料口語調標 注-自行設計 10 2400 句 2600 句 24002 600 24,0002 6,000 工作項目:五(二)4。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件
  • 11. 項目 單價 數量說明 數量 金額 說明 200 句及額外 2400 句新語 料 撰稿費用 語料口語調標 注-教育部辭 典 1 18726 詞 18726 18,726 工作項目:五(二)4。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 語料口語調標 注-例句工作 坊 10 150 句 150 1,500 工作項目:五(二)4。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 語料口語調標 注-詩文讀寫 10 540 句 540 5,400 工作項目:五(二)4。單價參考「中央政府 各機關學校稿費支給基準數額表」一般稿件 撰稿費用 虛擬主機費 630788 11 個月 11 6,9308, 668 工作項目:五(三)2。linode 虛擬主機,每 月 20 美金,含國稅局海外扣繳 20%。 總計 868,556 874,214 • 總經費:868,556 874,214 • 自籌經費:568,556 574,214 • 申請補助:300,000 除了工程師工作費為經常性支出外,補助經費將用於:諮詢出席費、詞性標注、句法標注、變調規則 標注、詩文讀寫切音標注羅馬字、設計錄音稿、發音人錄音費、錄音室場地費、音控費、音檔剪輯費、 語料口語調標注、虛擬主機費。 七、 人力編制:(說明人力配置運用方式) 工作項目說明參考第五節實施方法的內容,不在此贅述。 人力 工作項目說明 工程師 五(一)1-3,5-7,9、五(二)1、五(三)1-2、五(四) 標注稿費 五(一)4,8、五(二)1, 2, 4 發音人錄音費 五(二)3 音檔剪輯 五(二)3 八、 預期效益:(對語言多樣性友善環境推動之正面影響) 臺灣媠聲 工研院 Cyberon TTS 臺灣媠聲 2.0
  • 12. 文字轉語音 Web 服務 賽微文字轉語音 Web 服務 (本計劃預定目標) 支援輸入教育部臺語 漢字 O 部份支援(註 1) X O 支援輸入教育部羅馬 字 O X 部份支援(註 2) O 支援輸入白話字 O O X O 支援輸入漢羅 O O X O 支援輸入連字符 O X O O 支援空白斷開羅馬字 O O X O 華語詞翻譯 X (註 3) O O X (註 3) 變調規則實作數量 10 (註 4) 5 (註 5) 2 (註 6) 20 (註 7) 支援第九調高升調 X X X O 開源程式 O X X O 開放語料 O X X O 開放模型 O X X O 附註 1. 支援:佇、佗。無支援:佮。 2. 不支援正式版,只支援數字版。 3. 考慮語言學習用途,避免臺語華語互相影響,華語翻譯以另一計劃處理。 4. 以臺語口語調系統實作研究的 20 條來看,第 1、2、3、11、12、13、14、17、18、20 條。 5. 以臺語口語調系統實作研究的 20 條來看,第 1、2、3、11、14 條規則。 6. 以臺語口語調系統實作研究的 20 條來看,第 1、2 條規則。 7. 將實作的第 4、5、6、7、8、9 條與詞性相關,第 10、15、16、19 條則是各別詞的例外處理。 (一)、 對社會之貢獻 所有目前合作的公益專案,都將能取得優化後的語音合成資料。iTaigi 截止 2017/10/29 總共收錄了 60996 詞(去掉同音詞)及 13836 條例句,其中高達 96.45%的詞彙及 100%的例句皆使用臺灣媠聲網路服 務,將獲得更優良清晰的合成語音品質。每月至少 11 萬瀏覽量將因為臺灣媠聲 2.0 的推出而受惠。 公共播音服務只需要藉由網路連線至臺灣媠聲 2.0,就能快速取得任意合成語音。紐西蘭的毛利語復 振成果舉世聞名,背後成功的關鍵在於翻轉毛利語在毛利人自己心中的地位,甚至改變各界對毛利語的 想法、肯定毛利語。當臺語使用者在公共場合廣泛地聽見自己的母語,「原來我的母語可以在公共場所 被聽見」、「原來我們這麼潮,電腦也會說母語」,社會肯定的力量更是一種心靈支持。 (二)、對研究之貢獻 本計劃所產生的語料,皆以 CC BY-SA 的方式公開授權。因此錄音檔、標注詞性句法及變調語料, 皆能供他人重覆利用。不要花費重覆的資源在同一件事上,讓資源能更有效率的利用。CC BY-SA 授權 項目條列如下:
  • 13. 1. 詞性句法標注結果 10,0002,000 句 2. 變調標注 2000 句 3. 教育部辭典 18726 詞變調規則 4. 例句工作坊 150 句變調規則 5. 詩文讀寫 5 篇切音結果 6. 詩文讀寫 5 篇羅馬字 7. 詩文讀寫 5 篇變調規則 8. 新錄音 2400 句 24 小時語音 9. 新錄音自行設計 200 句及額外 2400 句錄音文稿 10. 新錄音自行設計 200 句及額外 2400 句變調規則 11. 詞性句法標注模型 12. 語音合成模型 (三)、對資訊社群之貢獻 近年來開源程式的風氣逐漸茁壯,為了響應開源程式,本計劃所實作的程式,皆以 CPAL 或 MIT 授 權,促進開源社群風氣,讓資訊技術進步更加快速。授權項目條列如下(註 1): 1. 初步詞性對應系統 2. 詞性標注人機介面 3. 詞性系統 4. 口語調標記人機介面 5. 語音合成服務 註 1. 以本團隊撰寫的部份為主。若有整合到第三方工具或函式庫,該部份以其原始授權為主。 (四)、對其他母語之貢獻 1. 客語 客語和臺語同樣是漢語語系的一支,若往後要精進客語的語音合成,可以直接共享本計劃的成果。因 此,標注詞性及口語調的工作流程是相同的,像是工作內容中的實作初步詞性對應程式、實作詞性標注 人機介面、實作詞性系統、實作口語調標記人機介面、實作變調系統,皆是可以直接拿來使用的成果。
  • 14. 2. 族語 台灣有豐富的民族與語言,這些文化也極需要資訊技術的幫忙。不同族語的重音規則也不同,有些重 音會因為詞性不同,而出現在不同的音節。因此詞性的的初步標注、和介面仍然是一個可以再利用的資 源。 九、 檢附文件:(其他有關本計畫之補充說明文件) (一)、臺灣媠聲開源程式碼 https://github.com/sih4sing5hong5/tai5-uan5_gian5-gi2_hok8-bu7/wiki (二)、本團隊語言合成服務 1. 鬥拍字-臺語語音合成:https://鬥拍字.意傳.台灣/ 2. 手� -客語語音合成:https:// 手� .意傳.台灣 3. lamal-阿美語語音合成:https://lamal.意傳.台灣/ 4. puniq-泰雅語語音合成:https://puniq.意傳.台灣/ 5. sapuz-布農語語音合成:https://sapuz.意傳.台灣/ 6. hapoy-賽夏語語音合成:https://hapoy.意傳.台灣/ (三)、使用本團隊語音合成服務的專案: 1. iTaigi:https://itaigi.tw 2. 台語兒:https://baconbao.github.io/TaiwaneseWizard/ 3. 阿美語萌典:https://amis.moedict.tw/
  • 15. (意傳科技有限公司)推行 文化部推行語言多樣性友善環境補助作業 計畫書變更申請 一、變更緣由: 本計畫案的主要目的是台語的語音合成,這半年經過語言學背景專家諮詢,有兩個方向需要調整: 1. 處理詞類歧異的問題 計畫以楊允言老師「台語口語調系統實作研究」的研究為基礎,而「第五節 相關討論 kah 未來改 進方向」中的口語調錯誤原因(c), (h)與句法有關,經諮詢後,專家建議增加句法標記。 因此為了處理詞類歧異的問題、加強變調規則的預則,將增加句法標記,並在預算的考量下,減 少詞性標記的數量。 2. 因應新技術的發展,調整錄音量 Google 團隊在 2017 年 12 月提出新 Deep learning 深度學習的技術 Tacotron-2[1],效果和傳統 語音技術大幅增日,逼近真人人聲,剛好今年(2018 年)陸續有許多 Open source 的專案[2][3] 實作 Tacotron-2。 因此台語用 Tacotron-2 新技術是可能的,為了配合未來新技術的需求以及語料永續利用的可能, 我們將計劃變更部份的預算到錄音項目,減少文字語料的處理數量。計畫仍會以 HTS(HMM-based Speech Synthesis System)傳統技術為主,並呈現現階段 Tacotron-2 新技術的效果。 因此特別提出此變更案,希望能照這兩方向調整。 二、變更細項: 工作項目 內容 五(一) 增加句法標記。 五(一)1 減少詞性標記數量,從 10000 句調整成 2000 句。 五(一)2 增加句法標記。 五(一)3 增加句法標記。 五(一)4 增加句法標記,並減少數量,從 10000 句調整成 2000 句 五(一)5 增加句法標記。 五(二) 新錄音資料,錄音時間從 2 小時,調整至 24 小時 五(二)2 增補錄音文稿來源:教育部 106 年委託辦理閩南語 詞彙進階分級工作計畫 五(二)4 改以電腦半自動的方式處理 三、預算變更 項目 內容 調整前金額 調整後金額 原因 工程師工作費 單價從 300 調整至 250 567,600 473,000 配合總預算調整 諮詢出席費 新增諮詢出席費 0 50,000 諮詢,以便訂定詞 性句法標記原則
  • 16. 詞性標注 數量從 10000 句調 整成 2000 句 163,000 32,600 配合句法標注及錄 音時間,調整數量 句法標注 新增句法標注 0 100,000 變調規則與句法有 關 發音人錄音費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24 小時 錄音室場地費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24 小時 音控費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24 小時 音檔剪輯費 從 4 天調整到 15 天 8,000 30,000 錄音時間調整到 24 小時 語料口語調標注-自 行設計 200 句及額 外 2400 句新語料 設定範圍為「自行 設計 200 句及額外 2400 句新語料」, 增加 200 句 24,000 26,000 因應新增「教育部 106 年委託辦理閩 南語詞彙進階分級 工作計畫」錄音文 稿,故指定標記範 圍 虛擬主機費 每月單價從 630 調 整至 788 6,930 8,668 配合國稅局海外扣 繳 20%費用 預算總額 868556 885294 [1] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Navdeep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, RJ Skerry-Ryan, Rif A. Saurous, Yannis Agiomyrgiannakis, Yonghui Wu (Submitted on 16 Dec 2017 (v1), last revised 16 Feb 2018 (this version, v2)) [2] https://github.com/Rayhane-mamah/Tacotron-2 [3] https://github.com/NVIDIA/tacotron2