More Related Content More from linshanleearchive More from linshanleearchive (19) 芝麻開門:語音技術的前世今生9. 背景
• 大鍵盤中文打字機 (1980)
– 英文打字機
– 最原始的個人電腦剛剛問世
– 中文字輸入?字根、注音、四角號碼…
• 用聲音輸入中文?
– 一字一音、音總數有限
– 電腦聽華語?
• 先讓電腦說華語 (1983)
– 把所有單音作出來,拼成任意文句
– 不知所云
16. 華語語音辨識 (Speech Recognition)
• 極大詞彙、任意文句
• 三假設讓問題有可能求解 (1986)
– 輸入時一個字一個字斷開輸入
– 每個人說話訓練機器聽自己的聲音
– 錯誤用軟體在螢光幕上更正
• 切割問題 (1986)
– 辨識聲母、韻母、聲調、同音字
• 系統整合
– 超級複雜,很多硬體
– 記憶體、計算量、辨識速度
– 硬體電路 (1989)、晶片 (1992)、平行電腦 (1992)
21. 金聲一號 (Golden Mandarin I)
• 1992年3月
• 金聲玉振,金玉之聲
• 每個字斷開來唸
• 奇慢無比、系統複雜
• 全球首見的華語辨
識功能
• 考慮華語特性
– 一字一音、斷開、
聲韻母、聲調、
同音字
23. 金聲三號 (Golden Mandarin III)
• 1995年3月
• 連續語音輸入
– 機器學到前後文的影響
– 古代的機器學習
– 自力完成所有data,所有程式
• PC版(GM III a)
– 短句輸入
• 工作站版(GM III b)
– 長句輸入
29. • 簡化方塊圖
• 輸入語音句子舉例
this is speech
• 聲學模型(Acoustic Models)
(th-ih-s-ih-z-s-p-ih-ch)
• 詞典(Lexicon) (th-ih-s) → this
(ih-z) → is
(s-p-iy-ch) → speech
• 語言模型(Language Model) (this) – (is) – (speech)
P(this) P(is | this) P(speech | this is)
P(wi|wi-1) 双連文法語言模型 (bi-gram language model)
P(wi|wi-1,wi-2) 三連文法語言模型(tri-gram language model)
特徵
向量
序列
語言解碼
(Linguistic Decoding
and
Search Algorithm)
輸出文句
特徵擷取
(Front-end
Signal Processing)
輸入語音
詞典
(Lexicon)
聲學模型
(Acoustic
Models)
語音資料庫
(Speech
Corpora)
聲學模型
訓練
語言模型
訓練
文字資料庫
(Text
Corpora)
語言模型
(Language
Model)
大字彙連續語音辨識 (Large Vocabulary Continuous
Speech Recognition)
31. • 簡化方塊圖
• 輸入語音句子舉例
this is speech
• 聲學模型(Acoustic Models)
(th-ih-s-ih-z-s-p-ih-ch)
• 詞典(Lexicon) (th-ih-s) → this
(ih-z) → is
(s-p-iy-ch) → speech
• 語言模型(Language Model) (this) – (is) – (speech)
P(this) P(is | this) P(speech | this is)
P(wi|wi-1) 双連文法語言模型 (bi-gram language model)
P(wi|wi-1,wi-2) 三連文法語言模型(tri-gram language model)
特徵擷取
(Front-end
Signal Processing)
特徵
向量
序列
語言解碼
(Linguistic Decoding
and
Search Algorithm)
輸出文句
輸入語音
詞典
(Lexicon)
聲學模型
(Acoustic
Models)
語音資料庫
(Speech
Corpora)
聲學模型
訓練
語言模型
訓練
文字資料庫
(Text
Corpora)
語言模型
(Language
Model)
大字彙連續語音辨識 (Large Vocabulary Continuous
Speech Recognition)
33. 全面深層學習 (End-to-end Deep Learning)語音辨識
• 儘可能一口氣學到聲音、詞典、
句型等各種知識
• 一個人由出生到70歲共聽到約
數十萬小時的聲音
− 機器可在短期間內就聽完這麼多
聲音,甚至是這麼多聲音的千百
倍
35. • 方塊字,非拼音語言(Alphabetic Language),每個字各有豐富涵意及文法角色
• 數個字可構成詞,由詞造句
• 詞在句中邊界不明確,詞的定義不明確
− 例:電腦科技的進步改變了人類的生活方式
• 數個小詞可任意串成一個大詞,長詞可任意縮短成短詞
− 例:紐約+恐怖+攻擊+事件 → 紐約恐怖攻擊事件
北部第二高速公路 → 北二高,台灣大學 → 台大
• 已有的詞可以切開
− 例:洗澡 → 洗了一個舒舒服服的大澡
• 新詞每天自動產生
− 例:鼎泰豐、非核家園、小確幸、川普…
• 詞彙無限大
− 不可能在一個詞典內包含所有的詞
華文特有的語言結構(一)
36. • 一字一音
• 音的總數有限
• 每一音有許多同音字,各有許多不同意義
• 有聲調的語言
−不同聲調的音代表不同聲調的字及不同意義
− 衣食/儀式/遺失/役使/逸事/一時
• 不同音的組合變成千變萬化的詞和句
-意識/義士,相交/香蕉,程式/城市
• 少數有限的音攜帶極豐富的語言訊息
• “音”層次的語言單位為西方拼音語言所無
華文特有的語言結構(二)
38. • 機器很弱,數據很少時
– 機器的能力有限
– 用人的智慧發掘問題,尋求答案
– 將人的智慧植入單薄的人工智慧中
• 軟硬體及數據量一日千里時
– 愈來愈多的問題及答案均可由機器自行發掘習得
– 人的智慧用來引導機器,由機器尋求答案
– 機器由巨量數據中找到的答案勝過人類用自己的智慧找到的
由古代到今天
40. 人工智慧
• Intelligence exhibited by machines
• Any device that perceives its environment and takes
actions that maximizes its chance of success at some
goal
• A machine mimics “cognitive” functions that humans
associate with other humans
⋮
44. • 1985 — 台大資訊系囊括冠亞軍轟動國內資訊界
國際電腦圍棋大賽
台大資訊系
許舜欽教授
51. • 機器很弱,數據很少時
– 機器的能力有限
– 用人的智慧發掘問題,尋求答案
– 將人的智慧植入單薄的人工智慧中
• 軟硬體及數據量一日千里時
– 愈來愈多的問題及答案均可由機器自行發掘習得
– 人的智慧用來引導機器,由機器尋求答案
– 機器用巨量數據找到的答案勝過人類用自己的智慧找到的
• 強大方便好用的產品級技術
– 有賴產業界的資源力量及機制(肥沃的土壤)
– 肥沃的土壤中仍需有競爭力的種子(人材及創意)
• 產業界和學術界相輔相成
– 在各自的崗位上開拓共同的天地
由古代到今天
65. • 舉例2:關鍵詞圖
– 每張有聲投影片由一組關鍵詞標示其內容
– 關鍵詞間的關係用圖呈現
-----
-----
-----
-----
---------
---------
---------
---
-------
-------
-------
----
有聲投影片
關鍵詞圖
聲學模型
Viterbi
search
HMM 語言模型
Perplexity
智慧型目錄
71. 語音數位內容搜尋(Spoken Content Retrieval) 技術
• 先辨識再搜尋
– 語音辨識有錯,於是找到更多錯的
– 網路資訊辨識錯誤所在難免
文字資
訊
文字
搜尋
搜尋
結果
語音
辨識
聲音
搜尋
搜尋
結果
搜尋
結果
聲 音 搜 尋
• 辨識與搜尋整合思考,或甚至省去辨識直接在聲音訊號
–開創及發展五大方向
上搜尋 (2008-2016)
72. • 2010
• 如知某句為正確答案,則其他句與其相似者可加分
– 假設初搜結果中前N名正確
time 1:01
time 2:05
time 1:45
…
time 2:16
time 7:22
time 9:01
初搜結果
前N名
假設正確
計算相似度
所有初搜結果
與假設正確者
計算相似度
time 1:01
time 2:16
time 7:22
…
time 2:05
time 1:45
time 9:01
最後結果
重排序
time 1:01
time 2:05
搜尋引擎
語音
數位內容
指令 Q
虛擬正確回饋 (Pseudo Relevance Feedback, PRF)
73. • 2011
• 假設前N名為正確未必可靠
• 用初搜結果的所有句子作成圖(Graph)
– 每一句為一節點(Node)
– 句間相似度為結點間連線(Edge)之權重(Weight)
x1
x3
x2
x4
x5
x3
x1
x2
x5
x4
…..
初搜結果
圖形強化 (Graph-Enhanced)法 (1/3)
77. • 機器究竟瞭解數位內容多少呢?
• 讓機器考TOEFL Listening Comprehension Test (2016)
• 例題:
問題: “ What is a possible origin of Venus’ clouds? ”
語音內容:
選擇:
(A) gases released as a result of volcanic activity
(B) chemical reactions caused by high surface temperatures
(C) bursts of radio energy from the plane's surface
(D) strong winds that blow dust into the atmosphere
(5分鐘長)
機器理解 (Machine Comprehension)語音數位內容
78. (1) (2) (3) (4) (5)
未聽先猜
目前技術: 50.0%
選最短的
機器理解 (Machine Comprehension)語音數位內容
正
確
率
(%)
841篇考古題訓練機器
122篇考古題測試機器
• 目前技術 (2017)
82. • 人類的千古大夢
– 只要開口說話就可開啟寶藏的大門
• 網路為未來全人類唯一最完整的知識寶藏
• 隨口說話就可用聲音開啟知識寶藏的大門
• 機器聽說人的語言充其量與人相同,但機器能處理巨量
資訊則遠勝人類
• 數十年前的超級大夢可在今天看到實現,故今天也可以
繼續作更多遙遠的超級大夢
芝麻開門