芝麻開門：語音技術的前世今生

芝麻開門
— 語音技術的前世今生
李琳山
電機資訊學院

x(t)
x[n]
t n
語音訊號
• 聲音(聲波)

語音訊號
• 聲音(聲波) 電訊號
(麥克風)
x(t)
x[n]
t n
x(t)

語音訊號
x(t)
x[n]
t n
• 聲音(聲波) 電訊號實數序列
(麥克風) (取樣)
(Sampling)
x(t) x[n]

現場展示
真實語音訊號

語音技術
•語音訊號 •訊號取樣 •演算
•語言結構
•語言知識
今天的
常好
詞典文法
今天的
今天的天氣非常好
演算法
電腦或晶片
天氣非

背景
• 大鍵盤中文打字機 (1980)
– 英文打字機
– 最原始的個人電腦剛剛問世
– 中文字輸入？字根、注音、四角號碼…
• 用聲音輸入中文？
– 一字一音、音總數有限
– 電腦聽華語？
• 先讓電腦說華語 (1983)
– 把所有單音作出來，拼成任意文句
– 不知所云

華語語音合成 (Speech Synthesis)
• 由語言學家學得 (1983)
– 每個音的特性都因前後字不同而有不同的抑揚頓挫
• 由數據中尋求一般性規則
– 音高、音量、音長、停頓
– 古代的數據科學
中研院語言所
鄭秋豫教授

我有好幾把小雨傘
3 3
3 3
3 3 3
3
• 第三聲相連
3 3 → 2 3
S
有
N
好幾
𝑉𝑃
我
𝑁𝑃
V
NP
QP
Q
MOD N
MOD
把小雨傘

• 電腦說國語
– 輸入文字注音、輸出聲音
– 全球首聞(1984)
– 文句翻語音 (Text-to-speech)

電腦說相聲
• 兩套不同技術對話 (1987)
• 呈現抑揚頓挫變化

華文句型之電腦剖析 (Computer Analysis of Sentence
Structure)
• 空格 (Empty Category) (1986)
• 古代的華文自然語言處理
被李四叫去吃飯的小孩

華文句型之電腦剖析 (Computer Analysis of Sentence
Structure)
我去年丟掉的那隻狗，我以前以為已經死掉了，
昨天居然被我找到了 (1986)
Google台灣
董事總經理
簡立峰博士

華語語音辨識 (Speech Recognition)
• 極大詞彙、任意文句
• 三假設讓問題有可能求解 (1986)
– 輸入時一個字一個字斷開輸入
– 每個人說話訓練機器聽自己的聲音
– 錯誤用軟體在螢光幕上更正
• 切割問題 (1986)
– 辨識聲母、韻母、聲調、同音字
• 系統整合
– 超級複雜，很多硬體
– 記憶體、計算量、辨識速度
– 硬體電路 (1989)、晶片 (1992)、平行電腦 (1992)

電路設計圖舉例
• 1989

晶片設計
• 1992
特徵晶片維特比晶片

平行電腦 (Transputer)
• 1992

金聲一號 (Golden Mandarin I)
• 1992年3月
• 金聲玉振，金玉之聲
• 每個字斷開來唸
• 奇慢無比、系統複雜
• 全球首見的華語辨
識功能
• 考慮華語特性
– 一字一音、斷開、
聲韻母、聲調、
同音字

金聲二號 (Golden Mandarin II)
• 1993年9月
• 仍然每個字斷開唸
• 快多了
• 一片TI晶片搞定

金聲三號 (Golden Mandarin III)
• 1995年3月
• 連續語音輸入
– 機器學到前後文的影響
– 古代的機器學習
– 自力完成所有data，所有程式
• PC版(GM III a)
– 短句輸入
• 工作站版(GM III b)
– 長句輸入

多語言語音個人助理
• 問題舉例
－下週紐約天氣如何 ?
－發簡訊、個人時間表管理等
輸出語音
造句
輸入語音
語言
瞭解
語音
合成
對話
管理
Google
資訊搜尋知識圖
機器
翻譯
語音
辨識
問題
詢答
維基百科
• 舉例：Siri (Apple), Google Home, Cortana (Microsoft)…
－誰是美國總統?
－到台大怎麼走?

多語言語音個人助理
輸出語音
造句
輸入語音
語言
瞭解
語音
合成
對話
管理
Google
資訊搜尋知識圖
機器
翻譯
語音
辨識
問題
詢答
維基百科
• 舉例：Siri (Apple), Google Home, Cortana (Microsoft)…
• 有尖端技術(雲端、巨量數據、深層學習、對話系統、資訊搜尋等)
之加持，才達到可以接受的效能
– 三十年後也只有大型產業才能率先實現，以三十年前的資源規模看
，但華語語音部分和台大當年建立的基礎技術
幾乎完全一致
，
當時的構想是一個正確遠見下的超級大夢

語音訊號之特徵擷取 (Feature Extraction)
x1
x2
‧
‧
‧
‧
xD
= ō1
x1
x2
‧
‧
‧
‧
xD
x1
x2
‧
‧
‧
‧
xD
= ō2
x(t)
x[n]
t
t
= ō3 ‧‧‧

• 簡化方塊圖
• 輸入語音句子舉例
this is speech
• 聲學模型(Acoustic Models)
(th-ih-s-ih-z-s-p-ih-ch)
• 詞典(Lexicon) (th-ih-s) → this
(ih-z) → is
(s-p-iy-ch) → speech
• 語言模型(Language Model) (this) – (is) – (speech)
P(this) P(is | this) P(speech | this is)
P(wi|wi-1) 双連文法語言模型 (bi-gram language model)
P(wi|wi-1,wi-2) 三連文法語言模型(tri-gram language model)
特徵
向量
序列
語言解碼
(Linguistic Decoding
and
Search Algorithm)
輸出文句
特徵擷取
(Front-end
Signal Processing)
輸入語音
詞典
(Lexicon)
聲學模型
(Acoustic
Models)
語音資料庫
(Speech
Corpora)
聲學模型
訓練
語言模型
訓練
文字資料庫
(Text
Corpora)
語言模型
(Language
Model)
大字彙連續語音辨識 (Large Vocabulary Continuous
Speech Recognition)

詞圖 (Word Graph )
• 語言模型
P[豪雨不斷台東兩人失蹤] >> P[陶藝無端太重兩任失蹤]

• 簡化方塊圖
• 輸入語音句子舉例
this is speech
• 聲學模型(Acoustic Models)
(th-ih-s-ih-z-s-p-ih-ch)
• 詞典(Lexicon) (th-ih-s) → this
(ih-z) → is
(s-p-iy-ch) → speech
• 語言模型(Language Model) (this) – (is) – (speech)
P(this) P(is | this) P(speech | this is)
P(wi|wi-1) 双連文法語言模型 (bi-gram language model)
P(wi|wi-1,wi-2) 三連文法語言模型(tri-gram language model)
特徵擷取
(Front-end
Signal Processing)
特徵
向量
序列
語言解碼
(Linguistic Decoding
and
Search Algorithm)
輸出文句
輸入語音
詞典
(Lexicon)
聲學模型
(Acoustic
Models)
語音資料庫
(Speech
Corpora)
聲學模型
訓練
語言模型
訓練
文字資料庫
(Text
Corpora)
語言模型
(Language
Model)
大字彙連續語音辨識 (Large Vocabulary Continuous
Speech Recognition)

植入深層學習 (Deep Learning)的語音辨識
• 將深層類神經網路(DNN)植入原有架構中
s1
s2
sn
…
a11
a12
a22
ann
深層類神經網路
DNN
聲學模型
− 語言模型亦同

全面深層學習 (End-to-end Deep Learning)語音辨識
• 儘可能一口氣學到聲音、詞典、
句型等各種知識
• 一個人由出生到70歲共聽到約
數十萬小時的聲音
− 機器可在短期間內就聽完這麼多
聲音，甚至是這麼多聲音的千百
倍

華語語音技術
為何與
西方語言之語音技術不同

• 方塊字，非拼音語言(Alphabetic Language)，每個字各有豐富涵意及文法角色
• 數個字可構成詞，由詞造句
• 詞在句中邊界不明確，詞的定義不明確
− 例：電腦科技的進步改變了人類的生活方式
• 數個小詞可任意串成一個大詞，長詞可任意縮短成短詞
− 例：紐約+恐怖+攻擊+事件 → 紐約恐怖攻擊事件
北部第二高速公路 → 北二高，台灣大學 → 台大
• 已有的詞可以切開
− 例：洗澡 → 洗了一個舒舒服服的大澡
• 新詞每天自動產生
− 例：鼎泰豐、非核家園、小確幸、川普…
• 詞彙無限大
− 不可能在一個詞典內包含所有的詞
華文特有的語言結構(一)

• 一字一音
• 音的總數有限
• 每一音有許多同音字，各有許多不同意義
• 有聲調的語言
−不同聲調的音代表不同聲調的字及不同意義
− 衣食/儀式/遺失/役使/逸事/一時
• 不同音的組合變成千變萬化的詞和句
-意識/義士，相交/香蕉，程式/城市
• 少數有限的音攜帶極豐富的語言訊息
• “音”層次的語言單位為西方拼音語言所無
華文特有的語言結構(二)

• 詞在句中的順序位置有相當自由度
– 例：〔明天〕〔早上〕〔六點半〕〔我〕〔要〕〔出發〕
可能的句型：明天早上六點半我要出發
我明天早上六點半要出發
我要明天早上六點半出發
明天我早上六點半要出發
明天我要早上六點半出發
明天早上我六點半要出發
明天早上我要六點半出發
我明天早上要六點半出發
我明天要早上六點半出發
明天我早上要六點半出發
.
.
.
.
華文特有的語言結構(三)
機器強大數據充沛時，機器可以自動學到

• 機器很弱，數據很少時
– 機器的能力有限
– 用人的智慧發掘問題，尋求答案
– 將人的智慧植入單薄的人工智慧中
• 軟硬體及數據量一日千里時
– 愈來愈多的問題及答案均可由機器自行發掘習得
– 人的智慧用來引導機器，由機器尋求答案
– 機器由巨量數據中找到的答案勝過人類用自己的智慧找到的
由古代到今天

人工智慧
• Intelligence exhibited by machines
• Any device that perceives its environment and takes
actions that maximizes its chance of success at some
goal
• A machine mimics “cognitive” functions that humans
associate with other humans
⋮

古代台灣的人工智慧
• 台大資訊系舊系館(和計算機中心共用) (1982-1993)

國科會(科技部前身)早有遠見
• 1985年12月台大資訊系系務會議紀錄

台大資訊系人工智慧群體計畫 (1985)
• 系裡舉辦系列演講、公開展示、外賓參訪等活動
• 外賓參訪：史丹福大學的John McCarthy教授
– One of the founders of Artificial Intelligence

• 1985 — 台大資訊系囊括冠亞軍轟動國內資訊界
國際電腦圍棋大賽
台大資訊系
許舜欽教授

Alpha GO 源遠流長
黃士傑博士 ← 台師大林順喜教授
論文題目：應用於電腦圍棋之蒙地卡羅樹搜尋法的新啟發式演算法

台師大林順喜教授
• 1985台大資工碩士班，1990博士班
• 指導教授：林逢慶教授
林順喜博士 ← 林逢慶教授

• 1985 —台大資訊系囊括冠亞軍轟動國內資訊界
台大資訊系
許舜欽教授

• 1985 —台大資訊系囊括冠亞軍轟動國內資訊界
台大資訊系
許舜欽教授
Alpha Go源遠流長
最原始的源頭或種下最原始種子之處

• 機器很弱，數據很少時
– 機器的能力有限
– 用人的智慧發掘問題，尋求答案
– 將人的智慧植入單薄的人工智慧中
• 軟硬體及數據量一日千里時
– 愈來愈多的問題及答案均可由機器自行發掘習得
– 人的智慧用來引導機器，由機器尋求答案
– 機器用巨量數據找到的答案勝過人類用自己的智慧找到的
• 強大方便好用的產品級技術
– 有賴產業界的資源力量及機制(肥沃的土壤)
– 肥沃的土壤中仍需有競爭力的種子(人材及創意)
• 產業界和學術界相輔相成
– 在各自的崗位上開拓共同的天地
由古代到今天

新的遙遠大夢─語音版的Google
我想找有關
Deep Learning
的演講學習者
• 網路上多媒體影音如排山倒海般湧現
– YouTube、MOOCs…
– 多數有聲音旁白但沒有文字字幕
– Google能看盡天下文章後幫人找到任何一篇文章
– 機器能聽聲音正如Google能看文字

網路是全人類共同擁有的知識寶藏(1/2)
• Google、Amazon、Facebook、YouTube等提供了非常多人類
生活所需的資訊
• 過去實體的知識寶庫如圖書館、博物館逐漸虛擬化
• 網路課程、遠距教學、電子書等成為最有效率的學習工具
網路
即時資訊
─ 氣象、路況
─ 新聞
─ 航班
─ 股市
─ 體育
特殊網路服務
─ Google
─ Amazon
─ Facebook
─ YouTube
知識典藏
─ 數位圖書館
─ 虛擬博物館
日常業務及
工作環境
─ 電子商務
─ 虛擬銀行
─ 線上交易
─ 電傳會議
─ 遠距教學
個人及私有服務
─ 私人記事本
─ 企業資料庫
─ 家電操作
─ 網路遊戲

• 最吸引人的數位內容型態是影音多媒體，可能不帶文
字，但可帶有語音旁白
• 多媒體資訊的語音旁白常明確說明數位內容的主題概
念，可用以搜尋數位內容
• 今日網路資訊的搜尋仍以文字為基礎，包括YouTube的
視訊搜尋
網路
即時資訊
─ 氣象、路況
─ 新聞
─ 航班
─ 股市
─ 體育
特殊網路服務
─ Google
─ Amazon
─ Facebook
─ YouTube
知識典藏
─ 數位圖書館
─ 虛擬博物館
日常業務及
工作環境
─ 電子商務
─ 虛擬銀行
─ 線上交易
─ 電傳會議
─ 遠距教學
個人及私有服務
─ 私人記事本
─ 企業資料庫
─ 家電操作
─ 網路遊戲
網路是全人類共同擁有的知識寶藏(2/2)

多元化的上網工具使語音成為重要的使用者介面
• 智慧型手機、車上電子裝置、家電、穿戴式配件等都可成為上網
最方便的工具
• 隨時隨地與全球知識及資訊相聯
• 輕薄短小，進入日常生活各個角落，隨時隨地使用
• 語音是隨時隨地用任何一種工具上網最方便自然的介面之一，並
可一句到位
網路
文字
數位內容
多媒體
數位內容

• 今日上網的動作以文字為主要介面，但凡使用文字者，均可用語
音達成
• 語音及多模式對話（Spoken and Multi-modal Dialogue）達成所有
所需的互動
• 語音版的Google
文字資訊搜尋
多媒體
數位內容
之語音分析
語音資訊
多媒體
數位內容
網路
語音
資訊搜尋
文字資訊
語音合成
語音及
多模式
對話
文字
數位內容
語音無線上網─文字角色均可由語音擔任

語音指令
語音文件
(多媒體文件含語音但不含文字)
美國總統大選？
文字指令
文字文件
Barack Obama
….
歐巴馬 …
• 使用者指令與網路文件均可是語音
– 文字指令/語音文件: spoken document retrieval
– 語音指令/文字文件: voice search
– 語音指令/語音文件: query by example
文字/語音數位內容(Text/Spoken Content)搜尋

公視新聞搜尋
• 2004
• 可以找到每一句話而無需人力標註

多模式對話
使用者
指令
語音數位內容
搜尋引擎
搜尋結果
關鍵詞/標題/摘要
使用者
介面
智慧型目錄
• 語音或多媒體數位內容不易呈現在螢幕上，不若文字數
位內容一目瞭然，不易點選瀏覽
• 可能的解決方法 (2005)
– 自動產生關鍵詞、標題、摘要協助瀏覽
– 自動建立智慧型目錄協助點選瀏覽
– 使用者與系統對話
搜尋語音數位內容時之點選瀏覽

X1
X2
X3
X4
X5
X6
語音文件:
正確辨識
X1
X3
摘要:
• 選出重要句子將之串起來用聲
音播放
• 選句原則
− 包含較多重要的詞
− 所含概念與全文接近
− 已選出的句子其概念避免重覆
錯誤辨識
t2
t1
語音資訊之自動摘要 (Summarization)

• 舉例１：根據主題將語音資訊分群並組成二維樹狀結構
– 主題接近者為一群
– 每一群可在下一層再展開成一張二維圖
智慧型目錄

電視新聞瀏覽器 (2006)
(Broadcast News Browser)
現場展示
Summary NewsVideo

 網路課程常需相當長的時間(例如45小時)才能完整學
習
– 很忙的人很難由網路課程學習知識
 有瀏覽器可以搜尋
– 課程知識是有順序的，沒學前面可能聽不懂後面
– 不知背景或其他相關知識如何找
 解決方法
– 課程內容以投影片為單位切成小段
– 每一小段以其關鍵詞標示其內容
– 整個課程的所有關鍵詞以其間相互關係建構成關鍵詞圖(智
慧型目錄)
網路課程

• 舉例２：關鍵詞圖
– 每張有聲投影片由一組關鍵詞標示其內容
– 關鍵詞間的關係用圖呈現
-----
-----
-----
-----
---------
---------
---------
---
-------
-------
-------
----
有聲投影片
關鍵詞圖
聲學模型
Viterbi
search
HMM 語言模型
Perplexity
智慧型目錄

台大虛擬教師 (2009)
（NTU Virtual Instructor）
現場展示
台大電機系
李宏毅教授

學海無涯
752 matches
• 線上課程浩瀚無邊

機器製作學習地圖
內容接近的段落
相關課程

學習順序
機器製作學習地圖
相關課程

機器製作學習地圖 (2014)
現場展示

語音數位內容搜尋(Spoken Content Retrieval) 技術
• 先辨識再搜尋
– 語音辨識有錯，於是找到更多錯的
– 網路資訊辨識錯誤所在難免
文字資
訊
文字
搜尋
搜尋
結果
語音
辨識
聲音
搜尋
搜尋
結果
搜尋
結果
聲音搜尋
• 辨識與搜尋整合思考，或甚至省去辨識直接在聲音訊號
–開創及發展五大方向
上搜尋 (2008-2016)

• 2010
• 如知某句為正確答案，則其他句與其相似者可加分
– 假設初搜結果中前N名正確
time 1:01
time 2:05
time 1:45
…
time 2:16
time 7:22
time 9:01
初搜結果
前N名
假設正確
計算相似度
所有初搜結果
與假設正確者
計算相似度
time 1:01
time 2:16
time 7:22
…
time 2:05
time 1:45
time 9:01
最後結果
重排序
time 1:01
time 2:05
搜尋引擎
語音
數位內容
指令 Q
虛擬正確回饋 (Pseudo Relevance Feedback, PRF)

• 2011
• 假設前N名為正確未必可靠
• 用初搜結果的所有句子作成圖(Graph)
– 每一句為一節點(Node)
– 句間相似度為結點間連線(Edge)之權重(Weight)
x1
x3
x2
x4
x5
x3
x1
x2
x5
x4
…..
初搜結果
圖形強化 (Graph-Enhanced)法 (1/3)

?
x1
x3
x2
x4
x5
x3
x1
x2
x5
x4
…..
高分
高分
加分
初搜結果
• 和很多高分的句子都有高權重的連線(高相似度)的句子
予以加分

?
x1
x3
x2
x4
x5
x3
x1
x2
x5
x4
…..
低分
低分
扣分
初搜結果
• 和很多低分的句子都有高權重的連線(高相似度)的句子
予以扣分

x1
x3
x2
x4
x5
x3
x1
x2
x5
x4
…..
x2
x5
x1
x4
x3
…..
初搜結果重排序
• 分數在圖上的節點間流動後收斂
– 所有初搜結果的句子相互補強確認，不倚賴前N名的假設

• 機器究竟瞭解數位內容多少呢？
• 讓機器考TOEFL Listening Comprehension Test (2016)
• 例題:
問題: “ What is a possible origin of Venus’ clouds? ”
語音內容:
選擇:
(A) gases released as a result of volcanic activity
(B) chemical reactions caused by high surface temperatures
(C) bursts of radio energy from the plane's surface
(D) strong winds that blow dust into the atmosphere
(5分鐘長)
機器理解 (Machine Comprehension)語音數位內容

(1) (2) (3) (4) (5)
未聽先猜
目前技術: 50.0%
選最短的
機器理解 (Machine Comprehension)語音數位內容
正
確
率
(%)
841篇考古題訓練機器
122篇考古題測試機器
• 目前技術 (2017)

機器替人類將網路資訊去蕪存菁融會貫通
• 機器有可能可以聽完全部數位內容，加以理解融會，並為每
一個人抽出他所需要部份
• 在這些多媒體數位內容中，語音常帶著關鍵資訊
每分鐘有300小時
多媒體資訊上傳
(2015.01)
Coursera有1874門課
(2016.04)
• 沒有人有能力看完這些數位內容
• 網路資訊大爆炸
– 人類文明盡萃於此
– 文明精華埋在大量不相干的資訊堆中

個人化課程 (Personalized Courses)
• 機器為每個人量身訂做所需課程
我想學一些「莫札特作品」
的知識
我是工程師背景，大一以後
不曾涉獵相關領域
我可以花3小時研習學習者
謝謝您，這是為您量身訂
做的一門3小時課程
線上課程或網路資訊

• 人類的千古大夢
– 只要開口說話就可開啟寶藏的大門
• 網路為未來全人類唯一最完整的知識寶藏
• 隨口說話就可用聲音開啟知識寶藏的大門
• 機器聽說人的語言充其量與人相同，但機器能處理巨量
資訊則遠勝人類
• 數十年前的超級大夢可在今天看到實現，故今天也可以
繼續作更多遙遠的超級大夢
芝麻開門

• 多條路徑上的不同詞都可被考慮到
− 正確詞被考慮到的機會大增，但同時增加大量錯誤詞
− 正確詞可能仍不在詞圖中，尤其是詞典外的詞
− 記憶及計算量需求極大
時間
Wi: 假設詞(word hypotheses)
用詞圖減少辨識錯誤的影響
u

動態時間
校準
相似度
• 聲音相似度以假設音段計算
考慮特徵向量序列
C
A
Q
Q
D
詞圖
Q
特徵向量序列
語句 xj
xj的假設音段
• 假設音段: 特徵向量序列中相當於詞圖上的指令Q且分數最高的那
一段
Q
Q
A
A
B
B
B
詞圖
語句 xi 特徵向量序列
xi的假設音段

xi的假設音段
xj的假設音段
xi的假設音段
xj
的
假
設
音
段
動態時間校準 (Dynamic Time Warping, DTW) (1/2)
歐巴馬

xj
的
假
設
音
段
xi的假設音段
動態時間校準 (Dynamic Time Warping, DTW) (2/2)

芝麻開門：語音技術的前世今生

Recommended

Recommended

More Related Content

More from linshanleearchive

More from linshanleearchive (19)

Recently uploaded

Recently uploaded (6)

芝麻開門：語音技術的前世今生