人工智慧與語音助理
李長安,宋婕,陳昱廷,葉冠為
20170909 1
為什麼過去AI沒辦法落實在生活裡?
AI近期能以甚麼樣的形式出現在生活裡?
哪一種商業模式勝出機率最大?
Pre-session Questions
2
Agenda
01 02 03 04
1.A.I. 人工智慧
2.語音助理
3.關鍵技術:語音
辨識技術 定義
歷史
1.技術架構
2.如何運作
1.重大技術突
破
2. 深度學習
3.反思
1. 著名廠商及
產品
2. 性能介紹
3
超越想像的A.I.人工智慧
01 - 從無到有
- 應用領域
- 新趨勢產業
- 關鍵技術
4
你對A.I. 人工智慧的想像是什麼?
機器人家庭助理?自動駕駛的無人車?解讀情緒的虛擬戀人?
背景圖片來源:Google搜尋 “AI 人工智慧”
人類對A.I. 人工智慧的想像:智慧機器人
2016 西方極樂園
2013 雲端情人
2001 A.I. 人工智慧 2004 機械公敵
2014 全面進化
圖片來源:Google “電影名稱“ 就會跑出來了 6
什麼是A.I. 人工智慧?
Stanford University 「人工智慧百年研究」
(AI100 )項目在2016年九月發布了首篇名
為「2030 的人工智慧與生活( AI and Life in
2030)」報告,指出:
「人工智慧就是致力於讓機器擁有智能的活
動,而智能就是使實體在其環境中有遠見
地、適當地實現功能性的能力。」
By Nils J. Nilsson
(Stanford University的電腦科學家)
7Source: Stanford University, https://goo.gl/Q9M18U
A.I. 人工智慧參與了人類生活的哪些領域?
娛樂 教育 交通
家庭/服務機
器人
健康護理 資源匱乏型
社區
公共安全與
防護
就業與勞資
Source: Stanford University, https://goo.gl/Q9M18U 8
A.I. 人工智慧的熱門研究領域
- AI 應用之當紅炸子雞—語音助理 例如: Google Home, Amazon Echo,透過自然語言
處理法中的語音辨識技術處理人類語音命令,提問,與對話。
機器學習
機器人
自然語言處理之
語音辨識
人工神經網絡
強化與深度學習.
Source: 數位時代 9
AI近年重大技術突破
02 - 深度學習
10
是什麼造就了人工智慧?
“ A.I. 其實就是f(x)=y的函數,而這個函數可以透過「深度學習」來達成“
11Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
以Alpha Go為例
12
以兩大高手對弈的棋譜來作為每一步棋的最佳解
Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
但是,人工智慧並非萬能的。Why?
- 必須針對不同情境去演算
- 如:Alpha Go 是針對圍棋,IBM 是針對機智問答
,TESLA 是針對自動駕駛
13
機器如何深度學習
14
- 每一層要設定各自的權重(weight) 跟變數 (parameter)
- 每一層之間必須相互串連
- 在不同的權重下,一個input可能產生幾百萬種可能的output
Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
梯度下降法(Gradient Descent)
15
- 由於每個變數的權數不同,所以我們會得到許多類似的函數,如f1(x)、 f2(x)、 f3(x)….等
- 令Total Loss L1= ( f1(x1)-T1 ) + ( f1(x2)-T2 ) + ( f1(x1)-T1 ) + ( f1(x3)-T3 ) + ……….等
- 找出min( L1 , L2 , L3 , …….. ),產生誤差最小值的函數就是目標函數
Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
越多層越好?
16
- 越多層,錯誤率越低
- 但是有可能越難找到最低值
Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
深度學習的應用
17
除了聲音,還有圖像辨識
Source:泛科技 PanX.asia、台灣大學電機系助理教授李宏毅
結論
近代硬體計算設備的進步,使得短
時間內的大量運算成為可能
大量被資訊化的資料,提供了AI學
習的材料
我們仍需要依靠人類來設定深度學
習的架構
深度學習是人類經驗導向,人類的
經驗終究還是限制了AI的結果
AI可以理解為擁有完美經驗的人類長者
但是
18
智慧語音助理關鍵技術:語音辨識
03
19
什麼是語音辨識技術?
- 語音識別 (speech recognition),也稱自動語音識別(Automatic Speech Recognition,
ASR)、電腦語音識別 (Computer Speech Recognition) 或語音轉文本識別 (Speech To Text,
STT)
- 定義:語音識別是以語音為研究對象,通過語音信號處理和模式識別讓機器自動識別和理解人
類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本
或命令的高端技術。
- 目標:用電腦將人類的語音內容轉換為相應的文字
- 技術應用:語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入;與其他
自然語言處理技術,如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語
音到語音的翻譯
- 產業領域:信號處理、模式識別、機率論和資訊理論、發聲機理和聽覺機理、人工智慧等
Source:大林慈院教學部教學研發組劉普昇, https://goo.gl/yfphs4 20
語音辨識技術的歷史沿革
1952 年,Davis 等人研製了世界上第一個能識別 10 個英文數字發音的實驗系統
1962 年,IBM 展示了 Shoebox ,其能理解 16 個口語單詞以及 0-9 的英文數字
1970 年代,卡耐基梅隆大學研發 harpy speech recognition system,能識別 1011 個單詞(3 歲兒童)
1980 年代,語音識別引入了隱馬爾可夫模型( Hidden Markov Model)
1990 年代,首個消費級產品 DragonDictate,由國際語音識別公司 Nuance 發布
2007 年,Dag Kittlaus 和 Adam Cheyer 創立 Siri.Inc,後被蘋果收購,於 2011 年出現在 iPhone 4s 上
2011 年,微軟突破,使用深度神經網絡模型之後,語音識別錯誤率降低 30%
2015 年,IBM Watson 系統在評測基準 Switchboard 資料庫中取得了 8% 的詞錯率(WER)
2017 年,微軟語音識別錯誤率降至 5.1%,超越專業聽打記錄員
Source: 香港矽谷, https://goo.gl/dEsqon 21
Behind the Scenes of 語音辨識技術
建立語音辨識系統的元素:
- 詞庫 Lexicon:利用音素(單詞的發音)連接詞語和發音的一個資料網絡
- 聲學模型 Acoustic Model : 基本上是一個巨量資料雲端,預先收集各種語言的海量語音,
口音等資料,透過演算法去計算使用者的語音對應到音節的機率
- 語言模型 Language Model : 透過詞庫組成並收集片語的語料庫。使用語音辨識系統的結果
,會產生由語言模型中的片語組成的句子。
小結:
語音辨識系統的目標就是從語言模型中找出能產生最高配對分數
(Alignment Score) 的片語組合。
22
Behind the Scenes of 語音辨識技術
- 在語音辨識系統中,每一可能詞組的假設單位都是參賽者,擁有最高配對分數(Alignment
Score)者為贏家,也就是系統想要得出的結果。
配對分數 Alignment Score
- 聲學模型分數 AM score
音節和語音之間的配對程度
- 語言模型分數 LM score
連續辨認詞彙的可能 值
23Source: https://goo.gl/bsiacf
01 0302 04
聲學模型 解碼器 後端處理
語音辨識器產生訊息的流程?
訊號處理
聲音
特定向量 語音概率 文字
訊息
24Source: http://www.iq-t.com/SYSPRO/iqasr_01.asp
結論
語音助理並不是新技術,而是在加入人工智慧,深度學習,自然語言處理後,搖身一變成為新型態
的智慧語音助理,更加人性化,能分辨語意,口音,簡化了人類與機器的溝通方式。
25
剖析智慧語音助理的商業模式
04
26
A.I. 人工智慧+語音識別技術=智慧語音助理
- 2011年Apple的Siri問世,為iOS系統內建的語音助理,可應對多國語言,可以直接用說話的
方式來命令你的手機執行許多動作,像是:打電話、傳簡訊、開啟 App、設定鬧鐘、問路、問時
間、不必動手也能速查 Google 與維基百科,或甚至跟他聊天談心談人生
- 2014 年 Amazon 推出 以Alexa智慧語音助理為基底的Echo聲控揚聲器,為使用者提供查詢
天氣,線上購物,控制電器等服務
- 2016年 Google同樣推出他配人工智慧的語音助理Google Home聲控揚聲器,功能與Alexa
非常相似
- 智慧語音助理:靠著人工智慧,Amazon Echo跟Google Home擁有高智能,數位服務,搭配
家電,手機App,食衣住行育樂,包辦所有服務,就像全能的智慧管家。
27
科技大廠旗下的智慧語音助理
控制平台
Hub裝置
開發平台
智慧家電
尚未推出 Alexa App Home App
Google Home Echo iPhone, Mac, Apple Watch, Apple TV
Assistant API,
Google Smart
Home Platform
Alexa Skills Kit Home Kit, Siri Kit
燈泡、門鎖、煙霧偵測、冰箱 …等
資料來源:數位時代 28
智慧語音助理比較
29Source: Bitcoin magazine、數位時代
Google Home Amazon
價格 (USD) 130 Echo: 180; Tap: 100; Dot: 50
麥克風 2 6+1麥克風陣列
顏色 7色 白、黑
平台 Google Assistant Alexa
喚醒詞 Ok, Google
Hey, Google
Alexa
App 378 15000
優勢 整合 Google 系統性服務
搜尋功能強
互動自然
應用範圍廣 (Uber叫車、訂Pizza等)
搶先 Google 兩年布局服務生態系
智慧語音助理比較
30Source: https://goo.gl/S9JtEV
Google Home Amazon
音樂串流搭配平台 Google Play Music,
YouTube Music, Spotify,
Pandora, Tuneln
Amazon Prime Music, Spotify,
Pandora, iHeartRadio, TuneIn,
others
智能家居搭配品牌 Nest, Honeywell,
SmartThings, Wink, Belkin
WeMo, Philips Hue, Lifx,
Lutron, August, Logitech
Harmony, Anova, IFTTT,
others
Nest, Ecobee, Honeywell,
SmartThings, Wink, Insteon, Belkin
WeMo, Philips Hue, Lifx, Lutron,
August, Logitech Harmony, Anova,
Big Ass Fans, IFTTT, Control4,
Crestron, others
客制化外觀 可 否
輸出至音響設備 可, 透過 Chromecast 可, 透過藍芽或 Echo Dot
跨裝置同步播放音樂 可, 但限 Google Cast 裝置 否
Amazon Echo是智慧家居的中樞
作為智慧家居的中樞,透過網路連接所有設備的中心
如何獲利?
- 將消費者緊緊綁在Alexa平台上,增加消費者購買Amazon產品的頻率,
新型的開發者獲利機制,使用戶能免費使用各種App
- 向第三方業者收取授權費用
31
商業模式
32
第三方服務
使用者
授權使用Alexa平台
Alexa
Echo
金流
智流
資訊流
Source: http://mic.iii.org.tw/aisp/FreeS.aspx?id=3079
商業模式
➢ 增加平台黏著度,促進消費
者使用 amazon 服務、購買
amazon 商品
➢ 同時向使用 amazon 平台
的商家收授權金
➢ 主要目的為蒐集更多資料
,以利提升廣告、行銷精準
度
打造新消費型態
33
精準行銷
為什麼過去AI沒辦法落實在生活裡?
AI近期能以甚麼樣的形式出現在生活裡?
哪一種商業模式勝出機率最大?
Pre-session Questions
34
A 打造新消費型態的Amazon
A 智慧語音助理
A 硬體與資料庫的限制
Thank you !
Q A&
35

人工智慧與語音助理