AI 時代下的新使用者介面 - 語音人工智慧
h t t p : / / o l a m i . a i
威盛電子股份有限公司
Ryan Hang , 2018-02-09
人工智慧
• 人工智慧(Artificial Intelligence, AI)一詞最早起源於 1950 年代
• 1980 年代研究領域轉為(Machine Learning)
• 2006 年深度神經網路(Deep Neural Network, DNN)發表
• 2012 年深度學習(Deep Learning)大爆發
使用者介面(User Interface)的演進
語音人工智慧
語 音 辨 識 + 自 然 語 言 理 解 + 多 輪 互 動 = 新 一 代 的 使 用 者 介 面
OLAMI 人工智慧平台
以 人 工 智 慧 創 造 新 一 代 的 “ 中 文 語 音 人 機 互 動 使 用 者 介 面 ”
VIA Technologies, Inc. | http://olami.ai
語音辨識
Voice Recognition
電腦視覺
Computer Vision
語言理解
Language
Understanding
語音命令檢測
Voice Commands Recognition
視線檢測
Eye Gaze Detection
即時目標檢測
Real-Time Object Detection
機器認知
Machine Cognition
自然語言語意理解
Natural Language Understanding
雲端語音辨識
Cloud Speech Recognition
人工智慧雲
AI Cloud Service
OLAMI 是一個多元化的 AI 軟體開發平台
提 供 給 A I 產 品 開 發 者 的 軟 體 開 發 解 決 方 案 包 含 了 視 覺 , 聽 覺 , 以 及 語 言 理 解 領 域
自然語言語意互動
Natural Language Interaction
以台灣中文為主的混合辨識引擎
 台灣在地化的用語
 解決“台灣國語”的口音問題
 國台語混合 or 國語+台語+英文混合
 台語辨識(中國大陸閩南語不完全等於台語)
當語音人工智慧遇上 IoT/AIoT
離線/嵌入式語音辨識
• 快速、不需要網路(Low latency and no internet needed)
• 命令詞辨識(Voice Command)
• 語音喚醒(Hotword Detection)
• 回聲消除(Acoustic Echo Cancelling;AEC)
遠場拾音技術
( Far-Field Voice Recognition )
 單路麥克風
 麥克風陣列(Microphone Array)
 5 公尺內精準辨識
運算
時代的演進
那 朵 雲 將 離 你 越 來 越 近
Device Cloud
曾經
far away
latency
• Local Computing(盡力就好) • Cloud Computing(很大力)
• Big Data
Device Edge Cloud
• Edge Computing(費點力)
• Big Data
現在
• Local Computing(盡力就好)
低延遲
距離短
latency
• Cloud Computing(很大力)
• Big Big Big Data
Device Cloud
• ASR|STT(聲音轉文字)
 大模型、辨識範圍廣
• NLP(自然語言處理)
 大模型、理解範圍廣
語音辨識(& NLP)呢?
• ASR(自動語音辨識)
 語音喚醒 or 命令詞(極小模型)
 簡易的辨識(小模型,能力有限)
 語音合成(TTS)
Device Cloud
80% ~ 90%
語音互動的分工合作
10%
註:數值僅為舉例,非實質數據。
Device Edge Cloud
• ASR|STT(聲音轉文字)
 中等模型、固定範圍
• NLP(自然語言處理)
 中等模型、固定範圍
語音現在可以怎麼做?
• ASR(自動語音辨識)
 語音喚醒 or 命令詞
 簡易的辨識
 語音合成(TTS)
• ASR|STT
 大模型、辨識範圍廣
• NLP(自然語言處理)
 大模型、理解範圍廣
低延遲
當超出理解
範圍時
latency
Device Edge Cloud
語音藉由 Edge 可以怎麼分工合作?
低延遲
當超出理解
範圍時
30% ~ 40%10% 50% ~ 60%
註:數值僅為舉例,非實質數據。
latency
舉例來說
Device Edge Cloud
高階的車用語音場景
低延遲
當超出理解
範圍時
• 較為複雜的語意的操作
e.g.
 {空調} {降} 到 {20} 度
 {副架} {車窗} {打開} {一半}
 {音樂} {聲音} {小} 一點
• 語音喚醒
• 簡易的固定命令詞
e.g.
 開導航
 聽廣播
• 語音合成(TTS)
• 更為複雜的語意操作
e.g.
 有沒有周杰倫的歌能聽?
 距離最近的加油站在哪?
 車子胎壓是不是不太對勁?
Client(車內)
內部網路
Device Edge Cloud
智慧家庭(智能家居)語音場景
低延遲
當超出理解
範圍時
• 較為複雜的語意的操作
e.g.
 來首 {輕快的} {音樂}
 {空調} {降} 到 {20} 度
 把 {廁所} 裡的 {燈} {打開}
 {兩小時} 後 {關掉} {除濕機}
• 語音喚醒
• 簡易的固定命令詞
e.g.
 開燈
 關冷氣
• 語音合成(TTS)
• 更為複雜的語意操作
e.g.
 有沒有周杰倫的歌能聽?
 看看外面是誰按鈴?
 附近哪個餐廳有促銷?
 紅燒獅子頭需要什麼材料?
Client(家裡 & 樓層/大樓/社區)
內部網路
這樣不夠!
Device Edge Cloud
語音應用不遠的將來 …
低延遲
當超出理解
範圍時
30% ~ 40%10% 50% ~ 60%
註:數值僅為舉例,非實質數據。
latency
60% ~ 70%
對某些場域來說甚至足以 100%
低功耗平台
VIA Technologies, Inc. | http://olami.ai
天下武功,唯快不破!
由 D N N 持 續 不 斷 的 快 速 發 展 所 帶 來 的 恩 惠 ,
AI Local Computing 技 術 成 熟 的 時 機 已 越 來 越 近 。
低 功 耗 地 端 運 算 超 低 延 遲 、 低 成 本 的 特 性 ,
將 會 是 智 慧 家 庭 產 業 成 員 成 長 的 重 要 關 鍵 之 一
而 我 們 相 信 , 這 一 天 很 快 就 會 來 到 !
案例分享
案例:台灣國語口音辨識
https://youtu.be/WETAN1fP1Hk示範影片 :
VIA Technologies, Inc. | http://olami.ai
語音智能家居示例
• 以自然語言控制各式家電設備。
• 噪聲(例:淨化機的風噪聲,圖中右方)
環境下的精準辨識。
示範影片 :
https://www.youtube.com/watch?v=j-TkKYgKa0Q
VIA Technologies, Inc. | http://olami.ai
挑戰孩子們
模糊的語意及發音
• 陪伴型語音智慧喇叭應用場景:
• Far-Field 遠距離收音 & 語音喚醒。
• 閒聊(自然語言理解)。
• 講故事、聽音樂。
• 學習數學。
• 多人語音訊息傳送與互動。
https://youtu.be/AiUfFRMhHKE
示範影片 :
VIA Technologies, Inc. | http://olami.ai
• Hands-Free 全 語 音 操 作 。
• 取 代 傳 統 鍵 盤 輸 入 作 業 。
• 大 幅 降 低 護 理 人 員 工 作 量 及 時 間 。
• 中 英 文 混 合 專 用 詞 彙 辨 識 。
案例:智慧醫療應用
語音輸入護理日誌
• 嘴唇無發紺
• 鼻胃管留置
• heart rate 是 86
• follow sugar 狀況
• 有 O2 mask 5L 使用
離線語音辨識案例 - AfoBot • 阿福寶 ( 2018 )
VIA Technologies, Inc. | http://olami.ai
OLAMI 深度學習引擎:影像辨識 - 應用案例 I
• 基於 Deep Learning 訓練的視線檢測模型,辨識人臉視線(是否在看你):
• 應用於機器人:讓 Robot 理解 User 是否正在看著它。
• 結合語音互動:當 User 看著 Robot 時,進行語音對話(無須經過語音喚醒的步驟)。
Gotcha !
示範影片:https://youtu.be/RxPNDiG7Sls
No No
VIA Technologies, Inc. | http://olami.ai
Eye/Gaze + Face Detection
她正在移動
可跟隨
Camera 拍攝畫面
示範影片:https://youtu.be/KaeKmwbKDhI
Thank You !
h t t p : / / o l a m i . a i
關注 「OLAMI 人工智慧開放」粉絲團掌握最新應用與發展
👉 👉 👉 @ai.olami

語音人機互動在各個運算時代下的發展 | Feb. 2018 威盛 OLAMI | 智慧家庭生活服務業交流會

  • 1.
    AI 時代下的新使用者介面 -語音人工智慧 h t t p : / / o l a m i . a i 威盛電子股份有限公司 Ryan Hang , 2018-02-09
  • 2.
    人工智慧 • 人工智慧(Artificial Intelligence,AI)一詞最早起源於 1950 年代 • 1980 年代研究領域轉為(Machine Learning) • 2006 年深度神經網路(Deep Neural Network, DNN)發表 • 2012 年深度學習(Deep Learning)大爆發
  • 3.
  • 4.
    語音人工智慧 語 音 辨識 + 自 然 語 言 理 解 + 多 輪 互 動 = 新 一 代 的 使 用 者 介 面
  • 5.
    OLAMI 人工智慧平台 以 人工 智 慧 創 造 新 一 代 的 “ 中 文 語 音 人 機 互 動 使 用 者 介 面 ”
  • 6.
    VIA Technologies, Inc.| http://olami.ai 語音辨識 Voice Recognition 電腦視覺 Computer Vision 語言理解 Language Understanding 語音命令檢測 Voice Commands Recognition 視線檢測 Eye Gaze Detection 即時目標檢測 Real-Time Object Detection 機器認知 Machine Cognition 自然語言語意理解 Natural Language Understanding 雲端語音辨識 Cloud Speech Recognition 人工智慧雲 AI Cloud Service OLAMI 是一個多元化的 AI 軟體開發平台 提 供 給 A I 產 品 開 發 者 的 軟 體 開 發 解 決 方 案 包 含 了 視 覺 , 聽 覺 , 以 及 語 言 理 解 領 域 自然語言語意互動 Natural Language Interaction
  • 7.
    以台灣中文為主的混合辨識引擎  台灣在地化的用語  解決“台灣國語”的口音問題 國台語混合 or 國語+台語+英文混合  台語辨識(中國大陸閩南語不完全等於台語)
  • 8.
  • 9.
    離線/嵌入式語音辨識 • 快速、不需要網路(Low latencyand no internet needed) • 命令詞辨識(Voice Command) • 語音喚醒(Hotword Detection) • 回聲消除(Acoustic Echo Cancelling;AEC)
  • 10.
    遠場拾音技術 ( Far-Field VoiceRecognition )  單路麥克風  麥克風陣列(Microphone Array)  5 公尺內精準辨識
  • 11.
    運算 時代的演進 那 朵 雲將 離 你 越 來 越 近
  • 12.
    Device Cloud 曾經 far away latency •Local Computing(盡力就好) • Cloud Computing(很大力) • Big Data
  • 13.
    Device Edge Cloud •Edge Computing(費點力) • Big Data 現在 • Local Computing(盡力就好) 低延遲 距離短 latency • Cloud Computing(很大力) • Big Big Big Data
  • 14.
    Device Cloud • ASR|STT(聲音轉文字) 大模型、辨識範圍廣 • NLP(自然語言處理)  大模型、理解範圍廣 語音辨識(& NLP)呢? • ASR(自動語音辨識)  語音喚醒 or 命令詞(極小模型)  簡易的辨識(小模型,能力有限)  語音合成(TTS)
  • 15.
    Device Cloud 80% ~90% 語音互動的分工合作 10% 註:數值僅為舉例,非實質數據。
  • 16.
    Device Edge Cloud •ASR|STT(聲音轉文字)  中等模型、固定範圍 • NLP(自然語言處理)  中等模型、固定範圍 語音現在可以怎麼做? • ASR(自動語音辨識)  語音喚醒 or 命令詞  簡易的辨識  語音合成(TTS) • ASR|STT  大模型、辨識範圍廣 • NLP(自然語言處理)  大模型、理解範圍廣 低延遲 當超出理解 範圍時 latency
  • 17.
    Device Edge Cloud 語音藉由Edge 可以怎麼分工合作? 低延遲 當超出理解 範圍時 30% ~ 40%10% 50% ~ 60% 註:數值僅為舉例,非實質數據。 latency
  • 18.
  • 19.
    Device Edge Cloud 高階的車用語音場景 低延遲 當超出理解 範圍時 •較為複雜的語意的操作 e.g.  {空調} {降} 到 {20} 度  {副架} {車窗} {打開} {一半}  {音樂} {聲音} {小} 一點 • 語音喚醒 • 簡易的固定命令詞 e.g.  開導航  聽廣播 • 語音合成(TTS) • 更為複雜的語意操作 e.g.  有沒有周杰倫的歌能聽?  距離最近的加油站在哪?  車子胎壓是不是不太對勁? Client(車內) 內部網路
  • 20.
    Device Edge Cloud 智慧家庭(智能家居)語音場景 低延遲 當超出理解 範圍時 •較為複雜的語意的操作 e.g.  來首 {輕快的} {音樂}  {空調} {降} 到 {20} 度  把 {廁所} 裡的 {燈} {打開}  {兩小時} 後 {關掉} {除濕機} • 語音喚醒 • 簡易的固定命令詞 e.g.  開燈  關冷氣 • 語音合成(TTS) • 更為複雜的語意操作 e.g.  有沒有周杰倫的歌能聽?  看看外面是誰按鈴?  附近哪個餐廳有促銷?  紅燒獅子頭需要什麼材料? Client(家裡 & 樓層/大樓/社區) 內部網路
  • 21.
  • 22.
    Device Edge Cloud 語音應用不遠的將來… 低延遲 當超出理解 範圍時 30% ~ 40%10% 50% ~ 60% 註:數值僅為舉例,非實質數據。 latency 60% ~ 70% 對某些場域來說甚至足以 100% 低功耗平台
  • 23.
    VIA Technologies, Inc.| http://olami.ai 天下武功,唯快不破! 由 D N N 持 續 不 斷 的 快 速 發 展 所 帶 來 的 恩 惠 , AI Local Computing 技 術 成 熟 的 時 機 已 越 來 越 近 。 低 功 耗 地 端 運 算 超 低 延 遲 、 低 成 本 的 特 性 , 將 會 是 智 慧 家 庭 產 業 成 員 成 長 的 重 要 關 鍵 之 一 而 我 們 相 信 , 這 一 天 很 快 就 會 來 到 !
  • 24.
  • 25.
  • 26.
    VIA Technologies, Inc.| http://olami.ai 語音智能家居示例 • 以自然語言控制各式家電設備。 • 噪聲(例:淨化機的風噪聲,圖中右方) 環境下的精準辨識。 示範影片 : https://www.youtube.com/watch?v=j-TkKYgKa0Q
  • 27.
    VIA Technologies, Inc.| http://olami.ai 挑戰孩子們 模糊的語意及發音 • 陪伴型語音智慧喇叭應用場景: • Far-Field 遠距離收音 & 語音喚醒。 • 閒聊(自然語言理解)。 • 講故事、聽音樂。 • 學習數學。 • 多人語音訊息傳送與互動。 https://youtu.be/AiUfFRMhHKE 示範影片 :
  • 28.
    VIA Technologies, Inc.| http://olami.ai • Hands-Free 全 語 音 操 作 。 • 取 代 傳 統 鍵 盤 輸 入 作 業 。 • 大 幅 降 低 護 理 人 員 工 作 量 及 時 間 。 • 中 英 文 混 合 專 用 詞 彙 辨 識 。 案例:智慧醫療應用 語音輸入護理日誌 • 嘴唇無發紺 • 鼻胃管留置 • heart rate 是 86 • follow sugar 狀況 • 有 O2 mask 5L 使用
  • 29.
    離線語音辨識案例 - AfoBot• 阿福寶 ( 2018 )
  • 30.
    VIA Technologies, Inc.| http://olami.ai OLAMI 深度學習引擎:影像辨識 - 應用案例 I • 基於 Deep Learning 訓練的視線檢測模型,辨識人臉視線(是否在看你): • 應用於機器人:讓 Robot 理解 User 是否正在看著它。 • 結合語音互動:當 User 看著 Robot 時,進行語音對話(無須經過語音喚醒的步驟)。 Gotcha ! 示範影片:https://youtu.be/RxPNDiG7Sls No No
  • 31.
    VIA Technologies, Inc.| http://olami.ai Eye/Gaze + Face Detection 她正在移動 可跟隨 Camera 拍攝畫面 示範影片:https://youtu.be/KaeKmwbKDhI
  • 32.
    Thank You ! ht t p : / / o l a m i . a i 關注 「OLAMI 人工智慧開放」粉絲團掌握最新應用與發展 👉 👉 👉 @ai.olami

Editor's Notes

  • #13 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #14 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #15 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #16 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #17 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #18 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #19 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #20 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #21 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #22 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習
  • #23 1950年代電腦發明以來就已興起,關注於如何以電腦解決問題,早期只能解一些數學問題。 1980年代研究領域轉為「機器學習」,是一門涵蓋電腦科學、統計學、機率論、博弈論等多門領域的學科。 2006年成功訓練多層神經網路、稱為深度學習