Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
芝麻開門 — 語音技術的前世今生 李琳山 電機資訊學院
前世 1980-1997
背景 • 大鍵盤中文打字機 (1980) – 英文打字機 – 最原始的個人電腦剛剛問世 – 中文字輸入？字根、注音、四角號碼… • 用聲音輸入中文？ – 一字一音、音總數有限 – 電腦聽華語？ • 先讓電腦說華語 (1983) – 把所有單音作...
華語語音合成 (Speech Synthesis) • 由語言學家學得 (1983) – 每個音的特性都因前後字不同而有不同的抑揚頓挫 • 由數據中尋求一般性規則 – 音高、音量、音長、停頓
我 有 好 幾 把 小 雨 傘 華語語音合成 (Speech Synthesis) 3 33 33 3 33 • 第三聲相連 3 3 → 2 3 S 有 N 好幾 𝑉𝑃 我 𝑁𝑃V NPQP QMOD NMOD 把 小 雨傘
華語語音合成 (Speech Synthesis) • 電腦說國語 – 輸入文字注音、輸出聲音 – 全球首聞(1984) – 文句翻譯語音 (Text-to-speech)
電腦說相聲 • 兩套不同技術對話 (1987) • 呈現抑揚頓挫變化
華文句型之電腦剖析 (Computer Analysis of Sentence Structure) • 空格 (Empty Category) (1986) 被李四叫去吃飯的小孩
華文句型之電腦剖析 (Computer Analysis of Sentence Structure) 我去年丟掉的那隻狗，我以前以為已經死掉了， 昨天居然被我找到了 (1986)
華語語音辨識 (Speech Recognition) • 極大詞彙、任意文句 • 三假設讓問題有可能求解 (1986) – 輸入時一個字一個字斷開輸入 – 每個人說話訓練機器聽自己的聲音 – 錯誤用軟體在螢光幕上更正 • 切割問題 (1986...
電路設計圖舉例 • 1989
硬體系統相片 • 1989
晶片設計 • 1992 特徵晶片 維特比晶片
金聲一號 (Golden Mandarin I) • 1992年3月 • 金聲玉振，金玉之聲 • 每個字斷開來唸 • 奇慢無比、系統複雜 • 全球首見的華語辨 識功能 • 考慮華語特性 – 一字一音、斷開、 聲韻母、聲調、 同音字
金聲三號 (Golden Mandarin III) • 1995年3月 • 連續語音輸入 – 機器學到前後文的影響 – 機器學習 – 自力完成所有data，所有程式 • PC版(GM III a) – 短句輸入 • 工作站版(GM III b...
今生
多語言語音個人助理 • 問題舉例 －下週紐約天氣如何 ? －發簡訊、個人時間表管理等 輸出語音 造句 輸入語音 語言 瞭解 語音 合成 對話 管理 Google 資訊搜尋 知識圖 機器 翻譯 語音 辨識 問題 詢答 維基百科 • 特別問題 －唐...
多語言語音個人助理 輸出語音 造句 輸入語音 語言 瞭解 語音 合成 對話 管理 Google 資訊搜尋 知識圖 機器 翻譯 語音 辨識 問題 詢答 維基百科 • 舉例：Siri (Apple), Google Now (Google), Co...
新的遙遠大夢─語音數位內容搜尋 (Spoken Content Retrieval) 我想找有關 Deep Learning的演 講 學習者 • 網路上多媒體影音如排山倒海而來 – YouTube、MOOCs… – 多數有聲音旁白但沒有文字字幕...
公視新聞搜尋 • 2004
多模式對話 使用者 指令 語音數位內容 搜尋引擎 搜尋結果 關鍵詞/標題/摘要 使用者 介面 智慧型目錄 • 用Google搜尋文章時，使用者之點選瀏覽極有幫助 • 語音或多媒體數位內容不易呈現在螢幕上，不若文字數 位內容一目瞭然，不易點選瀏覽...
電視新聞瀏覽器 (2006) (Broadcast News Browser) 現場展示
⚫ 網路課程常需相當長的時間(例如45小時)才能完整學 習 – 很忙的人很難由網路課程學習知識 ⚫ 有瀏覽器可以搜尋 – 課程知識是有順序的，沒學前面可能聽不懂後面 ⚫ 解決方法 – 課程內容以投影片為單位切成小段 – 每一小段以其關鍵詞標示其...
台大虛擬教師 (2009) （NTU Virtual Instructor） 現場展示
學海無涯 752 matches • 線上課程浩瀚無邊
機器製作學習地圖 內容接近的段落 相關課程
學習順序 機器製作學習地圖 相關課程
機器製作學習地圖 (2014) 現場展示
語音數位內容搜尋(Spoken Content Retrieval) 技術 • 先辨識再搜尋 – 受限於語音辨識正確率 – 網路資訊不易掌握，永遠有相當辨識錯誤 • 直接在聲音上搜尋，省去辨識錯誤的難題 (2008-2016) – 開創及發展五...
• 機器究竟瞭解數位內容多少呢？ • 讓機器考TOEFL Listening Comprehension Test (2016) • 例題: 問題: “ What is a possible origin of Venus’ clouds? ”...
(1) (2) (3) (4) (5) 未聽先猜 目前技術: 50.0% 選最短的 機器理解 (Machine Comprehension)語音數位內容 正 確 率 (%) 841篇考古題訓練機器 122篇考古題測試機器 • 目前技術 (201...
來生？
機器替人類將網路資訊去蕪存菁融會貫通 • 機器有可能可以聽完全部數位內容，加以理解融會，並為每 一個人抽出他所需要部份 • 在這些多媒體數位內容中，語音常帶著關鍵資訊 每分鐘有300小時 多媒體資訊上傳 (2015.01) Coursera有1...
個人化課程 (Personalized Courses) • 機器為每個人量身訂做所需課程 ➢ 我想學一些「莫札特作品」的 皮毛 ➢我是工程師背景，大一以後 不曾涉獵相關領域 ➢我可以花3小時研習 學習者 沒問題，我為你量身訂做 一門3小時課程...
• 人類自古以來的大夢 – 只要開口說話就可開啟寶藏的大門 • 網路為未來全人類唯一最完整的知識寶藏 • 隨口說話就可用聲音開啟知識寶藏的大門 • 機器聽說人的語言充其量與人相同，但機器能處理巨量 資訊則遠勝人類 • 數十年前的超級大夢可在今天...
Upcoming SlideShare
Loading in …5
×

芝麻開門 - 語音技術的前世今生

28 views

Published on

2018《芝麻開門：語音技術的前世今生》新科院士演講

Published in: Education
no profile picture user

  • Be the first to comment

  • Be the first to like this

芝麻開門 - 語音技術的前世今生

  1. 1. 芝麻開門 — 語音技術的前世今生 李琳山 電機資訊學院
  2. 2. 前世 1980-1997
  3. 3. 背景 • 大鍵盤中文打字機 (1980) – 英文打字機 – 最原始的個人電腦剛剛問世 – 中文字輸入？字根、注音、四角號碼… • 用聲音輸入中文？ – 一字一音、音總數有限 – 電腦聽華語？ • 先讓電腦說華語 (1983) – 把所有單音作出來，拼成任意文句 – 不知所云，不忍卒聽
  4. 4. 華語語音合成 (Speech Synthesis) • 由語言學家學得 (1983) – 每個音的特性都因前後字不同而有不同的抑揚頓挫 • 由數據中尋求一般性規則 – 音高、音量、音長、停頓
  5. 5. 我 有 好 幾 把 小 雨 傘 華語語音合成 (Speech Synthesis) 3 33 33 3 33 • 第三聲相連 3 3 → 2 3 S 有 N 好幾 𝑉𝑃 我 𝑁𝑃V NPQP QMOD NMOD 把 小 雨傘
  6. 6. 華語語音合成 (Speech Synthesis) • 電腦說國語 – 輸入文字注音、輸出聲音 – 全球首聞(1984) – 文句翻譯語音 (Text-to-speech)
  7. 7. 電腦說相聲 • 兩套不同技術對話 (1987) • 呈現抑揚頓挫變化
  8. 8. 華文句型之電腦剖析 (Computer Analysis of Sentence Structure) • 空格 (Empty Category) (1986) 被李四叫去吃飯的小孩
  9. 9. 華文句型之電腦剖析 (Computer Analysis of Sentence Structure) 我去年丟掉的那隻狗，我以前以為已經死掉了， 昨天居然被我找到了 (1986)
  10. 10. 華語語音辨識 (Speech Recognition) • 極大詞彙、任意文句 • 三假設讓問題有可能求解 (1986) – 輸入時一個字一個字斷開輸入 – 每個人說話訓練機器聽自己的聲音 – 錯誤用軟體在螢光幕上更正 • 切割問題 (1986) – 辨識聲母、韻母、聲調、同音字 • 系統整合 – 超級複雜 – 記憶體、計算量、辨識速度 – 硬體電路 (1989)、晶片(1992)、平行電腦 (1992)
  11. 11. 電路設計圖舉例 • 1989
  12. 12. 硬體系統相片 • 1989
  13. 13. 晶片設計 • 1992 特徵晶片 維特比晶片
  14. 14. 金聲一號 (Golden Mandarin I) • 1992年3月 • 金聲玉振，金玉之聲 • 每個字斷開來唸 • 奇慢無比、系統複雜 • 全球首見的華語辨 識功能 • 考慮華語特性 – 一字一音、斷開、 聲韻母、聲調、 同音字
  15. 15. 金聲三號 (Golden Mandarin III) • 1995年3月 • 連續語音輸入 – 機器學到前後文的影響 – 機器學習 – 自力完成所有data，所有程式 • PC版(GM III a) – 短句輸入 • 工作站版(GM III b) – 長句輸入
  16. 16. 今生
  17. 17. 多語言語音個人助理 • 問題舉例 －下週紐約天氣如何 ? －發簡訊、個人時間表管理等 輸出語音 造句 輸入語音 語言 瞭解 語音 合成 對話 管理 Google 資訊搜尋 知識圖 機器 翻譯 語音 辨識 問題 詢答 維基百科 • 特別問題 －唐詩宋詞等 • 舉例：Siri (Apple), Google Now (Google), Cortana (Microsoft)… －誰是美國總統? －到台大怎麼走?
  18. 18. 多語言語音個人助理 輸出語音 造句 輸入語音 語言 瞭解 語音 合成 對話 管理 Google 資訊搜尋 知識圖 機器 翻譯 語音 辨識 問題 詢答 維基百科 • 舉例：Siri (Apple), Google Now (Google), Cortana (Microsoft)… • 有尖端技術(雲端、巨量數據、深層學習、對話系統、資訊搜尋等) 之加持，但華語語音部分完全建構於前世在台大所孕育的基礎上 – 三十年後也只有大型產業才能實現，以三十年前的資源規模看，當 時的構想是一個超級大夢
  19. 19. 新的遙遠大夢─語音數位內容搜尋 (Spoken Content Retrieval) 我想找有關 Deep Learning的演 講 學習者 • 網路上多媒體影音如排山倒海而來 – YouTube、MOOCs… – 多數有聲音旁白但沒有文字字幕 – Google能看盡天下文章後幫人找到任何一篇文章 – 機器能聽聲音正如Google能看文字 • 語音版的Google
  20. 20. 公視新聞搜尋 • 2004
  21. 21. 多模式對話 使用者 指令 語音數位內容 搜尋引擎 搜尋結果 關鍵詞/標題/摘要 使用者 介面 智慧型目錄 • 用Google搜尋文章時，使用者之點選瀏覽極有幫助 • 語音或多媒體數位內容不易呈現在螢幕上，不若文字數 位內容一目瞭然，不易點選瀏覽 • 可能的解決方法 (2005) – 自動產生關鍵詞、標題、摘要協助瀏覽 – 自動建立智慧型目錄協助點選瀏覽 – 使用者與系統對話 搜尋語音數位內容時之點選瀏覽
  22. 22. 電視新聞瀏覽器 (2006) (Broadcast News Browser) 現場展示
  23. 23. ⚫ 網路課程常需相當長的時間(例如45小時)才能完整學 習 – 很忙的人很難由網路課程學習知識 ⚫ 有瀏覽器可以搜尋 – 課程知識是有順序的，沒學前面可能聽不懂後面 ⚫ 解決方法 – 課程內容以投影片為單位切成小段 – 每一小段以其關鍵詞標示其內容 – 整個課程的所有關鍵詞以其間相互關係建構成關鍵詞圖(智 慧型目錄) 網路課程
  24. 24. 台大虛擬教師 (2009) （NTU Virtual Instructor） 現場展示
  25. 25. 學海無涯 752 matches • 線上課程浩瀚無邊
  26. 26. 機器製作學習地圖 內容接近的段落 相關課程
  27. 27. 學習順序 機器製作學習地圖 相關課程
  28. 28. 機器製作學習地圖 (2014) 現場展示
  29. 29. 語音數位內容搜尋(Spoken Content Retrieval) 技術 • 先辨識再搜尋 – 受限於語音辨識正確率 – 網路資訊不易掌握，永遠有相當辨識錯誤 • 直接在聲音上搜尋，省去辨識錯誤的難題 (2008-2016) – 開創及發展五大方向 文字資 訊 文字 搜尋 搜尋 結果 語音 辨識 聲音 搜尋 搜尋 結果
  30. 30. • 機器究竟瞭解數位內容多少呢？ • 讓機器考TOEFL Listening Comprehension Test (2016) • 例題: 問題: “ What is a possible origin of Venus’ clouds? ” 語音內容: 選擇: (A) gases released as a result of volcanic activity (B) chemical reactions caused by high surface temperatures (C) bursts of radio energy from the plane's surface (D) strong winds that blow dust into the atmosphere (5分鐘長) 機器理解 (Machine Comprehension)語音數位內容
  31. 31. (1) (2) (3) (4) (5) 未聽先猜 目前技術: 50.0% 選最短的 機器理解 (Machine Comprehension)語音數位內容 正 確 率 (%) 841篇考古題訓練機器 122篇考古題測試機器 • 目前技術 (2016)
  32. 32. 來生？
  33. 33. 機器替人類將網路資訊去蕪存菁融會貫通 • 機器有可能可以聽完全部數位內容，加以理解融會，並為每 一個人抽出他所需要部份 • 在這些多媒體數位內容中，語音常帶著關鍵資訊 每分鐘有300小時 多媒體資訊上傳 (2015.01) Coursera有1874門課 (2016.04) • 沒有人有能力看完這些數位內容 • 網路資訊大爆炸 – 人類文明盡萃於此 – 文明精華埋在大量不相干的資訊堆中
  34. 34. 個人化課程 (Personalized Courses) • 機器為每個人量身訂做所需課程 ➢ 我想學一些「莫札特作品」的 皮毛 ➢我是工程師背景，大一以後 不曾涉獵相關領域 ➢我可以花3小時研習 學習者 沒問題，我為你量身訂做 一門3小時課程 線上課程或網路資訊
  35. 35. • 人類自古以來的大夢 – 只要開口說話就可開啟寶藏的大門 • 網路為未來全人類唯一最完整的知識寶藏 • 隨口說話就可用聲音開啟知識寶藏的大門 • 機器聽說人的語言充其量與人相同，但機器能處理巨量 資訊則遠勝人類 • 數十年前的超級大夢可在今天看到實現，故今天也可以 繼續作更多遙遠的超級大夢 芝麻開門

×