李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望

1,968 views

Published on

李祈均博士目前是國立清華大學電機系的助理教授。他的研究專長在於運用及開發訊號處理及機器學習技術進行跨領域研究,尤其是在對人類行為進行分析、預測、及統計建模。他長期著墨在運用不同種類的資料檔 ( 文字、聲音、影像等等 ) 於醫療、教育、心理領域研發相關演算法。他曾是 ID Analytics 公司旗下的 id:a lab 的資料科學家,透過分析客戶信用申請函資訊進行金融信用產品之研發與開發。目前在清大跟榮總、國家衛生研究院、長庚醫院、臺大醫院、及國家教育研究院等機構合作研究對人類情緒,教育演講,及醫療臨床行為進行量化建模及客觀辨識。

Published in: Data & Analytics
0 Comments
17 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,968
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
255
Comments
0
Likes
17
Embeds 0
No embeds

No notes for slide

李祈均/人類行為訊號處理 : 跨學科 (醫療、教育、心理) 應用實例分享、心得、展望

  1. 1. 1 李祈均 (Jeremy) 國立清華大學電機工程學系 Behavioral Informatics and Interaction Computation Lab (BIIC) 人類行為訊號處理: 跨學科(教育、醫療、心理)應用實例分享、心得、展望 2016 台灣資料科學愛好者年會 2016.07.17
  2. 2. 2 透過數位資料收集、跨領域整合人類科學知識、開發訊號處理演算法, 以進行人類行為量化分析辨識,提供專家全新的決策工具
  3. 3. 3 整合四元素 人類行為訊號處理 (BSP)
  4. 4. BSP INGREDIENTS 4 資料代表性 資料真實性、應用導向 充分預處理 誰說甚麼 (語音檢測器、人聲分群) 臉部、肢體偵測、追蹤 適切模型建立 符合資料特性、數量的演 算法應用 演算法包含: 特徵值計算 + 機器學習 多面向模型評估 多面向有意義的評估系統效度 慎選指標、應用導向 I. 收集 II. 預處理 III. 建模 IV. 評估
  5. 5. 5 緊密的跨領域合作 BSP INGREDIENTS 領域專家 工程師
  6. 6. 6 舉幾個跨學科實例 . . .
  7. 7. 7 教育: 國家教育研究院
  8. 8. 8 親子天下(2013,3 月13 日)以「題型僵化?誰把老師考笨了?」 為標題,明白指出對於現行教師資格檢定命題方式的疑慮 天下雜誌(2013,5 月29 日)從「被標準答案綁架的老師」 來訴說檢定試題題型的僵化,已限制住原有欲評量師資 應具備的基本能力。
  9. 9. 9 國家教育研究院 年度校長儲訓班
  10. 10. 10 個案研究 學校校務發展計畫 教育參觀心得 學科測驗 約200位學員/年 目前: 兩位輔導校長評分 有可能電腦一起幫忙評? 生活札記 即席演講 學校行政事務演習 生活表現
  11. 11. 11 62.5分 (低) 題目:請對學校教師說明你對"教師 評鑑"的看法 89分 (高) 題目: 如何提升學生英語能力 收集
  12. 12. 12 預處理 : 聲音片段偵測 用簡單的短時聲音能量去除無聲背景
  13. 13. 13 預處理 : 人評正規化 將評分者評分進行排序正規化
  14. 14. 14 建模: 聲音特徵計算 建模: 肢體動作特徵計算 𝑙-frame Dense Points Tracking TRAJ MBHxy Each 𝑉𝑚 = A Unit-level (66ms) 𝑞-length Derived Video features 肢體動作的描述: Dense Trajectory 高斯混和模型Fisher-編碼 𝑉1 𝑉𝑚 𝑉2 𝑉3 𝑉 𝑀 𝑆1 𝑆2 𝑆𝑁 Acoustic LLDs Each 𝐴 𝑆𝑋:𝑌 = A Unit-level (200ms) 𝑝-length Dense Acoustic Features Functionals 聲音片段切割 𝐴 𝑆1: {1, 𝐾1}𝑆1 𝐴 𝑆1:1 𝐴 𝑆2:1 𝐴 𝑆𝑘:1 𝐴 𝑆1:𝑘 聲音特性描述: Dense Unit Acoustic Features 𝐴 𝑆2: {1, 𝐾2} 𝐴 𝑆3: {1, 𝐾3} 𝐴 𝑆4: {1, 𝐾4} K-Means Bag-of-word編碼
  15. 15. 15 建模: 融合模型 使用簡單的late fusion technique Support vector regression 支持向量回歸器 聲 音 影 像 Support vector regression 支持向量回歸器 + 分 數
  16. 16. 16 評估: 準確率 輔導校長 1 輔導校長 2 聲音影像評分 Spearman correlation (排序相關係數) 𝒓 = 𝟎. 𝟓𝟒𝟐
  17. 17. 17 評估: 小實驗 輔導校長 2 輔導校長 1 2個月後 輔導校長 2 輔導校長 1 一開始 聲音影像評分 10 筆相同演講影音資料 𝒓 = 𝟎. 𝟑𝟕 𝒓 = 𝟎. 𝟕𝟖 𝒓 = 𝟎. 𝟒𝟔
  18. 18. 18 有了聲音表達、肢體動作 可以加入演講內容 嗎?
  19. 19. 19 好齁…那也希望能夠透過這樣子的一個方 式來…提升我們老師的教學…來檢視各位 老師的教學成果, 是不是對我們所有的學生齁…有實質的一 個幫助, ‧‧‧‧‧‧ 所以有了今天週三進修做為開端, 未來我們會研議更多積極的策略加強本校的 英語教學, 好好把我們的孩子提升他的英語力, 擁有英語力才有競爭力,‧‧‧‧‧‧
  20. 20. 20 Word2Vec 文字模型 Hierarchical Probabilistic
  21. 21. 21 Word2Vec – 背景資料庫、爬蟲
  22. 22. 22 文字稿特徵計算 好 齁 那 也 希 望 . . . N-gram K-means All Documents BOW per Document … … … … … … 文章向量 Word2vec N個前後文字 關係模型
  23. 23. 23 多模態(行為)融合模型 Average support vector regression 平均支持向量回歸器 聲 音 、 影 像 文 字 Support vector regression 支持向量回歸器 + 分 數 𝒓 = 𝟎. 𝟓𝟒𝟐 → 𝟎. 𝟔𝟐𝟏
  24. 24. 24 演講 (聲音、影像、文字) 回頭想一下這個儲訓班
  25. 25. 25 個案研究 學校校務發展計畫 教育參觀心得 學科測驗 生活札記 即席演講 學校行政事務演習 生活表現 多方面測試 針對演講好壞,只有即席演講那一個項目的 單一模型可以被用來建構模型嗎 ? 全方位教育高階 主管培訓
  26. 26. 26 運用簡單 multi-task learning 方式 每種評分(培訓測驗)都 是一種task Task 1 - 有 用 feature Task 2 - 有 用 feature Task 8 - 有 用 feature . . . Kernel 融合 Multi-task learning 多模態行為融合
  27. 27. 27 𝒓 = 𝟎. 𝟓𝟒𝟐 → 𝟎. 𝟔𝟐𝟏 • 個案研究 • 學校校務發展計畫 • 教育參觀心得 • 生活札記 融入哪些測驗培訓評量對於建構演 講評分會有顯著效果 ?
  28. 28. 28 這是單一年份分析,繼續完整化,期許每年持續性 人類行為訊號四元素 仍然再繞 再來- 舉個醫療實例 . . .
  29. 29. 29
  30. 30. 30 急診檢傷分級
  31. 31. 31 台灣急診檢傷與急迫度分級量表 (Taiwan Triage and Acuity Scale, TTAS) 呼吸窘迫 血行動力 意識程度 外傷 體溫 週邊或中樞 疼痛程度 自述量表 有些問題
  32. 32. 32 病人 (疼痛自述=高) 林口長庚內科急診影音資料 (~200人) 病人 (疼痛自述= 低) 病人 (疼痛自述=高) 病人 (疼痛自述=低)
  33. 33. 33 預處理 : 兩人聲音自動分割 短時聲音能量去除無聲背景 計算個人聲音特徵 (梅爾倒頻係數) 非監督式分群 進行聲音分群 Speaker Diarization
  34. 34. Raw audio-video recording S1 S2 Sk .. . MFCC Pitch Intensity 𝑍 𝑠1 : [1,𝑛1] 𝑍𝑆𝑐𝑜𝑟𝑒𝑠𝑘 𝑍 𝑠2 : [1, 𝑛2] 𝑍 𝑠𝑘 : [1,𝑛 𝑘] 34 建模: 聲音特性、臉部行為特徵計算 聲音、臉部表情 : 高維度特徵計算 S1
  35. 35. 35 建模: 融合辨識模型 Support vector classification 支持向量分類器 聲 音 臉 部 Support vector classification 支持向量分類器 Fusion 辨 識 結 果
  36. 36. 36 評估: 準確率 準確率 高低疼痛辨識 72.3% 高中低疼痛辨識 51.6% 這是用自述當作gold standard 是否有別的方式評估結果
  37. 37. 37 看看一些例子 (低度: 0-3, 中度 : 4-6, 高度 : 7-10) 病人: 高疼痛 辨識: 低疼痛 病人: 高疼痛 辨識: 中疼痛 病人: 低疼痛 辨識: 高疼痛 Poker face Talk with smiling Trembling voice
  38. 38. 38 因為這個database有前測與後測 看一下治療前,治療後 Before After 病人 中度 → 中度 辨識: 重度 → 中度 病人: 重度 → 輕度 辨識: 輕度 → 輕度
  39. 39. 39 Before After 病人: 高度疼痛 病人: 低度疼痛 辨識: 高度疼痛 辨識: 低度疼痛
  40. 40. 40 Pilot work 持續性臨床合作、更深入的演算法、更 多面向的分析評估 (期待…) 人類行為訊號四元素 仍然再繞 最後- 舉個心理實例 . . .
  41. 41. 41 情緒辨識 透過聲音影像資訊進行 一句一句辨識 (時間維度 ~ 2-5s) Global label (全時標記) 3-5 minutes
  42. 42. 42 Thin-slice認知 – 第一眼印象 Naumann et al. : Personality Ovies et al. : Affect style Oltmanns et al. : Personality disorders
  43. 43. 數位資料 – 聲音: 領夾麥克風 – Motion Capture (Avatar) 43 情緒資料庫 The USC CreativeIT database
  44. 44. 44 預處理: 聲音偵測、情緒標記標準化等等 聲音肢體動作特徵值計算: 聲音: 45種量化描述質 肢體動作: 90種量化描述質
  45. 45. 45 多模態、 (multimodal) 密度加權、 (density- weighted) 互消息 (mutual information) 方 法 來 挑 選 “thin-slice” 短 時情緒行為片段
  46. 46. 46 多模態整合 整段 短時片段 Activation 0.384 0.722 Dominance 0.675 0.834 Valence 0.571 0.822 全時(Global)情緒辨識準確率 (Spearman 相關係數)
  47. 47. 47 91% 9% Act.(10% data remain) Including Reduced 98% 2% Dom.(70% data remain) Including Reduced 95% 5% Val.(20% data remain) Including Reduced 到底需要多少“thin-slice”呢?
  48. 48. 短時情緒行為分析 48 部分富含情緒行為的比例加重
  49. 49. 49 評估 - 小實驗: 要不乾脆讓人再讓針對 1. 短時片斷 2. 全部演出 重新進行情緒認知標記 (10位)
  50. 50. Activation: 男生 4.4 (資料庫原始評分) 3.8 (新評全時演出評分) 4.6 (新評短時片段評分) 0 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99 TIME SEGMENTS Emotion-Rich behaviors 例子1
  51. 51. 0 1 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99 TIME SEGMENTS Emotion-Rich behaviors 例子2 Valence: 男生 4.0 (資料庫原始評分) 3.7 (新評全時演出評分 4.3 (新評短時片段評分)
  52. 52. 52 整體結果分析 一般大眾 原始資料庫 Assumption: Gold Standard
  53. 53. 53 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Act. Val. Agreement Entire Slice 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Act. Val. Correlation Entire Slice 看了thin slice的人彼此同意度較高 看了thin slice的人跟原本資料庫評分 較相似
  54. 54. 54 透過訊號處理、資料庫分析、探討人類情緒感知、 應用在系統開發 人類行為訊號四元素 仍然再繞
  55. 55. 55 一路以來的心得
  56. 56. 56 人類行為非常複雜 數位資料收集 以訊號處理 (客觀) 以機器學習找尋 Pattern Contextualize 在各種領域應用
  57. 57. 57 Data 收集的過程非常重要 正確的evaluation也非常重要 Always look for insights
  58. 58. 58 未來的展望
  59. 59. 59 ASD ADOS Couple Therapy Affective Computing Oral Evaluation Stroke Prediction BiiC: BSP 跨學科人類行為 訊號研究 fMRI Analysis Pain Scale 精神醫療 教育 心理跟演出藝術 臨床醫療
  60. 60. 60 從自動計算頭部姿勢、聲音特性、到醫生小孩 行為的同步化的量化 → 跟自閉症小孩的社交溝通品質有關聯性 開發演算法大腦中因情緒聲音刺激後而反應的 血氧反應訊號,與語言訊號融合 → 增強現有的情緒辨識系統 開發機器學習演算法以分析醫療保險資料 → 快速、全面性量化中風風險
  61. 61. 61 科技、資料分析 提供專家決策工具 顯微鏡: 不只是 “放大” 每一步、每個application domain、每次依資料中開發的 技術、每個與跨領域專家合作、對於了解人的行為與內在 狀態都更深一層了解。
  62. 62. 62 透過這樣的合作 可以研究開發幫助社會有意義科技應用 Challenging the status quo Making a positive impact
  63. 63. 63 BiiC lab @ NTHU EE http://biic.ee.nthu.edu.tw

×