陳宜欣/大數據下的情緒分析

5,009 views

Published on

陳宜欣,美國南加州大學資訊科學博士,目前在清華大學資訊工程系任教,自大學與碩士時期在管理學院的薰陶,始終相信:好的科技技術應該蘊涵著人文關懷。帶領來自世界各地的研究團隊成員,致力運用資料分析技術來找出大數據背後的群眾智慧,最近將焦點放在跨語系情緒與心理分析技術。研究之餘,協助實驗教育的照海華德福建校,並執筆人氣部落格『 教書匠的夢想 』。

Published in: Data & Analytics

陳宜欣/大數據下的情緒分析

  1. 1. 大數據下的情緒分析 清華大學資工系 陳宜欣
  2. 2. Hello! 我是陳宜欣 目前在清華大學資訊工程系任教 智慧型資料工程與應用實驗室 (IDEA Lab) You can find me at: yishin@gmail.com 2
  3. 3. 在 多元價值很重要 More than 50 % students come from other countries Belize France St Lucia Honduras India China Japan Taiwan Indonesia São Tomé 3
  4. 4. 1. Why Emotion Analysis There are few personal reasons 4
  5. 5. “I don’t understand woman!! Their words are very vague and ambiguous” From Carlos Argueta, my first foreign Ph.D. graduate He’s the one to select the topic of sentiment analysis. And the first suffering from depression in our lab 5
  6. 6. 其實小孩也很難懂 寶寶心裡有苦,可是寶寶不會說 6
  7. 7. 2. 情緒分析 先來看看大部份的處理方式是什麼 7
  8. 8. 自然語言處理法 ▷ 分析字的詞性 ▷ 了解字的意義 ▷ 了解字詞間的關聯 ×  需要蒐集辭典與標記過的字詞關聯 ×  字詞間的關聯還會被相對位置影響 ×  換個語言就要重新蒐集一次 This is the best thing happened in my life. 冠詞 冠詞 名詞名詞 所有詞介詞動詞 動詞形容詞 8
  9. 9. 資料探勘/機器學習法 ▷ 蒐集大量的資料 ▷ 人工標記訓練資料 ▷ 利用資料探勘/機器學習法分析資料 ×  換個語言就要重新蒐集人工標記資料 ×  實際資料符合人工標記特色的比例偏低 (25%) 能不能 更簡單 一點? 9
  10. 10. 3. 從經驗中學習 現實和理想的差距 10
  11. 11. 情緒是許多小細節的累積 ▷ 過去的方法卻容易忽略小細節 •  Stop Words是第一批被拿掉的細節 → 如:常常、在、之上 •  所有格、冠詞也容易被忽略 •  大部分的名詞可能也會被拿掉 你總是在學校吃零食 😒 生氣生氣 😂 哭哭 👶 開心開心 11
  12. 12. 情緒張力強的人更容易犯錯 ▷ 到處都是錯字 •  有些字是不小心的 → 例如: Luve you •  有些字是故意犯錯的 → 例如: I’m soooooooo happppppy ▷ 字典通常只記載對的字 •  錯誤怎麼標記? →  所需人工標記數量超出團隊預算 12
  13. 13. 孩子是 我們的 老師 一個媽媽的喃喃自語 ▷ 我家一歲小孩是怎麼判斷我在生氣? •  沒讓孩子看到臉 •  也沒更改說話的語調 •  為什麼小孩通常都是對的? ▷ 我猜 •  一歲的孩子還不懂語法 •  一歲的孩子還沒背過詞典 •  媽媽生氣的時候應該是詞不達義的 所以, 目標是: 多語系 13
  14. 14. 4. 克服限制 研究經費不足 14
  15. 15. Free Resources ▷ 免費數據 •  不管公網、私網,能合法下載的資料都是好物 ▷ Open source software 15
  16. 16. 慢活哲學 ▷ 學生速度都『比較』慢 ▷ 所以絕對不能做人家都在做的事情 •  做違反學術常理的事情 No POS Tagging No dictionary Multilingual 😱 Failure Success 16 POS Tagging Multiple dictionaries One language
  17. 17. 團體戰 ▷ 實作組 •  寫程式 •  還是寫程式 ▷ 天馬行空組 •  看論文 •  構思想法 ▷ 嘴炮組 •  寫論文 •  產生投影片 ▷ 無名英雄組 17
  18. 18. Crowdsourcing Merriam-Webster: Obtaining needed services, ideas, or content by soliciting contributions from a large group of people, especially an online community 花錢 18
  19. 19. Subconscious Crowdsourcing ▷ 群眾的潛意識智慧 •  免費 •  從人們的日常紀錄中,擷取共同潛意識 → Ex1: “computers/companies/product-support/ apple” in delicious tag → Ex2: “鹿茸 馬”, “馬卡茸”, “水母” in search log → Ex3: “School day again #sad” in Twitter Chun-Hao Chang, Elvis Saravia and Yi-Shin Chen, Subconscious Crowdsourcing: A Feasible Data Collection Mechanism for Mental Disorder Detection on Social Media, The 2016 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2016), San Francisco, CA, USA, 18 - 21 August, 19
  20. 20. 5. 案例1:判別文字中的情緒 利用潛意識的情緒用字 20
  21. 21. 潛意識情緒大資料 ▷ Twitter, 目前最容易大量下載的資料 Throwing my phone always calms me down #anger My sister always makes things look much more worse than they seem :[ #anger Why my brother always crabby !?!? #rude #youranadult #anger #issues WHY DOES MY COMPUTER ALWAYS FREEZE??? NEVER FAILS. #anger Im wanna crazy,if my life always sucks like this. #anger Hashtag和表情符號最能標註情緒,所以可以當成人工標記的答案 21
  22. 22. 潛意識情緒資料 等等! 還要有 對照組 22
  23. 23. 23
  24. 24. 資料蒐集後的前處理 ▷ 重點:拿掉麻煩的、不會處理的 o  Too short →  短到拿不到特徵 o  Contain too many hashtags →  資訊太多很難處理 o  Are retweets →  會增加計算複雜度 o  Have URLs →  還要再抓一次資料,這樣太累了 o  Convert user mentions to usermention and hashtags to hashtag →  消去識別碼, 不能偷看答案 反正是 大數據 24
  25. 25. 處理原則 ▷ 找出『實驗組』和『對照組』的相同、相異處 •  分析字詞出現的頻率 →  TF•IDF (Term frequency, inverse document frequency) •  分析字詞互相伴隨出現的頻率 →  Co-occurrence •  比較字詞間的重要關係程度 →  Centrality Graph 25
  26. 26. Graph Construction ▷ 建立兩種圖(情緒圖 非情緒圖) •  E.g. → 情緒文字:I love the World of Warcraft new game J → 非情緒文字: 3,000 killed in the world by ebola I of Warcraft new game WorldLove the 0.9 0.84 0.65 0.12 0.12 0.53 0.67 J 0.45 3,000 world by ebola the killed in 0.49 0.87 0.93 0.83 0.55 0.25 26
  27. 27. 圖型處理 ▷ 將兩種圖型相同的地方剔除 •  留下情緒圖才有的特徵 ▷ 接下來分析哪些字是所謂的中心點 •  Betweenness, Closeness, Eigenvector, Degree, Katz →  都有免費軟體可以使用, e.g, Gaphi, GraphDB ▷ 再分析哪一些字常一起被使用 •  Clustering Coefficient Graph 27
  28. 28. 去蕪存菁 留下圖型中的重要字詞 →重組成情緒特徵 28
  29. 29. 情緒特徵排序 ▷ 將情緒特徵排序 •  根據頻率、情緒專屬性、多元性 •  每一種情緒都有專屬的特徵排序 悲傷快樂 生氣 29
  30. 30. 情緒特徵結果抽樣 悲傷快樂 生氣 finally * my tomorrow !!! * hashtag birthday .+ * yay ! :) * ! princess * * hehe prom dress * memories * * without my sucks * hashtag * tonight :( * anymore .. felt so * . :( * * :(( my * always shut the * teachers * people say * -.- * understand why * why are * with these * 30
  31. 31. 31 Naïve Bayes SVM NRCWE Our Approach English 81.90% 76.60% 35.40% 81.20% Spanish 70.00% 52.00% 0.00% 80.00% French 72.00% 61.00% 0.00% 84.00% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% Accuracy
  32. 32. 商品喜好分析 32
  33. 33. 33
  34. 34. 5. 案例2:判別個人的情緒狀態 誰有躁鬱症?邊緣性人格障礙? 34
  35. 35. 蒐集病患大資料 35
  36. 36. 蒐集病患大資料 36
  37. 37. 蒐集病患大資料 37 接下來 蒐集對 照組
  38. 38. 蒐集正常人大資料 38
  39. 39. 處理原則 ▷ 找出『實驗組』和『對照組』的相同、相異處 •  分析字詞出現的頻率 •  分析情緒資料(如:切換頻率、情緒出現頻率) •  分析人際互動資料(如:跟朋友互動比例、轉文比例) •  分析生活習慣(如:上網時間、熬夜與否) •  分析性別、年齡 39 特徵
  40. 40. 利用分類演算法 ▷ 將特徵值送進分類法學習 ▷ Various classifiers •  Neural Networks •  Naïve Bayes and Bayesian Belief Networks •  Support Vector Machines •  Random forest 40
  41. 41. 測試結果 41
  42. 42. 可能應用 42
  43. 43. 可能應用 43
  44. 44. 選舉情蒐網? 44
  45. 45. More in the future… Thank you. Contact me at: yishin@gmail.com

×