Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

987 views

Published on

這次分享的主題是從公益資料分析到聰明公益平台的抽絲剝繭之路,昇瑋為什麼要做這件事?聽聽他怎麼說:

大數據及資料科學成為近年熱門議題,雖然台灣許多組織的資料還不足以豐富到稱作大數據,但資料科學不只能幫企業做決策,也能分析捐款人的偏好習慣。

身為一位資料科學家,對於如何有效率地進行募款及捐款非常感興趣,2014 年分析蘋果日報慈善基金會的公開資料,量化捐款者的決策過程,發現捐款的意願與發表時間密切相關,同時,與受助者的外型、是否為老弱婦孺或單身、疾病或身心障礙甚至急切需要幫助的原因都有顯著相關。

看起來應該很純粹的捐款行為,事實上卻牽涉到非常複雜的決策過程,但這麼複雜的決策過程,卻能在資料分析下抽絲剝繭找出規律,讓我們看見社會大眾究竟是如何做捐款決策。

但是,若拉高視角來看,全台灣有超過兩千個公益團體,我們如何利用資料分析來為每個捐款人找到最合適也最有效率的捐助方式及對象呢?

首要之事,就是得為所有的公益團隊收集資料,這並不容易,因為資料的收集、維護及取得並沒有一定的格式或規範,更有許多公益團體因為人力或其它因素並沒有將資料公開出來。因此,我們成立聰明公益資訊平台,希望透過公益團體及捐款人的共同努力,一起建立及維護屬於台灣所有公益團體及捐款人的平台,讓好的公益團體更容易讓社會看見,讓捐款過程更能有所依循,更聰明有智慧。

希望透過短短的分享,能夠最小程度的讓大家看見,資料科學在公益領域的潛力;未來幾年,能夠看到 NGO、NPO 和我一樣,一起擁抱資料科學,以資料科學來解決所面對到的各項問題,來讓這個社會變得更好。

Published in: Internet
  • Hey guys! Who wants to chat with me? More photos with me here 👉 http://www.bit.ly/katekoxx
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

20170509 網路星期二:從公益資料分析到聰明公益平台的抽絲剝繭之路

  1. 1. 從公益資料分析到 聰明公益平台 陳昇瑋 台灣資料科學協會理事長 中央研究院資訊科學研究所研究員 以資料科學及人工智慧做為後盾
  2. 2. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧
  3. 3. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧
  4. 4. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 (Photo credit: Brian Harrington Spier)
  5. 5. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧
  6. 6. 3 Major Trends of Data Science Big Data Deep Learning Deep Analytics
  7. 7. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 3V Explained #1. Big Data
  8. 8. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Computer vision in sports Play tracking (Slide Credit: Jia-Bin Huang)
  9. 9. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Computer vision in sports Second Spectrum: visual analytics (Slide Credit: Jia-Bin Huang)
  10. 10. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Computer vision for healthcare Video magnification (Slide Credit: Jia-Bin Huang)
  11. 11. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 13 https://www.youtube.com/watch?v=QbXgEbeceJI (Credit: Jia-Bin Huang)
  12. 12. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 14
  13. 13. 3 Major Trends of Data Science (#2) #2. Deep Learning
  14. 14. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Machine Learning 16 A field of study that gives computers the ability to learn without being explicitly programmed. Find the common patterns from the left waveforms It seems impossible to write a program for speech recognition 你好 你好 你好 你好 You quickly get lost in the exceptions and special cases. (Slide Credit: Hung-Yi Lee)
  15. 15. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 17
  16. 16. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Let the machine learn by itself 你好 大家好 人帥真好 You said “你 好” A large amount of audio data You only have to write the program for learning Learn how to do speech recognition (Slide Credit: Hung-Yi Lee)
  17. 17. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 19
  18. 18. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧
  19. 19. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 21
  20. 20. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 22
  21. 21. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 23
  22. 22. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 24
  23. 23. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Word Embedding 25
  24. 24. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Word Embedding 26
  25. 25. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Word Vector Source: http://www.slideshare.net/hustwj/cikm-keynotenov2014 (Slide Credit: Hung-Yi Lee)
  26. 26. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Word Vector Characteristics Solving analogies 𝑉𝑉 ℎ𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 − 𝑉𝑉 ℎ𝑜𝑜𝑜𝑜 ≈ 𝑉𝑉 𝑏𝑏𝑏𝑏 𝑏𝑏 𝑏𝑏𝑏𝑏𝑏𝑏 − 𝑉𝑉 𝑏𝑏𝑏𝑏 𝑏𝑏 𝑉𝑉 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 − 𝑉𝑉 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 ≈ 𝑉𝑉 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 − 𝑉𝑉 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 𝑉𝑉 𝑘𝑘𝑘𝑘𝑘𝑘𝑘𝑘 − 𝑉𝑉 𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞𝑞 ≈ 𝑉𝑉 𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢𝑢 − 𝑉𝑉 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 Rome : Italy = Berlin : ? 𝑉𝑉 𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺𝐺 ≈ 𝑉𝑉 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 + 𝑉𝑉 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 Compute 𝑉𝑉 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵 − 𝑉𝑉 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 + 𝑉𝑉 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 Find the word w with the closestV(w) (Slide Credit: Hung-Yi Lee)
  27. 27. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Machine Reading Machine learn the meaning of words from reading a lot of documents without supervision Machine learns to understand netizens via reading the posts on PTT (Slide Credit: Hung-Yi Lee)
  28. 28. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 (Slide Credit: Hung-Yi Lee)
  29. 29. 陳昇瑋 / 資料科學往前看-從大數據到人工智慧 Big data vs. Machine learning vs. AI Big data: 3Vs Machine learning: “A field of study that gives computers the ability to learn without being explicitly programmed" Artificial intelligence Turing test 31
  30. 30. 3 Major Trends of Data Science (#3) Q: 如何提高利潤? #3. Deep Analytics 提升產品品質? 加強包裝? 加強行銷? 降低生產成本? 提升研發效率? 提升行政效率? 提升回頭率? 技術水準? Deep Analytics
  31. 31. 33 資料分析如何幫我們更瞭解 捐款人?
  32. 32. 34 x 3,518 in 10.5 years (since May 2003)
  33. 33. 35
  34. 34. 37 20 50 80 捐款金額分布 (每戶個案家庭)
  35. 35. 38
  36. 36. 39 人工編碼平台 Online
  37. 37. 40
  38. 38. 41 Title & picture rating http://mmnet.iis.sinica.edu.tw/~cslin/rating/welcome.php
  39. 39. 42 人工編碼成果 431 編碼者 6532 人次 255 小時 8436 家庭成員 1590 個案
  40. 40. 44 Variables we got (290+)
  41. 41. 45
  42. 42. 46 捐款意願與時間點 高度相關
  43. 43. 47 星期幾很重要 日 一 二 三 四 五
  44. 44. 48 哪個月份也重要 一 二 三 四 五 六 七 八 九 十 十一 十二
  45. 45. 49 受訪者的胖瘦會影響 捐款決策
  46. 46. 50
  47. 47. 52 誰收到較多捐款?
  48. 48. 54 捐款人對各式疾病及 身心障礙有差別待遇
  49. 49. 55
  50. 50. 57
  51. 51. 59 不可抗力因素 較讓人同情
  52. 52. 60 意外失業 離婚 入獄 人為 意外 輟學
  53. 53. 62
  54. 54. 64 捐款與固定支出 成反比 個案家庭固定支出 捐款金額
  55. 55. 65 捐款者期待能看見 「希望」
  56. 56. 資訊充足,才能聰明地捐款。 陳昇瑋 台灣資料科學協會理事長 中央研究院資訊科學研究所研究員
  57. 57. 聰明公益資訊平台 希望能解決資訊破碎及不透明的問題 67 http://www.smartdonor.tw/
  58. 58. 聰明公益資訊平台 台灣有超過兩千個社會公益團體, 你認識幾個呢? 68
  59. 59. 聰明公益資訊平台 69
  60. 60. 聰明公益資訊平台 搜尋及過濾條件 70
  61. 61. 聰明公益資訊平台 地圖檢視 71
  62. 62. 聰明公益資訊平台 分析功能 72
  63. 63. NPO 資訊總覽 (1/4) 73
  64. 64. 聰明公益資訊平台 NPO 資訊總覽 (2/4) 74
  65. 65. NPO 資訊總覽 (3/4) 75
  66. 66. 聰明公益資訊平台 NPO 資訊總覽 (4/4) 76
  67. 67. 聰明公益資訊平台 群眾參與 (1/2) 維基百科模式:只要以 Facebook or Google 帳號登入 後,任何人都可以編輯任何 NPO 的任何資訊。 77
  68. 68. 但不用擔心,所有編輯記錄都會被留下,因此若有人 搗亂或惡意填寫不實資訊,都可以檢舉。再由管理者 回覆到正確的版本。 群眾參與 (2/2) 78
  69. 69. 聰明公益資訊平台 NPO 資訊編輯 (1/2) 79
  70. 70. 聰明公益資訊平台 NPO 資訊編輯 (2/2) 80
  71. 71. 聰明公益資訊平台 資訊透明度的量化 81
  72. 72. 聰明公益資訊平台 資訊透明度權重與計算方式說明 資訊透明度的計算的重點在於估計每項資訊的權重,我們採用 常見的 IDF (Inverse Document Frequency) 的原則,也就是說, 越常見的資訊,權重越低;反之,越少見的資訊,權重越高。 越多 NPO 填寫的欄位,表示越容易取得/提供,因此權重低 ;反之,越少 NPO 提供的欄位,表示取得成本較高,通常也 表示更有價值,因此權重高。 舉例來說 成立日期有 100% NPO 提供,權重為 1.0 登記財產總額有 64% NPO 提供,權重為 4.19 公開徵信查詢只有 5% NPO 提供,權重為 14.91 82 http://www.smartdonor.tw/transparency.php
  73. 73. 聰明公益資訊平台 假設共有 N 家 NPO,某個欄位 f 有 n(f) 家 NPO 填寫,那麼欄 位 f 的基本權重就是 sqrt(N/n(f)),基本權重再經過正規化讓所 有欄位的權重加起來為 100,就是最後的權重值。舉例來說, 目前本平台共有 2404 家 NPO,共有 121 家 NPO 提供「公開徵 信查詢」連結,那麼「公開徵信查詢」欄位的基本權重為 sqrt( 2404 / 121),經過正規化後,此欄位的權重為 14.91。 sqrt (平方根) 的作用是讓欄位之間的權重差異小一點,不要被 少數的重要欄位決定分數。 權重不是固定的值,隨著 NPO 在平台上填寫更多資料,權重 會隨時調整。假設有一天所有的 NPO 都提供公開徵信查詢, 那「公開徵信查詢」的欄位權重就會變成 1.0。 83
  74. 74. 84
  75. 75. 聰明公益資訊平台 85 http://smartdonor.tw/npo.php?npo=1034
  76. 76. 聰明公益資訊平台 我們的願景 從捐款人的角度 所有的 NPO 資訊一目瞭然 可以搜尋、排序、比較、分析 不用到每個 NPO 網站慢慢翻找資料,所有資料一頁呈現 成為聰明的捐款人 從公益團體的角度 讓潛在捐款人看到自己的努力 讓大型 NPO 可以量化方式呈現成果 讓小型 NPO 更有機會被看見。 對小型 NPO 來說,即使人力有限,可讓社會善心人士幫忙維護 NPO 公 開資訊。 86
  77. 77. 聰明公益資訊平台 最後的提醒 87
  78. 78. 陳昇瑋 / 以資料科學進行資料治理 美國財政部稅務催繳信 88
  79. 79. 陳昇瑋 / 以資料科學進行資料治理 稅務催繳信改善 89
  80. 80. 陳昇瑋 / 以資料科學進行資料治理 90
  81. 81. 陳昇瑋 / 以資料科學進行資料治理 美國聯邦政府案例 住宅與都市發展部 + 衛生及公共服務部 連結低收入老人租房補貼或承租公營住宅資料及醫療 資料,評估社福政策及社工到府照護服務是否有所幫 助? 依分析進行決策:部分住房補貼轉移至照護 政府支出沒有增加,但死亡率降低 25% 85 歲以上有複合性慢性疾病者,死亡率降低 49% 91
  82. 82. 聰明公益資訊平台 致謝 92
  83. 83. 陳昇瑋 swc@iis.sinica.edu.tw 台灣資料科學協會 中央研究院資訊科學研究所 以資料科學及人工智慧做為後盾

×