曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

3,414 views

Published on

曾韵小姐從企業風險管理議題開始投入資訊管理顧問產業,透過營運流程與資料流分析,協助客戶辨識流程間之風險,同時規劃控管流程與預警通報機制,使客戶能有效建立一整套完善的風險管理機制;在舞弊與鑑識調查服務中,協助客戶規劃內部舞弊偵測機制,或者針對懷疑之舞弊情況進行調查,並將相關證物以適當方式進行蒐證協助客戶提供後續訴訟使用。 經過十多年的管理顧問、舞弊偵防分析與數位資料鑑識分析經驗後,她開始思考,在會計師事務所下的風險管理顧問部門,是不是有更多提供客戶資料應用的機會,特別是針對會計師事務所主要面對的金融業、高科技、製造業、零售業等產業客群,透過對產業、流程的了解,將企業內部分散四處的小數據整合起來,發揮最大的數據應用價值。

Published in: Data & Analytics
1 Comment
20 Likes
Statistics
Notes
  • Good day. It’s my pleasure meeting you, and that you enjoying your day? Can you allowed me to introduce my self to you. My name is Kine Gaye . I will like to get acquainted with you. please I'll be glad if you write to me or send your email address direct at my private email address (kinegaye00@hotmail.com) because i have some important thing i will like to discuss with you privately. Hope to hear from you soon. Kine.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total views
3,414
On SlideShare
0
From Embeds
0
Number of Embeds
25
Actions
Shares
0
Downloads
328
Comments
1
Likes
20
Embeds 0
No embeds

No notes for slide

曾韵/沒有大數據怎麼辦 ? 會計師事務所的小數據科學

  1. 1. Deloitte Data Analytics 12016 資料科學愛好者年會 沒有大數據怎麼辦? 會計師事務所的小數據科學 勤業眾信聯合會計師事務所 企業風險管理 Enterprise Risk Service 曾 韵 副總經理 christitseng@deloitte.com.tw July 2016
  2. 2. Deloitte Data Analytics 2 講師簡介
  3. 3. Deloitte Data Analytics 3 About Deloitte • 支援審計服務 • 風險諮詢顧問服務
  4. 4. Deloitte Data Analytics 4 Agenda 沒有大數據怎麼辦 一切就用數據來回答 假帳世界的數據科學 誰偷了我的機密資料? Q&A
  5. 5. Deloitte Data Analytics 5 你知道嗎,擁有大數據的公司其實沒有想像得多 WWW 首頁 案例A公司: 成立30年,總資料量:5.5G 案例B公司: 成立35年,總資料量:10+G 案例C公司: 成立20年,總資料量:除了ERP 其他都紙本 辦公室OA系統 (訂會議室、訂便當) 基本資料 交易紀錄 支援紀錄 客服紀錄 CRM
  6. 6. Deloitte Data Analytics 6 HADOOP是什麼?大象的綽號嗎? HADOOP不完全等於大數據,沒有HADOOP也可以體驗數據科學 最基本的分析工具:excel、SQL 免錢的進階分析工具:Weka、KNIME 再進階一些的分析工具:R、Python、也可以自己寫! Source:socialmedialab.upenn.edu Source:ml.cmu.edu
  7. 7. Deloitte Data Analytics 7 會計師事務所裡的資料分析(1) – 審計支援業務 iData 工具的主要資料來源包含如下: 1. 財務數據資料 – 各項財務比率,來源為 台灣經濟新報(TEJ) 資料庫,IFRS合併資料 2. 營收/重大訊息 – 來源為公開資訊觀測站之公告資訊 iData:接案前過濾風險
  8. 8. Deloitte Data Analytics 8 會計師事務所裡的資料分析(1) – 審計支援業務 AuditCloud:執行專案分析
  9. 9. Deloitte Data Analytics 9 會計師事務所裡的資料分析(2) – 舞弊調查 使用工具: (依需要轉換) • ACL / Excel / Access • MSSQL • Tableau • R • VBScript • IBM I2 (network) • Intelly (email) • EnCase (Forensics)
  10. 10. Deloitte Data Analytics 10 會計師事務所裡的資料分析(2) – 舞弊調查 小蝦米 有事嗎? 財神爺 錢難賺 資料分析案例一銷售價格分析
  11. 11. Deloitte Data Analytics 11 Agenda 沒有大數據怎麼辦 一切就用數據來回答 假帳世界的數據科學 誰偷了我的機密資料? Q&A
  12. 12. Deloitte Data Analytics 12 第一步,提出問題 促銷活動不夠造 成貢獻低? 客戶貢獻太 低怎麼提升 創新轉型 法令規範 導入工具可以提 高生產量嗎 客戶量不夠造 成貢獻低? 利潤 1. 我的業務面 臨哪些議題 2. 需求是什麼 3. 問題在哪裡 問題和需求是什麼只有自己最清楚 但,數據科學可以幫你找出在哪裡
  13. 13. Deloitte Data Analytics 13 案例分享(1) :提出問題 問題:如何提早得知即將離職的員工
  14. 14. Deloitte Data Analytics 14 案例分享(1) :提出問題 模型建置流程
  15. 15. Deloitte Data Analytics 15 開放資料的生態系(ecosystem) •成功的開放資料生態系統通常由3個基本角色組成:政府、企業 及市民。各角色提供開放資料予其本身成員及其它角色,亦使用 其所獲得資料提供服務。 – 政府開放資料:進行資料產出、蒐集或購買,受到相 關法規、資訊安全、敏感性、隱私保護等因素限制。 – 企業(私部門)開放資料:進行資料產出或蒐集,並由企 業自行決定是否免費開放使用。 – 市民開放資料:將市民個人相關或非個人相關資料提 供至開放領域。 企業資料 企 業 資 料 市民資料 企業 市民政府 企 業 資 料 政 府 資 料 市 民 資 料 政府資料 市 民 資 料 政 府 資 料 提供資料 使用資料提供服 務 資料來源: Deloitte LLP
  16. 16. Deloitte Data Analytics 16 案例分享(2):去識別化還能分析嗎? 去識別化
  17. 17. Deloitte Data Analytics 17 案例分享(2):去識別化還能分析嗎? 只有一件 新北市 八里區 H14B23E1 02:23 04:41 02:23 04:55 遺留火種 0 0 去識別化後的資料驗證(1)
  18. 18. Deloitte Data Analytics 18 案例分享(2):去識別化還能分析嗎? 臺南市 新市區 G14K08P1 103/11/08 15:35:03 103/11/08 15:49:03 遺留火種 1 0 6件裡面之有1件死亡火災 去識別化後的資料驗證(2)
  19. 19. Deloitte Data Analytics 19 案例分享(3):變數少有少的做法 報名起始日 報名截止日 活動日期 地點 時間 姓名 生日 有個資法限制,客戶資料無法盡情蒐集 活動內容 (text) 市話/手機 郵遞區號 學歷 報名人數 性別 ( 六 個 屬 性 , 一 份 紙 本 檔 案 ) 活 動 資 訊 ( 六 個 屬 性 ) 參 加 者 資 訊
  20. 20. Deloitte Data Analytics 20 案例分享(3):變數少有少的做法 報名起始日 報名截止日 活動日期 地點 時間 姓名 生日 假日/平日 步行時間 景氣指標 活動當日天候 活動當日氣溫 區域平均人口 區域平均收入 活動內容 (text) 市話/手機 郵遞區號 學歷 報名人數 是否連連假 性別 所屬區域 交通車站數 參加人數 是否寒暑假 居住區域 國籍 省籍 年齡 星座 早上/中午/下午 活動階段 活動類型 報名總期間 是否跨長假 科系類別 ( 六 個 屬 性 , 一 份 紙 本 檔 案 ) 活 動 資 訊 ( 六 個 屬 性 ) 參 加 者 資 訊 Google Map ( 超 過 個 屬 性 ) 最 終 所 使 用 屬 性 50 …… 觀察屬性 特色 相關係數 特徵選取 從一場活動開始的特徵挖掘:Feature Engineering
  21. 21. Deloitte Data Analytics 21 Agenda 沒有大數據怎麼辦 一切就用數據來回答 假帳世界的數據科學 誰偷了我的機密資料? Q&A
  22. 22. Deloitte Data Analytics 22 假帳殺手-班佛定律(Benford's Law) 天文學家Simon Newcomb觀察到常用的 對數表書籍中,1開頭那一頁比其他頁來 得破舊,因此發表此觀點,公式 第一位數 為N之出現機率 = log(N + 1) − log(N) 奇異電器物理學家Frank Benford發現各種自然現 象皆符合特定規則,擴展 研究並廣泛測試於2萬多 種數據中。 美國數學家Ted Hill提出混和分 配仍會收斂於班佛定律的解釋, 並提出嚴謹的證明 西班牙數學家發現,一般被認為是隨機分布 的質數,其實每個質數的首位數字有明顯的 分布規律,它可以被描述了質數的班佛定律。 這項新發現除了提供對質數屬性的新洞見之 外,進一步推動班佛定律應用於假帳和股票 市場異常偵測。 1881年 1938年 1995年 2009年
  23. 23. Deloitte Data Analytics 23 班佛定律的機率分配 除了首位數字的分配外,越後面的數字分佈會越 來越均等 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 Actual v.s Expected Actual Expected ※ 班佛定律的期望值: 在 b進位制中,以n起頭的數出現的機率= log (n + 1) − log (n)b b
  24. 24. Deloitte Data Analytics 24 茫茫大海,假帳從哪裡開始查?
  25. 25. Deloitte Data Analytics 25 實作案例分享 沒有資料分析工具怎麼辦? 班佛定律簡單到用excel就可以自己做!!
  26. 26. Deloitte Data Analytics 27 競選經費班佛定律分析-支出 0 500 1000 1500 2000 2500 3000 3500 4000 1 2 3 4 5 6 7 8 9 支出 - 1位 Actual Expected
  27. 27. Deloitte Data Analytics 28 適用狀況 Data須有代表 性,能反映觀 察事件的特質 • 如公司股票價值能反 映公司的市場價值、 營收和銷售量。 數字不能 有 Max/Min • 如股票經紀人之佣金; 然其每筆交易之佣金 有最小值。 數字不能 是用來識 別的數字 • 如身分證號 碼。
  28. 28. Deloitte Data Analytics 29 資料筆數限制 觀察數字必須至少 4位數以上 除了找到異常值,也可以觀 察資料的偏誤情形。 資料筆數必須至少1000筆 以上,分析經驗顯示3000 筆左右時多能符合 Benford’s Law。
  29. 29. Deloitte Data Analytics 30 競選經費班佛定律分析-支出 再看一次
  30. 30. Deloitte Data Analytics 31 就在你我身邊的班佛定律 老闆們,現在就開始用班佛定律檢驗公司的帳款吧 每個人都可以運用班佛定律成為政府的監督者
  31. 31. Deloitte Data Analytics 32 Agenda 沒有大數據怎麼辦 一切就用數據來回答 假帳世界的數據科學 誰偷了我的機密資料? Q&A
  32. 32. Deloitte Data Analytics 33 企業機密資料外洩事件層出不窮 但公司有十萬名員工,資料是誰偷的? 怎麼知道誰正在偷公司的資料?
  33. 33. Deloitte Data Analytics 34 讓我們回到可能掉資料的地方看看 偷!! 偷!! 偷!! 員工偷的? 約聘人員偷的? 廠商偷的? 系統被入侵了?
  34. 34. Deloitte Data Analytics 37 實作案例分享
  35. 35. Deloitte Data Analytics 38 先觀察看看資料(一) 最小值 中位數 90百分位數 99百分位數 最大值 存取個數 1 18 291 1339.36 18791 存取比例 0.00% 0.01% 0.12% 0.56% 7.88% 0 100 200 300 400 1 101 205 322 471 739 1567 人 數 存取檔案數量 90% 10% 常常整理資料夾?
  36. 36. Deloitte Data Analytics 39 先觀察看看資料(二) 資料期間假日共130天 資料期間 最小值 中位數 90百分位數 99百分位數 最大值 存取檔案天數 1 2 10 29.69 118 註:假日為星期六、日 0 100 200 300 400 500 600 700 1 11 21 32 65 人 數 累積下班存取天數 90% 10% 真有那麼常加班?大部分的人都沒什麼在加班
  37. 37. Deloitte Data Analytics 40 縮小調查範圍(一) 誰比較有問題? 存取次數 存 取 檔 案 個 數 其實出現在這區的 最有問題
  38. 38. Deloitte Data Analytics 41 縮小調查範圍(二) 對特定檔案存取次數過高 ??? 總存取次數 對 特 定 檔 案 存 取 次 數
  39. 39. Deloitte Data Analytics 42 縮小調查範圍(三) 非上班時間存取比例 使 用 VPN 次 數 上班時間卻用VPN登入? 經常在非上班時間使用VPN? “總是”在非上班時間存取? (而且沒用VPN登入,表示人在公司,是在…?)
  40. 40. Deloitte Data Analytics 43 沒有大數據、沒有HADOOP都 沒關係!! 簡單的分析工具也可以 帶來不同的業務 insight ! 我們提供數據化決策依據 帶動客戶決策模式改變 數據會說話! 挖掘小數據的價值,全面提升企業資料驅動的決策力 我們致力於推動數據科學帶來 的會計產業轉型 會計師事務所的小數據科學
  41. 41. Deloitte Data Analytics 44 往大數據邁進 24x7 Monitoring
  42. 42. Deloitte Data Analytics 45 24x7 Dashboard
  43. 43. Deloitte Data Analytics 46 Communication
  44. 44. Deloitte Data Analytics 47 Geopolitical -1
  45. 45. Deloitte Data Analytics 48 Geopolitical -2
  46. 46. Deloitte Data Analytics 49 Supply Chain Observations
  47. 47. Deloitte Data Analytics 50 往大數據邁進 網路威脅情資分析平台
  48. 48. Deloitte Data Analytics 51 往大數據邁進 網路威脅情資分析平台
  49. 49. Deloitte Data Analytics 52 Q&A

×