Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

How to run an AI Project @pixnet

1,387 views

Published on

How to run an AI Project @pixnet

Published in: Technology
  • Be the first to comment

How to run an AI Project @pixnet

  1. 1. How to Run an AI Project @ PIXNET Research Team Lead Kent
  2. 2. Who am I ? ● Kent (施晨揚) ● 熱愛 Machine Learning & Big Data ● 兩個孩子的爸 ● AIA 第 一屆 ● Research Team Lead https://www.facebook.com/texib
  3. 3. Research Team 商務 廣告 UX 演算法設計 新技術研究 資料處理 社群 行銷 資料分析
  4. 4. 心得分享 流程實際案例
  5. 5. 台灣最大的社群媒體 8 億篇文章 2,800 萬全站每日PV 770 萬每日不重複訪客 50% 流量來自 Mobile Device
  6. 6. 全台最大的社群數據實驗室 800,000,000篇文章 7,700,000位訪客 6,000,000名會員
  7. 7. 組成專長 演算法設計開發 ML 系統建置 Insight 分析師 跨領域 ML DeepLearning scikit-learn NLP TensorFlow Spark Spark Flask GPU server Elasticsearch BigQuery Dataprep Jupyter Statistics DataStudio Metabase 心理學
  8. 8. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  9. 9. Real Case 1 @ PIXNET Demographic Prediction
  10. 10. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  11. 11. 每天有 770 UV ! 但未登者是誰? 輪廓分析 精準服務投遞 !
  12. 12. 人口普查 ❏ 性別 ❏ 年齡 ❏ 居住地
  13. 13. 轉換問題 男生 或 女生 閱覽 行為 15-25 25-35 45-55 >55
  14. 14. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  15. 15. 原始的資料 長這樣
  16. 16. 盤點資料&收 集情報 PIXInsight Data Warehousing System ➔ 登入會員資料 ◆ 性別 ◆ 年齡 ➔ 使用者行為 ◆ 文章 ◆ 作者 ◆ 上站時間 ◆ 使用裝置 ◆ 41個分類
  17. 17. 欄位列表 Feature Name Description Example gender the gender of login user 1 or 2 cat The article’s category 旅遊 url is a blog url http://kittyfish.pixnet.net/blog/post/345 566174 ariticle_author the blog’s author kittyfish article_id the blog’s unique id 345566174 hours the time of click event 6 refers http://www.google.com/ country the country that predicted by ip address tw
  18. 18. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  19. 19. 哪一套演算 法解決這問 題?
  20. 20. 大原則 - 從輸入/輸出來看 模型 ? 圖片 聲音 文字 點擊行 為 分類 量值 群聚 離散 連續
  21. 21. 大原則 - 以 Demographic Prediction 為例 模型 ? 圖片 聲音 文字 點擊行 為 分類 量值 群聚 離散 連續
  22. 22. Naive Bayes Formula 大至說穿了就是看看哪一個出現 比較多次!!
  23. 23. Training, Validation, Testing(Offline Evaluation)Data Train / Test Split TrainTest VTTrain Validation Split TrainV TrainTV TrainV 4 Fold Validation
  24. 24. Model Performance (Offline Evaluation) Precision Recall F1 Score Support 男生 0.89 0.81 0.85 5114 女生 0.90 0.95 0.92 9149
  25. 25. 為什麼選擇 Naive Bayes 大量離散型資料 計算效率高 好理解 文章、創作者、閱覽者分佈廣闊 Training Time 小於 5 秒,可以作 10 Fold Cross Validation 計算出來的 Feature 可以直接解讀
  26. 26. 好理解真的很重要
  27. 27. 好理解 feature_name male_prob female_prob male_count female_count total prob_distance cat_財經企管 0.137798 0.045564 20587 10454 31041 0.184468 cat_美容彩妝 0.062211 0.137009 9294 31436 40730 0.149596 cat_時尚流行 0.079325 0.151936 11851 34861 46712 0.145221 cat_親子育兒 0.079640 0.133178 11898 30557 42455 0.107076 cat_心情日記 0.180942 0.231797 27033 53185 80218 0.101709 cat_國外旅遊 0.152288 0.194490 22752 44625 67377 0.084403 author_XXXXX 0.049975 0.009037 7466 2073 9539 0.081877 cat_食譜分享 0.054607 0.093596 8158 21475 29633 0.077978 cat_圖文創作 0.085483 0.122831 12771 28183 40954 0.074696 容易轉換
  28. 28. 為好理解-白話版 早上 8 點財金 男生 ~80%
  29. 29. 為好理解-白話版 半夜 12點母嬰 女生 ~80%
  30. 30. 其實我們就是在反映自己的人生阿!!
  31. 31. Deployment Start Business Understanding Data Understanding & Data Collection Modeling
  32. 32. Deployment
  33. 33. Deployment Data Scientist Data Engineer
  34. 34. Deployment Data Process Tool Data Pipeline Tool Machine Learning Model Hadoop Like System - Spark Scheduling & Pipeline System - AirFlow Scikit Learning Online Service Integration & Evaluation Depends on Your System
  35. 35. Online Service Integration & Evaluation Model Result API Online Evaluation Stable and High QPS API Service or Batch Result Cloud Sourcing、CTR、Others
  36. 36. Validation by Google Analytics ● Is God ? ● How to Use ? UGD say Male UGD say Female GA Set 1 GA Set 2 GA Say Male GA Say Female GA Say Male GA Say Female An non-registration user Classification Model Prediction
  37. 37. Real War Record Live Experiment on PIXNET Falcon(Advertisement) System
  38. 38. Demographic Prediction,讓投遞更聰明 上站時間 偏好作者 閱讀文章 偏好分類 進站方式 chi-squre Naive Bayes 服務端
  39. 39. Real Case 2 @ PIXNET Content Ranking
  40. 40. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  41. 41. Why Content Ranking ? 8 億篇文章 x 30 秒 = 761 年 => 1天 過濾不良文章,讓使用者有好的閱讀體驗 流量是落後指標,內容本質才是主要指標挖掘長尾
  42. 42. Sorting Hat 葛來分多 史萊哲林 (好人學校) (壞蛋學校)
  43. 43. 部落格文章 優質文章 劣質文章 (100分) (0分)
  44. 44. 轉換問題 優質 或 劣質 文章 內容 優質程度
  45. 45. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  46. 46. Data Understanding & Data Collection 盤點完後發現只有標記過劣質文章 使用 Heuristic 方式先找出一批優質文章 特徵設計很重要 e.q 網址的轉換 https://s.yimg.com/zp/MerchandiseImages/4F0 3EBEDF9-Product-20724161.jpg
  47. 47. Start Business Understanding Data Understanding & Data Collection Modeling Deployment
  48. 48. Modeling 先求有再求好 -> Baseline Model 特徵的設計還是很重要 Deep Learning 在特領域會有跳躍性的進步
  49. 49. Baseline Model Naive Bayes - Accuracy 78% P(Y=優) P(W1|優) P(W2|優) P(W3|優) P(Y=劣) P(W1|劣) P(W2|劣) P(W3|劣) 優質 可能性 劣質 可能性 假設這全部有的詞庫為 W1,W2,W3 ,當其中一篇文章包 含兩個字 W1, W3
  50. 50. Deep Learning 潮流是要跟的 Deep Learning Deep Learning
  51. 51. Deep Learning at Image Classification
  52. 52. Deep Learning CNN at Text Classification
  53. 53. Deep Learning CNN for Text Classification Image 2D Convolution 的過程
  54. 54. Deep Learning CNN for Text Classification Text 1D Convolution 的過程
  55. 55. Convolutional Neural Networks for Sentence Classification http://arxiv.org/abs/1408.5882 Deep Learning CNN Model - Accuracy 85%
  56. 56. Deployment Start Business Understanding Data Understanding & Data Collection Modeling
  57. 57. Deployment Data Process Tool Data Pipeline Tool Machine Learning Model Hadoop Like System - Spark Scheduling & Pipeline System - AirFlow Tensorflow Online Service Integration & Evaluation Depends on Your System 斷詞系統 - Jieba

×