Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

金数据是如何鉴黄的

372 views

Published on

这是在RubyConfChina2017上的演讲,如何使用机器学习的方法来识别色情表单。
1. 三个阶段分别是:人工识别 -> 关键字匹配 -> 机器学习
2. 介绍了使用机器学习的三个方面:特征提取 -> 算法选择 -> 结果评估。
3. 金数据在实战中的一些数据

Published in: Software
  • Be the first to comment

  • Be the first to like this

金数据是如何鉴黄的

  1. 1. ⾦金金数据是如何鉴 的 姜 鹏⻩黄
  2. 2. 此处省略略558个字……
  3. 3. 当优秀⼯工具被⽤用于「邪恶」的⽬目的,后果好可怕!😱
  4. 4. Milestone I (⼈人⼯工识别)
  5. 5. Milestone II (关键字匹配)
  6. 6. ⽂文本信息 ⽂文字处理理 OCR 关键字匹配 分类与 权重 ⾃自动封停 正常表单 嫌疑表单 表单原始信息提取
  7. 7. https://github.com/tesseract-ocr/tesseract OCR(Optical character recognition)
  8. 8. ⽂文字处理理 正.品.9.9.9神油*成.⼈人+⽤用.品只卖*6.6.元(包.邮) 正品神油成⼈人⽤用品只卖元包邮 去除符号 保留留汉字 (⼩小-姨-⼦子-的-⾃自-述) ⼩小姨⼦子的⾃自述
  9. 9. 如何能减少⼈人⼯工⼲干预 - 不不需要⼈人⼯工设置权重 - 不不需要⼈人⼯工选择关键词 - 能越来越准确 Machine Learning
  10. 10. Milestone III (机器器学习)
  11. 11. 训练集 机器器学习算法 分类器器新数据 预测 标 记 监督学习(Supervised Learning)
  12. 12. 算法选择 结果评估特征提取
  13. 13. 分类问题(⽂文本) 我喜欢⾦金金数据 训练集 标记 ⼩小姨⼦子到家我玩 ? 预测 我喜欢⼩小姨⼦子 我喜欢Ruby 正常 正常 ⾊色情
  14. 14. ⽂文本 -> 数学:计数 Ruby 喜欢 ⼩小姨⼦子 ⾦金金数据 标记 我 喜欢 ⾦金金数据 正常 我 喜欢 Ruby 正常 我 喜欢 ⼩小姨⼦子 ⾊色情 ⼩小姨⼦子 到 我家 玩 特征 样本 0 1 0 1 11 0 0 10 1 0 00 1 0 0 0 1 ?
  15. 15. ⽂文本 -> 数学:权重 TF-IDF:term frequency–inverse document frequency 衡量量词语对⽂文档的重要程度: • ⼀一个词在⽂文档中的出现次数成正⽐比 • 与该词在整个语⾔言中的出现次数成反⽐比 0 1 0 1 1 1 0 0 0 1 1 0 0 0.5085 0 0.861 0.861 0.5085 0 0 0 0.5085 0.861 0 ['ruby', '喜欢', '⼩小姨⼦子', ‘⾦金金数据'] ['ruby', '喜欢', '⼩小姨⼦子', '⾦金金数据']
  16. 16. ⽂文本 -> 数学:分词
  17. 17. ⽂文本 -> 数学:计数
  18. 18. ⽂文本 -> 数学:权重
  19. 19. 「⼀一切问题都是数学问题」
  20. 20. 分类问题(⽂文本) 我喜欢⾦金金数据 训练集 标记 ⼩小姨⼦子到家我玩 ? 预测 我喜欢⼩小姨⼦子 我喜欢Ruby 正常 正常 ⾊色情
  21. 21. 0 0.5085 0 0.861 0.861 0.5085 0 0 0 0.5085 0.861 0 分类问题(数学) 0 0 1 0 0 0.861 0 ? 训练集 标记 预测
  22. 22. 算法选择 结果评估特征提取
  23. 23. ⽀支持向量量机(SVM)
  24. 24. 训练
  25. 25. 预测:⾊色情
  26. 26. 预测:正常
  27. 27. 算法选择 结果评估特征提取
  28. 28. 评估 准确率 = 预测正确样本数 总预测数 ?
  29. 29. Predict ⾊色情 正常 Actual ⾊色情 6(TP) 4(FN) 正常 0(FP) 90(TN) 精确率(Precision) 召回率(Recall) 评估:混淆矩阵(Confusion Matrix) 预测是⾊色情的结果中,确实是⾊色情的⽐比例例 所有⾊色情表单中,预测是⾊色情的⽐比例例
  30. 30. 系统集成 Goldendata Server (Ruby on Rails) DB ML Server (Python Flask) 训练学习 内容预测 存储分类器器 Content Check Server (Ruby on Rails) 表单封停 ⽤用户通知 训练集管理理 3. 获取训练集 4. 获取分类结果 1. 表单存储 2. 表单提取 Matrix
  31. 31. Predict ⾊色情 政治 欺诈 正常 Actual ⾊色情 92 0 0 2 政治 0 56 0 9 欺诈 0 0 70 7 正常 1 2 5 2254 评估 Precision Recall F-score ⾊色情 0.989247 0.978723 0.983957 政治 0.965517 0.861538 0.910569 欺诈 0.933333 0.909090 0.921052 正常 0.989247 0.978723 0.983957
  32. 32. 训练集 机器器学习算法 分类器器新数据 预测 标 记 What’s Next? 扩充样本 提升质量量 SVM Decision Tree Naive Bayes K-Neighbors … Ensemble Learning • Voting Classifier • Random Forest …
  33. 33. 总结 ⼈人⼯工识别 -> 关键字匹配 -> 机器器学习 特征选择 -> 算法选择 -> 结果评估 ⾦金金数据实现
  34. 34. 数据来源:公开发布的表单
  35. 35. Thanks

×