数据分析架构实例与安全        云挖掘      中山大学海量数据与云计      算研究中心      北京师范大学珠海研究院          SACC2011               吕威
提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-...
Part 1 数据分析架构实例数据挖      网站用                   Weka掘例子      户行为         分析        介绍定义、概念   数据分析架构实例   开源软件                ...
Why Mine Data? Commercial ViewpointLots of data is being collected and warehoused   Web data, e-commerce   purchases at...
Why Mine Data? Scientific ViewpointData collected and stored at enormous speeds (GB/hour)   remote sensors on a satellit...
Mining Large Data Sets - MotivationThere is often information “hidden” in the data that is not readily evidentHuman anal...
What is Data Mining?Many Definitions  Non-trivial extraction of implicit, previously   unknown and potentially useful in...
What is (not) Data Mining?lWhat is not Data       l   What is Data Mining?Mining?    – Look up phone          – Certain na...
Origins of Data MiningDraws ideas from machine learning/AI, pattern recognition, statistics, and database systemsTraditi...
Data Mining Tasks                         Data                         Mining                         TasksPrediction     ...
Data Mining Tasks...    Classification [Predictive]            Clustering [Descriptive]Regression                        D...
数据挖掘例子  1         2        3超市分析交易    信用卡公司分   保险公司分析数据,安排货    析信用卡历史   以前的客户记架上货物摆布,   数据,判断哪   录,决定哪些以提高销售     些人有风险,   ...
数据挖掘例子  4        5         6汽车公司分析   广告公司分析    税务局分析不不同地方人的   人们购买模式,   同团体的交所购买模型,有   估计他们的收    得税的记录,针对性地发送   入和孩子数目,   ...
Part 1 数据分析架构实例数据挖      网站用                   Weka掘例子      户行为         分析        介绍定义、概念   数据分析架构实例   开源软件                ...
网站用户行为分析架构实例某网站是游戏门户网站,在多个服务器上运 营着多款游戏,每天有大量数据如日志记录 等。需根据记录数据进行分析,得出一些有 用结果。现在已有各种统计报表,如每日各款游戏点 击排名、游戏大厅位置点击排名、各种统计 量的饼图...
网站用户行为分析预测模块                 聚类模块           网站用奇异点分析      户行为       关联规则模块            分析        。。。分类模块        怎么搭建整个模型呢? ...
预测模块 用户 流失         游戏 预警            访问          用户            预测          充值                        预测DecisionTree决策      ...
奇异点分析 游戏奇 异点分           用户流  析            失奇异        用户充               点分析        值奇异                          点分析Graphica...
分类模块游戏分类——Instance-based k, Ibk算法玩家分类——Bayes贝叶斯算法聚类模块玩家聚类——Kmeans 均值算法 游戏聚类——Kmeans 均值算法访问规律——Apriori算法              ...
任务确定        关联规则               分类概念描述               预测奇异点分析        聚类分析                    SACC2011
架构目标确定用户流失预警      其它 模块               SACC2011
客户流失预警客户流失分析过程指客户流失逻辑模型的 建立过程,包括数据采样、数据分析、模型 评估和应用,在一系列分析之后得出客户 流失的名单列表、流失的原因、特征和进 行流失预警。注意:目前侧重的是预测客户流失,与客 户分类应该有一定的区别 ...
架构过程市场部、运营部         反馈市场部、运营部        结果分析学习模型            朴素贝叶斯算法的改进的实现数据转换      数据表合并、新属性生成、不等长数据的滑动数据清洗         样本训练集的确定 ...
架构过程         数据清洗              数据转换            学习模型实现      小规模数据上先进           多个表合并成一个         简单、可用、快速、方法        行尝试     ...
需要分类的用户数据     训练集 用户流失集        分类算法聚类出已知流失用户特征   训练集  流失用户的类型                     SACC2011
算法结果样本表     客户数目   改进贝叶斯               算法准确度test1   1000   714test2   1000   736test3   1000   747test4   1000   716test5 ...
决策支持              流失客              户提出               预警       结果分析流失原因 分析              有目的进行              营销、挽回           ...
开源数据分析软件Weka介绍开源全面规范WEKA的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis),它的源代码可通过 http://www.cs.waikato.ac.n...
开源数据分析软件Weka介绍WEKA作为一个公开的数据挖掘工作平台 ,集合了大量能承担数据挖掘任务的机器 学习算法,包括对数据进行预处理,分类 ,回归、聚类、关联规则以及在新的交互 式界面上的可视化。如果想自己实现数据 挖掘算法的话,可以看一...
学生做数据分析项目过程 2011.9-                            深入学习 2011.6-2011.8                        实际项目 2011.3-2011.5               ...
提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-...
大规模数据挖掘多款游戏、多台服务器                                云化每天独立登陆IP有 600,000~700,000个   MapReduce                                方...
云计算——网络发展的必然结果             SACC2011
云计算简化实现机制            SACC2011
Part 2 大规模数据挖掘(云挖掘         Hadoop)Map-Reduce方法Classification (k-NN)算法的MapReduce化                            SACC2011
What’s MapreduceParallel/Distributed Computing Programming Model     Input split     shuffle      output                 ...
Shuffle Implementation                    SACC2011
Partition and Sort GroupPartition function: hash(key)%reducer numberGroup function: sort by key                           ...
Hadoop MapReduce Architecture                                           Master node     MapReduce job      submitted by   ...
Nearest Neighbor Classifiers Basic idea:      If it walks like a duck, quacks like a duck, then       it’s probably a du...
Nearest-Neighbor Classifiers Unknown record   l   Requires three things                       – The set of stored records ...
Definition of Nearest Neighbor           X                       X                        X(a) 1-nearest neighbor   (b) 2-...
MapReduce:kNNInput   Map   Reduce   Output                       SACC2011
MapReduce化算法提高效率单个节点并非跑不出   利用多个节点进行 结果:大数据集上需    MapReduce云化,可 要一天、一周才能出    以利用空置设备同步 结果。有时候有较高    运行,提高速度,对 实时要求的任务一小 ...
提纲Part 1 数据分析架构实例 数据挖掘的概念与特点 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification...
数据分析带来的隐私保护问题          隐私保护数据挖掘可以挖          也可挖掘分析出掘潜在规律、辅          感兴趣的私人信助决策、检测异          息。云挖掘中更常模式、恐怖活          加涉及到客户...
安全云挖掘          安全云挖掘既不泄露隐私,           在客户端向云端又能保证挖掘结           传送隐私数据时,果的大致准确—           可先进行随机化—隐私保护数据           变换、加密挖掘 ...
Privacy-preserving Data Mining                        Hide sensitive individual data                        values from th...
微分流形:保持拓扑特性设 M 是一个Hausdorff 拓扑空间, 若对每一点 p  M ,都有P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n维拓扑流形, 简称为 n 维流形.                     ...
几种流形学习算法         1                         2                          3                         等距映射(Isomap)局部线性嵌入(LLE) ...
LLE算法示意图           SACC2011
MDS 示意图      SACC2011
Dimensionality Reduction:                            ISOMAPBy: Tenenbaum, de Silva,        Langford (2000)Construct a nei...
安全云挖掘          安全云挖掘使用微分流形完           怎样并行化进行成了几个隐私保           微分流形变换,护数据挖掘算法           同时不影响挖掘                  结果       ...
分析的完整架构      流失用      户预警数据分析大规模               逐步深入细化数据分 析          安全云            挖掘                    SACC2011
SACC2011
Upcoming SlideShare
Loading in …5
×

数据分析架构实例与安全的云挖掘

3,062 views

Published on

数据分析,架构,实例,安全,云挖掘

Published in: Technology, Education
0 Comments
11 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,062
On SlideShare
0
From Embeds
0
Number of Embeds
771
Actions
Shares
0
Downloads
0
Comments
0
Likes
11
Embeds 0
No embeds

No notes for slide

数据分析架构实例与安全的云挖掘

  1. 1. 数据分析架构实例与安全 云挖掘 中山大学海量数据与云计 算研究中心 北京师范大学珠海研究院 SACC2011 吕威
  2. 2. 提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  3. 3. Part 1 数据分析架构实例数据挖 网站用 Weka掘例子 户行为 分析 介绍定义、概念 数据分析架构实例 开源软件 SACC2011
  4. 4. Why Mine Data? Commercial ViewpointLots of data is being collected and warehoused  Web data, e-commerce  purchases at department/ grocery stores  Bank/Credit Card transactionsComputers have become cheaper and more powerfulCompetitive Pressure is Strong  Provide better, customized services for an edge (e.g. in SACC2011 Customer Relationship Management)
  5. 5. Why Mine Data? Scientific ViewpointData collected and stored at enormous speeds (GB/hour)  remote sensors on a satellite  telescopes scanning the skies  microarrays generating gene expression dataTraditional techniques infeasible forraw dataData mining may help scientists  in classifying and segmenting data  in Hypothesis Formation SACC2011
  6. 6. Mining Large Data Sets - MotivationThere is often information “hidden” in the data that is not readily evidentHuman analysts may take weeks to discover useful informationMuch of the data is never analyzed at all 4,000,000 3,500,000 3,000,000 The Data Gap 2,500,000 2,000,000 Total new disk (TB) since 1995 1,500,000 1,000,000 Number of 500,000 analysts 0 SACC2011From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” 1995 1996 1997 1998 1999
  7. 7. What is Data Mining?Many Definitions  Non-trivial extraction of implicit, previously unknown and potentially useful information from data  Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns SACC2011
  8. 8. What is (not) Data Mining?lWhat is not Data l What is Data Mining?Mining? – Look up phone – Certain names are more number in phone prevalent in certain US directory locations (O’Brien, O’Rurke, O’Reilly… in Boston area) – Query a Web – Group together similar search engine for documents returned by information about search engine according to “Amazon” their context (e.g. Amazon rainforest, Amazon.com,) SACC2011
  9. 9. Origins of Data MiningDraws ideas from machine learning/AI, pattern recognition, statistics, and database systemsTraditional Techniques Statistics/ Machine Learning/ Pattern may be unsuitable due to AI Recognition  Enormity of data Data Mining  High dimensionality of data Database  Heterogeneous, systems distributed nature of data SACC2011
  10. 10. Data Mining Tasks Data Mining TasksPrediction DescriptionMethods Methods Use some Find human-variables to interpretablepredict unknown patterns thator future values of describe the data.other variables. SACC2011
  11. 11. Data Mining Tasks... Classification [Predictive] Clustering [Descriptive]Regression Data Association Rule Discovery [Descriptive][Predictive] Mining Deviation Detection [Predictive] Sequential Pattern Discovery [Descriptive] SACC2011
  12. 12. 数据挖掘例子 1 2 3超市分析交易 信用卡公司分 保险公司分析数据,安排货 析信用卡历史 以前的客户记架上货物摆布, 数据,判断哪 录,决定哪些以提高销售 些人有风险, 客户的潜在花额 哪些人没有 费是昂贵的 SACC2011
  13. 13. 数据挖掘例子 4 5 6汽车公司分析 广告公司分析 税务局分析不不同地方人的 人们购买模式, 同团体的交所购买模型,有 估计他们的收 得税的记录,针对性地发送 入和孩子数目, 发现异常模型给客户喜欢的 作为潜在的市 和趋势汽车手册 场信息 SACC2011
  14. 14. Part 1 数据分析架构实例数据挖 网站用 Weka掘例子 户行为 分析 介绍定义、概念 数据分析架构实例 开源软件 SACC2011
  15. 15. 网站用户行为分析架构实例某网站是游戏门户网站,在多个服务器上运 营着多款游戏,每天有大量数据如日志记录 等。需根据记录数据进行分析,得出一些有 用结果。现在已有各种统计报表,如每日各款游戏点 击排名、游戏大厅位置点击排名、各种统计 量的饼图、柱图等。希望进一步得到细化分析——数据分析、挖 掘 SACC2011
  16. 16. 网站用户行为分析预测模块 聚类模块 网站用奇异点分析 户行为 关联规则模块 分析 。。。分类模块 怎么搭建整个模型呢? SACC2011
  17. 17. 预测模块 用户 流失 游戏 预警 访问 用户 预测 充值 预测DecisionTree决策 Case K nearest树算法、 Based neighborBayes贝 Reasoni 最近邻算叶斯算法 ng案例推 法、最小 理算法 二乘法 SACC2011
  18. 18. 奇异点分析 游戏奇 异点分 用户流 析 失奇异 用户充 点分析 值奇异 点分析Graphical & Nearest- DensityStatistical- neighbor based 密based 图 based 最 度方法形统计方 近邻方法 法 SACC2011
  19. 19. 分类模块游戏分类——Instance-based k, Ibk算法玩家分类——Bayes贝叶斯算法聚类模块玩家聚类——Kmeans 均值算法 游戏聚类——Kmeans 均值算法访问规律——Apriori算法 SACC2011
  20. 20. 任务确定 关联规则 分类概念描述 预测奇异点分析 聚类分析 SACC2011
  21. 21. 架构目标确定用户流失预警 其它 模块 SACC2011
  22. 22. 客户流失预警客户流失分析过程指客户流失逻辑模型的 建立过程,包括数据采样、数据分析、模型 评估和应用,在一系列分析之后得出客户 流失的名单列表、流失的原因、特征和进 行流失预警。注意:目前侧重的是预测客户流失,与客 户分类应该有一定的区别 SACC2011
  23. 23. 架构过程市场部、运营部 反馈市场部、运营部 结果分析学习模型 朴素贝叶斯算法的改进的实现数据转换 数据表合并、新属性生成、不等长数据的滑动数据清洗 样本训练集的确定 SACC2011
  24. 24. 架构过程 数据清洗 数据转换 学习模型实现 小规模数据上先进 多个表合并成一个 简单、可用、快速、方法 行尝试 大的物理表 好解释样本数 某款游戏一个月数 心跳表中的多条数 属性挑选 据 据大约150,000条 据将合成一条数据去除完  生成一些贝叶斯分  大约剩50,000条 连续属性离散化全无用 类算法有用属性活跃用 不等长数据处理: 剩下15,000条左右 贝叶斯分类 户 滑动窗口 训练数据集完成:流失用 大约1/3——5,000 15,000条整齐数 Kmeans聚类 户 条 据 SACC2011
  25. 25. 需要分类的用户数据 训练集 用户流失集 分类算法聚类出已知流失用户特征 训练集 流失用户的类型 SACC2011
  26. 26. 算法结果样本表 客户数目 改进贝叶斯 算法准确度test1 1000 714test2 1000 736test3 1000 747test4 1000 716test5 1000 762 SACC2011
  27. 27. 决策支持 流失客 户提出 预警 结果分析流失原因 分析 有目的进行 营销、挽回 部分客户 SACC2011
  28. 28. 开源数据分析软件Weka介绍开源全面规范WEKA的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis),它的源代码可通过 http://www.cs.waikato.ac.nz/ml/weka得到 SACC2011
  29. 29. 开源数据分析软件Weka介绍WEKA作为一个公开的数据挖掘工作平台 ,集合了大量能承担数据挖掘任务的机器 学习算法,包括对数据进行预处理,分类 ,回归、聚类、关联规则以及在新的交互 式界面上的可视化。如果想自己实现数据 挖掘算法的话,可以看一看weka的接口文 档。在weka中集成自己的算法甚至借鉴它 的方法自己实现可视化工具并不是件很困 难的事情。 SACC2011
  30. 30. 学生做数据分析项目过程 2011.9- 深入学习 2011.6-2011.8 实际项目 2011.3-2011.5 开源软件代码2010.9-2011.2 理论学习 SACC2011
  31. 31. 提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  32. 32. 大规模数据挖掘多款游戏、多台服务器 云化每天独立登陆IP有 600,000~700,000个 MapReduce 方法一些数据挖掘算法跑不起来 SACC2011
  33. 33. 云计算——网络发展的必然结果 SACC2011
  34. 34. 云计算简化实现机制 SACC2011
  35. 35. Part 2 大规模数据挖掘(云挖掘 Hadoop)Map-Reduce方法Classification (k-NN)算法的MapReduce化 SACC2011
  36. 36. What’s MapreduceParallel/Distributed Computing Programming Model Input split shuffle output SACC2011
  37. 37. Shuffle Implementation SACC2011
  38. 38. Partition and Sort GroupPartition function: hash(key)%reducer numberGroup function: sort by key SACC2011
  39. 39. Hadoop MapReduce Architecture Master node MapReduce job submitted by JobTracker client computer Master/Worker Model Load-balancing by polling mechanism Slave node Slave node Slave node TaskTracker TaskTracker TaskTracker Task instance Task instance Task instance SACC2011
  40. 40. Nearest Neighbor Classifiers Basic idea:  If it walks like a duck, quacks like a duck, then it’s probably a duck Compute Distance Test RecordTraining Choose k of theRecords “nearest” records SACC2011
  41. 41. Nearest-Neighbor Classifiers Unknown record l Requires three things – The set of stored records – Distance Metric to compute distance between records – The value of k, the number of nearest neighbors to retrieve l To classify an unknown record: – Compute distance to other training records – Identify k nearest neighbors – Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote) SACC2011
  42. 42. Definition of Nearest Neighbor X X X(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor K-nearest neighbors of a record x are data points that have the k smallest distance to x SACC2011
  43. 43. MapReduce:kNNInput Map Reduce Output SACC2011
  44. 44. MapReduce化算法提高效率单个节点并非跑不出 利用多个节点进行 结果:大数据集上需 MapReduce云化,可 要一天、一周才能出 以利用空置设备同步 结果。有时候有较高 运行,提高速度,对 实时要求的任务一小 有较高实时性要求的 时出结果都太慢 算法有好处 SACC2011
  45. 45. 提纲Part 1 数据分析架构实例 数据挖掘的概念与特点 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  46. 46. 数据分析带来的隐私保护问题 隐私保护数据挖掘可以挖 也可挖掘分析出掘潜在规律、辅 感兴趣的私人信助决策、检测异 息。云挖掘中更常模式、恐怖活 加涉及到客户端动和欺诈行为 把隐私数据交付 给云端进行挖掘 ,客户对此会产 生疑虑。 SACC2011
  47. 47. 安全云挖掘 安全云挖掘既不泄露隐私, 在客户端向云端又能保证挖掘结 传送隐私数据时,果的大致准确— 可先进行随机化—隐私保护数据 变换、加密挖掘 SACC2011
  48. 48. Privacy-preserving Data Mining Hide sensitive individual data values from the outside worldA Random Rotation• Privacy- • Perturbation Preserving DataApproach to Privacy Data miningData Classification conversion A Framework for • •Deriving Private cryptology Information from High Accuracy Randomized Data … Privacy- Preserving Mining A valid and effcient decision model based on the distorted data can be constructed SACC2011
  49. 49. 微分流形:保持拓扑特性设 M 是一个Hausdorff 拓扑空间, 若对每一点 p  M ,都有P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n维拓扑流形, 简称为 n 维流形. SACC2011
  50. 50. 几种流形学习算法 1 2 3 等距映射(Isomap)局部线性嵌入(LLE) 拉普拉斯特征映射 J.B. Tenenbaum, V. de (Laplacian Eigenmap)S. T. Roweis and L. Silva, and J. C. M. Belkin, P. Niyogi,K. Saul. Nonlinear Langford. A global Laplacian Eigenmapsdimensionality for Dimensionality geometric frameworkreduction by locally Reduction and Data for nonlinearlinear embedding. Representation. Neural dimensionalityScience, vol. 290, pp. Computation, Vol. 15, reduction. Science, vol. Issue 6, pp. 1373 –1396,2323--2326, 2000. 290, pp. 2319--2323, 2003 . 2000. SACC2011
  51. 51. LLE算法示意图 SACC2011
  52. 52. MDS 示意图 SACC2011
  53. 53. Dimensionality Reduction: ISOMAPBy: Tenenbaum, de Silva, Langford (2000)Construct a neighbourhood graphFor each pair of points in the graph, compute the shortest geodesic distances SACC2011
  54. 54. 安全云挖掘 安全云挖掘使用微分流形完 怎样并行化进行成了几个隐私保 微分流形变换,护数据挖掘算法 同时不影响挖掘 结果 SACC2011
  55. 55. 分析的完整架构 流失用 户预警数据分析大规模 逐步深入细化数据分 析 安全云 挖掘 SACC2011
  56. 56. SACC2011

×