• Save
数据分析架构实例与安全的云挖掘
Upcoming SlideShare
Loading in...5
×
 

数据分析架构实例与安全的云挖掘

on

  • 2,669 views

数据分析,架构,实例,安全,云挖掘

数据分析,架构,实例,安全,云挖掘

Statistics

Views

Total Views
2,669
Views on SlideShare
1,901
Embed Views
768

Actions

Likes
7
Downloads
0
Comments
0

3 Embeds 768

http://www.mysqlops.com 765
http://weibo.com 2
http://cache.baidu.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

数据分析架构实例与安全的云挖掘 数据分析架构实例与安全的云挖掘 Presentation Transcript

  • 数据分析架构实例与安全 云挖掘 中山大学海量数据与云计 算研究中心 北京师范大学珠海研究院 SACC2011 吕威
  • 提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • Part 1 数据分析架构实例数据挖 网站用 Weka掘例子 户行为 分析 介绍定义、概念 数据分析架构实例 开源软件 SACC2011
  • Why Mine Data? Commercial ViewpointLots of data is being collected and warehoused  Web data, e-commerce  purchases at department/ grocery stores  Bank/Credit Card transactionsComputers have become cheaper and more powerfulCompetitive Pressure is Strong  Provide better, customized services for an edge (e.g. in SACC2011 Customer Relationship Management)
  • Why Mine Data? Scientific ViewpointData collected and stored at enormous speeds (GB/hour)  remote sensors on a satellite  telescopes scanning the skies  microarrays generating gene expression dataTraditional techniques infeasible forraw dataData mining may help scientists  in classifying and segmenting data  in Hypothesis Formation SACC2011
  • Mining Large Data Sets - MotivationThere is often information “hidden” in the data that is not readily evidentHuman analysts may take weeks to discover useful informationMuch of the data is never analyzed at all 4,000,000 3,500,000 3,000,000 The Data Gap 2,500,000 2,000,000 Total new disk (TB) since 1995 1,500,000 1,000,000 Number of 500,000 analysts 0 SACC2011From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications” 1995 1996 1997 1998 1999
  • What is Data Mining?Many Definitions  Non-trivial extraction of implicit, previously unknown and potentially useful information from data  Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns SACC2011
  • What is (not) Data Mining?lWhat is not Data l What is Data Mining?Mining? – Look up phone – Certain names are more number in phone prevalent in certain US directory locations (O’Brien, O’Rurke, O’Reilly… in Boston area) – Query a Web – Group together similar search engine for documents returned by information about search engine according to “Amazon” their context (e.g. Amazon rainforest, Amazon.com,) SACC2011
  • Origins of Data MiningDraws ideas from machine learning/AI, pattern recognition, statistics, and database systemsTraditional Techniques Statistics/ Machine Learning/ Pattern may be unsuitable due to AI Recognition  Enormity of data Data Mining  High dimensionality of data Database  Heterogeneous, systems distributed nature of data SACC2011
  • Data Mining Tasks Data Mining TasksPrediction DescriptionMethods Methods Use some Find human-variables to interpretablepredict unknown patterns thator future values of describe the data.other variables. SACC2011
  • Data Mining Tasks... Classification [Predictive] Clustering [Descriptive]Regression Data Association Rule Discovery [Descriptive][Predictive] Mining Deviation Detection [Predictive] Sequential Pattern Discovery [Descriptive] SACC2011
  • 数据挖掘例子 1 2 3超市分析交易 信用卡公司分 保险公司分析数据,安排货 析信用卡历史 以前的客户记架上货物摆布, 数据,判断哪 录,决定哪些以提高销售 些人有风险, 客户的潜在花额 哪些人没有 费是昂贵的 SACC2011
  • 数据挖掘例子 4 5 6汽车公司分析 广告公司分析 税务局分析不不同地方人的 人们购买模式, 同团体的交所购买模型,有 估计他们的收 得税的记录,针对性地发送 入和孩子数目, 发现异常模型给客户喜欢的 作为潜在的市 和趋势汽车手册 场信息 SACC2011
  • Part 1 数据分析架构实例数据挖 网站用 Weka掘例子 户行为 分析 介绍定义、概念 数据分析架构实例 开源软件 SACC2011
  • 网站用户行为分析架构实例某网站是游戏门户网站,在多个服务器上运 营着多款游戏,每天有大量数据如日志记录 等。需根据记录数据进行分析,得出一些有 用结果。现在已有各种统计报表,如每日各款游戏点 击排名、游戏大厅位置点击排名、各种统计 量的饼图、柱图等。希望进一步得到细化分析——数据分析、挖 掘 SACC2011
  • 网站用户行为分析预测模块 聚类模块 网站用奇异点分析 户行为 关联规则模块 分析 。。。分类模块 怎么搭建整个模型呢? SACC2011
  • 预测模块 用户 流失 游戏 预警 访问 用户 预测 充值 预测DecisionTree决策 Case K nearest树算法、 Based neighborBayes贝 Reasoni 最近邻算叶斯算法 ng案例推 法、最小 理算法 二乘法 SACC2011
  • 奇异点分析 游戏奇 异点分 用户流 析 失奇异 用户充 点分析 值奇异 点分析Graphical & Nearest- DensityStatistical- neighbor based 密based 图 based 最 度方法形统计方 近邻方法 法 SACC2011
  • 分类模块游戏分类——Instance-based k, Ibk算法玩家分类——Bayes贝叶斯算法聚类模块玩家聚类——Kmeans 均值算法 游戏聚类——Kmeans 均值算法访问规律——Apriori算法 SACC2011
  • 任务确定 关联规则 分类概念描述 预测奇异点分析 聚类分析 SACC2011
  • 架构目标确定用户流失预警 其它 模块 SACC2011
  • 客户流失预警客户流失分析过程指客户流失逻辑模型的 建立过程,包括数据采样、数据分析、模型 评估和应用,在一系列分析之后得出客户 流失的名单列表、流失的原因、特征和进 行流失预警。注意:目前侧重的是预测客户流失,与客 户分类应该有一定的区别 SACC2011
  • 架构过程市场部、运营部 反馈市场部、运营部 结果分析学习模型 朴素贝叶斯算法的改进的实现数据转换 数据表合并、新属性生成、不等长数据的滑动数据清洗 样本训练集的确定 SACC2011
  • 架构过程 数据清洗 数据转换 学习模型实现 小规模数据上先进 多个表合并成一个 简单、可用、快速、方法 行尝试 大的物理表 好解释样本数 某款游戏一个月数 心跳表中的多条数 属性挑选 据 据大约150,000条 据将合成一条数据去除完  生成一些贝叶斯分  大约剩50,000条 连续属性离散化全无用 类算法有用属性活跃用 不等长数据处理: 剩下15,000条左右 贝叶斯分类 户 滑动窗口 训练数据集完成:流失用 大约1/3——5,000 15,000条整齐数 Kmeans聚类 户 条 据 SACC2011
  • 需要分类的用户数据 训练集 用户流失集 分类算法聚类出已知流失用户特征 训练集 流失用户的类型 SACC2011
  • 算法结果样本表 客户数目 改进贝叶斯 算法准确度test1 1000 714test2 1000 736test3 1000 747test4 1000 716test5 1000 762 SACC2011
  • 决策支持 流失客 户提出 预警 结果分析流失原因 分析 有目的进行 营销、挽回 部分客户 SACC2011
  • 开源数据分析软件Weka介绍开源全面规范WEKA的全名是怀卡托智能分析环境( Waikato Environment for Knowledge Analysis),它的源代码可通过 http://www.cs.waikato.ac.nz/ml/weka得到 SACC2011
  • 开源数据分析软件Weka介绍WEKA作为一个公开的数据挖掘工作平台 ,集合了大量能承担数据挖掘任务的机器 学习算法,包括对数据进行预处理,分类 ,回归、聚类、关联规则以及在新的交互 式界面上的可视化。如果想自己实现数据 挖掘算法的话,可以看一看weka的接口文 档。在weka中集成自己的算法甚至借鉴它 的方法自己实现可视化工具并不是件很困 难的事情。 SACC2011
  • 学生做数据分析项目过程 2011.9- 深入学习 2011.6-2011.8 实际项目 2011.3-2011.5 开源软件代码2010.9-2011.2 理论学习 SACC2011
  • 提纲Part 1 数据分析架构实例 数据挖掘例子 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • 大规模数据挖掘多款游戏、多台服务器 云化每天独立登陆IP有 600,000~700,000个 MapReduce 方法一些数据挖掘算法跑不起来 SACC2011
  • 云计算——网络发展的必然结果 SACC2011
  • 云计算简化实现机制 SACC2011
  • Part 2 大规模数据挖掘(云挖掘 Hadoop)Map-Reduce方法Classification (k-NN)算法的MapReduce化 SACC2011
  • What’s MapreduceParallel/Distributed Computing Programming Model Input split shuffle output SACC2011
  • Shuffle Implementation SACC2011
  • Partition and Sort GroupPartition function: hash(key)%reducer numberGroup function: sort by key SACC2011
  • Hadoop MapReduce Architecture Master node MapReduce job submitted by JobTracker client computer Master/Worker Model Load-balancing by polling mechanism Slave node Slave node Slave node TaskTracker TaskTracker TaskTracker Task instance Task instance Task instance SACC2011
  • Nearest Neighbor Classifiers Basic idea:  If it walks like a duck, quacks like a duck, then it’s probably a duck Compute Distance Test RecordTraining Choose k of theRecords “nearest” records SACC2011
  • Nearest-Neighbor Classifiers Unknown record l Requires three things – The set of stored records – Distance Metric to compute distance between records – The value of k, the number of nearest neighbors to retrieve l To classify an unknown record: – Compute distance to other training records – Identify k nearest neighbors – Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote) SACC2011
  • Definition of Nearest Neighbor X X X(a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor K-nearest neighbors of a record x are data points that have the k smallest distance to x SACC2011
  • MapReduce:kNNInput Map Reduce Output SACC2011
  • MapReduce化算法提高效率单个节点并非跑不出 利用多个节点进行 结果:大数据集上需 MapReduce云化,可 要一天、一周才能出 以利用空置设备同步 结果。有时候有较高 运行,提高速度,对 实时要求的任务一小 有较高实时性要求的 时出结果都太慢 算法有好处 SACC2011
  • 提纲Part 1 数据分析架构实例 数据挖掘的概念与特点 数据分析架构实例——网站用户流失预警 开源数据分析软件Weka介绍Part 2 大规模数据挖掘(云挖掘Hadoop) Map-Reduce方法 Classification (k-NN) 的MapReduce化Part 3 安全云挖掘 微分流形在安全云挖掘中的应用(Matlab) SACC2011
  • 数据分析带来的隐私保护问题 隐私保护数据挖掘可以挖 也可挖掘分析出掘潜在规律、辅 感兴趣的私人信助决策、检测异 息。云挖掘中更常模式、恐怖活 加涉及到客户端动和欺诈行为 把隐私数据交付 给云端进行挖掘 ,客户对此会产 生疑虑。 SACC2011
  • 安全云挖掘 安全云挖掘既不泄露隐私, 在客户端向云端又能保证挖掘结 传送隐私数据时,果的大致准确— 可先进行随机化—隐私保护数据 变换、加密挖掘 SACC2011
  • Privacy-preserving Data Mining Hide sensitive individual data values from the outside worldA Random Rotation• Privacy- • Perturbation Preserving DataApproach to Privacy Data miningData Classification conversion A Framework for • •Deriving Private cryptology Information from High Accuracy Randomized Data … Privacy- Preserving Mining A valid and effcient decision model based on the distorted data can be constructed SACC2011
  • 微分流形:保持拓扑特性设 M 是一个Hausdorff 拓扑空间, 若对每一点 p  M ,都有P 的一个开领域 U 和 R n 的一个开子集同胚, 则称 M 为 n维拓扑流形, 简称为 n 维流形. SACC2011
  • 几种流形学习算法 1 2 3 等距映射(Isomap)局部线性嵌入(LLE) 拉普拉斯特征映射 J.B. Tenenbaum, V. de (Laplacian Eigenmap)S. T. Roweis and L. Silva, and J. C. M. Belkin, P. Niyogi,K. Saul. Nonlinear Langford. A global Laplacian Eigenmapsdimensionality for Dimensionality geometric frameworkreduction by locally Reduction and Data for nonlinearlinear embedding. Representation. Neural dimensionalityScience, vol. 290, pp. Computation, Vol. 15, reduction. Science, vol. Issue 6, pp. 1373 –1396,2323--2326, 2000. 290, pp. 2319--2323, 2003 . 2000. SACC2011
  • LLE算法示意图 SACC2011
  • MDS 示意图 SACC2011
  • Dimensionality Reduction: ISOMAPBy: Tenenbaum, de Silva, Langford (2000)Construct a neighbourhood graphFor each pair of points in the graph, compute the shortest geodesic distances SACC2011
  • 安全云挖掘 安全云挖掘使用微分流形完 怎样并行化进行成了几个隐私保 微分流形变换,护数据挖掘算法 同时不影响挖掘 结果 SACC2011
  • 分析的完整架构 流失用 户预警数据分析大规模 逐步深入细化数据分 析 安全云 挖掘 SACC2011
  • SACC2011