云存储与虚拟化分论坛 基于云计算的海量数据挖掘

2,501 views

Published on

云存储与虚拟化分论坛 基于云计算的海量数据挖掘

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,501
On SlideShare
0
From Embeds
0
Number of Embeds
314
Actions
Shares
0
Downloads
24
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

云存储与虚拟化分论坛 基于云计算的海量数据挖掘

  1. 1. 基于云计算的海量数据挖掘 何清 清 中国科学院计算技术研究所 中 科学院计算技术 究所 http://js.caseducation.cn/JS/ heqing http://js caseducation cn/JS/~heqing Email: heq@ics.ict.ac.cn2010-5-24 中国科学院计算技术研究所 1
  2. 2. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向2010-5-24 2 中国科学院计算技术研究所
  3. 3. 云计算的定义 • Wikipedia: Cl d computing i I Wiki di Cloud i is Internet‐based b d computing, whereby shared resources, software and information are provided to computers and other devices on‐demand, like the electricity grid. It describes a new supplement, consumption and  delivery model for IT services based on the Internet,  and it typically involves the provision of dynamically  scalable and often virtualized resources as a service  scalable and often virtualized resources as a service over the Internet 2010-5-24 3 中国科学院计算技术研究所
  4. 4. 云计算的定义 • 云计算是一种基于互联网的、大众参与的计算模式, 云计算是 种基于互联网的 大众参与的计算模式 其计算资源(计算能力、存储能力、交互能力)是 动态、可伸缩、且被虚拟化的,以服务的方式提供 • 云计算是并行计算(Parallel Computing)、分布式计算 (Distributed Computing)和网格计算(Grid C (Di ib d C i )和网格计算(G id Computing) i ) 的发展,或者说是这些计算机科学概念的商业实现 • 云 计 算 是 虚 拟 化 (Virtualization) 、 效 用 计 算 (Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服 务)、SaaS(软件即服务)等概念混合演进并跃升的结 务) S S(软件即服务)等概念混合演进并跃升的结 果2010-5-24 4 中国科学院计算技术研究所
  5. 5. 云计算的兴起 云计算风起云涌2010-5-24 5 中国科学院计算技术研究所
  6. 6. 云计算的大事件候选2010-5-24 6 中国科学院计算技术研究所
  7. 7. 2008年底中科院计算所开 发出基于云计算的并行数据 挖掘平台PDMiner2010-5-24 7 中国科学院计算技术研究所
  8. 8. 机遇• 大大降低 中小企业购 昂贵 设备的成本 大大降低了中小企业购买昂贵IT设备的成本, 且可以享受大企业级的技术• 为服务器、PC、EU的销售带了机遇• 提供 种新的并行计算技术服务 云服务 提供一种新的并行计算技术服务—云服务 – 无需购买硬件 – 无需开发软件 – 在网络上就可以得到并行计算服务并能在线实 时监控 中国科学院计算技术研究所 2010-5-24 8
  9. 9. 云计算的应用 • 亚马逊网络服务(Amazon WebServices, AWS) 马逊网络服务 • Google应用软件引擎(Google AppEngine, GAE), ( g pp g ) Google地球、地图、Gmail、Docs等 • Salesforce的网络应用软件平台Force.com, 这一平 这 平 台可作为其他企业自身软件服务的基础 IBM在2007年11月推出了 改变游戏规则 的 • IBM在2007年11月推出了“改变游戏规则”的“ 蓝云”计算平台,为客户带来即买即用的云计算 平台 • 微软在2008年10月推出了Windows Azure操作系统2010-5-24 9 中国科学院计算技术研究所
  10. 10. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向2010-5-24 10 中国科学院计算技术研究所
  11. 11. 数据挖掘软件的发展 代 特征 数据挖掘算法 集成 分布计算模型 数据模型第一代 作为一个独 支持一个或者多个 独立的系统 单个机器 向量数据 立的应用 的应用 算法第二代 和数据库以 多个算法:能够挖 数据管理系统, 同质、局部区 有些系统支持 及数据仓库 掘一次不能放进内 包括数据库和 域的计算机群 对象,文本和 集成 存的数据 数据仓库 集 连续的媒体数 据第三代 和预测模型 多个算法 数据管理和预 Intranet/extra 支持半结构化 系统集成 测模型系统 net网络计算 数据和web数 据第四代 分布式数据 多个算法分布在多 算法、调度系 网格计算 普遍存在的数 挖掘 个节点 统 据模型第五代 基于云计算 同一个算法分布在 计算资源按需 云计算 BigTable 的并行数据 多个节点;多个算 分配 DFS 挖掘与服务 法之间也可以并行 11
  12. 12. Map/reduce on multi‐core Map/reduce on multi core• Map‐Reduce for Machine Learning on Multicore(NIPS 2006) – Locally Weighted Linear Regression (LWLR), – Naive Bayes (NB) (NB), – Gaussian Discriminative Analysis (GDA), – k-means, Logistic Regression (LR), , g g ( ), – Neural Network (NN), – Principal Components Analysis (PCA), – Independent Component Analysis (ICA), – Expectation Maximization (EM), – Support Vector Machine (SVM)
  13. 13. 目前基于hadoop的数据挖掘工作• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html) // / / – Classification: Logistic Regression, Bayesian, SVM, Neural Network,  Random Forests, …… Random Forests – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM),  Hierarchical Clustering, …… – Pattern Mining: Frequent Itemset mining, …… – Dimension reduction: SVD, PCA, ICA, GDA
  14. 14. 海量数据挖掘需求 • 海量数据挖掘 – 从数据中获取有效的、可理解的知识 – 大规模数据挖掘是数据挖掘追求的目标 – 互联网网页数量随时间成倍增长 数千亿乃至 互联网网页数量随时间成倍增长,数千亿乃至 上万亿的网页索引 – 数据挖掘任务远比搜索任务复杂2010-5-24 14 中国科学院计算技术研究所
  15. 15. 为什么基于云计算平台? • 低成本分布式并行计算环境 – 适应规模不同的组织,为中小企业数据处理带来 了新型低成本计算环境 – 大企业“云计算”平台对于某些特定数据计算将 不再完全依赖大型高性能机 • 开发方便:屏蔽掉了底层 开发方便 屏蔽掉了底层 – 数据的划分无需用户考虑 – 数据分配加载到节点无需考虑 – 计算任务调度无需考虑2010-5-24 15 中国科学院计算技术研究所
  16. 16. 为什么基于云计算平台? • 数据处 规模大幅度提高 数据处理规模大幅度提高 – 由于并行化在利用原有设备的条件下就可以有大幅 度提高 • 扩展性好 – 可以很方便地增加节点 • 容错计算健壮性强 – 可自动处理失败节点,具有高容错能力 – 个别节点down掉,仍能完成计算任务2010-5-24 16 中国科学院计算技术研究所
  17. 17. 问题与挑战• 需求 – 个性化 – 多样化• 数据 – 海量数据:数据量TB级乃至PB级 – 高维数据:采集数据项很多 – 噪声数据:网络来源、侦测不准、采集失当 – 动态数据:股票数据、业务数据 中国科学院计算技术研究所 2010-5-24 17
  18. 18. 问题与挑战• 算法 – 算法选择 – 并行策略 – 算法设计 – 参数调节 – 性能提高 中国科学院计算技术研究所 2010-5-24 18
  19. 19. 问题与挑战• 不确定性 – 数据挖掘任务描述的不确定性 – 数据采集和预处理的不确定性 – 数据挖掘方法和结果的不确定性 – 数据挖掘结果评价的不确定性 中国科学院计算技术研究所 2010-5-24 19
  20. 20. 问题与挑战• 可信 信 – 服务的正确性:正确性是指没有不当的系统状 态 – 服务的安全性:没有灾难性的环境后果 – 服务的质量: 可用性:准备好提供正确服务的概率 可用性 准备好提供正确服务的概率 可靠性:在给定的一段时间内提供正确服务的概率 高性能:响应时间和吞吐量 高性能 响应时间和吞吐量 – 隐私安全:不允许未授权的访问 中国科学院计算技术研究所 2010-5-24 20
  21. 21. 问题与挑战• 安全 – 数据安全 • 隐私数据保护 – 过程安全 模型与需求一致 算法可检验 过程对用户可控、可视 结果仅对用户可理解 – 公共安全 云计算安全的本质是信任管理 中国科学院计算技术研究所 2010-5-24 21
  22. 22. 对策• 基础建设 数据挖掘 服务平台 基础建设:数据挖掘云服务平台 – 专业人士成为服务的提供者 – 大众和各种组织成为服务的受益方 – 按领域、行业构建• 虚拟化:计算资源自主分配调度• 需求 大众参与应对个性化多样化的需求 需求:大众参与应对个性化多样化的需求• 可信:算法通用、可查、可调、可视• 安全:隐私数据由客户自己在平台终端完成加 密保护 中国科学院计算技术研究所 2010-5-24 22
  23. 23. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向2010-5-24 23 中国科学院计算技术研究所
  24. 24. 已完成的工作 ― PDMiner PDMiner 在云计算平台Hadoop基础上,2008 在 计算平台 基础上 年底我们为中国移动开发了基于云 计算的并行数据挖掘系统2010-5-24 24 中国科学院计算技术研究所
  25. 25. 已完成的工作 ― PDMiner PDMiner 具有以下特点 • PDMiner具有以下特点: – 提供一系列并行挖掘算法和ETL操作组件 – 开发的并行ETL操作达到了线性加速比 – 可实现TB级海量数据的预处理及之后的并行挖 可实现 级海量数据的预处 及之后的并行挖 掘分析处理 – 挖掘算法随节点数线性增加,加速比随之增加 挖掘算法随节点数线性增加 加速 随 增加 – 可稳定运行在256个节点组成的Linux集群环境 下 具有高可扩展性 下,具有高可扩展性2010-5-24 25 中国科学院计算技术研究所
  26. 26. 已完成的工作 ― PDMiner PDMiner – 多个工作流任务可在云计算环境下的任意节点 同时启动,互不干扰 – 可自动处理失败节点 具有高容错能力 可自动处理失败节点,具有高容错能力 – 开放式架构,算法组件可通过简单配置方便地 封装加载到平台中 – Java开发,提供系统日志进行管理,具有较好 的可移植性2010-5-24 26 中国科学院计算技术研究所
  27. 27. 已完成的工作 ― PDMiner PDMiner 实验 结果 (ETL)2010-5-24 27 中国科学院计算技术研究所
  28. 28. 已完成的工作 ― PDMiner PDMiner 实验结果 (PKMeans)2010-5-24 28 中国科学院计算技术研究所
  29. 29. 与商用软件比较 • 达到了商用软件的精度,数据处理规模远远 超出商用软件 – 在商用软件能承受的相同数据规模下、采用相同方 法和相同参数设置、并且商用软件有结果的条件下, 新开发的基于云计算平台的并行数据挖掘系统获得 了一致的挖掘结果 • 上述比较是在同样成本购买的小型机和云计 算平台所需硬件设备基础上作的比较,未考 虑占地、能耗、管理、维护费用 虑占地 能耗 管 维护费用2010-5-24 29 中国科学院计算技术研究所
  30. 30. 2010-5-24 30 中国科学院计算技术研究所
  31. 31. 已完成的工作 ― PDMiner PDMiner 的意义 • PDMiner的意义 – 开发出中国第一个基于云计算平台的并行数据 挖掘系统用于中国移动TB级实际数据的挖掘 挖掘系统用 中国移动 级实 数据的挖掘 – 特别谈一下数据挖掘。我们开发了一些基于 的算法 其中有 些是经典的数据挖掘 Hadoop的算法,其中有一些是经典的数据挖掘 算法,目前我们已经成功将它们使用在实际生 产运行中,试图挖掘各种用户使用行为和用户 产运行中 试图挖掘各种用户使用行为和用户 关系。与传统系统相比,这个系统使用了1/6的 成本却实现了6倍的性能 ——黄晓庆于中国2009云计算大会 – htt //l b hi http://labs.chinamobile.com/mblog/47_40345 bil / bl /47 403452010-5-24 31 中国科学院计算技术研究所
  32. 32. 云数据挖掘的实践 近期进展 ― 面向Web基于云计算数 据挖掘服务系统WPDMiner2010-5-24 32 中国科学院计算技术研究所
  33. 33. 面向Web的WPDMiner • 开发了面向W b的基于云计算的并行数据 开发了面向Web的基于云计算的并行数据 挖掘服务系统WPDMiner 硬件资源管 理子系统 分配和管理用 •分配和管理用 户申请和使用 的硬件资源 三个子系统 前台Web 界面 • 与用户交互 后台并行挖掘 子系统 •提供并行数据挖 掘服务2010-5-24 33 中国科学院计算技术研究所
  34. 34. 面向Web的WPDMiner (续) • 硬件资源管理子系统和后台并行挖掘子系统紧密结合 • 对用户透明,抽象成提供数据挖掘服务的“云” • 用户通过前台的Web交互界面定制数据挖掘任务2010-5-24 34 中国科学院计算技术研究所
  35. 35. 面向Web的WPDMiner (续) 面向Web的WPDMiner (续)2010-5-24 35 中国科学院计算技术研究所
  36. 36. 面向 面向Web的WPDMiner (续) 的 (续)数据管理2010-5-24 中国科学院计算技术研究所 36
  37. 37. 面向 面向Web的WPDMiner (续) 的 (续)数据管理 管2010-5-24 中国科学院计算技术研究所 37
  38. 38. 面向 面向Web的WPDMiner (续) 的 (续)任务管理2010-5-24 中国科学院计算技术研究所 38
  39. 39. 面向 面向Web的WPDMiner (续) 的 (续)配置工作流任务2010-5-24 中国科学院计算技术研究所 39
  40. 40. 面向 面向Web的WPDMiner (续) 的 (续)执行任务2010-5-24 中国科学院计算技术研究所 40
  41. 41. 面向 面向Web的WPDMiner (续) 的 (续)查看任务结果和日志2010-5-24 中国科学院计算技术研究所 41
  42. 42. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向2010-5-24 42 中国科学院计算技术研究所
  43. 43. 未来走向• 数据挖掘 数据挖掘云服务将兴起 务将兴起 – 专业人士成为服务的提供者 专 人 成为服务的提供者 – 大众和各种企业、组织机构成为服务的受益方 – 数据挖掘研究受计算环境影响降低 – 数据挖掘应用范围将大大拓宽 中国科学院计算技术研究所 2010-5-24 43
  44. 44. 未来走向 • 物联网中的基 物联网中的基于云计算的数据挖掘 计算的数据挖掘 – 云计算是物联网中普适的计算模式 – 云计算是物联网的基石 – 数据挖掘在物联网中是不可缺少的 • 高可信的基于云计算的数据挖掘软件与服 务2010-5-24 44 中国科学院计算技术研究所
  45. 45. 参考资料 • J Dean and S Ghemawat: Mapreduce: Simplified Data J. Dean and S. Ghemawat: Mapreduce: Simplified Data  Processing on Large Clusters, OSDI’04 • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐ , , , , , g p Reduce for Machine Learning on Multicore, NIPS’06 • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C.  Kozyrakis: Evaluating MapReduce for Multi‐core and  Multiprocessor System, HPCA’07 • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing  support vector machines on distributed computers, NIPS’07 • H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐ d d merge: simplified relational data processing on large clusters,  Sigmod072010-5-24 45 中国科学院计算技术研究所
  46. 46. 参考资料 • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in  y , , y Large Collections with MapReduce, ACL’08 • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based  on MapReduce, CloudCom’09 • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed  Nonnegative Matrix Factorization for Web‐Scale Dyadic Data  Analysis on MapReduce, WWW’10 • h //l b http://labs.google.com/papers/mapreduce.html l / / d h l • http://lucene.apache.org/hadoop • h // http://en.wikipedia.org/wiki/Cloud_computing k d / k/ l d2010-5-24 46 中国科学院计算技术研究所
  47. 47. 参考资料 • http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html p // g /g p / / p g/ • http://rgrossman.com/about‐cloud‐computing/ • http://www.ibm.com/developerworks/cn/java/j‐mahout/ p // / p / /j /j / • http://www.infoq.com/news/2010/04/mahout‐032010-5-24 47 中国科学院计算技术研究所
  48. 48. 谢谢!欢迎大家提问! http://www.intsci.ac.cn/pdm/pdminer.html Email: heqing@ict.ac.cn a : eq g@ ct.ac.c Tel:13910062653 2010.5.22 0 0.5.2010-5-24 中国科学院计算技术研究所 48

×