云存储与虚拟化分论坛基于云计算的海量数据挖掘

基于云计算的海量数据挖掘

何清
清
中国科学院计算技术研究所
中科学院计算技术究所
http://js.caseducation.cn/JS/ heqing
http://js caseducation cn/JS/~heqing
Email: heq@ics.ict.ac.cn

2010-5-24 中国科学院计算技术研究所 1

内容提要
• 云计算的兴起
算起
• 数据挖掘发展历程
• 云数据挖掘实践
• 云数据挖掘未来走向

2010-5-24 2

云计算的定义
• Wikipedia: Cl d computing i I
Wiki di Cloud i is Internet‐based
b d
computing, whereby shared resources, software
and information are provided to computers and
other devices on‐demand, like the electricity grid.

It describes a new supplement, consumption and
delivery model for IT services based on the Internet,
and it typically involves the provision of dynamically
scalable and often virtualized resources as a service
scalable and often virtualized resources as a service
over the Internet

2010-5-24 3

云计算的定义
• 云计算是一种基于互联网的、大众参与的计算模式，
云计算是种基于互联网的大众参与的计算模式
其计算资源（计算能力、存储能力、交互能力）是
动态、可伸缩、且被虚拟化的，以服务的方式提供
• 云计算是并行计算(Parallel Computing)、分布式计算
(Distributed Computing)和网格计算(Grid C
(Di ib d C i )和网格计算(G id Computing)
i )
的发展，或者说是这些计算机科学概念的商业实现
• 云计算是虚拟化 (Virtualization) 、效用计算 (Utility
Computing)、IaaS(基础设施即服务)、PaaS(平台即服
务)、SaaS(软件即服务)等概念混合演进并跃升的结
务) S S(软件即服务)等概念混合演进并跃升的结
果

2010-5-24 4

云计算的兴起
云计算风起云涌

2010-5-24 5

云计算的大事件候选

2010-5-24 6

2008年底中科院计算所开
发出基于云计算的并行数据
挖掘平台PDMiner

2010-5-24 7

机遇
• 大大降低中小企业购昂贵设备的成本
大大降低了中小企业购买昂贵IT设备的成本，
且可以享受大企业级的技术
• 为服务器、PC、EU的销售带了机遇
• 提供种新的并行计算技术服务云服务
提供一种新的并行计算技术服务—云服务
– 无需购买硬件
– 无需开发软件
– 在网络上就可以得到并行计算服务并能在线实
时监控

中国科学院计算技术研究所 2010-5-24
8

云计算的应用
• 亚马逊网络服务(Amazon WebServices, AWS)
马逊网络服务
• Google应用软件引擎(Google AppEngine, GAE),
( g pp g )
Google地球、地图、Gmail、Docs等
• Salesforce的网络应用软件平台Force.com, 这一平
这平
台可作为其他企业自身软件服务的基础
IBM在2007年11月推出了改变游戏规则的
• IBM在2007年11月推出了“改变游戏规则”的“
蓝云”计算平台，为客户带来即买即用的云计算
平台
• 微软在2008年10月推出了Windows Azure操作系统

2010-5-24 9

内容提要
算起

2010-5-24 10

数据挖掘软件的发展
代特征数据挖掘算法集成分布计算模型数据模型

第一代作为一个独支持一个或者多个独立的系统单个机器向量数据
立的应用
的应用算法
第二代和数据库以多个算法：能够挖数据管理系统，同质、局部区有些系统支持
及数据仓库掘一次不能放进内包括数据库和域的计算机群对象，文本和
集成存的数据数据仓库集连续的媒体数
据
第三代和预测模型多个算法数据管理和预 Intranet/extra 支持半结构化
系统集成测模型系统 net网络计算数据和web数
据
第四代分布式数据多个算法分布在多算法、调度系网格计算普遍存在的数
挖掘个节点统据模型
第五代基于云计算同一个算法分布在计算资源按需云计算 BigTable
的并行数据多个节点；多个算分配 DFS
挖掘与服务法之间也可以并行

11

Map/reduce on multi‐core
Map/reduce on multi core
• Map‐Reduce for Machine Learning on Multicore(NIPS 2006)
– Locally Weighted Linear Regression (LWLR),
– Naive Bayes (NB)
(NB),
– Gaussian Discriminative Analysis (GDA),
– k-means, Logistic Regression (LR),
, g g ( ),
– Neural Network (NN),
– Principal Components Analysis (PCA),
– Independent Component Analysis (ICA),
– Expectation Maximization (EM),
– Support Vector Machine (SVM)

目前基于hadoop的数据挖掘工作
• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html)
// / /
– Classification: Logistic Regression, Bayesian, SVM, Neural Network,
Random Forests, ……
Random Forests
– Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM),
Hierarchical Clustering, ……
– Pattern Mining: Frequent Itemset mining, ……
– Dimension reduction: SVD, PCA, ICA, GDA

海量数据挖掘需求
• 海量数据挖掘
– 从数据中获取有效的、可理解的知识
– 大规模数据挖掘是数据挖掘追求的目标
– 互联网网页数量随时间成倍增长数千亿乃至
互联网网页数量随时间成倍增长，数千亿乃至
上万亿的网页索引
– 数据挖掘任务远比搜索任务复杂

2010-5-24 14

为什么基于云计算平台？
• 低成本分布式并行计算环境
– 适应规模不同的组织，为中小企业数据处理带来
了新型低成本计算环境
– 大企业“云计算”平台对于某些特定数据计算将
不再完全依赖大型高性能机
• 开发方便：屏蔽掉了底层
开发方便屏蔽掉了底层
– 数据的划分无需用户考虑
– 数据分配加载到节点无需考虑
– 计算任务调度无需考虑

2010-5-24 15

为什么基于云计算平台？
• 数据处规模大幅度提高
数据处理规模大幅度提高
– 由于并行化在利用原有设备的条件下就可以有大幅
度提高
• 扩展性好
– 可以很方便地增加节点
• 容错计算健壮性强
– 可自动处理失败节点，具有高容错能力
– 个别节点down掉，仍能完成计算任务

2010-5-24 16

问题与挑战
• 需求
– 个性化
– 多样化
• 数据
– 海量数据：数据量TB级乃至PB级
– 高维数据：采集数据项很多
– 噪声数据：网络来源、侦测不准、采集失当
– 动态数据：股票数据、业务数据

17

问题与挑战
• 算法
– 算法选择
– 并行策略
– 算法设计
– 参数调节
– 性能提高

18

问题与挑战
• 不确定性
– 数据挖掘任务描述的不确定性
– 数据采集和预处理的不确定性
– 数据挖掘方法和结果的不确定性
– 数据挖掘结果评价的不确定性

19

问题与挑战
• 可信
信
– 服务的正确性：正确性是指没有不当的系统状
态
– 服务的安全性：没有灾难性的环境后果
– 服务的质量：
可用性：准备好提供正确服务的概率
可用性准备好提供正确服务的概率
可靠性：在给定的一段时间内提供正确服务的概率
高性能：响应时间和吞吐量
高性能响应时间和吞吐量
– 隐私安全：不允许未授权的访问

20

问题与挑战
• 安全
– 数据安全
• 隐私数据保护
– 过程安全
模型与需求一致
算法可检验
过程对用户可控、可视
结果仅对用户可理解
– 公共安全
云计算安全的本质是信任管理
21

对策
• 基础建设数据挖掘服务平台
基础建设：数据挖掘云服务平台
– 专业人士成为服务的提供者
– 大众和各种组织成为服务的受益方
– 按领域、行业构建
• 虚拟化：计算资源自主分配调度
• 需求大众参与应对个性化多样化的需求
需求：大众参与应对个性化多样化的需求
• 可信：算法通用、可查、可调、可视
• 安全：隐私数据由客户自己在平台终端完成加
密保护
22

内容提要
算起

2010-5-24 23

已完成的工作 ― PDMiner
PDMiner

在云计算平台Hadoop基础上，2008
在计算平台基础上
年底我们为中国移动开发了基于云
计算的并行数据挖掘系统

2010-5-24 24

PDMiner
具有以下特点
• PDMiner具有以下特点：
– 提供一系列并行挖掘算法和ETL操作组件
– 开发的并行ETL操作达到了线性加速比
– 可实现TB级海量数据的预处理及之后的并行挖
可实现级海量数据的预处及之后的并行挖
掘分析处理
– 挖掘算法随节点数线性增加，加速比随之增加
挖掘算法随节点数线性增加加速随增加
– 可稳定运行在256个节点组成的Linux集群环境
下具有高可扩展性
下，具有高可扩展性

2010-5-24 25

PDMiner
– 多个工作流任务可在云计算环境下的任意节点
同时启动，互不干扰
– 可自动处理失败节点具有高容错能力
可自动处理失败节点，具有高容错能力
– 开放式架构，算法组件可通过简单配置方便地
封装加载到平台中
– Java开发，提供系统日志进行管理，具有较好
的可移植性

2010-5-24 26

PDMiner

实验
结果
(ETL)

2010-5-24 27

PDMiner

实验结果
(PKMeans)

2010-5-24 28

与商用软件比较
• 达到了商用软件的精度，数据处理规模远远
超出商用软件
– 在商用软件能承受的相同数据规模下、采用相同方
法和相同参数设置、并且商用软件有结果的条件下，
新开发的基于云计算平台的并行数据挖掘系统获得
了一致的挖掘结果
• 上述比较是在同样成本购买的小型机和云计
算平台所需硬件设备基础上作的比较，未考
虑占地、能耗、管理、维护费用
虑占地能耗管维护费用

2010-5-24 29

2010-5-24 30

PDMiner
的意义
• PDMiner的意义
– 开发出中国第一个基于云计算平台的并行数据
挖掘系统用于中国移动TB级实际数据的挖掘
挖掘系统用中国移动级实数据的挖掘
– 特别谈一下数据挖掘。我们开发了一些基于
的算法其中有些是经典的数据挖掘
Hadoop的算法，其中有一些是经典的数据挖掘
算法，目前我们已经成功将它们使用在实际生
产运行中，试图挖掘各种用户使用行为和用户
产运行中试图挖掘各种用户使用行为和用户
关系。与传统系统相比，这个系统使用了1/6的
成本却实现了6倍的性能
——黄晓庆于中国2009云计算大会
– htt //l b hi
http://labs.chinamobile.com/mblog/47_40345
bil / bl /47 40345
2010-5-24 31

云数据挖掘的实践

近期进展 ― 面向Web基于云计算数
据挖掘服务系统WPDMiner

2010-5-24 32

面向Web的WPDMiner
• 开发了面向W b的基于云计算的并行数据
开发了面向Web的基于云计算的并行数据
挖掘服务系统WPDMiner
硬件资源管
理子系统
分配和管理用
•分配和管理用
户申请和使用
的硬件资源

三个子系统前台Web
界面
• 与用户交互

后台并行挖掘
子系统
•提供并行数据挖
掘服务

2010-5-24 33

面向Web的WPDMiner (续)

• 硬件资源管理子系统和后台并行挖掘子系统紧密结合
• 对用户透明，抽象成提供数据挖掘服务的“云”
• 用户通过前台的Web交互界面定制数据挖掘任务

2010-5-24 34


2010-5-24 35

面向
的 (续)
数据管理


面向
的 (续)
数据管理
管


面向
的 (续)
任务管理


面向
的 (续)
配置工作流任务


面向
的 (续)
执行任务


面向
的 (续)
查看任务结果和日志


内容提要
算起

2010-5-24 42

未来走向
• 数据挖掘
数据挖掘云服务将兴起
务将兴起
– 专业人士成为服务的提供者
专人成为服务的提供者
– 大众和各种企业、组织机构成为服务的受益方
– 数据挖掘研究受计算环境影响降低
– 数据挖掘应用范围将大大拓宽

43

未来走向
• 物联网中的基
物联网中的基于云计算的数据挖掘
计算的数据挖掘
– 云计算是物联网中普适的计算模式
– 云计算是物联网的基石
– 数据挖掘在物联网中是不可缺少的
• 高可信的基于云计算的数据挖掘软件与服
务

2010-5-24 44

参考资料
• J Dean and S Ghemawat: Mapreduce: Simplified Data
J. Dean and S. Ghemawat: Mapreduce: Simplified Data
Processing on Large Clusters, OSDI’04
• C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐
, , , , , g p
Reduce for Machine Learning on Multicore, NIPS’06
• C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C.
Kozyrakis: Evaluating MapReduce for Multi‐core and
Multiprocessor System, HPCA’07
• E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing
support vector machines on distributed computers, NIPS’07
• H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐
d d
merge: simplified relational data processing on large clusters,
Sigmod07
2010-5-24 45

参考资料
• T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in
y , , y
Large Collections with MapReduce, ACL’08
• W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based
on MapReduce, CloudCom’09
• C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed
Nonnegative Matrix Factorization for Web‐Scale Dyadic Data
Analysis on MapReduce, WWW’10
• h //l b
http://labs.google.com/papers/mapreduce.html
l / / d h l
• http://lucene.apache.org/hadoop
• h //
http://en.wikipedia.org/wiki/Cloud_computing
k d / k/ l d

2010-5-24 46

参考资料
• http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html
p // g /g p / / p g/
• http://rgrossman.com/about‐cloud‐computing/
• http://www.ibm.com/developerworks/cn/java/j‐mahout/
p // / p / /j /j /
• http://www.infoq.com/news/2010/04/mahout‐03

2010-5-24 47

谢谢！欢迎大家提问！

http://www.intsci.ac.cn/pdm/pdminer.html
Email: heqing@ict.ac.cn
a : eq g@ ct.ac.c
Tel:13910062653
2010.5.22
0 0.5.

云存储与虚拟化分论坛 基于云计算的海量数据挖掘

More Related Content

What's hot

Viewers also liked

Similar to 云存储与虚拟化分论坛 基于云计算的海量数据挖掘

More from Riquelme624