基于云计算的海量数据挖掘


                           何清
                            清
            中国科学院计算技术研究所
            中 科学院计算技术 究所
            http://js.caseducation.cn/JS/ heqing
            http://js caseducation cn/JS/~heqing
                  Email: heq@ics.ict.ac.cn

2010-5-24                                    中国科学院计算技术研究所   1
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          2
                        中国科学院计算技术研究所
云计算的定义
     •      Wikipedia: Cl d computing i I
            Wiki di     Cloud          i    is Internet‐based
                                                          b d
            computing, whereby shared resources, software
            and information are provided to computers and
            other devices on‐demand, like the electricity grid.

            It describes a new supplement, consumption and 
            delivery model for IT services based on the Internet, 
            and it typically involves the provision of dynamically 
            scalable and often virtualized resources as a service 
            scalable and often virtualized resources as a service
            over the Internet 


2010-5-24                                                         3
                                                       中国科学院计算技术研究所
云计算的定义
     •      云计算是一种基于互联网的、大众参与的计算模式,
            云计算是 种基于互联网的 大众参与的计算模式
            其计算资源(计算能力、存储能力、交互能力)是
            动态、可伸缩、且被虚拟化的,以服务的方式提供
     •      云计算是并行计算(Parallel Computing)、分布式计算
            (Distributed Computing)和网格计算(Grid C
            (Di ib d C         i )和网格计算(G id Computing)
                                                   i )
            的发展,或者说是这些计算机科学概念的商业实现
     •      云 计 算 是 虚 拟 化 (Virtualization) 、 效 用 计 算 (Utility
            Computing)、IaaS(基础设施即服务)、PaaS(平台即服
            务)、SaaS(软件即服务)等概念混合演进并跃升的结
            务) S S(软件即服务)等概念混合演进并跃升的结
            果

2010-5-24                                                   4
                                                 中国科学院计算技术研究所
云计算的兴起
   云计算风起云涌




2010-5-24                       5
                     中国科学院计算技术研究所
云计算的大事件候选




2010-5-24                      6
                    中国科学院计算技术研究所
2008年底中科院计算所开
            发出基于云计算的并行数据
            挖掘平台PDMiner




2010-5-24                    7
                  中国科学院计算技术研究所
机遇
• 大大降低 中小企业购 昂贵 设备的成本
  大大降低了中小企业购买昂贵IT设备的成本,
  且可以享受大企业级的技术
• 为服务器、PC、EU的销售带了机遇
• 提供 种新的并行计算技术服务 云服务
  提供一种新的并行计算技术服务—云服务
 – 无需购买硬件
 – 无需开发软件
 – 在网络上就可以得到并行计算服务并能在线实
   时监控

          中国科学院计算技术研究所   2010-5-24
                                 8
云计算的应用
     • 亚马逊网络服务(Amazon WebServices, AWS)
         马逊网络服务
     • Google应用软件引擎(Google AppEngine, GAE),
                      ( g   pp g         )
       Google地球、地图、Gmail、Docs等
     • Salesforce的网络应用软件平台Force.com, 这一平
                                       这 平
       台可作为其他企业自身软件服务的基础
       IBM在2007年11月推出了 改变游戏规则 的
     • IBM在2007年11月推出了“改变游戏规则”的“
       蓝云”计算平台,为客户带来即买即用的云计算
       平台
     • 微软在2008年10月推出了Windows Azure操作系统

2010-5-24                                    9
                                  中国科学院计算技术研究所
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          10
                        中国科学院计算技术研究所
数据挖掘软件的发展
 代     特征      数据挖掘算法      集成     分布计算模型             数据模型

第一代   作为一个独   支持一个或者多个   独立的系统    单个机器             向量数据
      立的应用
       的应用    算法
第二代   和数据库以   多个算法:能够挖   数据管理系统, 同质、局部区            有些系统支持
      及数据仓库   掘一次不能放进内   包括数据库和 域的计算机群             对象,文本和
      集成      存的数据       数据仓库    集                 连续的媒体数
                                                   据
第三代   和预测模型   多个算法       数据管理和预   Intranet/extra   支持半结构化
      系统集成               测模型系统    net网络计算          数据和web数
                                                   据
第四代   分布式数据   多个算法分布在多   算法、调度系   网格计算             普遍存在的数
      挖掘      个节点        统                         据模型
第五代   基于云计算   同一个算法分布在   计算资源按需   云计算              BigTable
      的并行数据   多个节点;多个算   分配                        DFS
      挖掘与服务   法之间也可以并行


                                                              11
Map/reduce on multi‐core
        Map/reduce on multi core
• Map‐Reduce for Machine Learning on Multicore(NIPS 2006)
   –   Locally Weighted Linear Regression (LWLR),
   –   Naive Bayes (NB)
                   (NB),
   –   Gaussian Discriminative Analysis (GDA),
   –   k-means, Logistic Regression (LR),
               , g         g        ( ),
   –   Neural Network (NN),
   –   Principal Components Analysis (PCA),
   –   Independent Component Analysis (ICA),
   –   Expectation Maximization (EM),
   –   Support Vector Machine (SVM)
目前基于hadoop的数据挖掘工作
• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html)
                //                /      /
   – Classification: Logistic Regression, Bayesian, SVM, Neural Network, 
     Random Forests, ……
     Random Forests
   – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM), 
     Hierarchical Clustering, ……
   – Pattern Mining: Frequent Itemset mining, ……
   – Dimension reduction: SVD, PCA, ICA, GDA
海量数据挖掘需求
      •     海量数据挖掘
            – 从数据中获取有效的、可理解的知识
            – 大规模数据挖掘是数据挖掘追求的目标
            – 互联网网页数量随时间成倍增长 数千亿乃至
              互联网网页数量随时间成倍增长,数千亿乃至
              上万亿的网页索引
            – 数据挖掘任务远比搜索任务复杂




2010-5-24                               14
                             中国科学院计算技术研究所
为什么基于云计算平台?
      • 低成本分布式并行计算环境
            – 适应规模不同的组织,为中小企业数据处理带来
              了新型低成本计算环境
            – 大企业“云计算”平台对于某些特定数据计算将
              不再完全依赖大型高性能机
      • 开发方便:屏蔽掉了底层
        开发方便 屏蔽掉了底层
            – 数据的划分无需用户考虑
            – 数据分配加载到节点无需考虑
            – 计算任务调度无需考虑

2010-5-24                                15
                              中国科学院计算技术研究所
为什么基于云计算平台?
     • 数据处 规模大幅度提高
       数据处理规模大幅度提高
            – 由于并行化在利用原有设备的条件下就可以有大幅
              度提高
     • 扩展性好
            – 可以很方便地增加节点
     • 容错计算健壮性强
            – 可自动处理失败节点,具有高容错能力
            – 个别节点down掉,仍能完成计算任务


2010-5-24                                 16
                               中国科学院计算技术研究所
问题与挑战
• 需求
 – 个性化
 – 多样化
• 数据
 – 海量数据:数据量TB级乃至PB级
 – 高维数据:采集数据项很多
 – 噪声数据:网络来源、侦测不准、采集失当
 – 动态数据:股票数据、业务数据

          中国科学院计算技术研究所   2010-5-24
                                17
问题与挑战
• 算法
 – 算法选择
 – 并行策略
 – 算法设计
 – 参数调节
 – 性能提高




           中国科学院计算技术研究所   2010-5-24
                                 18
问题与挑战
• 不确定性
 – 数据挖掘任务描述的不确定性
 – 数据采集和预处理的不确定性
 – 数据挖掘方法和结果的不确定性
 – 数据挖掘结果评价的不确定性




          中国科学院计算技术研究所   2010-5-24
                                19
问题与挑战
• 可信
   信
 – 服务的正确性:正确性是指没有不当的系统状
   态
 – 服务的安全性:没有灾难性的环境后果
 – 服务的质量:
       可用性:准备好提供正确服务的概率
       可用性 准备好提供正确服务的概率
       可靠性:在给定的一段时间内提供正确服务的概率
       高性能:响应时间和吞吐量
       高性能 响应时间和吞吐量
 – 隐私安全:不允许未授权的访问

              中国科学院计算技术研究所   2010-5-24
                                    20
问题与挑战
• 安全
 – 数据安全
   • 隐私数据保护
 – 过程安全
       模型与需求一致
       算法可检验
       过程对用户可控、可视
       结果仅对用户可理解
 – 公共安全
       云计算安全的本质是信任管理
              中国科学院计算技术研究所   2010-5-24
                                    21
对策
• 基础建设 数据挖掘 服务平台
  基础建设:数据挖掘云服务平台
 – 专业人士成为服务的提供者
 – 大众和各种组织成为服务的受益方
 – 按领域、行业构建
• 虚拟化:计算资源自主分配调度
• 需求 大众参与应对个性化多样化的需求
  需求:大众参与应对个性化多样化的需求
• 可信:算法通用、可查、可调、可视
• 安全:隐私数据由客户自己在平台终端完成加
  密保护
          中国科学院计算技术研究所   2010-5-24
                                22
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          23
                        中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


            在云计算平台Hadoop基础上,2008
            在 计算平台      基础上
            年底我们为中国移动开发了基于云
            计算的并行数据挖掘系统




2010-5-24                             24
                           中国科学院计算技术研究所
已完成的工作 ― PDMiner
                      PDMiner
              具有以下特点
     • PDMiner具有以下特点:
            – 提供一系列并行挖掘算法和ETL操作组件
            – 开发的并行ETL操作达到了线性加速比
            – 可实现TB级海量数据的预处理及之后的并行挖
              可实现 级海量数据的预处 及之后的并行挖
              掘分析处理
            – 挖掘算法随节点数线性增加,加速比随之增加
              挖掘算法随节点数线性增加 加速 随 增加
            – 可稳定运行在256个节点组成的Linux集群环境
              下 具有高可扩展性
              下,具有高可扩展性



2010-5-24                                  25
                                中国科学院计算技术研究所
已完成的工作 ― PDMiner
                      PDMiner
            – 多个工作流任务可在云计算环境下的任意节点
              同时启动,互不干扰
            – 可自动处理失败节点 具有高容错能力
              可自动处理失败节点,具有高容错能力
            – 开放式架构,算法组件可通过简单配置方便地
              封装加载到平台中
            – Java开发,提供系统日志进行管理,具有较好
              的可移植性




2010-5-24                                26
                              中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


        实验
        结果
        (ETL)




2010-5-24                           27
                         中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


  实验结果
  (PKMeans)




2010-5-24                           28
                         中国科学院计算技术研究所
与商用软件比较
     •      达到了商用软件的精度,数据处理规模远远
            超出商用软件
            – 在商用软件能承受的相同数据规模下、采用相同方
              法和相同参数设置、并且商用软件有结果的条件下,
              新开发的基于云计算平台的并行数据挖掘系统获得
              了一致的挖掘结果
     •      上述比较是在同样成本购买的小型机和云计
            算平台所需硬件设备基础上作的比较,未考
            虑占地、能耗、管理、维护费用
            虑占地 能耗 管  维护费用


2010-5-24                                29
                              中国科学院计算技术研究所
2010-5-24              30
            中国科学院计算技术研究所
已完成的工作 ― PDMiner
                       PDMiner
              的意义
     • PDMiner的意义
            – 开发出中国第一个基于云计算平台的并行数据
              挖掘系统用于中国移动TB级实际数据的挖掘
              挖掘系统用 中国移动 级实 数据的挖掘
            – 特别谈一下数据挖掘。我们开发了一些基于
                       的算法 其中有 些是经典的数据挖掘
              Hadoop的算法,其中有一些是经典的数据挖掘
              算法,目前我们已经成功将它们使用在实际生
              产运行中,试图挖掘各种用户使用行为和用户
              产运行中 试图挖掘各种用户使用行为和用户
              关系。与传统系统相比,这个系统使用了1/6的
              成本却实现了6倍的性能
                            ——黄晓庆于中国2009云计算大会
            – htt //l b hi
              http://labs.chinamobile.com/mblog/47_40345
                                 bil     / bl /47 40345
2010-5-24                                               31
                                             中国科学院计算技术研究所
云数据挖掘的实践


            近期进展 ― 面向Web基于云计算数
            据挖掘服务系统WPDMiner




2010-5-24                            32
                          中国科学院计算技术研究所
面向Web的WPDMiner
            • 开发了面向W b的基于云计算的并行数据
              开发了面向Web的基于云计算的并行数据
            挖掘服务系统WPDMiner
                    硬件资源管
                    理子系统
                     分配和管理用
                    •分配和管理用
                     户申请和使用
                     的硬件资源


            三个子系统              前台Web
                               界面
                               • 与用户交互

                    后台并行挖掘
                    子系统
                    •提供并行数据挖
                     掘服务




2010-5-24                                           33
                                         中国科学院计算技术研究所
面向Web的WPDMiner (续)




            • 硬件资源管理子系统和后台并行挖掘子系统紧密结合
            • 对用户透明,抽象成提供数据挖掘服务的“云”
            • 用户通过前台的Web交互界面定制数据挖掘任务

2010-5-24                                  34
                                中国科学院计算技术研究所
面向Web的WPDMiner (续)
            面向Web的WPDMiner (续)




2010-5-24                             35
                           中国科学院计算技术研究所
面向
            面向Web的WPDMiner (续)
                 的         (续)
数据管理




2010-5-24      中国科学院计算技术研究所   36
面向
            面向Web的WPDMiner (续)
                 的         (续)
数据管理
  管




2010-5-24      中国科学院计算技术研究所   37
面向
            面向Web的WPDMiner (续)
                 的         (续)
任务管理




2010-5-24      中国科学院计算技术研究所   38
面向
            面向Web的WPDMiner (续)
                 的         (续)
配置工作流任务




2010-5-24      中国科学院计算技术研究所   39
面向
            面向Web的WPDMiner (续)
                 的         (续)
执行任务




2010-5-24      中国科学院计算技术研究所   40
面向
            面向Web的WPDMiner (续)
                 的         (续)
查看任务结果和日志




2010-5-24      中国科学院计算技术研究所   41
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          42
                        中国科学院计算技术研究所
未来走向
• 数据挖掘
  数据挖掘云服务将兴起
        务将兴起
 – 专业人士成为服务的提供者
   专 人 成为服务的提供者
 – 大众和各种企业、组织机构成为服务的受益方
 – 数据挖掘研究受计算环境影响降低
 – 数据挖掘应用范围将大大拓宽




           中国科学院计算技术研究所   2010-5-24
                                 43
未来走向
     • 物联网中的基
       物联网中的基于云计算的数据挖掘
               计算的数据挖掘
            – 云计算是物联网中普适的计算模式
            – 云计算是物联网的基石
            – 数据挖掘在物联网中是不可缺少的
     • 高可信的基于云计算的数据挖掘软件与服
       务



2010-5-24                                  44
                                中国科学院计算技术研究所
参考资料
     • J Dean and S Ghemawat: Mapreduce: Simplified Data
       J. Dean and S. Ghemawat: Mapreduce: Simplified Data 
       Processing on Large Clusters, OSDI’04
     • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐
                ,           ,        ,         ,           ,        g    p
       Reduce for Machine Learning on Multicore, NIPS’06
     • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C. 
       Kozyrakis: Evaluating MapReduce for Multi‐core and 
       Multiprocessor System, HPCA’07
     • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing 
       support vector machines on distributed computers, NIPS’07
     • H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐
                           d                                   d
       merge: simplified relational data processing on large clusters, 
       Sigmod07
2010-5-24                                                             45
                                                           中国科学院计算技术研究所
参考资料
     • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in 
              y ,        ,                                          y
       Large Collections with MapReduce, ACL’08
     • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based 
       on MapReduce, CloudCom’09
     • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed 
       Nonnegative Matrix Factorization for Web‐Scale Dyadic Data 
       Analysis on MapReduce, WWW’10
     • h //l b
       http://labs.google.com/papers/mapreduce.html
                           l      /       /        d   h l
     • http://lucene.apache.org/hadoop
     • h //
       http://en.wikipedia.org/wiki/Cloud_computing
                     k d          / k/ l d



2010-5-24                                                           46
                                                         中国科学院计算技术研究所
参考资料
     •      http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html
               p //          g /g p /      /         p    g/
     •      http://rgrossman.com/about‐cloud‐computing/
     •      http://www.ibm.com/developerworks/cn/java/j‐mahout/
               p //               /      p       / /j /j          /
     •      http://www.infoq.com/news/2010/04/mahout‐03




2010-5-24                                                           47
                                                         中国科学院计算技术研究所
谢谢!欢迎大家提问!

            http://www.intsci.ac.cn/pdm/pdminer.html
                    Email: heqing@ict.ac.cn
                      a : eq g@ ct.ac.c
                        Tel:13910062653
                         2010.5.22
                          0 0.5.
2010-5-24                                   中国科学院计算技术研究所   48

云存储与虚拟化分论坛 基于云计算的海量数据挖掘

  • 1.
    基于云计算的海量数据挖掘 何清 清 中国科学院计算技术研究所 中 科学院计算技术 究所 http://js.caseducation.cn/JS/ heqing http://js caseducation cn/JS/~heqing Email: heq@ics.ict.ac.cn 2010-5-24 中国科学院计算技术研究所 1
  • 2.
    内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 2 中国科学院计算技术研究所
  • 3.
    云计算的定义 • Wikipedia: Cl d computing i I Wiki di Cloud i is Internet‐based b d computing, whereby shared resources, software and information are provided to computers and other devices on‐demand, like the electricity grid. It describes a new supplement, consumption and  delivery model for IT services based on the Internet,  and it typically involves the provision of dynamically  scalable and often virtualized resources as a service  scalable and often virtualized resources as a service over the Internet  2010-5-24 3 中国科学院计算技术研究所
  • 4.
    云计算的定义 • 云计算是一种基于互联网的、大众参与的计算模式, 云计算是 种基于互联网的 大众参与的计算模式 其计算资源(计算能力、存储能力、交互能力)是 动态、可伸缩、且被虚拟化的,以服务的方式提供 • 云计算是并行计算(Parallel Computing)、分布式计算 (Distributed Computing)和网格计算(Grid C (Di ib d C i )和网格计算(G id Computing) i ) 的发展,或者说是这些计算机科学概念的商业实现 • 云 计 算 是 虚 拟 化 (Virtualization) 、 效 用 计 算 (Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服 务)、SaaS(软件即服务)等概念混合演进并跃升的结 务) S S(软件即服务)等概念混合演进并跃升的结 果 2010-5-24 4 中国科学院计算技术研究所
  • 5.
    云计算的兴起 云计算风起云涌 2010-5-24 5 中国科学院计算技术研究所
  • 6.
    云计算的大事件候选 2010-5-24 6 中国科学院计算技术研究所
  • 7.
    2008年底中科院计算所开 发出基于云计算的并行数据 挖掘平台PDMiner 2010-5-24 7 中国科学院计算技术研究所
  • 8.
    机遇 • 大大降低 中小企业购昂贵 设备的成本 大大降低了中小企业购买昂贵IT设备的成本, 且可以享受大企业级的技术 • 为服务器、PC、EU的销售带了机遇 • 提供 种新的并行计算技术服务 云服务 提供一种新的并行计算技术服务—云服务 – 无需购买硬件 – 无需开发软件 – 在网络上就可以得到并行计算服务并能在线实 时监控 中国科学院计算技术研究所 2010-5-24 8
  • 9.
    云计算的应用 • 亚马逊网络服务(Amazon WebServices, AWS) 马逊网络服务 • Google应用软件引擎(Google AppEngine, GAE), ( g pp g ) Google地球、地图、Gmail、Docs等 • Salesforce的网络应用软件平台Force.com, 这一平 这 平 台可作为其他企业自身软件服务的基础 IBM在2007年11月推出了 改变游戏规则 的 • IBM在2007年11月推出了“改变游戏规则”的“ 蓝云”计算平台,为客户带来即买即用的云计算 平台 • 微软在2008年10月推出了Windows Azure操作系统 2010-5-24 9 中国科学院计算技术研究所
  • 10.
    内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 10 中国科学院计算技术研究所
  • 11.
    数据挖掘软件的发展 代 特征 数据挖掘算法 集成 分布计算模型 数据模型 第一代 作为一个独 支持一个或者多个 独立的系统 单个机器 向量数据 立的应用 的应用 算法 第二代 和数据库以 多个算法:能够挖 数据管理系统, 同质、局部区 有些系统支持 及数据仓库 掘一次不能放进内 包括数据库和 域的计算机群 对象,文本和 集成 存的数据 数据仓库 集 连续的媒体数 据 第三代 和预测模型 多个算法 数据管理和预 Intranet/extra 支持半结构化 系统集成 测模型系统 net网络计算 数据和web数 据 第四代 分布式数据 多个算法分布在多 算法、调度系 网格计算 普遍存在的数 挖掘 个节点 统 据模型 第五代 基于云计算 同一个算法分布在 计算资源按需 云计算 BigTable 的并行数据 多个节点;多个算 分配 DFS 挖掘与服务 法之间也可以并行 11
  • 12.
    Map/reduce on multi‐core Map/reduce on multi core • Map‐Reduce for Machine Learning on Multicore(NIPS 2006) – Locally Weighted Linear Regression (LWLR), – Naive Bayes (NB) (NB), – Gaussian Discriminative Analysis (GDA), – k-means, Logistic Regression (LR), , g g ( ), – Neural Network (NN), – Principal Components Analysis (PCA), – Independent Component Analysis (ICA), – Expectation Maximization (EM), – Support Vector Machine (SVM)
  • 13.
    目前基于hadoop的数据挖掘工作 • Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html) // / / – Classification: Logistic Regression, Bayesian, SVM, Neural Network,  Random Forests, …… Random Forests – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM),  Hierarchical Clustering, …… – Pattern Mining: Frequent Itemset mining, …… – Dimension reduction: SVD, PCA, ICA, GDA
  • 14.
    海量数据挖掘需求 • 海量数据挖掘 – 从数据中获取有效的、可理解的知识 – 大规模数据挖掘是数据挖掘追求的目标 – 互联网网页数量随时间成倍增长 数千亿乃至 互联网网页数量随时间成倍增长,数千亿乃至 上万亿的网页索引 – 数据挖掘任务远比搜索任务复杂 2010-5-24 14 中国科学院计算技术研究所
  • 15.
    为什么基于云计算平台? • 低成本分布式并行计算环境 – 适应规模不同的组织,为中小企业数据处理带来 了新型低成本计算环境 – 大企业“云计算”平台对于某些特定数据计算将 不再完全依赖大型高性能机 • 开发方便:屏蔽掉了底层 开发方便 屏蔽掉了底层 – 数据的划分无需用户考虑 – 数据分配加载到节点无需考虑 – 计算任务调度无需考虑 2010-5-24 15 中国科学院计算技术研究所
  • 16.
    为什么基于云计算平台? • 数据处 规模大幅度提高 数据处理规模大幅度提高 – 由于并行化在利用原有设备的条件下就可以有大幅 度提高 • 扩展性好 – 可以很方便地增加节点 • 容错计算健壮性强 – 可自动处理失败节点,具有高容错能力 – 个别节点down掉,仍能完成计算任务 2010-5-24 16 中国科学院计算技术研究所
  • 17.
    问题与挑战 • 需求 –个性化 – 多样化 • 数据 – 海量数据:数据量TB级乃至PB级 – 高维数据:采集数据项很多 – 噪声数据:网络来源、侦测不准、采集失当 – 动态数据:股票数据、业务数据 中国科学院计算技术研究所 2010-5-24 17
  • 18.
    问题与挑战 • 算法 –算法选择 – 并行策略 – 算法设计 – 参数调节 – 性能提高 中国科学院计算技术研究所 2010-5-24 18
  • 19.
    问题与挑战 • 不确定性 –数据挖掘任务描述的不确定性 – 数据采集和预处理的不确定性 – 数据挖掘方法和结果的不确定性 – 数据挖掘结果评价的不确定性 中国科学院计算技术研究所 2010-5-24 19
  • 20.
    问题与挑战 • 可信 信 – 服务的正确性:正确性是指没有不当的系统状 态 – 服务的安全性:没有灾难性的环境后果 – 服务的质量: 可用性:准备好提供正确服务的概率 可用性 准备好提供正确服务的概率 可靠性:在给定的一段时间内提供正确服务的概率 高性能:响应时间和吞吐量 高性能 响应时间和吞吐量 – 隐私安全:不允许未授权的访问 中国科学院计算技术研究所 2010-5-24 20
  • 21.
    问题与挑战 • 安全 –数据安全 • 隐私数据保护 – 过程安全 模型与需求一致 算法可检验 过程对用户可控、可视 结果仅对用户可理解 – 公共安全 云计算安全的本质是信任管理 中国科学院计算技术研究所 2010-5-24 21
  • 22.
    对策 • 基础建设 数据挖掘服务平台 基础建设:数据挖掘云服务平台 – 专业人士成为服务的提供者 – 大众和各种组织成为服务的受益方 – 按领域、行业构建 • 虚拟化:计算资源自主分配调度 • 需求 大众参与应对个性化多样化的需求 需求:大众参与应对个性化多样化的需求 • 可信:算法通用、可查、可调、可视 • 安全:隐私数据由客户自己在平台终端完成加 密保护 中国科学院计算技术研究所 2010-5-24 22
  • 23.
    内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 23 中国科学院计算技术研究所
  • 24.
    已完成的工作 ― PDMiner PDMiner 在云计算平台Hadoop基础上,2008 在 计算平台 基础上 年底我们为中国移动开发了基于云 计算的并行数据挖掘系统 2010-5-24 24 中国科学院计算技术研究所
  • 25.
    已完成的工作 ― PDMiner PDMiner 具有以下特点 • PDMiner具有以下特点: – 提供一系列并行挖掘算法和ETL操作组件 – 开发的并行ETL操作达到了线性加速比 – 可实现TB级海量数据的预处理及之后的并行挖 可实现 级海量数据的预处 及之后的并行挖 掘分析处理 – 挖掘算法随节点数线性增加,加速比随之增加 挖掘算法随节点数线性增加 加速 随 增加 – 可稳定运行在256个节点组成的Linux集群环境 下 具有高可扩展性 下,具有高可扩展性 2010-5-24 25 中国科学院计算技术研究所
  • 26.
    已完成的工作 ― PDMiner PDMiner – 多个工作流任务可在云计算环境下的任意节点 同时启动,互不干扰 – 可自动处理失败节点 具有高容错能力 可自动处理失败节点,具有高容错能力 – 开放式架构,算法组件可通过简单配置方便地 封装加载到平台中 – Java开发,提供系统日志进行管理,具有较好 的可移植性 2010-5-24 26 中国科学院计算技术研究所
  • 27.
    已完成的工作 ― PDMiner PDMiner 实验 结果 (ETL) 2010-5-24 27 中国科学院计算技术研究所
  • 28.
    已完成的工作 ― PDMiner PDMiner 实验结果 (PKMeans) 2010-5-24 28 中国科学院计算技术研究所
  • 29.
    与商用软件比较 • 达到了商用软件的精度,数据处理规模远远 超出商用软件 – 在商用软件能承受的相同数据规模下、采用相同方 法和相同参数设置、并且商用软件有结果的条件下, 新开发的基于云计算平台的并行数据挖掘系统获得 了一致的挖掘结果 • 上述比较是在同样成本购买的小型机和云计 算平台所需硬件设备基础上作的比较,未考 虑占地、能耗、管理、维护费用 虑占地 能耗 管 维护费用 2010-5-24 29 中国科学院计算技术研究所
  • 30.
    2010-5-24 30 中国科学院计算技术研究所
  • 31.
    已完成的工作 ― PDMiner PDMiner 的意义 • PDMiner的意义 – 开发出中国第一个基于云计算平台的并行数据 挖掘系统用于中国移动TB级实际数据的挖掘 挖掘系统用 中国移动 级实 数据的挖掘 – 特别谈一下数据挖掘。我们开发了一些基于 的算法 其中有 些是经典的数据挖掘 Hadoop的算法,其中有一些是经典的数据挖掘 算法,目前我们已经成功将它们使用在实际生 产运行中,试图挖掘各种用户使用行为和用户 产运行中 试图挖掘各种用户使用行为和用户 关系。与传统系统相比,这个系统使用了1/6的 成本却实现了6倍的性能 ——黄晓庆于中国2009云计算大会 – htt //l b hi http://labs.chinamobile.com/mblog/47_40345 bil / bl /47 40345 2010-5-24 31 中国科学院计算技术研究所
  • 32.
    云数据挖掘的实践 近期进展 ― 面向Web基于云计算数 据挖掘服务系统WPDMiner 2010-5-24 32 中国科学院计算技术研究所
  • 33.
    面向Web的WPDMiner • 开发了面向W b的基于云计算的并行数据 开发了面向Web的基于云计算的并行数据 挖掘服务系统WPDMiner 硬件资源管 理子系统 分配和管理用 •分配和管理用 户申请和使用 的硬件资源 三个子系统 前台Web 界面 • 与用户交互 后台并行挖掘 子系统 •提供并行数据挖 掘服务 2010-5-24 33 中国科学院计算技术研究所
  • 34.
    面向Web的WPDMiner (续) • 硬件资源管理子系统和后台并行挖掘子系统紧密结合 • 对用户透明,抽象成提供数据挖掘服务的“云” • 用户通过前台的Web交互界面定制数据挖掘任务 2010-5-24 34 中国科学院计算技术研究所
  • 35.
    面向Web的WPDMiner (续) 面向Web的WPDMiner (续) 2010-5-24 35 中国科学院计算技术研究所
  • 36.
    面向 面向Web的WPDMiner (续) 的 (续) 数据管理 2010-5-24 中国科学院计算技术研究所 36
  • 37.
    面向 面向Web的WPDMiner (续) 的 (续) 数据管理 管 2010-5-24 中国科学院计算技术研究所 37
  • 38.
    面向 面向Web的WPDMiner (续) 的 (续) 任务管理 2010-5-24 中国科学院计算技术研究所 38
  • 39.
    面向 面向Web的WPDMiner (续) 的 (续) 配置工作流任务 2010-5-24 中国科学院计算技术研究所 39
  • 40.
    面向 面向Web的WPDMiner (续) 的 (续) 执行任务 2010-5-24 中国科学院计算技术研究所 40
  • 41.
    面向 面向Web的WPDMiner (续) 的 (续) 查看任务结果和日志 2010-5-24 中国科学院计算技术研究所 41
  • 42.
    内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 42 中国科学院计算技术研究所
  • 43.
    未来走向 • 数据挖掘 数据挖掘云服务将兴起 务将兴起 – 专业人士成为服务的提供者 专 人 成为服务的提供者 – 大众和各种企业、组织机构成为服务的受益方 – 数据挖掘研究受计算环境影响降低 – 数据挖掘应用范围将大大拓宽 中国科学院计算技术研究所 2010-5-24 43
  • 44.
    未来走向 • 物联网中的基 物联网中的基于云计算的数据挖掘 计算的数据挖掘 – 云计算是物联网中普适的计算模式 – 云计算是物联网的基石 – 数据挖掘在物联网中是不可缺少的 • 高可信的基于云计算的数据挖掘软件与服 务 2010-5-24 44 中国科学院计算技术研究所
  • 45.
    参考资料 • J Dean and S Ghemawat: Mapreduce: Simplified Data J. Dean and S. Ghemawat: Mapreduce: Simplified Data  Processing on Large Clusters, OSDI’04 • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐ , , , , , g p Reduce for Machine Learning on Multicore, NIPS’06 • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C.  Kozyrakis: Evaluating MapReduce for Multi‐core and  Multiprocessor System, HPCA’07 • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing  support vector machines on distributed computers, NIPS’07 • H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐ d d merge: simplified relational data processing on large clusters,  Sigmod07 2010-5-24 45 中国科学院计算技术研究所
  • 46.
    参考资料 • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in  y , , y Large Collections with MapReduce, ACL’08 • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based  on MapReduce, CloudCom’09 • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed  Nonnegative Matrix Factorization for Web‐Scale Dyadic Data  Analysis on MapReduce, WWW’10 • h //l b http://labs.google.com/papers/mapreduce.html l / / d h l • http://lucene.apache.org/hadoop • h // http://en.wikipedia.org/wiki/Cloud_computing k d / k/ l d 2010-5-24 46 中国科学院计算技术研究所
  • 47.
    参考资料 • http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html p // g /g p / / p g/ • http://rgrossman.com/about‐cloud‐computing/ • http://www.ibm.com/developerworks/cn/java/j‐mahout/ p // / p / /j /j / • http://www.infoq.com/news/2010/04/mahout‐03 2010-5-24 47 中国科学院计算技术研究所
  • 48.
    谢谢!欢迎大家提问! http://www.intsci.ac.cn/pdm/pdminer.html Email: heqing@ict.ac.cn a : eq g@ ct.ac.c Tel:13910062653 2010.5.22 0 0.5. 2010-5-24 中国科学院计算技术研究所 48