SlideShare a Scribd company logo
1 of 48
Download to read offline
基于云计算的海量数据挖掘


                           何清
                            清
            中国科学院计算技术研究所
            中 科学院计算技术 究所
            http://js.caseducation.cn/JS/ heqing
            http://js caseducation cn/JS/~heqing
                  Email: heq@ics.ict.ac.cn

2010-5-24                                    中国科学院计算技术研究所   1
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          2
                        中国科学院计算技术研究所
云计算的定义
     •      Wikipedia: Cl d computing i I
            Wiki di     Cloud          i    is Internet‐based
                                                          b d
            computing, whereby shared resources, software
            and information are provided to computers and
            other devices on‐demand, like the electricity grid.

            It describes a new supplement, consumption and 
            delivery model for IT services based on the Internet, 
            and it typically involves the provision of dynamically 
            scalable and often virtualized resources as a service 
            scalable and often virtualized resources as a service
            over the Internet 


2010-5-24                                                         3
                                                       中国科学院计算技术研究所
云计算的定义
     •      云计算是一种基于互联网的、大众参与的计算模式,
            云计算是 种基于互联网的 大众参与的计算模式
            其计算资源(计算能力、存储能力、交互能力)是
            动态、可伸缩、且被虚拟化的,以服务的方式提供
     •      云计算是并行计算(Parallel Computing)、分布式计算
            (Distributed Computing)和网格计算(Grid C
            (Di ib d C         i )和网格计算(G id Computing)
                                                   i )
            的发展,或者说是这些计算机科学概念的商业实现
     •      云 计 算 是 虚 拟 化 (Virtualization) 、 效 用 计 算 (Utility
            Computing)、IaaS(基础设施即服务)、PaaS(平台即服
            务)、SaaS(软件即服务)等概念混合演进并跃升的结
            务) S S(软件即服务)等概念混合演进并跃升的结
            果

2010-5-24                                                   4
                                                 中国科学院计算技术研究所
云计算的兴起
   云计算风起云涌




2010-5-24                       5
                     中国科学院计算技术研究所
云计算的大事件候选




2010-5-24                      6
                    中国科学院计算技术研究所
2008年底中科院计算所开
            发出基于云计算的并行数据
            挖掘平台PDMiner




2010-5-24                    7
                  中国科学院计算技术研究所
机遇
• 大大降低 中小企业购 昂贵 设备的成本
  大大降低了中小企业购买昂贵IT设备的成本,
  且可以享受大企业级的技术
• 为服务器、PC、EU的销售带了机遇
• 提供 种新的并行计算技术服务 云服务
  提供一种新的并行计算技术服务—云服务
 – 无需购买硬件
 – 无需开发软件
 – 在网络上就可以得到并行计算服务并能在线实
   时监控

          中国科学院计算技术研究所   2010-5-24
                                 8
云计算的应用
     • 亚马逊网络服务(Amazon WebServices, AWS)
         马逊网络服务
     • Google应用软件引擎(Google AppEngine, GAE),
                      ( g   pp g         )
       Google地球、地图、Gmail、Docs等
     • Salesforce的网络应用软件平台Force.com, 这一平
                                       这 平
       台可作为其他企业自身软件服务的基础
       IBM在2007年11月推出了 改变游戏规则 的
     • IBM在2007年11月推出了“改变游戏规则”的“
       蓝云”计算平台,为客户带来即买即用的云计算
       平台
     • 微软在2008年10月推出了Windows Azure操作系统

2010-5-24                                    9
                                  中国科学院计算技术研究所
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          10
                        中国科学院计算技术研究所
数据挖掘软件的发展
 代     特征      数据挖掘算法      集成     分布计算模型             数据模型

第一代   作为一个独   支持一个或者多个   独立的系统    单个机器             向量数据
      立的应用
       的应用    算法
第二代   和数据库以   多个算法:能够挖   数据管理系统, 同质、局部区            有些系统支持
      及数据仓库   掘一次不能放进内   包括数据库和 域的计算机群             对象,文本和
      集成      存的数据       数据仓库    集                 连续的媒体数
                                                   据
第三代   和预测模型   多个算法       数据管理和预   Intranet/extra   支持半结构化
      系统集成               测模型系统    net网络计算          数据和web数
                                                   据
第四代   分布式数据   多个算法分布在多   算法、调度系   网格计算             普遍存在的数
      挖掘      个节点        统                         据模型
第五代   基于云计算   同一个算法分布在   计算资源按需   云计算              BigTable
      的并行数据   多个节点;多个算   分配                        DFS
      挖掘与服务   法之间也可以并行


                                                              11
Map/reduce on multi‐core
        Map/reduce on multi core
• Map‐Reduce for Machine Learning on Multicore(NIPS 2006)
   –   Locally Weighted Linear Regression (LWLR),
   –   Naive Bayes (NB)
                   (NB),
   –   Gaussian Discriminative Analysis (GDA),
   –   k-means, Logistic Regression (LR),
               , g         g        ( ),
   –   Neural Network (NN),
   –   Principal Components Analysis (PCA),
   –   Independent Component Analysis (ICA),
   –   Expectation Maximization (EM),
   –   Support Vector Machine (SVM)
目前基于hadoop的数据挖掘工作
• Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html)
                //                /      /
   – Classification: Logistic Regression, Bayesian, SVM, Neural Network, 
     Random Forests, ……
     Random Forests
   – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM), 
     Hierarchical Clustering, ……
   – Pattern Mining: Frequent Itemset mining, ……
   – Dimension reduction: SVD, PCA, ICA, GDA
海量数据挖掘需求
      •     海量数据挖掘
            – 从数据中获取有效的、可理解的知识
            – 大规模数据挖掘是数据挖掘追求的目标
            – 互联网网页数量随时间成倍增长 数千亿乃至
              互联网网页数量随时间成倍增长,数千亿乃至
              上万亿的网页索引
            – 数据挖掘任务远比搜索任务复杂




2010-5-24                               14
                             中国科学院计算技术研究所
为什么基于云计算平台?
      • 低成本分布式并行计算环境
            – 适应规模不同的组织,为中小企业数据处理带来
              了新型低成本计算环境
            – 大企业“云计算”平台对于某些特定数据计算将
              不再完全依赖大型高性能机
      • 开发方便:屏蔽掉了底层
        开发方便 屏蔽掉了底层
            – 数据的划分无需用户考虑
            – 数据分配加载到节点无需考虑
            – 计算任务调度无需考虑

2010-5-24                                15
                              中国科学院计算技术研究所
为什么基于云计算平台?
     • 数据处 规模大幅度提高
       数据处理规模大幅度提高
            – 由于并行化在利用原有设备的条件下就可以有大幅
              度提高
     • 扩展性好
            – 可以很方便地增加节点
     • 容错计算健壮性强
            – 可自动处理失败节点,具有高容错能力
            – 个别节点down掉,仍能完成计算任务


2010-5-24                                 16
                               中国科学院计算技术研究所
问题与挑战
• 需求
 – 个性化
 – 多样化
• 数据
 – 海量数据:数据量TB级乃至PB级
 – 高维数据:采集数据项很多
 – 噪声数据:网络来源、侦测不准、采集失当
 – 动态数据:股票数据、业务数据

          中国科学院计算技术研究所   2010-5-24
                                17
问题与挑战
• 算法
 – 算法选择
 – 并行策略
 – 算法设计
 – 参数调节
 – 性能提高




           中国科学院计算技术研究所   2010-5-24
                                 18
问题与挑战
• 不确定性
 – 数据挖掘任务描述的不确定性
 – 数据采集和预处理的不确定性
 – 数据挖掘方法和结果的不确定性
 – 数据挖掘结果评价的不确定性




          中国科学院计算技术研究所   2010-5-24
                                19
问题与挑战
• 可信
   信
 – 服务的正确性:正确性是指没有不当的系统状
   态
 – 服务的安全性:没有灾难性的环境后果
 – 服务的质量:
       可用性:准备好提供正确服务的概率
       可用性 准备好提供正确服务的概率
       可靠性:在给定的一段时间内提供正确服务的概率
       高性能:响应时间和吞吐量
       高性能 响应时间和吞吐量
 – 隐私安全:不允许未授权的访问

              中国科学院计算技术研究所   2010-5-24
                                    20
问题与挑战
• 安全
 – 数据安全
   • 隐私数据保护
 – 过程安全
       模型与需求一致
       算法可检验
       过程对用户可控、可视
       结果仅对用户可理解
 – 公共安全
       云计算安全的本质是信任管理
              中国科学院计算技术研究所   2010-5-24
                                    21
对策
• 基础建设 数据挖掘 服务平台
  基础建设:数据挖掘云服务平台
 – 专业人士成为服务的提供者
 – 大众和各种组织成为服务的受益方
 – 按领域、行业构建
• 虚拟化:计算资源自主分配调度
• 需求 大众参与应对个性化多样化的需求
  需求:大众参与应对个性化多样化的需求
• 可信:算法通用、可查、可调、可视
• 安全:隐私数据由客户自己在平台终端完成加
  密保护
          中国科学院计算技术研究所   2010-5-24
                                22
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          23
                        中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


            在云计算平台Hadoop基础上,2008
            在 计算平台      基础上
            年底我们为中国移动开发了基于云
            计算的并行数据挖掘系统




2010-5-24                             24
                           中国科学院计算技术研究所
已完成的工作 ― PDMiner
                      PDMiner
              具有以下特点
     • PDMiner具有以下特点:
            – 提供一系列并行挖掘算法和ETL操作组件
            – 开发的并行ETL操作达到了线性加速比
            – 可实现TB级海量数据的预处理及之后的并行挖
              可实现 级海量数据的预处 及之后的并行挖
              掘分析处理
            – 挖掘算法随节点数线性增加,加速比随之增加
              挖掘算法随节点数线性增加 加速 随 增加
            – 可稳定运行在256个节点组成的Linux集群环境
              下 具有高可扩展性
              下,具有高可扩展性



2010-5-24                                  25
                                中国科学院计算技术研究所
已完成的工作 ― PDMiner
                      PDMiner
            – 多个工作流任务可在云计算环境下的任意节点
              同时启动,互不干扰
            – 可自动处理失败节点 具有高容错能力
              可自动处理失败节点,具有高容错能力
            – 开放式架构,算法组件可通过简单配置方便地
              封装加载到平台中
            – Java开发,提供系统日志进行管理,具有较好
              的可移植性




2010-5-24                                26
                              中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


        实验
        结果
        (ETL)




2010-5-24                           27
                         中国科学院计算技术研究所
已完成的工作 ― PDMiner
                     PDMiner


  实验结果
  (PKMeans)




2010-5-24                           28
                         中国科学院计算技术研究所
与商用软件比较
     •      达到了商用软件的精度,数据处理规模远远
            超出商用软件
            – 在商用软件能承受的相同数据规模下、采用相同方
              法和相同参数设置、并且商用软件有结果的条件下,
              新开发的基于云计算平台的并行数据挖掘系统获得
              了一致的挖掘结果
     •      上述比较是在同样成本购买的小型机和云计
            算平台所需硬件设备基础上作的比较,未考
            虑占地、能耗、管理、维护费用
            虑占地 能耗 管  维护费用


2010-5-24                                29
                              中国科学院计算技术研究所
2010-5-24              30
            中国科学院计算技术研究所
已完成的工作 ― PDMiner
                       PDMiner
              的意义
     • PDMiner的意义
            – 开发出中国第一个基于云计算平台的并行数据
              挖掘系统用于中国移动TB级实际数据的挖掘
              挖掘系统用 中国移动 级实 数据的挖掘
            – 特别谈一下数据挖掘。我们开发了一些基于
                       的算法 其中有 些是经典的数据挖掘
              Hadoop的算法,其中有一些是经典的数据挖掘
              算法,目前我们已经成功将它们使用在实际生
              产运行中,试图挖掘各种用户使用行为和用户
              产运行中 试图挖掘各种用户使用行为和用户
              关系。与传统系统相比,这个系统使用了1/6的
              成本却实现了6倍的性能
                            ——黄晓庆于中国2009云计算大会
            – htt //l b hi
              http://labs.chinamobile.com/mblog/47_40345
                                 bil     / bl /47 40345
2010-5-24                                               31
                                             中国科学院计算技术研究所
云数据挖掘的实践


            近期进展 ― 面向Web基于云计算数
            据挖掘服务系统WPDMiner




2010-5-24                            32
                          中国科学院计算技术研究所
面向Web的WPDMiner
            • 开发了面向W b的基于云计算的并行数据
              开发了面向Web的基于云计算的并行数据
            挖掘服务系统WPDMiner
                    硬件资源管
                    理子系统
                     分配和管理用
                    •分配和管理用
                     户申请和使用
                     的硬件资源


            三个子系统              前台Web
                               界面
                               • 与用户交互

                    后台并行挖掘
                    子系统
                    •提供并行数据挖
                     掘服务




2010-5-24                                           33
                                         中国科学院计算技术研究所
面向Web的WPDMiner (续)




            • 硬件资源管理子系统和后台并行挖掘子系统紧密结合
            • 对用户透明,抽象成提供数据挖掘服务的“云”
            • 用户通过前台的Web交互界面定制数据挖掘任务

2010-5-24                                  34
                                中国科学院计算技术研究所
面向Web的WPDMiner (续)
            面向Web的WPDMiner (续)




2010-5-24                             35
                           中国科学院计算技术研究所
面向
            面向Web的WPDMiner (续)
                 的         (续)
数据管理




2010-5-24      中国科学院计算技术研究所   36
面向
            面向Web的WPDMiner (续)
                 的         (续)
数据管理
  管




2010-5-24      中国科学院计算技术研究所   37
面向
            面向Web的WPDMiner (续)
                 的         (续)
任务管理




2010-5-24      中国科学院计算技术研究所   38
面向
            面向Web的WPDMiner (续)
                 的         (续)
配置工作流任务




2010-5-24      中国科学院计算技术研究所   39
面向
            面向Web的WPDMiner (续)
                 的         (续)
执行任务




2010-5-24      中国科学院计算技术研究所   40
面向
            面向Web的WPDMiner (续)
                 的         (续)
查看任务结果和日志




2010-5-24      中国科学院计算技术研究所   41
内容提要
     •      云计算的兴起
              算  起
     •      数据挖掘发展历程
     •      云数据挖掘实践
     •      云数据挖掘未来走向



2010-5-24                          42
                        中国科学院计算技术研究所
未来走向
• 数据挖掘
  数据挖掘云服务将兴起
        务将兴起
 – 专业人士成为服务的提供者
   专 人 成为服务的提供者
 – 大众和各种企业、组织机构成为服务的受益方
 – 数据挖掘研究受计算环境影响降低
 – 数据挖掘应用范围将大大拓宽




           中国科学院计算技术研究所   2010-5-24
                                 43
未来走向
     • 物联网中的基
       物联网中的基于云计算的数据挖掘
               计算的数据挖掘
            – 云计算是物联网中普适的计算模式
            – 云计算是物联网的基石
            – 数据挖掘在物联网中是不可缺少的
     • 高可信的基于云计算的数据挖掘软件与服
       务



2010-5-24                                  44
                                中国科学院计算技术研究所
参考资料
     • J Dean and S Ghemawat: Mapreduce: Simplified Data
       J. Dean and S. Ghemawat: Mapreduce: Simplified Data 
       Processing on Large Clusters, OSDI’04
     • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐
                ,           ,        ,         ,           ,        g    p
       Reduce for Machine Learning on Multicore, NIPS’06
     • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C. 
       Kozyrakis: Evaluating MapReduce for Multi‐core and 
       Multiprocessor System, HPCA’07
     • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing 
       support vector machines on distributed computers, NIPS’07
     • H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐
                           d                                   d
       merge: simplified relational data processing on large clusters, 
       Sigmod07
2010-5-24                                                             45
                                                           中国科学院计算技术研究所
参考资料
     • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in 
              y ,        ,                                          y
       Large Collections with MapReduce, ACL’08
     • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based 
       on MapReduce, CloudCom’09
     • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed 
       Nonnegative Matrix Factorization for Web‐Scale Dyadic Data 
       Analysis on MapReduce, WWW’10
     • h //l b
       http://labs.google.com/papers/mapreduce.html
                           l      /       /        d   h l
     • http://lucene.apache.org/hadoop
     • h //
       http://en.wikipedia.org/wiki/Cloud_computing
                     k d          / k/ l d



2010-5-24                                                           46
                                                         中国科学院计算技术研究所
参考资料
     •      http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html
               p //          g /g p /      /         p    g/
     •      http://rgrossman.com/about‐cloud‐computing/
     •      http://www.ibm.com/developerworks/cn/java/j‐mahout/
               p //               /      p       / /j /j          /
     •      http://www.infoq.com/news/2010/04/mahout‐03




2010-5-24                                                           47
                                                         中国科学院计算技术研究所
谢谢!欢迎大家提问!

            http://www.intsci.ac.cn/pdm/pdminer.html
                    Email: heqing@ict.ac.cn
                      a : eq g@ ct.ac.c
                        Tel:13910062653
                         2010.5.22
                          0 0.5.
2010-5-24                                   中国科学院计算技术研究所   48

More Related Content

What's hot

Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】inwin stack
 
Comboware ComboStack 202105
Comboware ComboStack 202105Comboware ComboStack 202105
Comboware ComboStack 202105Elroy Peng
 
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践Hardway Hou
 
FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台Fit2Cloud
 
在Nas的中心呼喊人工智慧 20171214
在Nas的中心呼喊人工智慧 20171214在Nas的中心呼喊人工智慧 20171214
在Nas的中心呼喊人工智慧 20171214Anderson Cheng
 
Kubernetes device plugins
Kubernetes device pluginsKubernetes device plugins
Kubernetes device pluginsssuser75c76a2
 
Azure Container Registry(preview)x Web App On Linux(preview)
Azure Container Registry(preview)x Web App On Linux(preview)Azure Container Registry(preview)x Web App On Linux(preview)
Azure Container Registry(preview)x Web App On Linux(preview)Ch Rick
 
AWS reInvent 2018 Recap - Solutions Updates part 1
AWS reInvent 2018 Recap - Solutions Updates part 1AWS reInvent 2018 Recap - Solutions Updates part 1
AWS reInvent 2018 Recap - Solutions Updates part 1Amazon Web Services
 
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...StreamNative
 
A10 networks產品與核心價值介紹 2014-03-04
A10 networks產品與核心價值介紹 2014-03-04A10 networks產品與核心價值介紹 2014-03-04
A10 networks產品與核心價值介紹 2014-03-04Michael Lin
 
Mesos vs Kubernetes: What We Learned Working With Both For Chinese Customers
Mesos vs Kubernetes: What We Learned Working With Both For Chinese CustomersMesos vs Kubernetes: What We Learned Working With Both For Chinese Customers
Mesos vs Kubernetes: What We Learned Working With Both For Chinese CustomersGuangya Liu
 
OpenStack Quantum项目介绍和演示
OpenStack Quantum项目介绍和演示OpenStack Quantum项目介绍和演示
OpenStack Quantum项目介绍和演示OpenCity Community
 
使用軟體容器快速建立物聯網服務 20171122
使用軟體容器快速建立物聯網服務 20171122使用軟體容器快速建立物聯網服務 20171122
使用軟體容器快速建立物聯網服務 20171122Anderson Cheng
 
Bd paa s - big-data platform as a service
Bd paa s - big-data platform as a serviceBd paa s - big-data platform as a service
Bd paa s - big-data platform as a serviceinwin stack
 
Streaming architecture zx_dec2015
Streaming architecture zx_dec2015Streaming architecture zx_dec2015
Streaming architecture zx_dec2015Zhenzhong Xu
 
美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术团队
 
华为软件定义存储架构分析
华为软件定义存储架构分析华为软件定义存储架构分析
华为软件定义存储架构分析Liang Ming
 
Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Zhaoyang Wang
 
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)Jeff Chu
 
iServDB - iServCloud DBaaS Solution
iServDB - iServCloud  DBaaS  SolutioniServDB - iServCloud  DBaaS  Solution
iServDB - iServCloud DBaaS SolutioniServDB & iServCloud
 

What's hot (20)

Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】Train.IO 【第六期-OpenStack 二三事】
Train.IO 【第六期-OpenStack 二三事】
 
Comboware ComboStack 202105
Comboware ComboStack 202105Comboware ComboStack 202105
Comboware ComboStack 202105
 
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
 
FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台FIT2CLOUD:云管理及DevOps协作平台
FIT2CLOUD:云管理及DevOps协作平台
 
在Nas的中心呼喊人工智慧 20171214
在Nas的中心呼喊人工智慧 20171214在Nas的中心呼喊人工智慧 20171214
在Nas的中心呼喊人工智慧 20171214
 
Kubernetes device plugins
Kubernetes device pluginsKubernetes device plugins
Kubernetes device plugins
 
Azure Container Registry(preview)x Web App On Linux(preview)
Azure Container Registry(preview)x Web App On Linux(preview)Azure Container Registry(preview)x Web App On Linux(preview)
Azure Container Registry(preview)x Web App On Linux(preview)
 
AWS reInvent 2018 Recap - Solutions Updates part 1
AWS reInvent 2018 Recap - Solutions Updates part 1AWS reInvent 2018 Recap - Solutions Updates part 1
AWS reInvent 2018 Recap - Solutions Updates part 1
 
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
The Practice of Apache Pulsar for Logging in China Mobile - Pulsar Summit Asi...
 
A10 networks產品與核心價值介紹 2014-03-04
A10 networks產品與核心價值介紹 2014-03-04A10 networks產品與核心價值介紹 2014-03-04
A10 networks產品與核心價值介紹 2014-03-04
 
Mesos vs Kubernetes: What We Learned Working With Both For Chinese Customers
Mesos vs Kubernetes: What We Learned Working With Both For Chinese CustomersMesos vs Kubernetes: What We Learned Working With Both For Chinese Customers
Mesos vs Kubernetes: What We Learned Working With Both For Chinese Customers
 
OpenStack Quantum项目介绍和演示
OpenStack Quantum项目介绍和演示OpenStack Quantum项目介绍和演示
OpenStack Quantum项目介绍和演示
 
使用軟體容器快速建立物聯網服務 20171122
使用軟體容器快速建立物聯網服務 20171122使用軟體容器快速建立物聯網服務 20171122
使用軟體容器快速建立物聯網服務 20171122
 
Bd paa s - big-data platform as a service
Bd paa s - big-data platform as a serviceBd paa s - big-data platform as a service
Bd paa s - big-data platform as a service
 
Streaming architecture zx_dec2015
Streaming architecture zx_dec2015Streaming architecture zx_dec2015
Streaming architecture zx_dec2015
 
美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙14美团云-Docker平台
 
华为软件定义存储架构分析
华为软件定义存储架构分析华为软件定义存储架构分析
华为软件定义存储架构分析
 
Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请Oracle cloud 云介绍及测试账户申请
Oracle cloud 云介绍及测试账户申请
 
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
 
iServDB - iServCloud DBaaS Solution
iServDB - iServCloud  DBaaS  SolutioniServDB - iServCloud  DBaaS  Solution
iServDB - iServCloud DBaaS Solution
 

Viewers also liked

数据挖掘实例入门
数据挖掘实例入门数据挖掘实例入门
数据挖掘实例入门Duo Yi
 
新浪微博数据挖掘方案
新浪微博数据挖掘方案新浪微博数据挖掘方案
新浪微博数据挖掘方案venciallee
 
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究学峰 司
 
数据挖掘九律
数据挖掘九律数据挖掘九律
数据挖掘九律Tony Deng
 
Materi kajian ghazwul fikri
Materi kajian ghazwul fikriMateri kajian ghazwul fikri
Materi kajian ghazwul fikriNovyana Shethe
 
我们的岛,又有多大
我们的岛,又有多大我们的岛,又有多大
我们的岛,又有多大Tony Deng
 
Distributed agile testing_for_enterprises
Distributed agile testing_for_enterprisesDistributed agile testing_for_enterprises
Distributed agile testing_for_enterprisesThoughtWorks Studios
 
Buyer Purchasing Manager
Buyer Purchasing ManagerBuyer Purchasing Manager
Buyer Purchasing ManagerAIM Insight
 
Keynote 中国云计算调查报告-alter-埃森哲
Keynote 中国云计算调查报告-alter-埃森哲Keynote 中国云计算调查报告-alter-埃森哲
Keynote 中国云计算调查报告-alter-埃森哲Riquelme624
 
徐飞 初心
徐飞 初心徐飞 初心
徐飞 初心PMCamp
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计PMCamp
 
Neal Ford Emergent Design And Evolutionary Architecture
Neal Ford Emergent Design And Evolutionary ArchitectureNeal Ford Emergent Design And Evolutionary Architecture
Neal Ford Emergent Design And Evolutionary ArchitectureThoughtWorks Studios
 
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-SonicwallRiquelme624
 
Marqueting de continguts dialoga amb els teus clients oferint los materials u...
Marqueting de continguts dialoga amb els teus clients oferint los materials u...Marqueting de continguts dialoga amb els teus clients oferint los materials u...
Marqueting de continguts dialoga amb els teus clients oferint los materials u...Eva Sanagustin
 

Viewers also liked (20)

数据挖掘实例入门
数据挖掘实例入门数据挖掘实例入门
数据挖掘实例入门
 
RTB 优化算法
RTB 优化算法RTB 优化算法
RTB 优化算法
 
新浪微博数据挖掘方案
新浪微博数据挖掘方案新浪微博数据挖掘方案
新浪微博数据挖掘方案
 
基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究基于数据挖掘的客户流失预测实证研究
基于数据挖掘的客户流失预测实证研究
 
数据挖掘九律
数据挖掘九律数据挖掘九律
数据挖掘九律
 
Materi kajian ghazwul fikri
Materi kajian ghazwul fikriMateri kajian ghazwul fikri
Materi kajian ghazwul fikri
 
我们的岛,又有多大
我们的岛,又有多大我们的岛,又有多大
我们的岛,又有多大
 
Distributed agile testing_for_enterprises
Distributed agile testing_for_enterprisesDistributed agile testing_for_enterprises
Distributed agile testing_for_enterprises
 
Hotliujian
HotliujianHotliujian
Hotliujian
 
Buyer Purchasing Manager
Buyer Purchasing ManagerBuyer Purchasing Manager
Buyer Purchasing Manager
 
Keynote 中国云计算调查报告-alter-埃森哲
Keynote 中国云计算调查报告-alter-埃森哲Keynote 中国云计算调查报告-alter-埃森哲
Keynote 中国云计算调查报告-alter-埃森哲
 
Sociala medier - EFL
Sociala medier - EFLSociala medier - EFL
Sociala medier - EFL
 
徐飞 初心
徐飞 初心徐飞 初心
徐飞 初心
 
罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计罗旭祥 基于数据挖掘的产品设计
罗旭祥 基于数据挖掘的产品设计
 
Neal Ford Emergent Design And Evolutionary Architecture
Neal Ford Emergent Design And Evolutionary ArchitectureNeal Ford Emergent Design And Evolutionary Architecture
Neal Ford Emergent Design And Evolutionary Architecture
 
Modern seller
Modern sellerModern seller
Modern seller
 
2
22
2
 
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall
云计算时代的安全解决方案分论坛 确保云环境中的云安全-陆永康-Sonicwall
 
Marqueting de continguts dialoga amb els teus clients oferint los materials u...
Marqueting de continguts dialoga amb els teus clients oferint los materials u...Marqueting de continguts dialoga amb els teus clients oferint los materials u...
Marqueting de continguts dialoga amb els teus clients oferint los materials u...
 
Working Without Estimates
Working Without EstimatesWorking Without Estimates
Working Without Estimates
 

Similar to 云存储与虚拟化分论坛 基于云计算的海量数据挖掘

03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611ikewu83
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingRen-Hao (PAN) Pan
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611ikewu83
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forumbigdatawf
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteXu Wang
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验colderboy17
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验guiyingshenxia
 
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing   Kuo-Yi ChenChallenges and opportunities computing   Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chenkuoyichen
 
Keynote 台灣雲計算發展-王玮-台湾资策会
Keynote 台灣雲計算發展-王玮-台湾资策会Keynote 台灣雲計算發展-王玮-台湾资策会
Keynote 台灣雲計算發展-王玮-台湾资策会Riquelme624
 
如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技Hardway Hou
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究liangxiao0315
 
云制造
云制造云制造
云制造leejd
 
Cnut 容器大会 京东
Cnut 容器大会 京东Cnut 容器大会 京东
Cnut 容器大会 京东tommy tommy
 
CCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCloud Congress
 
雲端運算的演進與定義
雲端運算的演進與定義雲端運算的演進與定義
雲端運算的演進與定義Awei Hsu
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Zac John
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探vaemon
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
Service oriented computing and cloud computing
Service oriented computing and cloud computingService oriented computing and cloud computing
Service oriented computing and cloud computing志銘 劉志銘
 
中国云计算发展之道
中国云计算发展之道中国云计算发展之道
中国云计算发展之道raisinli
 

Similar to 云存储与虚拟化分论坛 基于云计算的海量数据挖掘 (20)

03 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 061103 李实恭-乘云之势以智致远 0611
03 李实恭-乘云之势以智致远 0611
 
Big Data Technology - Cloud Computing
Big Data Technology - Cloud ComputingBig Data Technology - Cloud Computing
Big Data Technology - Cloud Computing
 
05 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 061105 朱近之 ibm云计算解决方案概览 0611
05 朱近之 ibm云计算解决方案概览 0611
 
Big Data World Forum
Big Data World ForumBig Data World Forum
Big Data World Forum
 
Hadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research InstituteHadoop development in China Mobile Research Institute
Hadoop development in China Mobile Research Institute
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
腾讯 马志强 虚拟化环境下 网络 朋务器 平台的协作经验
 
Challenges and opportunities computing Kuo-Yi Chen
Challenges and opportunities computing   Kuo-Yi ChenChallenges and opportunities computing   Kuo-Yi Chen
Challenges and opportunities computing Kuo-Yi Chen
 
Keynote 台灣雲計算發展-王玮-台湾资策会
Keynote 台灣雲計算發展-王玮-台湾资策会Keynote 台灣雲計算發展-王玮-台湾资策会
Keynote 台灣雲計算發展-王玮-台湾资策会
 
如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技如何为“云”打造稳固的基石 - 鹏云网络科技
如何为“云”打造稳固的基石 - 鹏云网络科技
 
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究基于云计算平台的移动Iptv系统设计及负载均衡技术研究
基于云计算平台的移动Iptv系统设计及负载均衡技术研究
 
云制造
云制造云制造
云制造
 
Cnut 容器大会 京东
Cnut 容器大会 京东Cnut 容器大会 京东
Cnut 容器大会 京东
 
CCCC China Telecom Jun Wan
CCCC China Telecom Jun WanCCCC China Telecom Jun Wan
CCCC China Telecom Jun Wan
 
雲端運算的演進與定義
雲端運算的演進與定義雲端運算的演進與定義
雲端運算的演進與定義
 
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
Grid Technology and Enterprise Grid / 网格技术及其在企业信息化中的应用
 
課程1 1:雲端運算初探
課程1 1:雲端運算初探課程1 1:雲端運算初探
課程1 1:雲端運算初探
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
Service oriented computing and cloud computing
Service oriented computing and cloud computingService oriented computing and cloud computing
Service oriented computing and cloud computing
 
中国云计算发展之道
中国云计算发展之道中国云计算发展之道
中国云计算发展之道
 

More from Riquelme624

从网格计算到云计算
从网格计算到云计算从网格计算到云计算
从网格计算到云计算Riquelme624
 
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
云存储与虚拟化分论坛 生活在云端 蔡礼洪 EmcRiquelme624
 
云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美Riquelme624
 
Keynote 中国云计算调查报告 alter 埃森哲
Keynote 中国云计算调查报告 alter 埃森哲Keynote 中国云计算调查报告 alter 埃森哲
Keynote 中国云计算调查报告 alter 埃森哲Riquelme624
 
Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲Riquelme624
 
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本Riquelme624
 

More from Riquelme624 (6)

从网格计算到云计算
从网格计算到云计算从网格计算到云计算
从网格计算到云计算
 
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
云存储与虚拟化分论坛 生活在云端 蔡礼洪 Emc
 
云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美云计算在电信业务中的应用分析 罗圣美
云计算在电信业务中的应用分析 罗圣美
 
Keynote 中国云计算调查报告 alter 埃森哲
Keynote 中国云计算调查报告 alter 埃森哲Keynote 中国云计算调查报告 alter 埃森哲
Keynote 中国云计算调查报告 alter 埃森哲
 
Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲Keynote cloud china-keneth corless 埃森哲
Keynote cloud china-keneth corless 埃森哲
 
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本
云计算核心技术架构分论坛 一石三鸟 性能 功耗及成本
 

云存储与虚拟化分论坛 基于云计算的海量数据挖掘

  • 1. 基于云计算的海量数据挖掘 何清 清 中国科学院计算技术研究所 中 科学院计算技术 究所 http://js.caseducation.cn/JS/ heqing http://js caseducation cn/JS/~heqing Email: heq@ics.ict.ac.cn 2010-5-24 中国科学院计算技术研究所 1
  • 2. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 2 中国科学院计算技术研究所
  • 3. 云计算的定义 • Wikipedia: Cl d computing i I Wiki di Cloud i is Internet‐based b d computing, whereby shared resources, software and information are provided to computers and other devices on‐demand, like the electricity grid. It describes a new supplement, consumption and  delivery model for IT services based on the Internet,  and it typically involves the provision of dynamically  scalable and often virtualized resources as a service  scalable and often virtualized resources as a service over the Internet  2010-5-24 3 中国科学院计算技术研究所
  • 4. 云计算的定义 • 云计算是一种基于互联网的、大众参与的计算模式, 云计算是 种基于互联网的 大众参与的计算模式 其计算资源(计算能力、存储能力、交互能力)是 动态、可伸缩、且被虚拟化的,以服务的方式提供 • 云计算是并行计算(Parallel Computing)、分布式计算 (Distributed Computing)和网格计算(Grid C (Di ib d C i )和网格计算(G id Computing) i ) 的发展,或者说是这些计算机科学概念的商业实现 • 云 计 算 是 虚 拟 化 (Virtualization) 、 效 用 计 算 (Utility Computing)、IaaS(基础设施即服务)、PaaS(平台即服 务)、SaaS(软件即服务)等概念混合演进并跃升的结 务) S S(软件即服务)等概念混合演进并跃升的结 果 2010-5-24 4 中国科学院计算技术研究所
  • 5. 云计算的兴起 云计算风起云涌 2010-5-24 5 中国科学院计算技术研究所
  • 6. 云计算的大事件候选 2010-5-24 6 中国科学院计算技术研究所
  • 7. 2008年底中科院计算所开 发出基于云计算的并行数据 挖掘平台PDMiner 2010-5-24 7 中国科学院计算技术研究所
  • 8. 机遇 • 大大降低 中小企业购 昂贵 设备的成本 大大降低了中小企业购买昂贵IT设备的成本, 且可以享受大企业级的技术 • 为服务器、PC、EU的销售带了机遇 • 提供 种新的并行计算技术服务 云服务 提供一种新的并行计算技术服务—云服务 – 无需购买硬件 – 无需开发软件 – 在网络上就可以得到并行计算服务并能在线实 时监控 中国科学院计算技术研究所 2010-5-24 8
  • 9. 云计算的应用 • 亚马逊网络服务(Amazon WebServices, AWS) 马逊网络服务 • Google应用软件引擎(Google AppEngine, GAE), ( g pp g ) Google地球、地图、Gmail、Docs等 • Salesforce的网络应用软件平台Force.com, 这一平 这 平 台可作为其他企业自身软件服务的基础 IBM在2007年11月推出了 改变游戏规则 的 • IBM在2007年11月推出了“改变游戏规则”的“ 蓝云”计算平台,为客户带来即买即用的云计算 平台 • 微软在2008年10月推出了Windows Azure操作系统 2010-5-24 9 中国科学院计算技术研究所
  • 10. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 10 中国科学院计算技术研究所
  • 11. 数据挖掘软件的发展 代 特征 数据挖掘算法 集成 分布计算模型 数据模型 第一代 作为一个独 支持一个或者多个 独立的系统 单个机器 向量数据 立的应用 的应用 算法 第二代 和数据库以 多个算法:能够挖 数据管理系统, 同质、局部区 有些系统支持 及数据仓库 掘一次不能放进内 包括数据库和 域的计算机群 对象,文本和 集成 存的数据 数据仓库 集 连续的媒体数 据 第三代 和预测模型 多个算法 数据管理和预 Intranet/extra 支持半结构化 系统集成 测模型系统 net网络计算 数据和web数 据 第四代 分布式数据 多个算法分布在多 算法、调度系 网格计算 普遍存在的数 挖掘 个节点 统 据模型 第五代 基于云计算 同一个算法分布在 计算资源按需 云计算 BigTable 的并行数据 多个节点;多个算 分配 DFS 挖掘与服务 法之间也可以并行 11
  • 12. Map/reduce on multi‐core Map/reduce on multi core • Map‐Reduce for Machine Learning on Multicore(NIPS 2006) – Locally Weighted Linear Regression (LWLR), – Naive Bayes (NB) (NB), – Gaussian Discriminative Analysis (GDA), – k-means, Logistic Regression (LR), , g g ( ), – Neural Network (NN), – Principal Components Analysis (PCA), – Independent Component Analysis (ICA), – Expectation Maximization (EM), – Support Vector Machine (SVM)
  • 13. 目前基于hadoop的数据挖掘工作 • Mahout( https://cwiki.apache.org/MAHOUT/algorithms.html) // / / – Classification: Logistic Regression, Bayesian, SVM, Neural Network,  Random Forests, …… Random Forests – Clustering: k‐Means, Fuzzy K‐Means, Expectation Maximization (EM),  Hierarchical Clustering, …… – Pattern Mining: Frequent Itemset mining, …… – Dimension reduction: SVD, PCA, ICA, GDA
  • 14. 海量数据挖掘需求 • 海量数据挖掘 – 从数据中获取有效的、可理解的知识 – 大规模数据挖掘是数据挖掘追求的目标 – 互联网网页数量随时间成倍增长 数千亿乃至 互联网网页数量随时间成倍增长,数千亿乃至 上万亿的网页索引 – 数据挖掘任务远比搜索任务复杂 2010-5-24 14 中国科学院计算技术研究所
  • 15. 为什么基于云计算平台? • 低成本分布式并行计算环境 – 适应规模不同的组织,为中小企业数据处理带来 了新型低成本计算环境 – 大企业“云计算”平台对于某些特定数据计算将 不再完全依赖大型高性能机 • 开发方便:屏蔽掉了底层 开发方便 屏蔽掉了底层 – 数据的划分无需用户考虑 – 数据分配加载到节点无需考虑 – 计算任务调度无需考虑 2010-5-24 15 中国科学院计算技术研究所
  • 16. 为什么基于云计算平台? • 数据处 规模大幅度提高 数据处理规模大幅度提高 – 由于并行化在利用原有设备的条件下就可以有大幅 度提高 • 扩展性好 – 可以很方便地增加节点 • 容错计算健壮性强 – 可自动处理失败节点,具有高容错能力 – 个别节点down掉,仍能完成计算任务 2010-5-24 16 中国科学院计算技术研究所
  • 17. 问题与挑战 • 需求 – 个性化 – 多样化 • 数据 – 海量数据:数据量TB级乃至PB级 – 高维数据:采集数据项很多 – 噪声数据:网络来源、侦测不准、采集失当 – 动态数据:股票数据、业务数据 中国科学院计算技术研究所 2010-5-24 17
  • 18. 问题与挑战 • 算法 – 算法选择 – 并行策略 – 算法设计 – 参数调节 – 性能提高 中国科学院计算技术研究所 2010-5-24 18
  • 19. 问题与挑战 • 不确定性 – 数据挖掘任务描述的不确定性 – 数据采集和预处理的不确定性 – 数据挖掘方法和结果的不确定性 – 数据挖掘结果评价的不确定性 中国科学院计算技术研究所 2010-5-24 19
  • 20. 问题与挑战 • 可信 信 – 服务的正确性:正确性是指没有不当的系统状 态 – 服务的安全性:没有灾难性的环境后果 – 服务的质量: 可用性:准备好提供正确服务的概率 可用性 准备好提供正确服务的概率 可靠性:在给定的一段时间内提供正确服务的概率 高性能:响应时间和吞吐量 高性能 响应时间和吞吐量 – 隐私安全:不允许未授权的访问 中国科学院计算技术研究所 2010-5-24 20
  • 21. 问题与挑战 • 安全 – 数据安全 • 隐私数据保护 – 过程安全 模型与需求一致 算法可检验 过程对用户可控、可视 结果仅对用户可理解 – 公共安全 云计算安全的本质是信任管理 中国科学院计算技术研究所 2010-5-24 21
  • 22. 对策 • 基础建设 数据挖掘 服务平台 基础建设:数据挖掘云服务平台 – 专业人士成为服务的提供者 – 大众和各种组织成为服务的受益方 – 按领域、行业构建 • 虚拟化:计算资源自主分配调度 • 需求 大众参与应对个性化多样化的需求 需求:大众参与应对个性化多样化的需求 • 可信:算法通用、可查、可调、可视 • 安全:隐私数据由客户自己在平台终端完成加 密保护 中国科学院计算技术研究所 2010-5-24 22
  • 23. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 23 中国科学院计算技术研究所
  • 24. 已完成的工作 ― PDMiner PDMiner 在云计算平台Hadoop基础上,2008 在 计算平台 基础上 年底我们为中国移动开发了基于云 计算的并行数据挖掘系统 2010-5-24 24 中国科学院计算技术研究所
  • 25. 已完成的工作 ― PDMiner PDMiner 具有以下特点 • PDMiner具有以下特点: – 提供一系列并行挖掘算法和ETL操作组件 – 开发的并行ETL操作达到了线性加速比 – 可实现TB级海量数据的预处理及之后的并行挖 可实现 级海量数据的预处 及之后的并行挖 掘分析处理 – 挖掘算法随节点数线性增加,加速比随之增加 挖掘算法随节点数线性增加 加速 随 增加 – 可稳定运行在256个节点组成的Linux集群环境 下 具有高可扩展性 下,具有高可扩展性 2010-5-24 25 中国科学院计算技术研究所
  • 26. 已完成的工作 ― PDMiner PDMiner – 多个工作流任务可在云计算环境下的任意节点 同时启动,互不干扰 – 可自动处理失败节点 具有高容错能力 可自动处理失败节点,具有高容错能力 – 开放式架构,算法组件可通过简单配置方便地 封装加载到平台中 – Java开发,提供系统日志进行管理,具有较好 的可移植性 2010-5-24 26 中国科学院计算技术研究所
  • 27. 已完成的工作 ― PDMiner PDMiner 实验 结果 (ETL) 2010-5-24 27 中国科学院计算技术研究所
  • 28. 已完成的工作 ― PDMiner PDMiner 实验结果 (PKMeans) 2010-5-24 28 中国科学院计算技术研究所
  • 29. 与商用软件比较 • 达到了商用软件的精度,数据处理规模远远 超出商用软件 – 在商用软件能承受的相同数据规模下、采用相同方 法和相同参数设置、并且商用软件有结果的条件下, 新开发的基于云计算平台的并行数据挖掘系统获得 了一致的挖掘结果 • 上述比较是在同样成本购买的小型机和云计 算平台所需硬件设备基础上作的比较,未考 虑占地、能耗、管理、维护费用 虑占地 能耗 管 维护费用 2010-5-24 29 中国科学院计算技术研究所
  • 30. 2010-5-24 30 中国科学院计算技术研究所
  • 31. 已完成的工作 ― PDMiner PDMiner 的意义 • PDMiner的意义 – 开发出中国第一个基于云计算平台的并行数据 挖掘系统用于中国移动TB级实际数据的挖掘 挖掘系统用 中国移动 级实 数据的挖掘 – 特别谈一下数据挖掘。我们开发了一些基于 的算法 其中有 些是经典的数据挖掘 Hadoop的算法,其中有一些是经典的数据挖掘 算法,目前我们已经成功将它们使用在实际生 产运行中,试图挖掘各种用户使用行为和用户 产运行中 试图挖掘各种用户使用行为和用户 关系。与传统系统相比,这个系统使用了1/6的 成本却实现了6倍的性能 ——黄晓庆于中国2009云计算大会 – htt //l b hi http://labs.chinamobile.com/mblog/47_40345 bil / bl /47 40345 2010-5-24 31 中国科学院计算技术研究所
  • 32. 云数据挖掘的实践 近期进展 ― 面向Web基于云计算数 据挖掘服务系统WPDMiner 2010-5-24 32 中国科学院计算技术研究所
  • 33. 面向Web的WPDMiner • 开发了面向W b的基于云计算的并行数据 开发了面向Web的基于云计算的并行数据 挖掘服务系统WPDMiner 硬件资源管 理子系统 分配和管理用 •分配和管理用 户申请和使用 的硬件资源 三个子系统 前台Web 界面 • 与用户交互 后台并行挖掘 子系统 •提供并行数据挖 掘服务 2010-5-24 33 中国科学院计算技术研究所
  • 34. 面向Web的WPDMiner (续) • 硬件资源管理子系统和后台并行挖掘子系统紧密结合 • 对用户透明,抽象成提供数据挖掘服务的“云” • 用户通过前台的Web交互界面定制数据挖掘任务 2010-5-24 34 中国科学院计算技术研究所
  • 35. 面向Web的WPDMiner (续) 面向Web的WPDMiner (续) 2010-5-24 35 中国科学院计算技术研究所
  • 36. 面向 面向Web的WPDMiner (续) 的 (续) 数据管理 2010-5-24 中国科学院计算技术研究所 36
  • 37. 面向 面向Web的WPDMiner (续) 的 (续) 数据管理 管 2010-5-24 中国科学院计算技术研究所 37
  • 38. 面向 面向Web的WPDMiner (续) 的 (续) 任务管理 2010-5-24 中国科学院计算技术研究所 38
  • 39. 面向 面向Web的WPDMiner (续) 的 (续) 配置工作流任务 2010-5-24 中国科学院计算技术研究所 39
  • 40. 面向 面向Web的WPDMiner (续) 的 (续) 执行任务 2010-5-24 中国科学院计算技术研究所 40
  • 41. 面向 面向Web的WPDMiner (续) 的 (续) 查看任务结果和日志 2010-5-24 中国科学院计算技术研究所 41
  • 42. 内容提要 • 云计算的兴起 算 起 • 数据挖掘发展历程 • 云数据挖掘实践 • 云数据挖掘未来走向 2010-5-24 42 中国科学院计算技术研究所
  • 43. 未来走向 • 数据挖掘 数据挖掘云服务将兴起 务将兴起 – 专业人士成为服务的提供者 专 人 成为服务的提供者 – 大众和各种企业、组织机构成为服务的受益方 – 数据挖掘研究受计算环境影响降低 – 数据挖掘应用范围将大大拓宽 中国科学院计算技术研究所 2010-5-24 43
  • 44. 未来走向 • 物联网中的基 物联网中的基于云计算的数据挖掘 计算的数据挖掘 – 云计算是物联网中普适的计算模式 – 云计算是物联网的基石 – 数据挖掘在物联网中是不可缺少的 • 高可信的基于云计算的数据挖掘软件与服 务 2010-5-24 44 中国科学院计算技术研究所
  • 45. 参考资料 • J Dean and S Ghemawat: Mapreduce: Simplified Data J. Dean and S. Ghemawat: Mapreduce: Simplified Data  Processing on Large Clusters, OSDI’04 • C. T. Chu, S. K. Kim, Y.A. Lin, Y. Y. Yu, G. Bradski, A. Y. Ng: Map‐ , , , , , g p Reduce for Machine Learning on Multicore, NIPS’06 • C. Ranger, R. Raghuraman, A. penmetsa, G. Bradski, C.  Kozyrakis: Evaluating MapReduce for Multi‐core and  Multiprocessor System, HPCA’07 • E. Y. Chang, K.Z. Zhu, H. Wang, H. Bai: Psvm: Parallelizing  support vector machines on distributed computers, NIPS’07 • H. C. Yang, A. Dasdan, R. L. Hsiao, D. S. P: Map‐reduce‐ d d merge: simplified relational data processing on large clusters,  Sigmod07 2010-5-24 45 中国科学院计算技术研究所
  • 46. 参考资料 • T. Elsayed, J. Lin, D. W. Oard: Pairwise Document Similarity in  y , , y Large Collections with MapReduce, ACL’08 • W.Z. Zhao, H. F. Ma, Q, He: Parallel K‐Means Clustering Based  on MapReduce, CloudCom’09 • C. Liu, H. C. Yang, J. L. Fan, L. W. He, Y. M. Wang: Distributed  Nonnegative Matrix Factorization for Web‐Scale Dyadic Data  Analysis on MapReduce, WWW’10 • h //l b http://labs.google.com/papers/mapreduce.html l / / d h l • http://lucene.apache.org/hadoop • h // http://en.wikipedia.org/wiki/Cloud_computing k d / k/ l d 2010-5-24 46 中国科学院计算技术研究所
  • 47. 参考资料 • http://csrc.nist.gov/groups/SNS/cloud‐computing/index.html p // g /g p / / p g/ • http://rgrossman.com/about‐cloud‐computing/ • http://www.ibm.com/developerworks/cn/java/j‐mahout/ p // / p / /j /j / • http://www.infoq.com/news/2010/04/mahout‐03 2010-5-24 47 中国科学院计算技术研究所
  • 48. 谢谢!欢迎大家提问! http://www.intsci.ac.cn/pdm/pdminer.html Email: heqing@ict.ac.cn a : eq g@ ct.ac.c Tel:13910062653 2010.5.22 0 0.5. 2010-5-24 中国科学院计算技术研究所 48