大规模数据处理的那些事 梁斌 [email_address]
内容概要 Mass Data Processing 什么是 Mass Data Processing MDP 的应用场合 为什么要学习 MDP MDP 在高校教学中的现状 设想中的一些工作 将目前的一些经验和理论进行整理 能够开展一些传播工作 建立私立实验室 Q & A
什么是 Mass Data Processing 在受限的机器 , 网络资源的情况下, 通过软件和硬件共同完成的 G 以上级别的 数据计算和存储。    --penny liang 索引的网页有数 10 亿条 中国的网民有 1 亿,平均每天访问 10 个网页。 电子商务、金融机构、通讯话单,这些数量更大。
MDP 的应用场合 搜索引擎 索引数 10 亿网页,能够提供高效检索服务 google , baidu 数据挖掘 日志挖掘 商务智能 (cognos(IBM),share point(MS)) 云计算,云存储,云安全 map reduce, hadoop ……
为什么要学习 MDP 能够将大学本科阶段各个科目,在这个实践背景下结合起来 深刻理解磁盘,内存层次,体系结构,操作系统 深刻理解分布式算法设计,数据结构 排序算法 (Penny sort ,图灵奖得主 Jim Gray 发起 ) 压缩算法 搜索算法 深刻理解分析业务,解决问题的思路和方法 查找 100 亿网页中, PV 最高的前 10 个。 能够对工作中的问题给出解释,编写高效率代码 举个 memset 的例子
MDP 在高校教学中的现状 国内的情况 北大, http://net.pku.edu.cn/~course/cs402/ 清华, http://net.pku.edu.cn/~course/cs402/resource/ mdp_tsinghua/index.htm 国外的情况 麻省理工不定期课程,关于 Map reduce http://mr.iap.2008.googlepages.com/home 斯坦福大学 http://www.stanford.edu/class/cs245/ 权威教材 Garcia-Molina, Ullman, Widom; "DATABASE SYSTEMS, THE COMPLETE BOOK"  Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006.
设想中的一些工作 将目前的一些经验和理论进行整理 个性化推荐工作,新闻搜索,商业日志挖掘 水木社区上写了一些连载     http://www.newsmth.net/bbscon.php?bid=715&id=14649     http://www.newsmth.net/bbscon.php?bid=715&id=14744     http://www.newsmth.net/bbscon.php?bid=715&id=14865 阅读一些感兴趣的论文,做一些感兴趣的实验 开展一些传播工作 推广搜索引擎相关技术 推广大规模数据处理技术,为大学阶段教学提供实践课程 为企业提供一些技术咨询工作 建立私立实验室 它是技术乐园,玩转技术 它是牛人牧场,畅谈技术

大规模数据处理的那些事儿

  • 1.
  • 2.
    内容概要 Mass DataProcessing 什么是 Mass Data Processing MDP 的应用场合 为什么要学习 MDP MDP 在高校教学中的现状 设想中的一些工作 将目前的一些经验和理论进行整理 能够开展一些传播工作 建立私立实验室 Q & A
  • 3.
    什么是 Mass DataProcessing 在受限的机器 , 网络资源的情况下, 通过软件和硬件共同完成的 G 以上级别的 数据计算和存储。 --penny liang 索引的网页有数 10 亿条 中国的网民有 1 亿,平均每天访问 10 个网页。 电子商务、金融机构、通讯话单,这些数量更大。
  • 4.
    MDP 的应用场合 搜索引擎索引数 10 亿网页,能够提供高效检索服务 google , baidu 数据挖掘 日志挖掘 商务智能 (cognos(IBM),share point(MS)) 云计算,云存储,云安全 map reduce, hadoop ……
  • 5.
    为什么要学习 MDP 能够将大学本科阶段各个科目,在这个实践背景下结合起来深刻理解磁盘,内存层次,体系结构,操作系统 深刻理解分布式算法设计,数据结构 排序算法 (Penny sort ,图灵奖得主 Jim Gray 发起 ) 压缩算法 搜索算法 深刻理解分析业务,解决问题的思路和方法 查找 100 亿网页中, PV 最高的前 10 个。 能够对工作中的问题给出解释,编写高效率代码 举个 memset 的例子
  • 6.
    MDP 在高校教学中的现状 国内的情况北大, http://net.pku.edu.cn/~course/cs402/ 清华, http://net.pku.edu.cn/~course/cs402/resource/ mdp_tsinghua/index.htm 国外的情况 麻省理工不定期课程,关于 Map reduce http://mr.iap.2008.googlepages.com/home 斯坦福大学 http://www.stanford.edu/class/cs245/ 权威教材 Garcia-Molina, Ullman, Widom; "DATABASE SYSTEMS, THE COMPLETE BOOK" Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006.
  • 7.
    设想中的一些工作 将目前的一些经验和理论进行整理 个性化推荐工作,新闻搜索,商业日志挖掘水木社区上写了一些连载    http://www.newsmth.net/bbscon.php?bid=715&id=14649    http://www.newsmth.net/bbscon.php?bid=715&id=14744    http://www.newsmth.net/bbscon.php?bid=715&id=14865 阅读一些感兴趣的论文,做一些感兴趣的实验 开展一些传播工作 推广搜索引擎相关技术 推广大规模数据处理技术,为大学阶段教学提供实践课程 为企业提供一些技术咨询工作 建立私立实验室 它是技术乐园,玩转技术 它是牛人牧场,畅谈技术