大规模数据处理的那些事儿

1,533 views

Published on

Published in: Technology, Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,533
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
10
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

大规模数据处理的那些事儿

  1. 1. 大规模数据处理的那些事 梁斌 [email_address]
  2. 2. 内容概要 <ul><li>Mass Data Processing </li></ul><ul><ul><li>什么是 Mass Data Processing </li></ul></ul><ul><ul><li>MDP 的应用场合 </li></ul></ul><ul><ul><li>为什么要学习 MDP </li></ul></ul><ul><ul><li>MDP 在高校教学中的现状 </li></ul></ul><ul><li>设想中的一些工作 </li></ul><ul><ul><li>将目前的一些经验和理论进行整理 </li></ul></ul><ul><ul><li>能够开展一些传播工作 </li></ul></ul><ul><ul><li>建立私立实验室 </li></ul></ul><ul><li>Q & A </li></ul>
  3. 3. 什么是 Mass Data Processing 在受限的机器 , 网络资源的情况下, 通过软件和硬件共同完成的 G 以上级别的 数据计算和存储。 --penny liang <ul><li>索引的网页有数 10 亿条 </li></ul><ul><li>中国的网民有 1 亿,平均每天访问 10 个网页。 </li></ul><ul><li>电子商务、金融机构、通讯话单,这些数量更大。 </li></ul>
  4. 4. MDP 的应用场合 <ul><li>搜索引擎 </li></ul><ul><ul><li>索引数 10 亿网页,能够提供高效检索服务 </li></ul></ul><ul><ul><li>google , baidu </li></ul></ul><ul><li>数据挖掘 </li></ul><ul><ul><li>日志挖掘 </li></ul></ul><ul><ul><li>商务智能 (cognos(IBM),share point(MS)) </li></ul></ul><ul><li>云计算,云存储,云安全 </li></ul><ul><ul><li>map reduce, hadoop </li></ul></ul><ul><li>…… </li></ul>
  5. 5. 为什么要学习 MDP <ul><li>能够将大学本科阶段各个科目,在这个实践背景下结合起来 </li></ul><ul><ul><li>深刻理解磁盘,内存层次,体系结构,操作系统 </li></ul></ul><ul><ul><li>深刻理解分布式算法设计,数据结构 </li></ul></ul><ul><ul><ul><li>排序算法 (Penny sort ,图灵奖得主 Jim Gray 发起 ) </li></ul></ul></ul><ul><ul><ul><li>压缩算法 </li></ul></ul></ul><ul><ul><ul><li>搜索算法 </li></ul></ul></ul><ul><li>深刻理解分析业务,解决问题的思路和方法 </li></ul><ul><ul><ul><li>查找 100 亿网页中, PV 最高的前 10 个。 </li></ul></ul></ul><ul><li>能够对工作中的问题给出解释,编写高效率代码 </li></ul><ul><ul><li>举个 memset 的例子 </li></ul></ul>
  6. 6. MDP 在高校教学中的现状 <ul><li>国内的情况 </li></ul><ul><ul><li>北大, http://net.pku.edu.cn/~course/cs402/ </li></ul></ul><ul><ul><li>清华, http://net.pku.edu.cn/~course/cs402/resource/ </li></ul></ul><ul><ul><li>mdp_tsinghua/index.htm </li></ul></ul><ul><li>国外的情况 </li></ul><ul><ul><li>麻省理工不定期课程,关于 Map reduce </li></ul></ul><ul><ul><li>http://mr.iap.2008.googlepages.com/home </li></ul></ul><ul><ul><li>斯坦福大学 </li></ul></ul><ul><ul><li>http://www.stanford.edu/class/cs245/ </li></ul></ul><ul><li>权威教材 </li></ul><ul><ul><li>Garcia-Molina, Ullman, Widom; &quot;DATABASE SYSTEMS, THE COMPLETE BOOK&quot; </li></ul></ul><ul><ul><li>Tanenbaum, Maarten ven Steen, Distributed Systems: Principles and </li></ul></ul><ul><ul><li>Paradigms, 2/e, by Andrew S. Prentice-Hall, 2006. </li></ul></ul>
  7. 7. 设想中的一些工作 <ul><li>将目前的一些经验和理论进行整理 </li></ul><ul><ul><li>个性化推荐工作,新闻搜索,商业日志挖掘 </li></ul></ul><ul><ul><li>水木社区上写了一些连载 </li></ul></ul><ul><ul><ul><li>   http://www.newsmth.net/bbscon.php?bid=715&id=14649 </li></ul></ul></ul><ul><ul><ul><li>   http://www.newsmth.net/bbscon.php?bid=715&id=14744 </li></ul></ul></ul><ul><ul><ul><li>   http://www.newsmth.net/bbscon.php?bid=715&id=14865 </li></ul></ul></ul><ul><ul><li>阅读一些感兴趣的论文,做一些感兴趣的实验 </li></ul></ul><ul><li>开展一些传播工作 </li></ul><ul><ul><li>推广搜索引擎相关技术 </li></ul></ul><ul><ul><li>推广大规模数据处理技术,为大学阶段教学提供实践课程 </li></ul></ul><ul><ul><li>为企业提供一些技术咨询工作 </li></ul></ul><ul><li>建立私立实验室 </li></ul><ul><ul><li>它是技术乐园,玩转技术 </li></ul></ul><ul><ul><li>它是牛人牧场,畅谈技术 </li></ul></ul>

×