Successfully reported this slideshow.
Your SlideShare is downloading. ×

用互相关联的数据创建超级数据库

Ad

用互相关联的数据创建超级数据库
Building a super database from linked data




                           Stephen Wang 王傳仁
               ...

Ad

谁不适合听这个演讲?




      谁适合听这个演讲?

    一个小的团队想要创建一个大的数据库

    想要组织全世界的信息

    想要进行信息方面的创新

Ad

关于

    烂番茄网联合创始人 , CTO

    流行的电影评论网站

    整合的影评,系统全面的影
    片数据库

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Upcoming SlideShare
Lwjilin1
Lwjilin1
Loading in …3
×

Check these out next

1 of 18 Ad
1 of 18 Ad

用互相关联的数据创建超级数据库

Download to read offline

Stephen Wang http://stephenwang.com
mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

Stephen Wang http://stephenwang.com
mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

More Related Content

用互相关联的数据创建超级数据库

  1. 1. 用互相关联的数据创建超级数据库 Building a super database from linked data Stephen Wang 王傳仁 me@stephenwang.com March 3, 2011
  2. 2. 谁不适合听这个演讲? 谁适合听这个演讲?  一个小的团队想要创建一个大的数据库  想要组织全世界的信息  想要进行信息方面的创新
  3. 3. 关于  烂番茄网联合创始人 , CTO  流行的电影评论网站  整合的影评,系统全面的影 片数据库
  4. 4. The Stone Age 石器时代  静态的 HTML 模板  编辑阅读大量的文章之 后引用他人的评论  只囊括了最新的影片  大约只有 1000 部影片
  5. 5. Modern Times 现代时光  转移到了 LAMP 上  购买 long-tail 数据库的数 据  自动化的爬虫、以评论的 形式收集用户产生的数据 (How I felt maintaining Rotten  使用自建的内容管理系统 Tomatoes' overloaded database servers) (CMS) 来管理其他内容
  6. 6. v 结局  每月八百万独立访问者  Lean startup: 25x traffic with 7 staff  电影爱好者非常喜爱的网站(包括史蒂夫乔布斯)
  7. 7. 关于  联合创始人 , CTO  一个始于吴彦祖的专属 于艺人的社交网络  从最开始的 6 个艺人, 发展到现在的 1600 个 艺人和 60 万注册用户  同时支持着李连杰、成 龙、莫文蔚等艺人的官 方网站 JackieChan.com JetLi.com KarenMok.com
  8. 8. 我们的 LAMP 架构并不适合 ... Newsfeeds... 病毒式传播分析 Viral loop analysis... 多变量测试 Multivariate testing... 存在的问题 ?!? 处理大量实时数据时性能受限, 而且损失了许多 long-tail 内容带来的流量
  9. 9. 关于  一个更好的娱乐数 据库  提供 long-tail 内容  仍然处在 alpha 阶 段,是 alive not dead 的一部分
  10. 10. 功能  综合全面的艺人、电 影、音乐、电视节目数 据库  结构化数据、可搜索  多语言:目前支持英 语,中文和日语  整合国内外的社会化媒 体数据(如微博和 Facebook 等)
  11. 11. 为什么要使用 mongoDB? Flexible schema for different data sources 对于多个不同的数据源可以使用灵活的数据模式 Dozens of other sources 其他一些数据源
  12. 12. 为什么要使用 Big Data: 处理大量数据时有良好的伸缩性  目前支持了 200 多万个主题  50 多万个翻译的主题  2 million topics covered  500K+ translations 下一个挑战 : 整合并储存社会化媒 体的海量数据 Aggregating and storing the social media firehose
  13. 13. 为什么要使用 超越边界 Crossing the Border...  Alivenotdead.com  alive.tom.com 在天津 在香港 使用重复的数据集来保持数据在墙内外的一致性 Use replica sets/eventual consistency to overcome frequent cross-border network issues
  14. 14. 使用互相关联的开放数据 Using Linked Open Data  Wikipedia 是结构化的数据  Creative Commons 数据  多个采用 CC 的数据源  清晰地分类  现被 Google 收购  还没有中文和日文数据!
  15. 15. 使用互相关联的开放数据 Using Linked Open Data  Wikipedia 是结构化的数据  Creative Commons 数据  采用 Wikipedia 作为唯一的 数据源  不清楚的分类  对某些已经存在英文数据的 主题有中文和日文的翻译
  16. 16. 使用互相关联的开放数据 Using Linked Open Data  使用 Freebase 的数据分类来扩展数据  利用 DBpedia 中的中文数据  采用同样的方法来收集国内的中文数据资源
  17. 17. 未来 The Future  开放 API  自动主题提取  多语言的实时趋 势分析  其他细分领域 数据量已经是 Rotten Tomatoes 的十倍 ... 是整个互联网数据的大集合 ... 信息不再受语言的限制 ...
  18. 18. 我们在招聘 PHP 工程师,如果你有兴趣,把你 的简历发送到 me@stephenwang.com 我的博客地址 : http://stephenwang.com

×