用互相关联的数据创建超级数据库

  • 2,312 views
Uploaded on

Stephen Wang http://stephenwang.com …

Stephen Wang http://stephenwang.com
mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

More in: Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,312
On Slideshare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
35
Comments
0
Likes
2

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 用互相关联的数据创建超级数据库Building a super database from linked data Stephen Wang 王傳仁 me@stephenwang.com March 3, 2011
  • 2. 谁不适合听这个演讲? 谁适合听这个演讲? 一个小的团队想要创建一个大的数据库 想要组织全世界的信息 想要进行信息方面的创新
  • 3. 关于 烂番茄网联合创始人 , CTO 流行的电影评论网站 整合的影评,系统全面的影 片数据库
  • 4. The Stone Age 石器时代 静态的 HTML 模板 编辑阅读大量的文章之 后引用他人的评论 只囊括了最新的影片 大约只有 1000 部影片
  • 5. Modern Times 现代时光  转移到了 LAMP 上  购买 long-tail 数据库的数 据  自动化的爬虫、以评论的 形式收集用户产生的数据(How I felt maintaining Rotten  使用自建的内容管理系统Tomatoes overloaded database servers) (CMS) 来管理其他内容
  • 6. v结局 每月八百万独立访问者 Lean startup: 25x traffic with 7 staff 电影爱好者非常喜爱的网站(包括史蒂夫乔布斯)
  • 7. 关于 联合创始人 , CTO 一个始于吴彦祖的专属 于艺人的社交网络 从最开始的 6 个艺人, 发展到现在的 1600 个 艺人和 60 万注册用户 同时支持着李连杰、成 龙、莫文蔚等艺人的官 方网站 JackieChan.com JetLi.com KarenMok.com
  • 8. 我们的 LAMP 架构并不适合 ... Newsfeeds... 病毒式传播分析 Viral loop analysis... 多变量测试 Multivariate testing... 存在的问题 ?!? 处理大量实时数据时性能受限,而且损失了许多 long-tail 内容带来的流量
  • 9. 关于 一个更好的娱乐数 据库 提供 long-tail 内容 仍然处在 alpha 阶 段,是 alive not dead 的一部分
  • 10. 功能 综合全面的艺人、电 影、音乐、电视节目数 据库 结构化数据、可搜索 多语言:目前支持英 语,中文和日语 整合国内外的社会化媒 体数据(如微博和 Facebook 等)
  • 11. 为什么要使用 mongoDB? Flexible schema for different data sources对于多个不同的数据源可以使用灵活的数据模式 Dozens of other sources 其他一些数据源
  • 12. 为什么要使用 Big Data: 处理大量数据时有良好的伸缩性 目前支持了 200 多万个主题  50 多万个翻译的主题 2 million topics covered  500K+ translations 下一个挑战 : 整合并储存社会化媒 体的海量数据 Aggregating and storing the social media firehose
  • 13. 为什么要使用超越边界 Crossing the Border... Alivenotdead.com  alive.tom.com 在天津 在香港 使用重复的数据集来保持数据在墙内外的一致性 Use replica sets/eventual consistency to overcome frequent cross-border network issues
  • 14. 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  多个采用 CC 的数据源  清晰地分类  现被 Google 收购  还没有中文和日文数据!
  • 15. 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  采用 Wikipedia 作为唯一的 数据源  不清楚的分类  对某些已经存在英文数据的 主题有中文和日文的翻译
  • 16. 使用互相关联的开放数据 Using Linked Open Data 使用 Freebase 的数据分类来扩展数据 利用 DBpedia 中的中文数据 采用同样的方法来收集国内的中文数据资源
  • 17. 未来 The Future  开放 API  自动主题提取  多语言的实时趋 势分析  其他细分领域数据量已经是 Rotten Tomatoes 的十倍 ... 是整个互联网数据的大集合 ... 信息不再受语言的限制 ...
  • 18. 我们在招聘 PHP 工程师,如果你有兴趣,把你 的简历发送到 me@stephenwang.com 我的博客地址 : http://stephenwang.com