用互相关联的数据创建超级数据库
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

用互相关联的数据创建超级数据库

  • 2,538 views
Uploaded on

Stephen Wang http://stephenwang.com ...

Stephen Wang http://stephenwang.com
mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

More in: Education , Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
2,538
On Slideshare
2,199
From Embeds
339
Number of Embeds
4

Actions

Shares
Downloads
35
Comments
0
Likes
2

Embeds 339

http://stephenwang.com 333
http://webcache.googleusercontent.com 3
http://translate.baiducontent.com 2
http://perevod.yandex.net 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 用互相关联的数据创建超级数据库Building a super database from linked data Stephen Wang 王傳仁 me@stephenwang.com March 3, 2011
  • 2. 谁不适合听这个演讲? 谁适合听这个演讲? 一个小的团队想要创建一个大的数据库 想要组织全世界的信息 想要进行信息方面的创新
  • 3. 关于 烂番茄网联合创始人 , CTO 流行的电影评论网站 整合的影评,系统全面的影 片数据库
  • 4. The Stone Age 石器时代 静态的 HTML 模板 编辑阅读大量的文章之 后引用他人的评论 只囊括了最新的影片 大约只有 1000 部影片
  • 5. Modern Times 现代时光  转移到了 LAMP 上  购买 long-tail 数据库的数 据  自动化的爬虫、以评论的 形式收集用户产生的数据(How I felt maintaining Rotten  使用自建的内容管理系统Tomatoes overloaded database servers) (CMS) 来管理其他内容
  • 6. v结局 每月八百万独立访问者 Lean startup: 25x traffic with 7 staff 电影爱好者非常喜爱的网站(包括史蒂夫乔布斯)
  • 7. 关于 联合创始人 , CTO 一个始于吴彦祖的专属 于艺人的社交网络 从最开始的 6 个艺人, 发展到现在的 1600 个 艺人和 60 万注册用户 同时支持着李连杰、成 龙、莫文蔚等艺人的官 方网站 JackieChan.com JetLi.com KarenMok.com
  • 8. 我们的 LAMP 架构并不适合 ... Newsfeeds... 病毒式传播分析 Viral loop analysis... 多变量测试 Multivariate testing... 存在的问题 ?!? 处理大量实时数据时性能受限,而且损失了许多 long-tail 内容带来的流量
  • 9. 关于 一个更好的娱乐数 据库 提供 long-tail 内容 仍然处在 alpha 阶 段,是 alive not dead 的一部分
  • 10. 功能 综合全面的艺人、电 影、音乐、电视节目数 据库 结构化数据、可搜索 多语言:目前支持英 语,中文和日语 整合国内外的社会化媒 体数据(如微博和 Facebook 等)
  • 11. 为什么要使用 mongoDB? Flexible schema for different data sources对于多个不同的数据源可以使用灵活的数据模式 Dozens of other sources 其他一些数据源
  • 12. 为什么要使用 Big Data: 处理大量数据时有良好的伸缩性 目前支持了 200 多万个主题  50 多万个翻译的主题 2 million topics covered  500K+ translations 下一个挑战 : 整合并储存社会化媒 体的海量数据 Aggregating and storing the social media firehose
  • 13. 为什么要使用超越边界 Crossing the Border... Alivenotdead.com  alive.tom.com 在天津 在香港 使用重复的数据集来保持数据在墙内外的一致性 Use replica sets/eventual consistency to overcome frequent cross-border network issues
  • 14. 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  多个采用 CC 的数据源  清晰地分类  现被 Google 收购  还没有中文和日文数据!
  • 15. 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  采用 Wikipedia 作为唯一的 数据源  不清楚的分类  对某些已经存在英文数据的 主题有中文和日文的翻译
  • 16. 使用互相关联的开放数据 Using Linked Open Data 使用 Freebase 的数据分类来扩展数据 利用 DBpedia 中的中文数据 采用同样的方法来收集国内的中文数据资源
  • 17. 未来 The Future  开放 API  自动主题提取  多语言的实时趋 势分析  其他细分领域数据量已经是 Rotten Tomatoes 的十倍 ... 是整个互联网数据的大集合 ... 信息不再受语言的限制 ...
  • 18. 我们在招聘 PHP 工程师,如果你有兴趣,把你 的简历发送到 me@stephenwang.com 我的博客地址 : http://stephenwang.com