用互相关联的数据创建超级数据库
Upcoming SlideShare
Loading in...5
×
 

用互相关联的数据创建超级数据库

on

  • 2,187 views

Stephen Wang http://stephenwang.com

Stephen Wang http://stephenwang.com
mongoDB 北京陈述(2011.03.03):介绍alive.cn,一个全球中-英娱乐数据库。从烂番茄网到alivenotdead到alive.cn

Statistics

Views

Total Views
2,187
Views on SlideShare
1,859
Embed Views
328

Actions

Likes
2
Downloads
35
Comments
0

4 Embeds 328

http://stephenwang.com 322
http://webcache.googleusercontent.com 3
http://translate.baiducontent.com 2
http://perevod.yandex.net 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    用互相关联的数据创建超级数据库 用互相关联的数据创建超级数据库 Presentation Transcript

    • 用互相关联的数据创建超级数据库Building a super database from linked data Stephen Wang 王傳仁 me@stephenwang.com March 3, 2011
    • 谁不适合听这个演讲? 谁适合听这个演讲? 一个小的团队想要创建一个大的数据库 想要组织全世界的信息 想要进行信息方面的创新
    • 关于 烂番茄网联合创始人 , CTO 流行的电影评论网站 整合的影评,系统全面的影 片数据库
    • The Stone Age 石器时代 静态的 HTML 模板 编辑阅读大量的文章之 后引用他人的评论 只囊括了最新的影片 大约只有 1000 部影片
    • Modern Times 现代时光  转移到了 LAMP 上  购买 long-tail 数据库的数 据  自动化的爬虫、以评论的 形式收集用户产生的数据(How I felt maintaining Rotten  使用自建的内容管理系统Tomatoes overloaded database servers) (CMS) 来管理其他内容
    • v结局 每月八百万独立访问者 Lean startup: 25x traffic with 7 staff 电影爱好者非常喜爱的网站(包括史蒂夫乔布斯)
    • 关于 联合创始人 , CTO 一个始于吴彦祖的专属 于艺人的社交网络 从最开始的 6 个艺人, 发展到现在的 1600 个 艺人和 60 万注册用户 同时支持着李连杰、成 龙、莫文蔚等艺人的官 方网站 JackieChan.com JetLi.com KarenMok.com
    • 我们的 LAMP 架构并不适合 ... Newsfeeds... 病毒式传播分析 Viral loop analysis... 多变量测试 Multivariate testing... 存在的问题 ?!? 处理大量实时数据时性能受限,而且损失了许多 long-tail 内容带来的流量
    • 关于 一个更好的娱乐数 据库 提供 long-tail 内容 仍然处在 alpha 阶 段,是 alive not dead 的一部分
    • 功能 综合全面的艺人、电 影、音乐、电视节目数 据库 结构化数据、可搜索 多语言:目前支持英 语,中文和日语 整合国内外的社会化媒 体数据(如微博和 Facebook 等)
    • 为什么要使用 mongoDB? Flexible schema for different data sources对于多个不同的数据源可以使用灵活的数据模式 Dozens of other sources 其他一些数据源
    • 为什么要使用 Big Data: 处理大量数据时有良好的伸缩性 目前支持了 200 多万个主题  50 多万个翻译的主题 2 million topics covered  500K+ translations 下一个挑战 : 整合并储存社会化媒 体的海量数据 Aggregating and storing the social media firehose
    • 为什么要使用超越边界 Crossing the Border... Alivenotdead.com  alive.tom.com 在天津 在香港 使用重复的数据集来保持数据在墙内外的一致性 Use replica sets/eventual consistency to overcome frequent cross-border network issues
    • 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  多个采用 CC 的数据源  清晰地分类  现被 Google 收购  还没有中文和日文数据!
    • 使用互相关联的开放数据 Using Linked Open Data Wikipedia 是结构化的数据 Creative Commons 数据  采用 Wikipedia 作为唯一的 数据源  不清楚的分类  对某些已经存在英文数据的 主题有中文和日文的翻译
    • 使用互相关联的开放数据 Using Linked Open Data 使用 Freebase 的数据分类来扩展数据 利用 DBpedia 中的中文数据 采用同样的方法来收集国内的中文数据资源
    • 未来 The Future  开放 API  自动主题提取  多语言的实时趋 势分析  其他细分领域数据量已经是 Rotten Tomatoes 的十倍 ... 是整个互联网数据的大集合 ... 信息不再受语言的限制 ...
    • 我们在招聘 PHP 工程师,如果你有兴趣,把你 的简历发送到 me@stephenwang.com 我的博客地址 : http://stephenwang.com