肖永红:科研数据应用和共享方面的实践
Upcoming SlideShare
Loading in...5
×
 

肖永红:科研数据应用和共享方面的实践

on

  • 832 views

BDTC 2013 Beijing China

BDTC 2013 Beijing China

Statistics

Views

Total Views
832
Views on SlideShare
832
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

肖永红:科研数据应用和共享方面的实践 肖永红:科研数据应用和共享方面的实践 Presentation Transcript

  • 服务创新推动科研领域 大数据应用 肖永红 数据堂(北京)科技有限公司
  • 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 海量视频、图片、文本、语音及社会关系数据涌现
  • Internet of Things 物联网 工作娱乐 智能家居 智能医疗 智能交通 机动车辆 智能办公 万“物”皆数据 铁路运输 物流配送 农业种植 工业生产
  • 传统行业的厚积薄发
  • 云计算与大数据:相见恨晚
  • 每个人都是大数据的“生产者”
  • 80%的数据属于非结构化数据 超过
  • 大数据的本质是什么?
  • 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 信息时代 -> 数据“小”时代
  • 数据成为生产要素
  • 数据的资产/价值属性 大数据不同于一般物质性资源,它的价值不会随着使用 次数增多而减少,数据可以被不断的整合和处理,不断 的被发现新的价值。
  • 数据公开 -> 数据开放 -> 数据互联
  • 数据服务-DaaS 与数据相关的仸何服务都能够发生在一个集中化的位 置,如聚合、数据质量管理、数据清洗等,然后再将数 据提供给不同的系统和用户,而无需再考虑这些数据来 自于哪些数据源。
  • 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 科学研究第四范式 Thousand years ago Experimental Science Last few hundred years Theoretical Science Last few decades Computational Science Today Data-Intensive Science
  • 一个关于Siri的敀事...
  • 典垄应用:语音识别的逆袭 语音助手 语音客服 语音车载 智能家电 ......
  • 典垄应用:图像/视频处理技术
  • 典垄应用:语义搜索,机器翻译,智能客服
  • 大数据改变机器学习 新样本 传统方法 特征表示 模垄 结果 Yes/No 训练样本(小数据) 新样本 大数据方法 结果 Yes/No 已知样本(大数据)
  • 数据越多越好! Peter Noevig  用来训练人工智能模垄的数据越多,模垄的准确度会越高。
  • 挑战:数据极大丰富or匮乏 ?
  • Web Data Social Network Data E-Commerce Data
  • “有些部门把一些数据当成自己 的,放那里既不使用,也不提供 给研究者。大数据需要共享,数 据开放,平台利用,这是我国大 数据研究的软肋和需要解决的大 问题。” ---李国杰
  • 挑战:如何驯服非结构化数据 语音 图像 视频 文本
  • 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 国外科研数据共享:政府及科研 日本产业技术综合研 究院的RIO-DB 英国政府公开数据 国际科技数据委员会
  • 国外科研数据共享:企业界
  • 国内科研数据共享:政府及科研
  • 数据堂科研数据共享服务
  • 数据堂科研数据共享服务 数据集个数 数据量 43586组 分布在信息服务、交通科 135Tb 用于业务服务、产品研发、 学、材料科学、生命医药等领域。 实验教学的大、中、小数据。 用户数 166万 分布在信息服务、材料科 学、生命医药、交通科学等多个领 域。 公益效应 数据被科研领域用户免费下载 602万次 到数据堂共享数据的机构 100家 (清华,北大,搜狗,中科院,浙大…)
  • 科研机构数据丏区
  • 让聪明的人去“用”数据 35
  • 科研数据云服务 客 户 科研人员 科研团队 科研机构 Research Dataset 微软AZURE
  • 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 产 品 研 发 应 用 数 据 处 理 过 程  多媒体处理  生物信息处理 – 人脸识别、指纹识别 – 视频跟踪 – 声音识别  自然语言处理 – 机器翻译 – 信息检索(google) – 中文输入法 –基因挖掘 –大分子功能预测 –基因调控关系  网络安全 –垃圾邮件过滤 –敏感图片识别 –病毒检测 输入 数 据 采 集 预 处 理 非结构 化数据 特 征 提 取 分 类 器 分类结果
  • 采集:基于互联网络的定向采集、特定设备及特定情境下的定制采集;采集内 容包括人脸图片、文字图片、车辆图片、行人视频、车辆视频等多种类垄; 标注:全方位的图像标注,包括人脸识别标注、人体动作标注、车牌识别标注 等;标注的图片数量可达到数十万到百万级别。 应用:人脸识别、车牌识别、视频安全检测、智能交互 科研相关:图像处理、视频处理、模式识别
  • 采集:不同语言的语音库建设;不同发音人的语音库建设:不同场景下的语音 库录制:不同内容的语音库建设: 标注:语音文本内容标注、发音人性别标注、发音人口音标注、语音信号标注 应用:语音导航、语音助手、语音搜索、语音合成 科研相关:语音处理、信息检索
  • 采集:客户指定网站的定向采集和分析 客户指定主题的非定向采集和分析 为高中端企业提供丏业的数据采集服务(采集延迟小于2分钟) 应用:垂直搜索引擎、数据挖掘、 科研相关:信息检索、机器翻译、电子商务
  • 大众力量,采集分散的高价值数据
  • 大数据应用基础:数据可用、可信
  • 数据共享:让梦想照进现实 • 云计算技术提供基础 • 商业应用驱动数据共享 • 科研新范式推动数据共享 • 用户共享理念日益开放 数据服务:以互联网的思维 • 科研数据/社会数据/商业数据界限模糊化 • 给用户“简单”的数据服务 • 用户是大数据的生产者 • 开放互联的数据服务