肖永红:科研数据应用和共享方面的实践

  • 867 views
Uploaded on

BDTC 2013 Beijing China

BDTC 2013 Beijing China

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
867
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 服务创新推动科研领域 大数据应用 肖永红 数据堂(北京)科技有限公司
  • 2. 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 3. 海量视频、图片、文本、语音及社会关系数据涌现
  • 4. Internet of Things 物联网 工作娱乐 智能家居 智能医疗 智能交通 机动车辆 智能办公 万“物”皆数据 铁路运输 物流配送 农业种植 工业生产
  • 5. 传统行业的厚积薄发
  • 6. 云计算与大数据:相见恨晚
  • 7. 每个人都是大数据的“生产者”
  • 8. 80%的数据属于非结构化数据 超过
  • 9. 大数据的本质是什么?
  • 10. 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 11. 信息时代 -> 数据“小”时代
  • 12. 数据成为生产要素
  • 13. 数据的资产/价值属性 大数据不同于一般物质性资源,它的价值不会随着使用 次数增多而减少,数据可以被不断的整合和处理,不断 的被发现新的价值。
  • 14. 数据公开 -> 数据开放 -> 数据互联
  • 15. 数据服务-DaaS 与数据相关的仸何服务都能够发生在一个集中化的位 置,如聚合、数据质量管理、数据清洗等,然后再将数 据提供给不同的系统和用户,而无需再考虑这些数据来 自于哪些数据源。
  • 16. 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 17. 科学研究第四范式 Thousand years ago Experimental Science Last few hundred years Theoretical Science Last few decades Computational Science Today Data-Intensive Science
  • 18. 一个关于Siri的敀事...
  • 19. 典垄应用:语音识别的逆袭 语音助手 语音客服 语音车载 智能家电 ......
  • 20. 典垄应用:图像/视频处理技术
  • 21. 典垄应用:语义搜索,机器翻译,智能客服
  • 22. 大数据改变机器学习 新样本 传统方法 特征表示 模垄 结果 Yes/No 训练样本(小数据) 新样本 大数据方法 结果 Yes/No 已知样本(大数据)
  • 23. 数据越多越好! Peter Noevig  用来训练人工智能模垄的数据越多,模垄的准确度会越高。
  • 24. 挑战:数据极大丰富or匮乏 ?
  • 25. Web Data Social Network Data E-Commerce Data
  • 26. “有些部门把一些数据当成自己 的,放那里既不使用,也不提供 给研究者。大数据需要共享,数 据开放,平台利用,这是我国大 数据研究的软肋和需要解决的大 问题。” ---李国杰
  • 27. 挑战:如何驯服非结构化数据 语音 图像 视频 文本
  • 28. 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 29. 国外科研数据共享:政府及科研 日本产业技术综合研 究院的RIO-DB 英国政府公开数据 国际科技数据委员会
  • 30. 国外科研数据共享:企业界
  • 31. 国内科研数据共享:政府及科研
  • 32. 数据堂科研数据共享服务
  • 33. 数据堂科研数据共享服务 数据集个数 数据量 43586组 分布在信息服务、交通科 135Tb 用于业务服务、产品研发、 学、材料科学、生命医药等领域。 实验教学的大、中、小数据。 用户数 166万 分布在信息服务、材料科 学、生命医药、交通科学等多个领 域。 公益效应 数据被科研领域用户免费下载 602万次 到数据堂共享数据的机构 100家 (清华,北大,搜狗,中科院,浙大…)
  • 34. 科研机构数据丏区
  • 35. 让聪明的人去“用”数据 35
  • 36. 科研数据云服务 客 户 科研人员 科研团队 科研机构 Research Dataset 微软AZURE
  • 37. 1 大数据的起源及特点 2 大数据时代下新思维 3 科研领域大数据应用及挑战 4 科研数据共享服务实践 5 科研数据采集处理服务实践
  • 38. 产 品 研 发 应 用 数 据 处 理 过 程  多媒体处理  生物信息处理 – 人脸识别、指纹识别 – 视频跟踪 – 声音识别  自然语言处理 – 机器翻译 – 信息检索(google) – 中文输入法 –基因挖掘 –大分子功能预测 –基因调控关系  网络安全 –垃圾邮件过滤 –敏感图片识别 –病毒检测 输入 数 据 采 集 预 处 理 非结构 化数据 特 征 提 取 分 类 器 分类结果
  • 39. 采集:基于互联网络的定向采集、特定设备及特定情境下的定制采集;采集内 容包括人脸图片、文字图片、车辆图片、行人视频、车辆视频等多种类垄; 标注:全方位的图像标注,包括人脸识别标注、人体动作标注、车牌识别标注 等;标注的图片数量可达到数十万到百万级别。 应用:人脸识别、车牌识别、视频安全检测、智能交互 科研相关:图像处理、视频处理、模式识别
  • 40. 采集:不同语言的语音库建设;不同发音人的语音库建设:不同场景下的语音 库录制:不同内容的语音库建设: 标注:语音文本内容标注、发音人性别标注、发音人口音标注、语音信号标注 应用:语音导航、语音助手、语音搜索、语音合成 科研相关:语音处理、信息检索
  • 41. 采集:客户指定网站的定向采集和分析 客户指定主题的非定向采集和分析 为高中端企业提供丏业的数据采集服务(采集延迟小于2分钟) 应用:垂直搜索引擎、数据挖掘、 科研相关:信息检索、机器翻译、电子商务
  • 42. 大众力量,采集分散的高价值数据
  • 43. 大数据应用基础:数据可用、可信
  • 44. 数据共享:让梦想照进现实 • 云计算技术提供基础 • 商业应用驱动数据共享 • 科研新范式推动数据共享 • 用户共享理念日益开放 数据服务:以互联网的思维 • 科研数据/社会数据/商业数据界限模糊化 • 给用户“简单”的数据服务 • 用户是大数据的生产者 • 开放互联的数据服务