Silf2012lw3

3,586 views

Published on

Big Data: From the Library of Books to the Library of Data

Published in: Technology, Education, Business

Silf2012lw3

  1. 1. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com12年7月18日星期三 1
  2. 2. There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing. 从开天辟地至2003年,人类大约总共生产了5 exabytes的信息。现在我们每两天就制造这么多信 息。 ----Eric Schmidt, Former Google CEO, Techonomy Conference, August 4, 201012年7月18日星期三 2
  3. 3. Data is becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?” 数据正在成为一种新的原材料,与资本和劳动力几 乎同等重要。每天清晨我一醒来就会问自己:我能 如何使数据运行得更顺畅、管理得更有效、分析得 更透彻? --Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The Economist, February 25, 201012年7月18日星期三 3
  4. 4. 大纲 Outline 大数据概念 What is Big Data? 大数据的缘起 Where it comes from? 大数据为什么重要 Why Big Data? 大数据实例 Two Case Studies 大数据与数字图书馆 Big Data and Digital Librarianship 大数据时代图书馆员的角色 Library role to Tame the Big Data12年7月18日星期三 4
  5. 5. 什么是大数据 What is BD? 数量庞大 Volume 当每个人都拥有不止⼀一台电脑,每 个手机都是⼀一台传感器;当摄像头 无所不在,每件东西都有⼀一个RFID 变化迅速 Velocity 标签;当每个人的每个活动、甚至 每个心情都记载于社会性网络,而 互联网把所有这⼀一切都连结在⼀一起 类型众多 Variety 的时候,每时每刻产生的信息可能 是⼀一个巨大的矿藏。它不仅勾画出 现实世界正在发生的图景,而且蕴 价值巨大 Value 藏着惊人的秘密。这是在过去的岁 月中采取任何方式都无法获知的。 From IBM12年7月18日星期三 5
  6. 6. 泥板文书 Cuneiform12年7月18日星期三 6
  7. 7. 大数据来自何处 Where BD comes from? Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups) Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(12年7月18日星期三 7
  8. 8. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/12年7月18日星期三 8
  9. 9. 大数据有多大? Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge- infographic/ctlinfographic/12年7月18日星期三 9
  10. 10. Yottabyte Zettabyte Exabyte Petabyte 兆、京(吉)、太、拍、艾、泽、尧字节12年7月18日星期三 10
  11. 11. 大数据来自何处 Where BD comes from? 科学计算 The large data collections of “big science” projects 网络应用 The data holdings of a Google, Facebook or other large Web company (Taobao, Twitter) 企业数据 The enterprise data of large, non- Web-based companies (IBM, TATA, etc.) From Jim Hendler12年7月18日星期三 11
  12. 12. 清醒认识大数据 Why BD? 多大才大 How BIG is big? 大意味着什么 What BIG means? 为什么要大数据 Why BIG so attractive? 谁来驯服大数据 Who deal with BIG Data?12年7月18日星期三 12
  13. 13. 大数据特点 New Characteristics 结构化程度不高 NoSQL, weak structural 向第三方应用开放 Third party application and extension (open for mashup) 向语义化方向发展 Semantics (e.g.. schema.org, RDF) From Jim Hendler12年7月18日星期三 13
  14. 14. 大数据是一项颠覆性技术,继信息高速公路、数 字图书馆、赛百基础设施之后的新热点,一脉相 承。Tame the Web到Tame the Big Data 大数据研究有助于释放复杂数据中的智能。 大数据的价值并不在于能帮我们做出神奇的事 情,而是成为我们日常社会生活的基础设施。 对于图书馆而言,大数据是Data Preservation和 Data Curation的自然延伸12年7月18日星期三 14
  15. 15. 对大数据的需求 New Requirements 全网搜索 (Web-scale) data search 众包建模 “Crowd-sourced” modeling 快速虚拟整合 Rapid (and potentially ad hoc) integration of datasets 可视化及局域建模分析Visualization and analysis of only-partially modeled datasets 数据开放、复用及联结政策,Policies for data use, reuse and combination. From Jim Hendler12年7月18日星期三 15
  16. 16. 大数据解决方案示意 Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png12年7月18日星期三 16
  17. 17. 举例:两个领域 Two Case Studies 数据驱动型研究(数据密集型科 学)Data Driven Research (Data Intensive Science) 开放政府(信息公开服务)Open Government (Information Services)12年7月18日星期三 17
  18. 18. 数据驱动型研究 Data Driven Research 假设驱动型研究 逐渐涌现: 数据驱动 模拟 预测驱动 自动试验 虚拟团队研究 等等新型研究模式 From:  Carole  Goble  “the  Future  of  Research”12年7月18日星期三 18
  19. 19. 科学研究的第四范式 The Fourth Paradigm 1.上千年前:经验描述 2.数百年前:理论总结 3.几十年前:现象模拟 4.当前:eScience,融 合经验总结、理论与 模拟;数据由仪器采 集或模拟得到;经云 端或众包处理;由数 据科学家和计算机专 家参与管理并可视 化,最终交科学家分 析总结。12年7月18日星期三 19
  20. 20. 科学的摸样 The Map of Science From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP712年7月18日星期三 20
  21. 21. 政府信息公开 Government Data Sharing: “Year 1” Open-Gov Tetherless World Constellation data.gov online Open Government data.gov relaunch January 1, 2009 December 8, 2009 Openness will strengthen May 21, 2010 May 21, 2009 our democracy and promote Directive released with semantic web 57 Data Sets ~2000 Data Sets featured efficiency and effectiveness in Government. >305,000 Data Sets --- President Obama 2009 2010 … January 19, 2010 June30,2009 Putting Govt Data ~6000 Data Set online- Data.gov.uk beta data.gov.uk online From Jim Hendler12年7月18日星期三 21
  22. 22. 政府信息公开 Government Data Sharing: Year 2 Open-Gov Tetherless World Constellation From Jim Hendler12年7月18日星期三 22
  23. 23. 政府信息公开 Government Data in the linked open data cloud Open-Gov Tetherless World Constellation Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) http://linkeddata.org/ From Jim Hendler12年7月18日星期三 23
  24. 24. 政府信息公开 Open-Gov Tetherless World Constellation From Jim Hendler12年7月18日星期三 24
  25. 25. 政府信息公开 Linking GDP of the US and China Open-Gov Tetherless World Constellation GDP of the US (Billion Dollar) This mashup was built in less than 4 hours – including conversion of data, web interface, and visualization! GDP of China (Billion Chinese Yuan ) [Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn From Jim Hendler12年7月18日星期三 25
  26. 26. 大数据与图书馆 Big Data enabled Library Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/12年7月18日星期三 26
  27. 27. 大数据与图书馆 Big Data enabled Library Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html12年7月18日星期三 27
  28. 28. 大数据与图书馆 Big Data enabled Library Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a- series-of-big-data-reports/12年7月18日星期三 28
  29. 29. 大数据对图书馆为什么重要? Why Library’s matter? 数据保存 Data Preservation 数据看护 Data Curation 大数据公共服务 Public Big Data Services 大数据是图书馆信息服务和资源发现必须面 临的问题,是图书馆资源发现克服目前技术 和模式的局限性,获得突破创新的关键。12年7月18日星期三 29
  30. 30. 目前的图书馆“大数据”服务 Current Library BD Services 数字图书馆 Digital Library 机构库 Institutional Repository 资源到所,服务到人,嵌入一线,融入过程。 Ubiquitous Services 决策咨询服务 Think Tank Consultancy12年7月18日星期三 30
  31. 31. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) From:  Carole  Goble  “the  Future  of  Research”12年7月18日星期三 31
  32. 32. 图书馆的大数据业务 Library Powered BD Services Search/Discover) Serendipitous)Finding) Integrated)search) Collabora&ve)Searching) Automa&c)paper)download) Con&nual)queries) Structural)Search) Paper)recommenda&on) Keeping)Current) Alert) ) Gather) Collec&ng) Project))and)Personal)) Internal)search) Manage) Refereed)and)Grey)literature) Organizing) ) Create) Annota&ng) Tag,)annotate,)rate)) Review)&)Rate) Templates) Describe) Mul&Lauthor)authoring) Write) Share) Bibliography)management) Publish) Version)management) Sharing) Copyright)tools)(CC)and)SC)) Rights) Linking)up)data,)models)and)other) components) 最重要的:数据的有序组织和规范控制 From:  Carole  Goble  “the  Future  of  Research”12年7月18日星期三 31
  33. 33. 大数据时代图书馆员角色 BD Librarian 可信的看护者 格式监管 Trusted curator Format authority 可信的管理员 内容增值Add value Trusted data manager content provider 质量审核 元数据/词表提供 Quality arbiter Metadata / controlled vocabulary provider 知识播种机 Knowledge 服务增值Add value disseminator service provider From:  Carole  Goble  “the  Future  of  Research”12年7月18日星期三 32
  34. 34. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”12年7月18日星期三 33
  35. 35. 新岗位,新称号 New Position with New Requirements From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”12年7月18日星期三 34
  36. 36. 可视化:Twitter数据流 Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/12年7月18日星期三 35
  37. 37. DEMO 演示:大数据可视化12年7月18日星期三 36
  38. 38. 12年7月18日星期三 37
  39. 39. 大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com12年7月18日星期三 38

×