What we are now and what we will be

2,860 views

Published on

我们所处的环境和我们可能的未来

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,860
On SlideShare
0
From Embeds
0
Number of Embeds
224
Actions
Shares
0
Downloads
25
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide
  • What we are now and what we will be

    1. 1. 与《全国报刊索引》同仁座谈 刘炜 2008 年 8 月
    2. 2. <ul><li>引言 </li></ul><ul><li>大背景 </li></ul><ul><li>技术环境 </li></ul><ul><ul><li>整合搜索 </li></ul></ul><ul><ul><li>Web2.0 </li></ul></ul><ul><li>2.0时代的元数据服务 </li></ul><ul><li>策略建议:开放、免费、互动、混搭 </li></ul>
    3. 6. <ul><li>1955 书本式索引 </li></ul><ul><li>1995 索引数据库 </li></ul><ul><li>光盘版 </li></ul><ul><li>2003 网络版 </li></ul>
    4. 7. <ul><li>网站平台的建立 </li></ul><ul><li>资源覆盖率的不断提高 </li></ul><ul><li>服务的拓展,推出各类增值服务 </li></ul><ul><li>…… </li></ul><ul><li>下一步? </li></ul>
    5. 8. <ul><li>用户是谁? </li></ul><ul><li>定位在哪? </li></ul><ul><li>核心竞争力是什么? </li></ul><ul><li>与图书馆业务和书目数据什么关系? </li></ul><ul><li>如何可持续? </li></ul>
    6. 9. <ul><li>User1:  我们订了《索引》订的还很全,是你们《索引》的忠实用户 </li></ul><ul><li>me:  能说说你们为什么要订吗?有用户吗?用户用得多吗? </li></ul><ul><li>User1:  用的不是太多,主要是想 查的全 , 尤其是解放前 </li></ul><ul><li>对一些 社会科学 与 报纸 很有用 </li></ul><ul><li>me:  哦,明白了 </li></ul><ul><li>User1:  然后通过上图进行文献传递,当然上图的 价格有些贵 </li></ul><ul><li>me:  主要是解放前的资料 ? </li></ul><ul><li>User1:  你们的系统多少年才 改进检索平台 ,象社会主义的态度 </li></ul><ul><li>me:  对于解放前的资料,其他有没有检索途径? </li></ul><ul><li>User1:  我以前去上图开过你们的会,我还是讨论组的发言人呢。哈哈,那时很年轻,什么都敢说 </li></ul><ul><li>现在也许是国家图书馆?但 我相信《索引》还是最全的 </li></ul>
    7. 11. <ul><li>无处不在的信息:信息超载,眼球贫困 </li></ul><ul><li>无处不在的计算:手持设备 ipod/iphone/kindle </li></ul><ul><ul><li>无处不在的自助服务: ATM, Webstores, eGov, eBanking </li></ul></ul><ul><ul><li>微内容的分散与聚合 Ringtones, e-News, RSS readers, My Yahoo/MSN/etc… </li></ul></ul><ul><ul><li>开放运动:开放资源、开放内容与开放存取 </li></ul></ul>
    8. 12. <ul><li>2006 年全球每年制造、复制出的数字信息量共计 1610 亿 GB ,中国数字信息量为 127.1 亿 GB ,占全球信息量的 7.9% ; </li></ul><ul><li>受“富媒体”、用户创建内容和 16 亿网民三大因素推动,到 2010 年,全球数字信息量预计为 9880 亿 GB ,而中国的数字信息 量预计为 900.5 亿多 GB ,占全球信息量的 9.1% 。 </li></ul><ul><li>印度的数字信息量预计为 172 亿 GB ,韩国的数字信息量预计为 157 亿 GB ,日本的数字信息量预计为 520 亿 GB 。 </li></ul>
    9. 13. <ul><li>音乐作品 ( 莫扎特 ) :约 100MB </li></ul><ul><li>报纸 ( 华尔街杂志 ) : 100MB/ 年 ( 文本 ) </li></ul><ul><li>卡片目录 ( 美国国会图书馆 ) : 17GB </li></ul><ul><li>广播 (WABC) : 270GB/ 年 ( 未经压缩 ) </li></ul><ul><li>网络论坛 (Netnews) : 300GB/ 年 </li></ul><ul><li>地区图书馆 ( 加州大学图书馆 ) : 1.4TB( 图书扫描版 ) </li></ul><ul><li>Internet 出版 (WWW) : 1997 年约 4TB </li></ul><ul><li>电视 (CNN 新闻 ) : 1GB/1 小时 , 6TB/ 年 ( 经压缩 ) </li></ul><ul><li>录像带出租 (Blockbuster Video) : 9TB </li></ul><ul><li>科研图书馆 ( 美国会图书馆 ) :全部图书馆数字化 20TB </li></ul><ul><li>来源:美国伯克利加州大学教授 Peter Lyman 和 Alex Internet 公司总裁 Brewster Kahle 所著《文化制品数字化存档行动纲要》。 </li></ul>
    10. 14. <ul><li>图书、报纸、期刊等三大传统出版业持续发展,品种增长很快。 2005 年,中国共有图书出版社 573 家 ( 包括副牌 34 家 ) ,出版图书 222473 种 ( 其中新 版图书 128578 种 ) ,图书总印数 64.02 亿册 ( 张 ) ;出版报纸 1931 种,报纸总印数 412.6 亿份;出版期刊 9468 种,期刊总印数 27.59 亿 册。 </li></ul><ul><li>人均购书量一直徘徊在五册左右,报纸每千人天份数不到 100 份,期刊人均每年只有两本多,光盘人均只有半张。 </li></ul>2006 北京国际出版论坛
    11. 15. <ul><li>中国的日报出版总量规模连续第五年居世界第一。   根据《报告》统计,二 00 四年,中国出版的日报种类已经占全球日报总量的百分之十四点五,世界每七种日报中,就有一种出自中国;而日报平均期印量逼近一亿大关,居世界第一位,中国千人日报拥用率达到七十五点八份。   与此同时,中国报纸经济实力大幅上升,全年报纸总定价达二百五十三亿元人民币,报纸广告经营额达二百三十亿元,报纸印刷总量达到了一千五百二十六亿对开张,比上年增长近四分之一。 </li></ul>
    12. 16. <ul><li>中国期刊总数达 9468 种 1970 年中国有 21 种期刊,而截至今年4月底,中国期刊总数已达到 9468 种。去年,中国期刊年总印数 28.5 亿册,总印张 134.7 亿印张,定价总金额达 140 亿元人民币 , 期刊业年产值达 170 多亿元 。 ( 人民日报海外版 ) </li></ul><ul><li>  我国人均拥有藏书仅 0.39 册 据悉,去年,我国人均拥有藏书量为 0.39 册,上海的人均拥有藏书量最多,为4.48册,安徽省最少,人均为0.15册。(新华网) </li></ul>
    13. 17. 多任务上网 上网任务明确 ( 如搜索信息等 ) 参与性强 原则性强 无意识 目的明确 获取图像 / 声音 / 视频 主要获取文本信息 随机 / 发散浏览 直线地、逻辑地、顺序地浏览 交互式 / 网状联系 独立地 / 个性化的联系 新生代 一般读者
    14. 18. <ul><li>全球信息存在形式 </li></ul>纸 胶片 录象带 CDs 数字影像 磁带 硬盘 文件系统 300 Exabytes 20 Exabytes 1000 Petabytes 100 Terabytes 模拟 数据 离线 在线 Internet . 10 HTML Source: Information TYO (June 1999) by Ashok Chandra, IBM Research - Almaden
    15. 19. 参照美国肯特州立大学的曾蕾教授摘译自 Lorcan Dempsey “Terms and conditions ... libraries, subject terminologies and the web 2004” 改编。原文 http://www.oclc.org/research/presentations/dempsey/dewey_20040316.ppt
    16. 20. 用户 网站建设 人员培训 参考咨询 读者管理 开放资源获取 租订数字资源 资源数字化 纸质资源 ILS 用户 社区 用户
    17. 21. 知识组织 资源整合 门户建设 Web 服务 开放资源获取 租订数字资源 资源数字化 社区 用户
    18. 22. <ul><li>《索引》所处的技术环境:资源整合搜索技术 </li></ul><ul><li>《索引》面临的技术趋势: Web2.0 用户交互技术 </li></ul>
    19. 23. <ul><li>三种方式: </li></ul><ul><li>联邦搜索( Federation ) </li></ul><ul><ul><li>Z39.50/ZING </li></ul></ul><ul><ul><li>非标准 ( 页面分析 ) </li></ul></ul><ul><li>元数据收割( Harvesting ) </li></ul><ul><ul><li>OAI/ORE </li></ul></ul><ul><li>本地获取( Gathering ) </li></ul><ul><ul><li>Google 等搜索引擎 </li></ul></ul><ul><ul><li>其它方式:聚合 (RSS) 、登记注册 </li></ul></ul><ul><li>一种特例 ( 并非整合,只是链接 ) </li></ul><ul><ul><li>OpenURL </li></ul></ul>
    20. 24. <ul><li>基于协议标准 </li></ul><ul><ul><li>Z39.50/ZING </li></ul></ul><ul><ul><li>OAI-PMH/ORE </li></ul></ul><ul><ul><li>OpenURL </li></ul></ul><ul><ul><li>Web Services </li></ul></ul><ul><li>非标准的整合 </li></ul><ul><ul><li>页面分析 </li></ul></ul><ul><ul><li>“ 前”标准: Web2.0 方法 </li></ul></ul>
    21. 25. <ul><li>在 Web 间传递信息的机制 </li></ul><ul><li>定 义 </li></ul><ul><ul><li>应用于 Web 超链接的一种语法标准。 </li></ul></ul><ul><ul><li>通过预先定义的标签 ( Tag ) ,增进 Web 超链接 能力。 </li></ul></ul><ul><li>规范 </li></ul><ul><ul><li>定义一个标准的因特网数据链接语法。 </li></ul></ul><ul><ul><li>让标靶 ( Target ) 可以轻易解析数据源 ( Source ) 所传送的请求。 </li></ul></ul><ul><ul><li>而数据源 ( Source ) 能够很容易地对服务 提供者( Target ) 送出深度链接服务要求。 </li></ul></ul>
    22. 27. 来自:潘晓玲 2007 硕士毕业论文《数字图书馆非标准数据资源整合检索系统的研究与实现》
    23. 28. <ul><li>Web 作为平台 </li></ul><ul><li>获得集体智慧 Collective Intelligence </li></ul><ul><li>以数据为核心 Data is the next “Intel Inside” </li></ul><ul><li>永远的测试版(由于定位于服务而非软件) </li></ul><ul><li>轻型商务模式 Lightweight business models </li></ul><ul><li>软件独立于设备 Software above the level of a single device </li></ul><ul><li>丰富的用户体验 RUE </li></ul>
    24. 29. <ul><li>Microformat </li></ul><ul><li>Tag/Folksonomy </li></ul><ul><li>Mashup </li></ul><ul><li>Greasemonkey </li></ul><ul><li>CoINS </li></ul><ul><li>unAPI </li></ul><ul><li>Wedget/gadget </li></ul><ul><li>OpenID </li></ul><ul><li>REST </li></ul>
    25. 31. <ul><li>为特殊应用而制定的特殊格式; </li></ul><ul><li>可以插入网页或 XML 元数据中,被收割和索引; </li></ul><ul><li>数据可被重用、与具体应用无关;也可自定义,完全取决于应用; </li></ul><ul><li>例如: XFN, hcalendar, hcard, rel tags, rel license, lists and outlines, 等等… http://microformats.org/ </li></ul>
    26. 32. <ul><li>People and Organizations </li></ul><ul><ul><li>hCard </li></ul></ul><ul><li>Calendars and Events </li></ul><ul><ul><li>hCalendar </li></ul></ul><ul><li>Opinions, Ratings and Reviews </li></ul><ul><ul><li>VoteLinks , hReview </li></ul></ul><ul><li>Social Networks </li></ul><ul><ul><li>XFN </li></ul></ul><ul><li>Licenses: </li></ul><ul><ul><li>rel-license </li></ul></ul><ul><li>Tags, Keywords, Categories </li></ul><ul><ul><li>rel-tag </li></ul></ul><ul><li>Lists and Outlines </li></ul><ul><ul><li>XOXO </li></ul></ul>http://microformats.org/about/ http://microformats.org/wiki/Main_Page
    27. 33. <div class=&quot;vcard&quot;> <img style=&quot;float:left; margin-right:4px&quot; src=&quot;http://www.flickr.com/photos/kevenlw/&quot; alt=&quot;photo&quot; class=&quot;photo&quot;/> <a class=&quot;url fn&quot; href=&quot;http://my.donews.com/keven/&quot;>Keven Liu</a> <div class=&quot;org&quot;>Shanghai Library</div> <a class=&quot;email&quot; href=&quot;mailto:kevenlw@gmail.com&quot;>kevenlw@gmail.com</a> <div class=&quot;adr&quot;> <div class=&quot;street-address&quot;>Huai Hai Zhong Road</div> <span class=&quot;locality&quot;>Shanghai</span>, <span class=&quot;region&quot;>Shanghai</span>, <span class=&quot;postal-code&quot;>200031</span> <span class=&quot;country-name&quot;>China</span> </div> <div class=&quot;tel&quot;>64455555-8311</div> <a class=&quot;url&quot; href=&quot;aim:goim?screenname=kevenlw&quot;>AIM</a> <a class=&quot;url&quot; href=&quot;ymsgr:sendIM?kevenlw&quot;>YIM</a> <p style=&quot;font-size:smaller;&quot;>This <a href=&quot;http://microformats.org/wiki/hcard&quot;>hCard</a> created with the <a href=&quot;http://microformats.org/code/hcard/creator&quot;>hCard creator</a>.</p> </div> 显示形式: Keven Liu Shanghai Library kevenlw@gmail.com Huai Hai Zhong Road Shanghai , Shanghai , 200031 China 64455555-8311 AIM YIM
    28. 34. <ul><li>‘ Microcontent’ 由 Jakob Nielsen 提出,指一小段包含元数据的文本,有特定的内容,与微格式的区别是不一定有特定的编码。 </li></ul><ul><li>microcontent is a finite collection of metadata and data that has at least one unique identity and at least one unique address on the network, and that encapsulates no more than a small number of central ideas, where the number of central ideas encapsulated is usually 1. http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/defining_microc.html </li></ul>
    29. 35. <ul><li>微资源的产生(例如:做网络书签?); </li></ul><ul><li>微资源需要标识( permanent id ?); </li></ul><ul><li>微资源需要描述( metadata ); </li></ul><ul><li>微资源需要重组(聚合); </li></ul><ul><li>微资源的重用; </li></ul><ul><li>微资源的呈现( tag cloud ?); </li></ul><ul><li>微资源的管理和利用需要工具( flickr/del.icio.us/blinklist/365key… )。 </li></ul>
    30. 36. <ul><li>标示,为了查找。专指度高好还是低好?每个人都回折中。 </li></ul><ul><li>指代,索引中指代原件 </li></ul><ul><li>聚类,为了关联。 </li></ul><ul><li>分面标引 </li></ul><ul><li>集体智慧。 </li></ul>
    31. 37. <ul><li>Folksonomy 由 tag 组成。 </li></ul><ul><li>Tag 在 folksonomy 中是微资源的指代物。 </li></ul><ul><li>通过检出 tag 而检出微资源。 </li></ul><ul><li>Tag 是平面的。 </li></ul><ul><li>Tag 是随意的。 </li></ul><ul><li>Tag 云图反映了 tag 的权重。 </li></ul>
    32. 38. <ul><li>Tag 可以排序(除了目前的字顺和权重,还有多种形式,包括动态形式,如结合相关反馈、合作过滤、点击次数、甚至类 pagerank 等); </li></ul><ul><li>Tag 可以层级化(层次关系,例如 del.icio.us 目前支持的 tag 类目); </li></ul><ul><li>Tag 可以聚类(反映了资源之间的关系;经常在一起的 tag 具有较为密切的关系,等等); </li></ul><ul><li>Tag 可以规范化(同义词、反义词归并指代;用代属分参关系标注等)。 </li></ul>
    33. 39. <ul><li>什么是 Mashup </li></ul><ul><li>Mashup 举例 </li></ul>
    34. 40. <ul><li>一项网络应用其数据内容来自多个不同的站点 </li></ul><ul><li>通过第三方提供的公共应用程序接口 API 动态组合提供服务 </li></ul><ul><li>一般采用轻型的 Web 服务 ( 基于 REST 或 SOAP) </li></ul>
    35. 41. <ul><li>基于 XML 的多种内容格式和基于这些格式的互操作 / 通信协议。包括 RSS , RDF (RSS 1.1), Atom 以及大量的微格式; </li></ul><ul><li>FOAF XFN 等特别设计的格式和协议 ( 主要是基于社会型网络 social networking ) 扩展了 2.0 网站的功能,允许用户分布式地交互。 </li></ul>
    36. 42. <ul><li>GPS 接收十分普遍且费用低廉 </li></ul><ul><li>直观、新颖、实用 </li></ul><ul><li>成熟技术,低技术门槛 </li></ul><ul><li>数据免费 (google maps) </li></ul><ul><li>应用扩展性好 </li></ul><ul><li>动态性好 </li></ul><ul><li>直接用于手持设备 </li></ul><ul><li>具有社会性应用前景 </li></ul><ul><li>…… </li></ul>
    37. 43. <ul><li>一致性问题 </li></ul><ul><li>潜在的法律问题 </li></ul><ul><li>盈利模式 </li></ul><ul><li>竞争 </li></ul><ul><li>可性度问题 </li></ul>
    38. 44. <ul><li>统一的 Mashup 应用程序接口注册服务(便于服务发现); </li></ul><ul><li>Mashup 工具的开发 </li></ul><ul><li>桌面门户的出现消灭门户:在你的客户端 Mashup </li></ul><ul><li>杀手级应用的出现使得应用迅速普及 </li></ul><ul><li>RSS 成为数据 mashup 的标准格式 </li></ul><ul><li>知识产权问题的合理妥善解决 </li></ul>
    39. 45. <ul><li>寻找现成应用的 API ( 到 2006 年 8 月 13 日 23:30 共有 251 个 ) </li></ul><ul><ul><li>http://www.programmableweb.com/apis </li></ul></ul><ul><ul><li>http://www.mashupfeed.com </li></ul></ul><ul><li>获得应用 ID (API key) </li></ul><ul><ul><li>有时并不需要 </li></ul></ul><ul><ul><li>通常都有免费许可,免费服务通常有一定约束 </li></ul></ul><ul><li>仔细阅读文档 </li></ul><ul><ul><li>服务限制 ( 次数 / 地点 / 使用等方面 ) </li></ul></ul><ul><ul><li>关于提问式的特殊规定 </li></ul></ul><ul><li>编写简单代码(甚至不需要),开始 Mashup ! </li></ul>
    40. 46. <ul><li>在不同的 Web 应用之间拷贝 / 粘贴数据标准方式; </li></ul><ul><li>实现一种简便的、普适的微格式应用的传输机制 </li></ul>
    41. 47. <ul><li>任何东西都有地址 Everything URL(URI) addressable </li></ul><ul><li>走向社会化 Go Social </li></ul><ul><li>随处无线接入 Wifi everywhere </li></ul><ul><li>普遍计算 Ubiquitous computing </li></ul><ul><li>集成、专指、移动 (synthesise, specialise, mobilise) </li></ul><ul><li>服务于长尾 </li></ul><ul><li>语义描述是数字图书馆服务的基础 </li></ul>
    42. 48. <ul><li>更多的用户:去用户所在的地方! </li></ul><ul><li>开放元数据仓储,支持元数据交换、重用与互操作 </li></ul><ul><li>开发以用户为中心的元数据 </li></ul>
    43. 50. <ul><li>B.W. ( 前万维网时代 ) </li></ul><ul><ul><li>用于印本馆藏管理 </li></ul></ul><ul><ul><li>规范的馆藏记录 </li></ul></ul><ul><ul><li>区域性合作编目系统 </li></ul></ul><ul><ul><li>手工生产元数据 </li></ul></ul><ul><li>A.W. ( 后万维网时代 ) </li></ul><ul><ul><li>用户社区不同,媒体类型多样 </li></ul></ul><ul><ul><li>记录类型繁多,来源广泛 </li></ul></ul><ul><ul><li>多库存储,松散耦合,协议交换信息 </li></ul></ul><ul><ul><li>元数据记录手工创建与自动半自动结合,包括自动抽取、转换、映射等方式 </li></ul></ul>翻译自 Karen Calhoun OUR Space: the new world of metadata slide 13
    44. 51. <ul><li>加入本地馆藏 </li></ul><ul><li>提供本地仓储 </li></ul><ul><li>补充、修订元数据记录 </li></ul><ul><li>提供本地服务 </li></ul>
    45. 53. <ul><li>专题服务(已有) </li></ul><ul><li>原文提供(已有) </li></ul><ul><li>资源整合 / 全文链接 </li></ul><ul><li>文献计量、学科评价、引文分析、趋势预测 </li></ul><ul><li>平台化 </li></ul><ul><li>工具化(个人知识组织工具) </li></ul><ul><li>目标:占据科研的桌面,报刊索引的服务无所不在 </li></ul>
    46. 54. <ul><li>检索功能 </li></ul><ul><li>导引(文献控制)功能(利用现有的规范词表和分类体系,以及用户标注或自动生成的标签、本体) </li></ul><ul><li>计量功能并提供工具: </li></ul><ul><ul><li>个人知识管理 </li></ul></ul><ul><ul><li>统计分析 </li></ul></ul><ul><ul><li>趋势分析工具 google trends </li></ul></ul>
    47. 55. <ul><li>开放数据,提供工具,让用户自己进行文献计量分析 </li></ul><ul><ul><li>主题词检索 </li></ul></ul><ul><ul><li>命中结果年份统计列表 </li></ul></ul><ul><ul><li>命中结果学科专业分布 </li></ul></ul><ul><ul><li>命中结果作者分布 </li></ul></ul><ul><ul><li>命中结果研究单位分布 </li></ul></ul><ul><ul><li>命中结果刊物分布 </li></ul></ul><ul><ul><li>(以上均可调整参数,例如“前 ** 位作者) </li></ul></ul>
    48. 56. <ul><li>会议管理(征文、信息发布、注册、日程管理、广告招商) </li></ul><ul><li>会议录 </li></ul><ul><li>参会信息(事件) </li></ul><ul><li>人员信息 </li></ul><ul><li>学术信息 </li></ul>
    49. 57. <ul><li>更强大的技术: </li></ul><ul><ul><li>数据加工流程的改进 </li></ul></ul><ul><ul><ul><li>富语义的提取 </li></ul></ul></ul><ul><ul><ul><li>微格式的建立 </li></ul></ul></ul><ul><ul><ul><li>全文链接的实现机制 </li></ul></ul></ul><ul><ul><li>用户交互平台( 2.0 ) </li></ul></ul><ul><ul><ul><li>用户提供数据平台的建立(推荐刊、标签、添加目次、纠错) </li></ul></ul></ul><ul><ul><ul><li>用户使用信息的收集反馈 </li></ul></ul></ul><ul><ul><li>管理平台 </li></ul></ul><ul><ul><ul><li>实时更新发布 </li></ul></ul></ul><ul><ul><ul><li>纠错机制 </li></ul></ul></ul><ul><li>更丰富的数据 </li></ul><ul><li>更高质量的服务 </li></ul>
    50. 58. <ul><li>开放 </li></ul><ul><ul><li>数据开放,接口开放,过程开放,工具开放 </li></ul></ul><ul><li>免费 </li></ul><ul><ul><li>探寻新的商务模式:以读者为伙伴 </li></ul></ul><ul><ul><li>最大限度地拓展用户市场,占据一席之地 </li></ul></ul><ul><li>互动 </li></ul><ul><ul><li>社会化(社会性网络), 2.0 化 </li></ul></ul><ul><li>混搭 </li></ul><ul><ul><li>采用新的技术,发挥综合优势 </li></ul></ul>

    ×