SlideShare a Scribd company logo
计算机网络与通信 JinNan University
计算机网络与通信 基于视频时间段检索的多媒体数据库系统的研究 垂直搜索
计算机网络与通信 ,[object Object],[object Object],[object Object],[object Object],[object Object]
计算机网络与通信 基于时间段检索的多媒体数据库系统模型   分层检索 多媒体数据库管理系统 建立时间段索引 上传视频 视频关键帧提取 用户应用接口 数据库管理系统 文本信息数据库 多媒体数据库
计算机网络与通信 关键技术 1. 镜头分割及关键帧的提取   2. 索引的建立   3. 分层检索的建立
计算机网络与通信 1. 镜头分割及关键帧的提取    一般情况下,不同镜头之间的转换会引起视频内容的底层特征发生了显著的变化。因此,在这种情况下,我们可以按照镜头转换处视频底层特征的变化来分割镜头     两个阈值 t( 百分比 ), T   设 P(k) 为第 k 帧 F ( k )与第 k+1 帧 F(k+1) 最近边缘的距离大于给定的阈值 T 的百分比,同时 P   (k+1) 为 F(k+1) 中与 F ( k )的最近边缘的距离大于给定的阈值 T 的百分比。
计算机网络与通信 1. 镜头分割及关键帧的提取    当帧间差为 t(k)=Max(P(k) , P(k+1))[4] ,当 t(k) 大于给定的帧间差阈值 t 时,则将 F(k) 分为第 K 个镜头 S(k) 的结尾帧, F(k+1) 为第 K+1 镜头 S(k+1) 的起始帧  S(k) 中的首尾图像帧( F(k-1),F(k) )的时间偏移量 offset(offset(k-1) , offset(k)) ,并存入文本数据库的相应字段。
计算机网络与通信 2. 索引的建立      基于注释的索引:按视频内容的镜头分割方法,将视频分割为不同的镜头后,将不同特征的镜头分层的对各个镜头进行注释   基于特征的索引:这种索引的建立,主要是按照视频图像的底层特征的提取而建立索引。如:颜色特征,纹理特征,轮廓特征等。   对于用户上传时添加的标题,注释建立索引。同时结合提取出的各镜头的首尾帧的时间偏移量 offset 建立索引。并在用户应用接口层,直接以图像的形式显示出各镜头的首尾图像帧。
计算机网络与通信 3. 分层检索的建立   输入关键字,时间段 找到视频,显示图像帧 播放短视频 点击图片 没有找到 播放视频 否 是 是 否 匹配?
计算机网络与通信 IPTV 垂直搜索 垂直搜索定义: 传统搜索:以网页为最小单位,进行数据抓取 垂直搜索:是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理
计算机网络与通信 IPTV 垂直搜索 垂直搜索与传统搜索的区别 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。 举例:服务行业搜索
计算机网络与通信 IPTV 垂直搜索 关键技术 1.Spider( 网络爬虫 ) 2. 网页结构化信息抽取技术或元数据采集技术 3. 分词、索引,搜索语句优化
计算机网络与通信 lucene Apache Lucene 是一个高性能( high-performance )的全能的全文检索( full-featured text search engine )的搜索引擎框架库,完全( entirely )使用 Java 开发。它是一种技术( technology ),适合于( suitable for )几乎( nearly )任何一种需要全文检索( full-text search )的应用,特别是跨平台( cross-platform )的应用。 垂直搜索
计算机网络与通信 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的 URL ,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列 , 直到满足系统的一定停止条件   。 垂直搜索 1.Spider( 网络爬虫 )
计算机网络与通信 网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。   特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,能保证较快处理速度。   垂直搜索 2. 网页结构化信息抽取技术
计算机网络与通信 文章 1 的内容为: Tom lives in Guangzhou,I live in Guangzhou too.  文章 2 的内容为: He once lived in Shanghai.   垂直搜索 3. 分词、索引,搜索语句优化 1. 文章中的” in”, “once”  ,“ too” 等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉  2. 用户通常希望查“ He” 时能把含“ he” ,“ HE” 的文章也找出来,所以所有单词需要统一大小写。  3. 用户通常希望查“ live” 时能把含“ lives” ,“ lived” 的文章也找出来,所以需要把“ lives” ,“ lived” 还原成“ live”  4. 文章中的标点符号通常不表示某种概念,也可以过滤掉
计算机网络与通信 文章 1 的所有关键词为: [tom] [live] [guangzhou] [i] [live] [guangzhou]  文章 2 的所有关键词为: [he] [live] [shanghai]  垂直搜索 3. 分词、索引,搜索语句优化 关键词  文章号  [ 出现频率 ]  出现位置  guangzhou  1 [2]  3 , 6  he  2 [1]  1  i  1 [1]  4  live  1[2] ,2[1]  2 , 5 , 2  shanghai  2[1]  3  tom  1[1]  1
Thank You !

More Related Content

Similar to 080926

SignalR實戰技巧 twmvc#17
SignalR實戰技巧 twmvc#17 SignalR實戰技巧 twmvc#17
SignalR實戰技巧 twmvc#17
twMVC
 
搜索引擎技术介绍
搜索引擎技术介绍搜索引擎技术介绍
搜索引擎技术介绍
bigqiang zou
 
常用开发工具介绍
常用开发工具介绍常用开发工具介绍
常用开发工具介绍
haozes
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
iamafan
 
百度 fuye
百度 fuye百度 fuye
百度 fuyedachmx
 
baidu fuye
baidu fuyebaidu fuye
baidu fuye
dachmx
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰Scourgen Hong
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
vanadies10
 
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
Stephen Wang
 
京东商城Pop商品搜索原理
京东商城Pop商品搜索原理京东商城Pop商品搜索原理
京东商城Pop商品搜索原理changzhongzhong
 
99 第六屆國際健康資訊管理研討會簡報botnet
99 第六屆國際健康資訊管理研討會簡報botnet99 第六屆國際健康資訊管理研討會簡報botnet
99 第六屆國際健康資訊管理研討會簡報botnetShi-Hwao Wang
 
非常靠谱 Html 5
非常靠谱 Html 5 非常靠谱 Html 5
非常靠谱 Html 5 Tony Deng
 
千万级并发在线推送系统架构解析 | 个信互动 叶新江
千万级并发在线推送系统架构解析 | 个信互动 叶新江千万级并发在线推送系统架构解析 | 个信互动 叶新江
千万级并发在线推送系统架构解析 | 个信互动 叶新江
imShining @DevCamp
 
Ajax Lucence
Ajax LucenceAjax Lucence
Ajax Lucence
Roger Xia
 
腾讯大讲堂58 拍拍app platform中间件解决方案简介
腾讯大讲堂58 拍拍app platform中间件解决方案简介腾讯大讲堂58 拍拍app platform中间件解决方案简介
腾讯大讲堂58 拍拍app platform中间件解决方案简介areyouok
 
淘宝彩票移动项目开发实践
淘宝彩票移动项目开发实践淘宝彩票移动项目开发实践
淘宝彩票移动项目开发实践alvis-m
 
Btrace intro(撒迦)
Btrace intro(撒迦)Btrace intro(撒迦)
Btrace intro(撒迦)ykdsg
 
廖若雪 搜索新时代之深层网络检索
廖若雪   搜索新时代之深层网络检索廖若雪   搜索新时代之深层网络检索
廖若雪 搜索新时代之深层网络检索drewz lin
 

Similar to 080926 (20)

SignalR實戰技巧 twmvc#17
SignalR實戰技巧 twmvc#17 SignalR實戰技巧 twmvc#17
SignalR實戰技巧 twmvc#17
 
搜索引擎技术介绍
搜索引擎技术介绍搜索引擎技术介绍
搜索引擎技术介绍
 
常用开发工具介绍
常用开发工具介绍常用开发工具介绍
常用开发工具介绍
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
 
百度 fuye
百度 fuye百度 fuye
百度 fuye
 
baidu fuye
baidu fuyebaidu fuye
baidu fuye
 
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
从林书豪到全明星 - 虎扑网技术架构如何化解流量高峰
 
Java@taobao
Java@taobaoJava@taobao
Java@taobao
 
Berserk js
Berserk jsBerserk js
Berserk js
 
用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库用互相关联的数据创建超级数据库
用互相关联的数据创建超级数据库
 
京东商城Pop商品搜索原理
京东商城Pop商品搜索原理京东商城Pop商品搜索原理
京东商城Pop商品搜索原理
 
99 第六屆國際健康資訊管理研討會簡報botnet
99 第六屆國際健康資訊管理研討會簡報botnet99 第六屆國際健康資訊管理研討會簡報botnet
99 第六屆國際健康資訊管理研討會簡報botnet
 
非常靠谱 Html 5
非常靠谱 Html 5 非常靠谱 Html 5
非常靠谱 Html 5
 
千万级并发在线推送系统架构解析 | 个信互动 叶新江
千万级并发在线推送系统架构解析 | 个信互动 叶新江千万级并发在线推送系统架构解析 | 个信互动 叶新江
千万级并发在线推送系统架构解析 | 个信互动 叶新江
 
常谦_毕业论文
常谦_毕业论文常谦_毕业论文
常谦_毕业论文
 
Ajax Lucence
Ajax LucenceAjax Lucence
Ajax Lucence
 
腾讯大讲堂58 拍拍app platform中间件解决方案简介
腾讯大讲堂58 拍拍app platform中间件解决方案简介腾讯大讲堂58 拍拍app platform中间件解决方案简介
腾讯大讲堂58 拍拍app platform中间件解决方案简介
 
淘宝彩票移动项目开发实践
淘宝彩票移动项目开发实践淘宝彩票移动项目开发实践
淘宝彩票移动项目开发实践
 
Btrace intro(撒迦)
Btrace intro(撒迦)Btrace intro(撒迦)
Btrace intro(撒迦)
 
廖若雪 搜索新时代之深层网络检索
廖若雪   搜索新时代之深层网络检索廖若雪   搜索新时代之深层网络检索
廖若雪 搜索新时代之深层网络检索
 

080926

  • 3.
  • 4. 计算机网络与通信 基于时间段检索的多媒体数据库系统模型 分层检索 多媒体数据库管理系统 建立时间段索引 上传视频 视频关键帧提取 用户应用接口 数据库管理系统 文本信息数据库 多媒体数据库
  • 5. 计算机网络与通信 关键技术 1. 镜头分割及关键帧的提取 2. 索引的建立 3. 分层检索的建立
  • 6. 计算机网络与通信 1. 镜头分割及关键帧的提取    一般情况下,不同镜头之间的转换会引起视频内容的底层特征发生了显著的变化。因此,在这种情况下,我们可以按照镜头转换处视频底层特征的变化来分割镜头    两个阈值 t( 百分比 ), T   设 P(k) 为第 k 帧 F ( k )与第 k+1 帧 F(k+1) 最近边缘的距离大于给定的阈值 T 的百分比,同时 P (k+1) 为 F(k+1) 中与 F ( k )的最近边缘的距离大于给定的阈值 T 的百分比。
  • 7. 计算机网络与通信 1. 镜头分割及关键帧的提取    当帧间差为 t(k)=Max(P(k) , P(k+1))[4] ,当 t(k) 大于给定的帧间差阈值 t 时,则将 F(k) 分为第 K 个镜头 S(k) 的结尾帧, F(k+1) 为第 K+1 镜头 S(k+1) 的起始帧 S(k) 中的首尾图像帧( F(k-1),F(k) )的时间偏移量 offset(offset(k-1) , offset(k)) ,并存入文本数据库的相应字段。
  • 8. 计算机网络与通信 2. 索引的建立    基于注释的索引:按视频内容的镜头分割方法,将视频分割为不同的镜头后,将不同特征的镜头分层的对各个镜头进行注释 基于特征的索引:这种索引的建立,主要是按照视频图像的底层特征的提取而建立索引。如:颜色特征,纹理特征,轮廓特征等。 对于用户上传时添加的标题,注释建立索引。同时结合提取出的各镜头的首尾帧的时间偏移量 offset 建立索引。并在用户应用接口层,直接以图像的形式显示出各镜头的首尾图像帧。
  • 9. 计算机网络与通信 3. 分层检索的建立 输入关键字,时间段 找到视频,显示图像帧 播放短视频 点击图片 没有找到 播放视频 否 是 是 否 匹配?
  • 10. 计算机网络与通信 IPTV 垂直搜索 垂直搜索定义: 传统搜索:以网页为最小单位,进行数据抓取 垂直搜索:是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理
  • 11. 计算机网络与通信 IPTV 垂直搜索 垂直搜索与传统搜索的区别 垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。 举例:服务行业搜索
  • 12. 计算机网络与通信 IPTV 垂直搜索 关键技术 1.Spider( 网络爬虫 ) 2. 网页结构化信息抽取技术或元数据采集技术 3. 分词、索引,搜索语句优化
  • 13. 计算机网络与通信 lucene Apache Lucene 是一个高性能( high-performance )的全能的全文检索( full-featured text search engine )的搜索引擎框架库,完全( entirely )使用 Java 开发。它是一种技术( technology ),适合于( suitable for )几乎( nearly )任何一种需要全文检索( full-text search )的应用,特别是跨平台( cross-platform )的应用。 垂直搜索
  • 14. 计算机网络与通信 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获得初始网页上的 URL ,在抓取网页的过程中,不断从当前页面上抽取新的 URL 放入队列 , 直到满足系统的一定停止条件 。 垂直搜索 1.Spider( 网络爬虫 )
  • 15. 计算机网络与通信 网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。 特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,能保证较快处理速度。 垂直搜索 2. 网页结构化信息抽取技术
  • 16. 计算机网络与通信 文章 1 的内容为: Tom lives in Guangzhou,I live in Guangzhou too. 文章 2 的内容为: He once lived in Shanghai. 垂直搜索 3. 分词、索引,搜索语句优化 1. 文章中的” in”, “once” ,“ too” 等词没有什么实际意义,中文中的“的”“是”等字通常也无具体含义,这些不代表概念的词可以过滤掉 2. 用户通常希望查“ He” 时能把含“ he” ,“ HE” 的文章也找出来,所以所有单词需要统一大小写。 3. 用户通常希望查“ live” 时能把含“ lives” ,“ lived” 的文章也找出来,所以需要把“ lives” ,“ lived” 还原成“ live” 4. 文章中的标点符号通常不表示某种概念,也可以过滤掉
  • 17. 计算机网络与通信 文章 1 的所有关键词为: [tom] [live] [guangzhou] [i] [live] [guangzhou] 文章 2 的所有关键词为: [he] [live] [shanghai] 垂直搜索 3. 分词、索引,搜索语句优化 关键词 文章号 [ 出现频率 ] 出现位置 guangzhou 1 [2] 3 , 6 he 2 [1] 1 i 1 [1] 4 live 1[2] ,2[1] 2 , 5 , 2 shanghai 2[1] 3 tom 1[1] 1