【摘 要】视频是远程教育中的重要内容,由于视频自身的特点,迫切需要基于内容对视频检索进行研究。本文首先提出视频固有的特点,随之基于内容对其分析,并介绍了国内外对视频研究的现状。
【关键词】 视频;基于内容;检索
一、远程教育中基于内容视频研究的必要性
在远程教育中数字视频是多媒体教学信息系统中重要的数据类型,其特点是数据量大、信息量也大。如一幅24mm×36mm(即通常所说的35mm)的彩色照片,若以12um的间距进行扫描,则形成三副彩色数字图像。每幅彩色图像由3000×2000pixel象素组成;如果每个象素用8bit数据量表示,那么三副数字图像需用:3000×2000×8×3=144×106 bit,而一幅图像只相当于视频中的一帧,假定播放速率为每秒25帧,则1s的数据量约为25MB,一个600兆的硬盘也只能存放24s的动态图像。因此对视频数据的管理关键之一是对视频数据的压缩编码和解码。除此,视频数据作为一种表达信息的媒体,具有内容多样性,如可指视频中所含的语义内容,也可指视频中所含的颜色、纹理、物体运动、物体之间的关系、摄像机操作、物体大小形状等。视频数据还具有解释的多样性及模糊性,不同的人对同一段视频可能有不同的解释。视频检索就是从大量的视频数据中找到所需要的视频片段。传统的视频检索主要是通过快进和快退等方法进行人工查找,无法满足多媒体数据库的要求。早期的商用多媒体数据库,如VOD系统,只能提供基于关键字的检索或分类浏览功能,检索的单位只局限于电影或整场比赛,对于更小的视频片段,如一个场景或镜头的检索,只能依靠传统的快进、快退等手段。而用户常希望只要给出例子或特征描述,系统就能自动地找到所需的视频片段。视频数据包含极其丰富的语义内容,但在理论层次上,视频是二维象素阵列的时间序列,与语义内容并不直接相关。
因此,要实现基于内容的视频检索,必须突破传统的基于一个或多个关键词(或属性)建立索引和基于表达式检索的局限,直接对视频内容进行分析,抽取特征和语义,并利用这些内容特征建立索引。因此基于内容的检索就是指根据媒体和媒体对象的内容语义及上下文联系进行检索。
二、基于内容的视频分析
视频数据模型的特点是:每个视频数据都是一个复杂的实体,关系不是存在于各视频数据块之间,而是存在于视频数据块内部。所以,首先要把视频数据分解,分出结构和层次。然后分析结构中的各个对象,抽取各个对象的特征,并存储这些属性,使得用户能够根据视频的内容来检索。
基于内容的视频分析,是指根据特定的目的,从输入视频中提取关于内容的相关信息的一切处理过程。为了实现基于镜头内容的视频检索,视频分析的基本过程包括镜头边界的检测、视频数据的低层特征自动索引和视频聚类。镜头边界检测通过视频帧的比较,把视频分割成基本的组成单元——镜头;视频数据的自动索引包括关键帧的比较、静止特征和运动特征的提取等;根据这些特征可以进行视频聚类。
视频分析基本过程如下:
三、国内外关于该课题的研究现状
1. 切变检测和镜头分割
镜头是视频的一种基本单元,它由时间上相连的一组帧图像组成。镜头检测是将视频流切成一个个分离的镜头。这时需要确定镜头的时间边界,或者说要检测镜头的转变或切换处。
常见视频节目中的镜头切换可分两种:一种是直接切换,称为切变;另一种是光学切换,是对应场景的逐渐变化,称为渐变。
检测这两种切换的一种策略是顺序检测它们:先检切变,后检渐变。输入的视频流是原始的视频流或压缩后的视频流。对前者利用邻域平均,对后者提取直流分量,都可得到待检测的视频流。镜头切换时,视频数据将发生一系列的变化,表现在颜色差异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等各方面。镜头边界检测的目的就是寻找这些变化的规律。一般而言,同一个镜头内的各帧之间差异较小,而不同镜头的帧间差异较大。
2. 关键帧提取
镜头的关键帧就是反映该镜头中主要信息内容的帧图像。将各镜头检测出来后,对每个镜头可提取关键帧,并用关键帧简洁地表达镜头。这是因为每个镜头都是在同一个场景下拍摄的,同一个镜头中的各帧图像有相当的重复信息,关键帧就是反映该镜头中主要信息内容的帧图像,一般一个镜头要用所提取出的一个或若干个帧图像来表示。另外,用关键帧表示镜头使得可用基于图像的技术对视频镜头进行检索。
3. 比较著名的图像/视频检索系统
QBIC:是IBM研制的商用图像检索系统,它支持:基于样本图像的查询、用户构画草图、用户绘制图形、用户选择希望的纹理和颜色。
VIRAGE:是VIRAGE INC 公司开发的基于内容图形搜索引擎,类似于QBIC,VIRAGE支持基于颜色、颜色布局、纹理、结构等视觉信息的检索,支持上述几种原子查询的组合查询,用户能根据自己的意愿调整某个查询权重。
PHOTOBOOK:MIT媒体实验室研制的一组交互浏览和检索工具,它实现形状、纹理和人脸特征的提取和检索。
VISUALSEEK和WEBSEEK:VISUALSEEK是视觉特征搜索引擎,WEBSEEK是面向WEB 的文本/图像搜索引擎,由COLUMBIA大学研制。
NETRA:UCSB为ALEXANDRA数字图书馆项目研制的原型系统,它用颜色、纹理、形状和分割后的图像区域之间的空域关系等视觉特征。
MARS:是Illinois at URBANA CHAMPAIGN 大学研制。
BLOBWORLD:是UC BERKELEY 开发。它将原始图像转换为一组局部相关的颜色和纹理,使用户观看图像内部表示和查询结果,让用户能够直观地改进检索结果。
四、结语
基于内容的视频检索系统关键技术主要包括:镜头切变检测和分割;关键帧和代表帧提取;视频数据的索引;视频数据表示;用户查询检索等。
[参考文献]
[1] 刘政凯,汤晓鸥. 视频检索中镜头分割方法综述[J]. 计算机工程与应用,2002,(23)
[2] 须德,马璐. 基于内容的视频结构模型[J]. 铁道学报,2000,(4)
作者简介:李建生,讲师,博士生,南京师范大学教育技术系(210097)。
(《中国远程教育》2005年第3期)
特别声明:本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。