7.5 视频处理基础
在多媒体技术中,视频信息也是重要的视觉媒体之一,是对真实动态世界的模拟再现,具有信息丰富、表现力强的特点,因而一直受到人们的关注和欢迎。 本节介绍视频的概念、视频文件格式、视频文件的获取与处理等有关知识。
7.5.1 视频的概念
视频与动画一样,也是由一幅幅单独的画面(帧)组成的序列。 这些画面以一定的速率连续地投射到屏幕上,由于视觉暂留现象,使观察者具有图像连续运动的感觉。 视频典型的帧率是24帧/秒~30帧/秒,这样的视频图像看上去是平滑连续的。 通常,伴随着视频图像还有一个或多个音频通道,以提供声音。
视频和动画既有联系又有区别,它们的区别主要有如下两点。
(1)制作方式:动画是通过一些工具软件对图形图像素材进行编辑制作而成的,每帧画面一般为矢量图形;视频则是视频信号源(如电视、录像等)经数字化后产生的位图图像和同步声音的混合体。
(2)表达方式:动画是用人工合成的方法模拟真实世界,视频则是对真实世界本身的记录。
视频的分类和音频一样,视频的发展也经过了模拟视频和数字视频两个阶段。
1.模拟视频
模拟视频基于模拟技术以电信号的方式传输动态的画面和声音,这种电信号是对时间连续变化的。 在数字电视技术出现之前的电视就是一种模拟视频,要使这些视频被记录、存储和传播,其必须遵循一定的标准。
目前,世界上现行的彩色电视制式的标准主要有NTSC制式、PAL制式和SECAM制式,这些标准中规定了扫描方式、帧频及颜色模型等信息。
(1)NTSC:NTSC制式是美国国家电视标准委员会在1953年定义的彩色广播电视标准,又称正交平衡调幅制。 NTSC制式的帧频为30帧/秒。 美国、加拿大等大部分西半球的国家,以及中国台湾、日本、韩国和菲律宾等地区和国家采用了这种制式。
(2)PAL:PAL制式是德国于1962年制定的彩色电视广播标准,又称逐行倒项正交平衡调幅制。 PAL制式的帧频为25帧/秒。 德国、英国等一些西欧国家以及中国、朝鲜等国家采用了这种制式。
(3)SECAM:SECAM制式是法国制定的彩色电视广播标准,又称顺序传送彩色与存储制。
模拟视频具有成本低和还原度好等优点,但它在存储和传输效率上存在很大的缺陷,在模拟视频中不论被记录的图像多么清晰,经过一段时间的存放之后,或者经过长距离的传输和多次复制之后,视频质量将大大降低,图像的失真很明显。
2.数字视频
计算机处理的是数字视频(Digital Video)。 数字视频技术有两层含义:一是将模拟视频信号经过数字化转换为数字视频产品;二是指数字摄像机拍摄的视频信号。
模拟视频转换为数字视频必须经过数字化。 视频的数字化和音频的数字化一样,也需经过采样、量化和编码三个步骤。 视频信号不仅是空间的函数,还是时间的函数,因此它的模/数转换过程要复杂得多。 通常,视频信号是采用分量数字化方式以一幅幅的彩色画面为单位进行的,每幅彩色画面有亮度(Y)和色差(U,V)三个分量,通过三个模/数转换器对三个分量分别进行采样、量化和编码,才能得到一幅数字图像。 视频信号数字化的过程也常称为视频捕捉。
从表面上看,数字视频只不过是将标准的模拟视频信号转换成计算机能够识别的位和字节,这个过程并不简单,它要包括视频的存储和播放,这使得数字视频在技术上显得更复杂。 但是,一旦视频是数字形式存在,那么它就具备了许多不同于模拟视频的特点,可以做许多模拟视频做不到的事情。
首先,数字视频是由一系列二进位数字组成的编码信号,它比模拟信号更精确,也不容易受到干扰。
其次,视频信号数字化后,视频设备在加工数字视频时只涉及视频数据的索引编排,对数字视频的处理只是建立一个访问地址表,而不涉及实际的信号本身。 这就意味着不管对数字信号做多少次处理和控制,画面质量几乎不会下降,可以多次复制而不失真。
再次,可以运用多种编辑工具(如编辑软件)对数字视频进行编辑加工。
对数字视频的处理方式有很多,可以制作许多特技效果,也可以将视频融入计算机化的制作环境,以改变以往视频处理的方式,这样也便于视频处理的个性化、家庭化。
最后,数字信号可以被压缩,使更多的信息能够在带宽一定的频道内传输,大大增加了节目资源。 此外,数字信号的传输不再是单向的,而是交互式的。
7.5.2 常见的视频文件格式
对数字视频的发展和变化可以从两方面进行分析:一是数字视频的超高清晰度,当然,这是视频录制设备不断更新换代的结果;二是影像视频体积的大幅减小和流式视频文件的传输性能,这得益于视频压缩技术和视频编辑处理技术的不断创新和改进,这种视频技术的创新和改进在宏观上的表现就是视频格式。
目前,数字视频格式可以分为适合本地播放的本地影像视频和适合在网络中播放的网络流媒体视频两大类。 尽管后者在播放的稳定性和播放画面质量上可能没有前者优秀,但网络流媒体视频的广泛传播性使之正被广泛应用于视频点播、网络演示、远程教育、网络视频广告等互联网信息服务领域。
1.本地影像视频
(1)AVI格式:即音频视频交错格式,它于1992年被微软公司推出,随着Windows 3.1一起被人们认识和熟知。 所谓“音频视频交错”,就是可以将视频和音频交织在一起进行同步播放。 这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大、压缩标准不统一,最普遍的现象就是高版本Windows媒体播放器无法播放采用早期编码编辑的AVI格式的视频,而低版本Windows媒体播放器又无法播放采用最新编码编辑的AVI格式的视频。
(2)DV-AVI格式:DV是由索尼、松下、JVC等多家厂商联合提出的一种家用数字视频格式。 目前非常流行的数码摄像机就是使用这种格式记录视频数据的。 它可以通过IEEE1394端口传送视频数据到计算机中,也可以将计算机中编辑好的视频数据回录到数码摄像机中。 这种视频格式的文件扩展名一般是.avi,所以也被称为DV-AVI格式。
(3)MPEG格式:即运动图像专家组格式,家庭中使用的VCD、SVCD、DVD就是这种格式。 MPEG文件格式是运动图像压缩算法的国际标准,它采用有损压缩方法来减少运动图像中的冗余信息,也就是说,MPEG压缩方法的依据是相邻两幅画面绝大多数是相同的,把后续图像中和前面图像冗余的部分去除,从而达到压缩的目的(其最大压缩比可达到200:1)。 目前,MPEG格式有三个压缩标准,分别是MPEG-1、MPEG-2和MPEG-4。 另外,MPEG-7与MPEG-21仍处在研发阶段。
(4)DivX格式:这是由MPEG-4衍生出的另一种视频编码(压缩)标准,即通常所说的DVD rip格式,它采用MPEG-4压缩算法的同时又综合了MPEG-4与MP3各方面的技术,也就是使用DivX压缩技术对DVD盘片的视频图像进行高质量压缩,同时,用MP3或AC3对音频进行压缩,再将视频与音频合成并加上相应的外挂字幕文件而形成的视频格式。 其画质直逼DVD,但体积只有DVD的几分之一。 这种编码对机器的要求也不高。
(5)MOV格式:这是美国Apple公司开发的一种视频格式,默认的播放器是苹果的Quick Time Player。 它具有较高的压缩比例和较完美的视频清晰度,但是其最大的特点是跨平台性,即不仅能支持Mac OS,还能支持Windows系列。 目前,MOV格式已经成为数字媒体软件技术领域事实上的工业标准。
2.网络影像视频
(1)ASF格式:它是微软公司为了和现在的RealPlayer竞争而推出的一种视频格式,用户可以直接使用Windows自带的Windows Media Player对其进行播放。 由于它使用了MPEG-4压缩算法,所以压缩率和图像的质量都不错(高压缩率有利于视频流的传输,但图像质量肯定会有损失,所以有时候ASF格式的画面质量不如VCD,这是正常的)。
(2)WMV格式:这也是微软公司推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。 WMV格式的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系及扩展性等。
(3)RM格式:Real Networks公司所制定的音频视频压缩规范称为Real Media,用户可以使用RealPlayer或RealOne Player对符合Real Media技术规范的网络音频/视频资源进行实况转播,并且Real Media可以根据不同的网络传输速率制定出不同的压缩比例,从而实现在低速率的网络上进行影像数据实时传送和播放。 这种格式的另一个特点是用户使用Real layer或Real One Player播放器可以在不下载音频/视频内容的条件下实现在线播放。 RM和ASF格式各有千秋,通常来说,RM视频更柔和,而ASF视频相对清晰一些。
(4)RMVB格式:这是一种由RM视频格式升级延伸出的新视频格式,它的先进之处在于RMVB视频格式打破了RM格式平均压缩采样的方式,在保证平均压缩比的基础上合理利用比特率资源,也就是说,静止和动作场面少的画面场景采用较低的编码速率,这样可以留出更多的带宽空间,而这些带宽会在出现快速运动的画面场景时被利用。 这样在保证了静止画面质量的前提下,大幅地提高了运动图像的画面质量,图像质量和文件大小之间就达到了微妙的平衡。 除此之外,这种视频格式还具有内置字幕和无需外挂插件支持等优点,可以使用Real Player、暴风影音或QQ影音等播放软件进行播放。
(5)FLV:FLV流媒体格式是随着Flash MX的推出而发展起来的一种新兴的视频格式。 FLV文件体积小巧,清晰的1分钟的FLV视频大小为1MB左右,一部电影大约有100MB,是普通视频文件体积的1/3。 其具有CPU占有率低、视频质量良好等特点,因此在网络中使用广泛,网上多家著名视频共享网站均采用FLV格式提供视频。 除此之外,丰富、多样的资源也是FLV视频格式被广泛使用的原因之一。
(6)MP4:MP4是一套用于音频、视频信息的压缩编码标准,由国际标准化组织和国际电工委员会下属的动态图像专家组制定。 MP4文件格式是一个十分开放的容器,几乎可以用来描述所有的媒体结构,MP4文件中的媒体描述与媒体数据是分开的,媒体数据的组织也很自由,不一定要按照时间顺序排列,甚至媒体数据可以直接引用其他文件。 同时,MP4也支持流媒体。 MP4目前被广泛用于封装h.264视频和AAC音频,是高清视频的代表。
7.5.3 多媒体数据压缩技术
在视频捕捉和视频回放过程中,都要处理大量的数据,需要较高的数据传输率,因此视频压缩和解压缩是使用计算机处理视频信息的关键技术之一。
1.常见的压缩技术分类方法
根据解码后数据能否完全无丢失地恢复原始数据,压缩技术可分为以下两种。
(1)无损压缩:也称为可逆压缩、无失真编码、熵编码等。
其工作原理是去除或减少冗余值,但这些被去除或减少的冗余值可以在解压缩时重新插入到数据中以恢复原始数据。 它大多使用在对文本和数据的压缩上,压缩比较低,大致为5∶1~2∶1。 其典型算法有:哈夫曼编码、香农-费诺编码、算术编码、游程编码和Lenpel-Ziv编码等。
(2)有损压缩:也称不可逆压缩和熵压缩等。 其做法是在采样过程中设置一个门限值,只取超过门限的数据,即以丢失部分信息达到压缩的目的。 例如,把某一颜色设定为门限值后,与其十分相近的颜色便被视为相同,而实际存在的细微差异都被忽略了。由于丢失的信息不能再恢复,所以这种压缩是不可逆的。 但利用人的视觉特性,可使解压缩后的图像看起来与原来的图像“一样”。 在语音、图像和动态视频的压缩中,经常采用这类方法。 有损压缩对自然景物的彩色图像进行压缩时,压缩比可达到几十倍甚至上百倍。 但压缩比越大,图像质量越差,因此,两者要综合考虑。
按具体编码算法,压缩技术可分为以下三种。
(1)预测编码(Predictive Coding,PC):这种编码器记录与传输的不是样本的真实值,而是真实值与预测值之差。 对于语音而言,就是通过预测去除语音信号时间上的相关性;对于图像而言,帧内的预测是去除空间冗余,帧间的预测是去除时间上的冗余。预测值由预编码图像信号的过去信息决定。 由于时间、空间相关性,真实值与预测值的差值变化范围远远小于真实值的变化范围,因而可以采用较少的位数来表示。 另外,若利用人的视觉特性对差值进行非均匀量化,则可获得更高的压缩比。
(2)变换编码(Transform Coding,TC):在变换编码中,由于对整幅图像进行变换的计算量太大,所以一般把原始图像分成许多个矩形区域,对子图像进行独立变换。 变换编码的主要思想是利用图像块内像素值之间的相关性,把图像变换到一组新的“基”上,使得能量集中到少数几个变换系数上,通过存储这些系数而达到压缩的目的。 采用离散余弦编码变换消除相关性的效果非常好,而且算法快速,被人们普遍接受。
(3)统计编码:最常用的统计编码是哈夫曼编码,出现频率大的符号用较少的位数表示,而出现频率小的符号用较多位数表示,编码效率主要取决于需要编码的符号出现的概率分布,越集中则压缩比越高。 哈夫曼编码可以实现熵保持编码,所以是一种无损压缩技术,在语音和图像编码中常常和其他方法结合使用。
2.常见的多媒体数据压缩标准
(1)JPEG---静态图像压缩标准
JPEG是国际通用的标准,JPEG采用的算法称为JPEG算法,它是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像,又可用于彩色图像。 其目的是给出一个适用于连续色调图像的压缩方法,使之满足以下要求。
①达到或接近当前压缩比与图像保真度的技术水平,能覆盖一个较宽的图像质量等级范围,能达到“很好”到“极好”的评估,与原始图像相比,人的视觉难以区分。
②能适用于任何种类的连续色调的图像,且长宽比都不受限制,也不受限于景物内容、图像的复杂程度和统计特性等。
③计算的复杂性是可以控制的,其软件可在各种CPU上完成,算法也可用硬件实现。
④JPEG算法具有以下四种操作方式。
第一,顺序编码,即每一个图像分量按从左到右、从上到下的顺序进行扫描,一次扫描完成编码。
第二,累进编码,即图像编码在多次扫描中完成。 累进编码传输时间长,接收端收到的图像是多次扫描由粗糙到清晰的累进过程。
第三,无失真编码,这种方式可保证解码后,完全精确地恢复源图像采样值,其压缩比低于有失真压缩编码方法。
第四,分层编码,即图像按多个空间分辨率进行编码。 在信道传输速率慢或接收端显示器分辨率不高的情况下,只需做低分辨率图像解码,也就是说,接收端可以按显示分辨率有选择地进行解码。
JPEG压缩是有损压缩,它利用了人的视觉系统的特性,去掉了视觉冗余信息和数据本身的冗余信息。 在压缩比为25∶1的情况下,压缩后的图像与原始图像相比,非图像专家难辨“真伪”。
(2)MPEG---运动图像压缩标准
ISO和CCITT于1988年成立了运动图像专家组,研究制定了视频及其伴音国际编码标准。 MPEG阐明了声音电视编码和解码过程,严格规定声音和图像数据编码后组成位数据流的句法,提供了解码器的测试方法等。 其最初标准解决了如何在650MB光盘上存储音频和视频信息的问题,但是,它又保留了充分的可发展的余地,使得人们可以不断地改进编码、解码算法,以提高声音和电视图像的质量和编码效率。
7.5.4 数字视频文件的获取与处理
数字视频文件的获取方式主要有三种:第一种是利用现成的素材,包括利用计算机生成获取的动画,将图像序列组合成视频序列、从网上下载或从视频光盘中获取视频文件等;第二种是通过视频采集卡将传统模拟摄像机、录像机等设备播放的模拟信号采集到计算机中,再将其转换成数字视频,并按数字视频文件的格式加以保存;第三种是利用数码摄像机(Digital Video,DV)直接获得无失真的数字视频。
随着多媒体技术的发展,计算机不仅可以播放视频信息,还可以精确地编辑和处理视频信息。 例如,Adobe Premiere CC就是目前最流行的非线性编辑软件之一,是数码视频编辑的强大工具。 它作为功能强大的多媒体视频、音频编辑软件,应用范围非常广范,制作效果十分好,它使普通的计算机爱好者也能创作出神奇的数字电影。 由于篇幅限制,这里不做详细介绍,对Adobe Premiere CC感兴趣的读者请在课外自主学习。