1
大学计算机基础:文史类
1.9.2 7.2 多媒体信息数字化和压缩技术

7.2 多媒体信息数字化和压缩技术

7.2.1 数字音频技术基础

1)声音的三要素

声音的三个要素是音调、音量、音色。其中,音调即声音的高低,由声波振动的频率决定;音量又称为音强,由声波振动的幅度决定;音色则是指每种声音具有的特殊听觉效果,由混入基音的泛音决定。

2)声音的数字化处理

声音具有过程性。声音信号在时间和幅度上都是连续的模拟信号,而计算机只能处理二进制编码的数字信息,所以必须先将音频信号进行数字化处理,其具体过程就是通过采样、量化和编码三个步骤,达到数字化处理的目的。

采样是指将模拟音频信号每隔相等时间截取一点,这就会把在时间上连续变化的波形截取成在时间上离散的幅值。其中,采样频率是一个重要因素,它是指单位时间内模拟音频信号被截取的点数,如16位声卡的采样频率为44.1kHz,即每秒采集44100个点。

量化是指对采样的结果用多少二进制位表示的问题。每个幅值点一般可用8位、16位、24位、32位或更多位数的二进制表示,此为量化精度。

编码是以具体的特定格式将所得数据转换为计算机能识别的二进制数据格式,如常用的PCM(脉冲编码调制)编码等。

图7.1、图7.2和图7.3展现了模拟的音频信号数字化的过程。

img400

图7.1 模拟音频信号

img401

图7.2 音频信号采样

img402

图7.3 采样信号的量化

3)常用音频文件格式

在多媒体音频技术中,最常见的声音存储格式是:WAV波形文件、MIDI音乐数字文件、MP3音乐文件、RA音频文件、WMA音频文件和CD-DA音频等。

(1)WAV波形文件

WAV波形文件来源于对声音模拟波形的采样。在波形声音的数字化过程中,若使用不同的采样频率,将得到不同的采样数据。以不同的精度把这些数据以二进制编码存储在磁盘上,就产生了声音的WAV文件。WAV文件支持多种采样的频率和样本精度的声音数据,并支持声音数据文件的压缩。

WAV波形文件存储量大小的计算如下:

WAV波形文件的存储量(bit/s)=采样频率(Hz)×量化位数(bit)×声道数/8。

例如,用44.1kHz的采样频率进行采样并且量化位数选用16位,录制60s的立体声声音,其波形文件所需的存储量为:44100×16/8×2×60=10584000(B)。可见,未经压缩的WAV文件所记录的数据量是很大的。

(2)MIDI音乐数字文件

MIDI(Musical Instrument Digital Interface)是乐器数字接口的缩写,它是1983年由YAMAHA、Roland等公司联合制定的一种数字音乐的国际标准。MIDI文件不记录声音的波形信息,而是记录描述音乐信息的一系列指令,如音符序列、节拍速度、音量大小等,可以说记录的是数字化的乐谱,是对声音的符号表示。播放时,由声卡上的合成器根据这个“乐谱”完成音乐合成,再通过扬声器播放出来。MIDI文件比WAV文件占用的空间小得多。

(3)MP3音乐文件

MP3全称为MPEGAudio Layer3。MPEG视频标准也规定了视频伴音的压缩标准,称为MPEGAudio。

MP3文件就是以MPEGAudio Layer3为标准的压缩编码的一种数字音频格式文件,具有很高的压缩比率。一般来说,1分钟的WAVE音频文件需要10MB左右的存储空间,而1分钟的MP3音频文件只需要1MB,并且基本保证不失真,接近CD唱盘的音质。

(4)RA音频文件

RA音频文件全称Real Audio,是由Real Networks公司开发的一种具有较高压缩比的音频文件。由于其压缩比高,因此文件小,适合于网上传输,属于流媒体音频文件格式,但声音失真比较严重。

(5)WMA音频文件

WMA为Windows Media Audio的缩写,是微软制订的音乐文件格式。WMA具有与MP3相当的音质,但由于采用了更先进的压缩算法,存储容量更小,更加适合于网络传输。

(6)CD-DA音频

CD-DA(Compact Disk-Digital Audio)是数字音频光盘的一种存储格式,专门用来记录和存储音乐。CD唱盘也是利用数字技术(采样技术)制作的,只是CD唱盘上不存在数字声波文件的概念,而是利用激光将0、1数字位转换成微小的信息凹凸坑制作在光盘上,通过CD-ROM驱动器特殊芯片读出其内容,再经过D/A转换,把它变成模拟信号输出播放。

7.2.2 数字图像技术基础

1)图像的基本属性

(1)分辨率

分辨率一般分两种:第一种是图像分辨率,是指单位长度内像素的数目,通常以“每英寸的像素数”即PPI来定义。PPI越大,图像越清晰,包含的数据也越多,图像文件也越大。第二种是显示分辨率,是指显示器屏幕上的最大显示区域,即水平与垂直方向的像素个数。常见的屏幕分辨率有1024×768,800×600,640×480。图像分辨率是指数字化图像的大小,即该图像的水平与垂直方向的像素个数。

(2)图像深度

图像深度(也称图像灰度、颜色深度)是指一幅位图图像中最多能使用的颜色数。由于每个像素上的颜色被量化后将用颜色值来表示,所以位图图像中每个像素所占位数就被称为图像深度。若每个像素只有一位颜色位,则该像素只能表示亮或暗,这就是二值图像。若每个像素有8位颜色位,则在一幅图像中可以有256种不同的颜色。若每个像素具有16位颜色位,则可使用的颜色数达216=65536种,也就是通常指的“增强色”。

(3)图像尺寸

图像尺寸指图像的宽度与高度,在屏幕上的单位是像素点,打印时的单位是英寸、厘米。

(4)图像文件的大小

与其他文件一样,图像文件的大小也用字节计算,它与图像的分辨率、尺寸大小等有关。

如何计算位图图像的文件大小呢?当用字节表示图像文件大小时,一幅未经压缩的数字图像的数据量大小计算如下:图像数据量大小=像素总数×图像深度/8,单位为字节。例如,一幅640×480的256色图像的大小为640×480×8/8=307200字节。

2)图像的色彩模式

图像的色彩模式是指图像中色彩的格式,下面列出几种典型模式。

(1)Bitmap黑白模式

该模式的图像每个像素点只取黑、白两种色值中的一个,信息量较小,也容易处理,但图像质量较差。

(2)Grayscale灰度模式

其每个像素可取0至255范围内的一个亮度值,即图像有256级灰度,其效果如黑白照片。

(3)RGB彩色模式

这是图像处理中运用最广泛的一种色彩模式,该模式用红、绿、蓝三种颜色来生成各种不同色彩,其中每一种颜色的深度范围为0~255,混合起来的色彩数目为256×256×256=16777216种,即所谓的真彩色。

3)图像的两种类型

在计算机中,图像主要分为两种类型,即矢量图和位图。

(1)矢量图

矢量图是用来描述图形的一种格式。图形(Graphics)可看作一种抽象化的图像。它是对图像依据某个标准进行分析而得到的结果,一般指用计算机绘制的画面,如直线、圆、圆弧、矩形、任意曲线和图表等。它不直接描述数据的每一点,而是描述产生这些点的过程及方法,因此称之为矢量图形或图形。

矢量图形是以一种指令的形式存在的,这些指令描述一幅图中所包含的直线、圆、弧线、矩形的大小和形状。当然,也可以用更为复杂的形式表示曲面、光照、材质等效果。在计算机上显示一幅图形时,首先要解释这些指令,然后将它们转变成屏幕上显示的形状和颜色。计算机在保存矢量图形时不需要对图形上的每一个点进行量化保存,因而保存图形需要的存储量很小。但由于在显示时需要对矢量图形进行解释,因此计算机在图形的还原显示过程中需要大量的运算开销。常用的矢量图形文件格式有.fla(flash),.swf(flash),.cdr(CorelDraw)等。

(2)位图

位图是图像文件中最基本也最具有代表性的一种。它由一个矩阵描述,矩阵中的任意元素对应图像中的一个点,而相应的值对应于该点的灰度(或颜色)等级,这是量化后得到的结果。这个数字矩阵的元素就称为像素,存放于显示缓冲区中,与显示器上的显示点一一对应,故称为位图映射图像,简称位图图像。

位图数据量一般都较大。其中,位图的分辨率、图像深度与显示深度、图像文件大小决定位图的图像质量。

4)图像的数字化处理

图像数字化处理是指对图像进行各种加工以改善图像的视觉效果并为自动识别打下基础,或对图像进行压缩编码以减少所需存储空间或传输时间、传输通路。其中数字化处理过程可包含以下内容:

(1)图像增强

图像增强用以改善图像的视觉效果。在多媒体应用中,图像处理主要是对图像进行增强处理,各类图像处理软件一般都支持图像增强技术。图像增强是各种技术的汇集,尚未形成一套通用的理论。常用的图像增强技术有对比度处理、直方图修正、噪声处理、边缘增强、变换处理和伪彩色等。

(2)图像恢复

图像恢复用来纠正图像在形成、传输、存储、记录和显示过程中产生的变质和失真,力求保持图像本来面目。图像恢复必须首先建立图像变质模型,然后按照其褪化的逆过程恢复图像。

(3)图像识别

图像识别又称模式识别,用以对图像进行特征抽取,然后根据图形的几何及纹理特征对图像进行分类,并对整个图像作结构上的分析。通常在识别之前先对图像进行预处理,包括滤除噪声和干扰、提高对比度、增强边缘、几何校正等。图像识别的应用范围非常广泛,例如指纹识别系统以及医学上的癌细胞识别等。

(4)图像编码

图像编码用来解决数字图像占用空间大,尤其是在数字传输时占用频带太宽的问题。其核心技术是图像压缩。在多媒体技术中,图像压缩特别重要,特别是在与网络通信有关的多媒体项目中,图像数据和其他多媒体数据的传输往往成为系统中的瓶颈。对那些实在无法承受的负荷,必须利用数据压缩使图像数据达到有关设备能够承受的水平。评价图像压缩技术要考虑三个方面的因素:压缩比、算法的复杂程度和重现精度。

图像压缩技术分为静态图像压缩技术和运动图像压缩技术。静态图像压缩用于存放单张画面,如照片、图片等,静态图像压缩编码的国际标准是JPEG。运动图像压缩用于存放视频画面,如电视、电影画面等。运动图像压缩编码的标准较多,最常见的就是MPEG。

5)静态图像压缩标准JPEG

JPEG是Joint Photographic Experts Group(联合照片专家组)的缩写,这是一个由国际标准化组织(ISO)和国际电报电话咨询委员会(CCITT)联合组成的专家组,负责制定静态的数字图像数据压缩编码标准。这个专家组开发的算法称为JPEG算法,并且成为国际上通用的标准,因此又称为JPEG标准。JPEG是一个适用范围很广的静态图像数据压缩标准,既可用于灰度图像,又可用于彩色图像。

JPEG压缩技术十分先进,它压缩的主要是高频信息,可以将图像中冗余的图像数据除去,对色彩的信息却保留较好,在获得极高的压缩率的同时能展现十分丰富生动的图像,换句话说,就是可以用最少的磁盘空间得到较好的图像品质。JPEG广泛应用于网页、光盘、出版物、家用数码相机等领域。当对图像的精度要求不高而存储空间又有限时,JPEG是一种非常理想的压缩方式。

6)常见图像文件的格式

在图像处理中,可用于图像文件存储的存储格式有多种,较为常见的有:

(1)BMP

BMP格式是一种与设备无关的图像文件格式,是标准的Windows和OS/2的基本位图图像格式,有压缩(RLE)和非压缩之分。BMP支持黑白图像、16色和256色的伪彩色图像以及RGB真彩色图像。多种图形图像处理软件以及许多应用软件都支持这种格式的文件,它已成为一种通用的图形图像存储格式。

(2)GIF

GIF格式是压缩图像存储格式,它使用LZW压缩方法,压缩比较高,文件较小,因此被广泛采用于网络通信中。它支持黑白图像、16色和256色的彩色图像,有87a和89a两种格式。

(3)JPG

JPG和PIC格式均使用JPEG方法进行图像数据压缩。这两种格式的最大特点是文件非常小。它是一种有损压缩的静态图像文件存储格式,支持灰度图像、RGB真彩色图像和CMYK真彩色图像。

(4)TIFF

TIFF格式是一种多变的图像文件格式标准,支持所有图像类型。它是工业标准的图像存储格式,文件分成压缩和非压缩两大类,可能是目前最复杂的一种图像格式。

(5)PCX

PCX格式是使用游程长编码(RLE)方法进行压缩的图像文件格式,支持黑白图像、16色和256色的伪彩色图像、灰度图像以及RGB真彩色图像等。

(6)PSD

PSD格式是著名的图像处理软件Photoshop所特有的文件格式,它是唯一能支持全部图像色彩模式的格式。其特点是能将Photoshop中的图层、选择区域、蒙版、通道和图像标题等一起记录,但数据量较大,比其他格式的图像文件占用更多的空间。

(7)PNG

PNG格式是20世纪90年代中期开始开发的图像文件格式,以替代GIF和TIFF文件格式,同时新增一些新的特性。PNG格式存储色彩图像时深度可达48位。

7.2.3 数字视频技术基础

1)视频和视频文件

通常将连续地随时间变化的一组图像称为视频,其中每一幅图像称为一帧(Frame)。常见的视频有电影、电视和动画等。

在计算机上通过视频采集设备捕捉下来的录像机、电视等视频源的数字化信息称为数字视频信息,相应的数字化文件称为视频文件。

2)视频的数字化及处理

(1)视频信号的采集

在多媒体计算机中,使用视频采集卡配合视频处理软件,可以把从摄像机、录像机和电视机这些模拟信息源输入的模拟信号转换成数字视频信号。有的视频采集设备还能对转换后的数字视频信息直接进行压缩处理并转存起来,以便进一步编辑和处理。视频信号采集的模拟处理过程如图7.4所示。

img403

图7.4 视频信号的采集过程

(2)视频信号的数字化

由于历史及技术上的原因,摄像机和录像机输出的信号、电视机的信号以及存储在录像带和激光视盘(LD)上的影视节目等大多是模拟信号。为了使计算机能够处理视频信息,必须将模拟信号转换为数字信号。数字视频处理的基本技术就是通过“模拟/数字(A/D)”信号的转换,经过采样、量化后,把模拟视频信号转换为数字图像,方便视频信息的存储和传输,有利于计算机进行分析处理。

(3)视频信息的处理

多媒体计算机采用专用的视频处理软件来编辑处理视频信息。从视频信息处理的目的和对象来看有两方面:一种情况是对于单帧图像的编辑处理,计算机遵循静止图像处理原则来处理单帧静止图像;另一种情况是对于连续的视频信息进行剪辑、配音、视频合成等编辑操作。

(4)视频的压缩

模拟视频信号数字化后,数据量是相当大的,因此需要很大的存储空间,同时存储器的存储速度也要足够快,以满足视频数据连续存储的要求。解决这一问题最有效的办法就是采用数据压缩编码技术,压缩数字视频中的冗余信息,减少视频数据量。

数据压缩处理一般由两个过程组成:一是编码过程,即将原始数据经过编码进行压缩,以便于存储;二是解码过程,即对编码压缩的数据进行解码,还原为可以使用的数据。针对冗余类型的不同,人们提出了各种各样的数据压缩方法。根据解码后的数据与原始数据是否完全一致来进行分类,数据压缩方法一般划分为两类:可逆编码方法和不可逆编码方法。

可逆编码方法的解码图像必须和原始图像严格相同,即压缩是完全可以恢复的或无偏差的。这种压缩方法也称为无损压缩。用不可逆编码方法压缩的图像,在还原以后与原始图像相比有一定的误差,所以又称为有损压缩编码。

3)常见视频压缩标准与常用视频文件

视频压缩技术有很多种,下面介绍几种常见的多媒体数字视频压缩标准。

(1)MPEG-1标准

MPEG的全称是运动图像专家组(Moving Picture Experts Group)。MPEG-1标准制定于1992年,影视图像的分辨率为360×240×30(NTSC制)或360×288×25(PAL制),它是针对1.5Mb/s以下数据传输率的数字存储媒体运动图像及其伴音编码而设计的国际标准,也就是通常的VCD制作格式。使用MPEG-1的压缩算法,可以把一部120分钟长的电影压缩到1.2GB左右大小,其平均压缩比可达50∶1。

常见的MPEG-1视频格式的文件扩展名包括.mpg,.mlv,.mpe,.mpeg及VCD光盘中的.dat文件等。

(2)MPEG-2标准

MPEG-2标准制定于1994年,影视图像的分辨率为720×480×30(NTSC制)或720×576×25(PAL制),是针对标准数字电视(SDTV)和高清电视(HDTV)在各种应用下的压缩方案和系统层的详细规定,编码码率为3~100Mb/s,标准的规范在ISO/IEC13818中。

MPEG-2不是MPEG-1的简单升级。MPEG-2在系统和传送方面作了更加详细的规定和进一步的完善,它特别适用于广播级的数字电视的编码和传送,并被认定为是SDTV和HDTV的编码标准,现有的DVD/SVCD影碟里面就是采用的MPEG-2压缩标准。使用MPEG-2的压缩算法,可以把一部120分钟长的电影压缩到4~8GB的大小。

常见的MPEG-2视频格式的文件扩展名包括.mpg,.mpe,.mpeg,.m2v及DVD光盘上的.vob文件等。

(3)MPEG-4标准

MPEG-4标准制定于1998年,是为播放流式媒体的高质量视频而专门设计的。它结合了MPEG-1和MPEG-2的优点,可利用很窄的带宽,通过帧重建技术,压缩和传输数据,以求使用最少的数据获得最佳的图像质量。目前MPEG-4最有吸引力的地方在于它能够保存接近于DVD画质的小体积视频文件,在网络传输方面具有无可比拟的优势。另外,这种文件格式还包含了以前MPEG压缩标准所不具备的比特率可伸缩性、动画精灵、交互性甚至版权保护等一些特殊功能。

常见的MPEG-4视频格式的文件扩展名包括.asf,.mov,.avi等。

至于MPEG-3标准,则是大家熟知的MP3采用的编码,只不过它是音频格式。

(4)WMV标准

WMV的英文全称为Windows Media Video,是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV格式的主要优点包括:本地或网络回放、可扩充的媒体类型、部件下载、可伸缩的媒体类型、流的优先级化、多语言支持、环境独立性、丰富的流间关系以及扩展性等。

WMV文件的扩展名为.wmv。

(5)RM标准

Real Networks公司所制订的音频视频压缩规范称为Real Media,用户可以使用Real Player或Real One Player对符合Real Media技术规范的网络音频/视频资源进行实况转播,并且Real Media可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。

这种标准的另一个特点是用户使用Real Player或Real One Player播放器可以在不下载音频/视频内容的条件下实现在线播放。另外,RM作为目前主流网络视频格式,还可以通过其Real Server服务器将其他格式的视频转换成RM格式的视频并由Real Server服务器负责对外发布和播放。

(6)H·264标准

H·264标准是由国际电信联盟(ITU-T)制定的新一代视频压缩编码标准。H·264最具价值的部分无疑是更高的数据压缩比。在同等的图像质量条件下,H·264的数据压缩比能比当前DVD系统中使用的MPEG-2高2~3倍,比MPEG-4高1.5~2倍。正因为如此,经过H·264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。

H·264标准对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议电视等;又可工作于无时延限制的场合,如视频存储等。

与MPEG-4一样,经过H·264压缩的视频文件一般也是采用.avi作为其后缀名,同样不容易辨认,只能通过解码器来识别。

7.2.4 数据压缩

多媒体产品所涉及的媒体文件种类多、数据量大,保存、传送和携带不方便,数据压缩技术便可解决这个问题。

数据压缩技术目前经历了60余年的发展过程。早在1948年,Oliver提出了PCM(Pulse Code Modulation)编码理论即脉冲码调制编码,这标志着数据压缩技术的诞生。

1)数据压缩基本原理

数据压缩即是用最少的数码来表示信息。数据是用来记录和传输信息的,香农创立的信息论是把数据看成是信息和冗余信息的组合,可表示为:信息量=数据量+数据冗余。

数据之所能够被压缩,就是因为数据冗余的存在。在声音和图像数据表示中存在着大量的冗余,通过去除这些冗余可以极大地减小原始声音及图像数据的大小。比如在同一幅图像中,规则物体和规则背景的表面特性具有很大的相关性,这就属于可以去除的数据中的空间冗余。数据压缩技术就是研究如何利用声音、图像数据的冗余性来减少多媒体的方法。

2)数据压缩方法分类

数据压缩方法一般按照应用原则进行分类,即考虑解码后的数据与压缩之前的原始数据是否完全一致。如果完全一致,意味着数据没有发生任何损失,对应的压缩算法形成的编码称为“无损压缩编码”;如果解码后的数据与原始数据不一致,则是“有损压缩编码”。

(1)无损压缩编码

无损压缩编码是无损压缩形成的编码,该编码在压缩时不丢失数据,还原后的数据与原始数据完全一致。无损压缩具有可恢复性和可逆性,不存在任何误差。

无损压缩编码属于可逆编码(Reversible coding),“可逆”是指压缩的数据可以不折不扣地还原成原始数据。典型的可逆编码有:霍夫曼编码、算术编码、行程编码等。

可逆编码由于编码方法必须保证数据“无损”,其压缩比不高,所以数据量比较大。

可逆编码一般用于要求严格、不允许丢失数据的场合,如医疗诊断中的成像系统、声音鉴别系统、星际探测的图像传送、卫星通信、全球定位系统、传真、网络通信等。

(2)有损压缩编码

有损压缩编码是有损压缩形成的编码,该编码在压缩时舍弃部分数据,还原成的数据与原始数据存在差异,有损压缩具有不可恢复性和不可逆性。

有损压缩编码属于不可逆编码(non Reversible coding)。常用的有损压缩编码有预测编码、PCM编码、量化与向量量化编码、频段划分编码、变化编码、知识编码等。