7.2 音频信息处理
7.2.1 音频信息处理基础
1.音频接口
音频卡:处理音频信号的PC插卡是音频卡(Audio Card),又称声音卡,声音卡处理的音频媒体有数字化声音(Wave)、合成音乐(MIDI)、CD音频等。
音频卡的功能:音频的录制与播放、编辑与合成,提供MIDI接口、文-语转换、CD-ROM接口、游戏接口,支持全双工功能。
声音输入计算机的过程如图7-5所示。
图7-5 声音输入计算机的过程
声音的处理过程如图7-6所示。
图7-6 声音的处理过程
乐器数字接口(Musical Instrument Digital Interface,MIDI)是数字音乐的国际标准。MIDI的音乐符号化过程实际上就是产生MIDI协议信息的过程。 音乐合成器是计算机音乐系统中最重要的设备之一,如图7-7所示。
(1)MIDI In(输入口):接收从其他MIDI装置传来的消息。
(2)MIDI Out(输出口):发送某装置生成的原始MIDI消息,向其他设备发送MIDI消息。
(3)MIDI Thru(转发口):传送从输入口接收的消息到其他MIDI装置,向其他设备发送MIDI消息。
声卡的声道数:单声道与立体声、四声道环绕、5.1声道。
声卡的技术指标有以下几个。
①采样频率和量化位数。
图7-7 音乐合成器
②MIDI合成方式。
③数字信号处理器。
④音频压缩。
2.音频信号的特点
音频信息在多媒体中的应用极为广泛,如视频图像配以娓娓动听的音乐和语音,静态或动态图像配以解说和背景音乐,游戏中的音响效果等。
音频处理技术主要包括电声转换,音频信号的存储、重放、加工处理,以及数字化音频信号的编码、压缩、传输、存取、纠错等。
(1)音频信号的分类
音频信号可分为两类:语音信号和非语音信号。
语音是语言的物质载体,是社会交际工具的符号,它包含了丰富的语言内涵,是人类进行信息交流所特有的形式。
非语音信号主要包括音乐和自然界存在的其他声音形式。 非语音信号的特点是不具有复杂的语义和语法信息,信息量小、识别简单。
规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。 因为声波是在时间和幅度上都连续变化的量,所以被称为模拟量。
用声音录制软件记录的英文单词“Hello”语音的实际波形如图7-8所示。
图7-8 “Hello”语音的实际波形
(2)模拟音频信号的两个重要参数
模拟音频信号有两个重要参数:频率和幅度。 声音的频率体现了音调的高低,声波幅度的大小体现了声音的强弱。
一个声源每秒可产生成百上千个波,我们把每秒波峰所发生的数目称为信号的频率,单位用赫兹(Hz)或千赫兹(k Hz)表示。 信号的幅度是从信号的基线到当前波峰的距离。 幅度决定了信号音量的强弱程度。 幅度越大,声音就越强。 对于音频信号,声音的强度用分贝(d B)表示,分贝的幅度就是音量。
图7-9 信号的幅度
(3)声音的模/数与数/模转换
模/数转换就是把模拟信号转换成数字信号的过程,模拟电信号变为了由“0”和“1”组成的数字信号。 这样做的好处是显而易见的,声音存储质量得到了加强,数字化的声音信息使计算机能够进行识别、处理和压缩等操作。
模/数转换的一个关键步骤是声音的采样和量化,以得到数字音频信号,它在时间上是不连续的离散信号。
借助于模/数或数/模转换器,模拟信号和数字信号可以互相转换。
(4)声音的三要素
①音调:代表了声音的高低。 音调与频率有关,频率越高,音调越高,反之亦然。
读者也许有这样的经验,当提高磁带录音机的转速时,其旋转加快,声音信号的频率提高,录音机放出来的声音的音调就会提高。 同样,在使用音频处理软件对声音的频率进行调整时,也可明显感到音调随之而产生了变化。 不同的声源具有自己特定的音调,如果改变了某种声源的音调,则声音会发生质的转变,使人们无法辨别声源本来的面目。
②音色:即特色的声音。 声音分为纯音和复音两种类型。 纯音是指振幅和周期均为常数的声音;复音则是具有不同频率和不同振幅的混合声音。 大自然中的声音绝大部分是复音。 在复音中,最低频率的声音是“基音”,它是声音的基调。 其他频率的声音称为“谐音”,也称为泛音。 基音和谐音是构成声音音色的重要因素。 各种声源都具有自己独特的音色,例如,各种乐器的声音、每个人的声音、各种生物的声音等,人们就是依据音色来辨别声源种类的。
③音强:声音的强度,也被称为声音的响度,常说的“音量”也指的是音强。 音强与声波的振幅成正比,振幅越大,强度就越大。 唱盘、CD及其他形式声音载体中的声音强度是一定的,通过播放设备的音量控制,可改变聆听时的音强。
7.2.2 模拟音频的数字化过程
数字化的声音易于用计算机软件处理,现在几乎所有的专业化声音录制、编辑器都采用了数字方式。 模拟音频数字化的过程中涉及音频的采样、量化和编码。
采样和量化的过程可由模/数转换器实现。 模/数转换器以固定的频率去采样,即每个周期测量和量化信号一次。 经采样和量化后,声音信号经过编码后就成为数字音频信号,可以将其以文件形式保存在计算机的存储介质中,这样的文件一般称为数字声波文件。
1.声音数字化的过程
声音数字化的过程中需要三个步骤:采样、量化、编码,如图7-10所示。
图7-10 模拟信号的数字化过程
(1)采样
信息论的奠基者香农(Shannon)指出:在一定条件下,用离散的序列可以完全代表一个连续函数,这是采样定理的基本内容。
声音在真实世界中是模拟的,在时间和幅度上是连续的,而数字信号只在特定的位置取有限的值,也就是说,数字表示的声音是一个数据序列,在时间上只能是断续的。因此,为了把模拟声音变成数字声音,即为了实现模/数转换,需要对模拟音频信号波形进行分割,这种方法称为采样(Sampling)。 采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。 该时间间隔称为采样周期,其倒数为采样频率。 采样频率是指计算机每秒采集多少个声音样本。
采样频率与声音频率之间有一定的关系,根据奈奎斯特(Nyquist)理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成原来的声音,即
fs≥2f
(2)量化
采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等份的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响到音量的高低。 人们把对声波波形幅度的数字化表示称为“量化”。
量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合,把落入某个区段内的样值归为一类,并赋予相同的量化值。 如何分割采样信号的幅度呢?这里还是采取二进制的方式,以8位(bit)或16位的方式来划分纵轴。 也就是说,在一个以8位为记录模式的音效中,其纵轴将会被划分为几个量化等级,用以记录其幅度大小。
以图7-11所示的原始模拟波形为例进行采样和量化。 假设采样频率为1000Hz,即每1/1000s模/数转换器采样一次,其幅度被划分成0~9共10个量化等级,并将其采样的幅度值取最接近0~9中的一个整数来表示,图7-11中每个正方形表示一次采样。
图7-11 采样和量化
当数/模转换器从图7-11得到的数值中重构原来的信号时,得到图7-12中蓝色(直线段)线段所示的波形。 从图中可以看出,蓝色线与原波形(红色线,即曲线部分)相比,其波形的细节部分丢失了很多。 这意味着重构后的信号波形有较大的失真。
图7-12 波形的失真
失真在采样过程中是不可避免的,如何减少失真呢? 可以直观地看出,我们可以把图7-12中的波形划分成更为细小的区间,即采用更高的采样频率。 同时,增加量化精度,以得到更高的量化等级,也可降低失真的程度。
量化精度也称为量化位数,是用于描述每个采样点样值的二进制倍数,用于表示声音的振幅的量化精度,以位为单位。 例如,每个声音样本若用16bit表示,则每个采样值的取值是0~65526(2的16次方)。 量化精度越高,音质就越细腻,声音的质量就越好,需要的存储空间也就越多,常用的量化位数为8位、12位、16位。 如今市面上的主流产品是16位的声卡,专业级别使用的是24位甚至32位。 应该说16位的量化精度对于一般用户使用计算机多媒体音频而言已经绰绰有余了。
在图7-13中,采样率和量化等级均是原来的两倍,分别为2000Hz和20个量化等级。 在图7-14中,采样率和量化等级是原来的四倍倍,分别达到了4000Hz和40个量化等级。 从这两个图中可以看出,当用数/模转换器重构原来的信号时(图中的轮廓线),信号的失真明显减少了,信号质量得到了提高。
图7-13 采样率和量化等级是原来的两倍
图7-14 采样率和量化等级是原来的四倍
(3)编码
模拟信号量经过采样和量化以后,形成一系列的离散信号---脉冲数字信号。 这种脉冲数字信号可以一定的方式进行编码,形成计算机内部运行的数据。 所谓编码,就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。 在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,则可加以纠正。
编码的形式比较多,常用的编码方式是脉冲编码调制(Pulse Code Modulation, PCM),这是把模拟信号变换为数字信号的一种调制方式,即把连续输入的模拟信号变换为在时域和振幅上都离散的量,然后将其转化为代码形式后进行传输或存储。
2.声音数字化的存储容量
无论什么样的声音,都能够按照波形声音进行采样、量化、编码。 采样的频率等于波形被等分的份数。 频率越高,声音质量就越接近原始声音,所需的存储量也就越大,标准的采样频率有11.025k Hz、22.05k Hz、44.1k Hz。 每一个采样点的比特数量就是采样点测量的精度。 采样的信息量是通过将每个波形采样垂直等分而形成的,8位采样指的是将采样幅度划分为256等份,16位采样就可以划分为65536等份。 显然,用来描述波形特征的垂直单位数量越多,采样越接近原始的模拟波形,存储量也就越大。 通常,声音系统有多个声道。 如果是单声道,则表明声音记录的只是一个波形;如果是双声道(立体声),则表明记录的是两个波形。 双声道听起来比单声道的声音丰满且有一定的空间感,但是需要两倍的存储空间。 声音的质量越高,所需要的数据量也就越大,如果对声音不进行压缩,则声音的数据量可以通过以下公式来计算:
声音的数据量=(采样频率×量化位数×声道数)/8(B/s)
例如,1分钟的单声道的声音,若采样频率为11.025k Hz,采用8位采样位数,则声音的数据量为0.66MB;如果采样频率为22.05k Hz,则每分钟的数据量为1.32MB;如果是双声道,则数据量翻倍。
3.数字音频文件格式
如同存储文本文件一样,存储声音数据也需要存储格式。 在因特网和各种机器上运行的声音文件格式很多,但目前比较流行的有以.voc(Creative Voice)、.wav(Wave-form)、.au(Audio)、.aiff(Audio Interchangeable File Format)和.snd(Sound)等为扩展名的文件格式。 下面简单介绍几种声音文件格式。
(1)VOC格式
VOC文件主要用于DOS操作系统,它由文件首部和波形音频数据块组成。 文件首部包括标识符、版本号和一个指向数据块开始位置的指针等。
(2)WAV格式
WAV格式的文件又称波形文件,是用不同的采样频率对声音的模拟波形进行采样得到的一系列离散的采样点,是以不同的量化位数(16位、32位或64位)把这些采样点的值转换成二进制数后得到的。 WAV是数字音频中最常用的格式,它还原的音质较好,但所需存储空间较大。
(3)MIDI格式
MIDI是由世界上主要的电子乐器制造厂商建立起来的一个通信标准,并于1988年正式提交给MIDI制造商协会,此后便成为数字音乐的一个国际标准。 MIDI标准规定了电子乐器与计算机连接的电缆硬件,以及电子乐器之间、乐器与计算机之间传送数据的通信协议等规范。 MIDI标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。 因为MIDI文件记录的是一系列指令而不是数字化的波形数据,所以其占用的存储空间比WAV文件小得多。
(4)MP3格式
MP3(MPEG Layer 3)是目前最热门的音乐文件。 其采用MPEG Layer3 标准对WAVE音频文件进行压缩而成,其特点是能以较小的比特率、较大的压缩率达到近乎CD的音质,其压缩率可达1∶12,CD中的声音每分钟大约需要1MB的磁盘空间。
(5)RM格式
RM(RealMedia)是Real Networks公司所制定的音频压缩规范,是目前在Internet上相当流行的跨平台的客户机/服务器结构的多媒体应用标准,它采用音频/视频流和同步回放技术来在Internet上全带宽地提供最优质的多媒体,同时,它也能够在Internet上以28.8kb/s的传输速率提供立体声[A3]和连续视频。