课程门户-章节详情

王罡

音频信号处理

声音是一种在时间和幅度上都连续的波形，人为什么能听到声音，实际上就是各种声音通过不同频率声波通过空气震动，刺激人耳结果。所以声音有传播距离。

周期：信号在两个峰点或谷底之间的相对时间。周期和频率互为倒数。频率表示每秒钟产生多少个波峰，频率单位用赫兹（Hz）或千赫兹（kHz）表示。

频率：体现音调高低，幅度表示从信号的基线到当前波峰的距离，体现音量的强弱程度。单位用分贝 (db)表示。

按一定的时间间隔将声音波形在时间轴（横轴）上进行分割，把时间和幅度上都是连续的模拟信号转换成时间上离散，幅度连续的信号。

采样只解决了音频波形信号的离散化问题，还需要某种数字化的方法反映每个样本点在幅度轴上的值。把声波波形在幅度轴上数字化表示称为“量化”。

量化有2种表示方式：

1.量化等级：幅度轴划分的等级个数。量化等级数越多，样本描述越准确。

2.量化位数：用二进制位数，表示量化等级。

量化等级和量化位数的关系：量化等级=2的量化位数次方

编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据。

常用的编码方式是PCM——脉冲调制。

语音合成：把文字信息转变为语音数据，通过计算机以语音形式播放出来，这个技术比较成熟。

语音合成主要应用有：公交车自动报站、语音导航、语音翻译等等。

语音识别：让机器通过识别语音信号转变为相应的文本或命令的技术。

它和语音合成技术相反，但难度更高，因为人类的语音比较复杂。语音识别技术应用还有：语音识别输入法、语音导航、语音分类搜索、语音识别控制等等。