

音频数字化过程
![]() |
每隔一定时间间隔采集一个声音的幅度值。
采样频率fs:1秒钟采集样本的次数 采样定理: fs >= 2fmax |
![]() |
将采样得到的连续的样本值转换成离散值。 量化等级:音频幅度划分的等级个数 量化位数:获得量化等级需要的二进制位数: 2量化位数=量化等级 |
![]() |
按照一定规则,把量化后的十进制的样本值用二进制表示出来。 常用的声音编码格式有:WAV、CD-DA、MP3、WMA、AIF等。 |
声音文件的存储容量
每秒钟声音的数据量(字节)=采样频率×量化位数×声道数/8

语音识别技术和语音合成技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。
一、语音识别技术
语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列,它所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(College of London)的Denes已经将语法概率加入语音识别中。
语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

目前智能手机上的语音识别技术除了能进行语音拨号之外,还可以进行语音转文字、翻译等工作。例如iPhone上的Dragon Dictation的应用程序可以让用户通过语音记笔记和发送电子邮件、更新Twitter;黑莓上也有类似功能的应用,如Dragon for Email;Android手机自带的语音识别软件可以帮助用户通过语音发送短信。
二、语音合成技术
语音合成技术是指通过机械的、电子的方法产生人造语音的技术。这种技术能将任意文字信息实时转化为标准流畅的语音朗读出来,使得机器能像人一样说话。它涉及了声学、语言学、数字信号处理、计算机科学等多个学科技术。
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方法。





