全屏显示专题章节

音频合成技术通过计算机合成声音，主要有两类：一类是合成音乐或音效，另一类是合成语音。语音识别技术以语音为研究对象，是通过计算机分析语音信号的特征参数来理解语音的语义，最终实现人与机器进行自然语言交互的一种技术。目前语音识别主要是通过文本—语音转换器和语音识别器来实现。

计算机合成音乐常用的是MIDI（Musical Instrument Digital Interface，电子乐器数字接口）音乐。计算机的媒体播放器在播放MIDI音乐时，读取MIDI文件，解释其内容并翻译成合成命令，由声卡按照合成命令发出MIDI消息（命令），由音乐合成器合成出各种音符并播放出音乐。

计算机合成MIDI音乐需要的三要素是：乐器、乐谱和演奏人员。计算机的声卡一般都带有音源，音源也称“音乐合成器”，相当于乐器集合，可以模仿几十种乐器的声音。MIDI乐谱是用MIDI音乐描述命令所编辑的MIDI文件，一首乐曲对应一个MIDI文件，文件扩展名是．mid。计算机中支持MIDI音乐播放的软件就相当于演奏人员，例如Microsoft Media Player、Real Player等。

MIDI音乐与波形音频相比音质稍差，但是有数据量小的优点，适用于手机铃声、游戏音效等方面。

2）文本—语音转换器

文本—语音转换是将文本形式的信息转换成为自然语言的一种技术。文本—语音转换器分为综合和连贯两种类型。

综合语音系统是通过分析单词，由计算机确认单词的发音，然后将这些音素被输入到一个复杂的模仿人声并发声的算法中，这样计算机就可以阅读文本了。综合的文本—语音转换器能读任何单词，甚至自造的词，但没有感情，有明显的机器语音的味道。

连贯语音系统会分析文本，并从预先录制好的文库中抽取出单词和词组的录音。这样做的效果比较自然，但不能读出文库中没有的单词。

文本—语音转换器的基本工作过程是：输入的汉字文本经过语言学和语音学处理后得到语流的控制参数，然后读取语音数据库，再经过语音信号处理后输出连续的语音，如图5．17所示。

文本—语音转换器在医疗、教育、通信、信息、家电等领域具有相当广泛的应用。目前已经逐步实用化的有：残障人士康复、计算机训练、信息服务等。

语音识别属于模式识别，分为训练和识别两个过程。在训练阶段，语音识别系统对人类的语言进行学习，学习结束后把学习内容组织成语音库存储起来；在识别阶段，就可以根据当前输入的语音在语音库中查找相应的词义或语义。

从信号处理的角度来看，任何一个语音识别系统都可用图5．18来表示。

在语音识别领域，IBM在世界上一直处于领先地位，它推出的ViaVoice中文连续语音识别系统已经实现了高度智能化的语音识别。ViaVoice具有自动识别非特定人、无限量词汇、连续语音识别、高识别率、专业文章智能分析、智能理解、网上语音聊天等功能，代表了当前语音识别领域的最高水平。