1
大学信息技术基础教程
1.2.5.4.4 5.4.4 音频合成技术与语音识别技术

5.4.4 音频合成技术与语音识别技术

音频合成技术通过计算机合成声音,主要有两类:一类是合成音乐或音效,另一类是合成语音。语音识别技术以语音为研究对象,是通过计算机分析语音信号的特征参数来理解语音的语义,最终实现人与机器进行自然语言交互的一种技术。目前语音识别主要是通过文本—语音转换器和语音识别器来实现。

1)MIDI音乐

计算机合成音乐常用的是MIDI(Musical Instrument Digital Interface,电子乐器数字接口)音乐。计算机的媒体播放器在播放MIDI音乐时,读取MIDI文件,解释其内容并翻译成合成命令,由声卡按照合成命令发出MIDI消息(命令),由音乐合成器合成出各种音符并播放出音乐。

计算机合成MIDI音乐需要的三要素是:乐器、乐谱和演奏人员。计算机的声卡一般都带有音源,音源也称“音乐合成器”,相当于乐器集合,可以模仿几十种乐器的声音。MIDI乐谱是用MIDI音乐描述命令所编辑的MIDI文件,一首乐曲对应一个MIDI文件,文件扩展名是.mid。计算机中支持MIDI音乐播放的软件就相当于演奏人员,例如Microsoft Media Player、Real Player等。

MIDI音乐与波形音频相比音质稍差,但是有数据量小的优点,适用于手机铃声、游戏音效等方面。

2)文本—语音转换器

文本—语音转换是将文本形式的信息转换成为自然语言的一种技术。文本—语音转换器分为综合和连贯两种类型。

综合语音系统是通过分析单词,由计算机确认单词的发音,然后将这些音素被输入到一个复杂的模仿人声并发声的算法中,这样计算机就可以阅读文本了。综合的文本—语音转换器能读任何单词,甚至自造的词,但没有感情,有明显的机器语音的味道。

连贯语音系统会分析文本,并从预先录制好的文库中抽取出单词和词组的录音。这样做的效果比较自然,但不能读出文库中没有的单词。

文本—语音转换器的基本工作过程是:输入的汉字文本经过语言学和语音学处理后得到语流的控制参数,然后读取语音数据库,再经过语音信号处理后输出连续的语音,如图5.17所示。

img106

图5.17 文本—语音转换系统

文本—语音转换器在医疗、教育、通信、信息、家电等领域具有相当广泛的应用。目前已经逐步实用化的有:残障人士康复、计算机训练、信息服务等。

3)语音识别器

语音识别属于模式识别,分为训练和识别两个过程。在训练阶段,语音识别系统对人类的语言进行学习,学习结束后把学习内容组织成语音库存储起来;在识别阶段,就可以根据当前输入的语音在语音库中查找相应的词义或语义。

从信号处理的角度来看,任何一个语音识别系统都可用图5.18来表示。

img107

图5.18 语音识别系统

在语音识别领域,IBM在世界上一直处于领先地位,它推出的ViaVoice中文连续语音识别系统已经实现了高度智能化的语音识别。ViaVoice具有自动识别非特定人、无限量词汇、连续语音识别、高识别率、专业文章智能分析、智能理解、网上语音聊天等功能,代表了当前语音识别领域的最高水平。