全屏显示专题章节

1.8.1 1.语言识别：已经被应用的语音智能处理系统

1.语言识别：已经被应用的语音智能处理系统

长期以来，语音识别系统在对每个建模单元的统计概率模型进行描述时，大多采用混合高斯模型（GMM）。由于估计简单和有成熟的区分度训练技术支持，这种模型适合海量数据训练，所以它也就在语音识别应用中居于垄断性地位。不过，GMM本质上是一种浅层网络建模，对特征的状态空间分布不能充分描述。其特征维度一般也就几十维，对特征之间的相关性也不能进行充分描述。因而，GMM建模是一种似然概率建模，能力有限。

2011年，微软公司在识别系统研究方面取得成果，这种基于深度神经网络的成果，对语音识别原有的技术框架进行了彻底的改变。

由于采用了深度神经网络，特征之间的相关性得到了充分利用描述，连续多帧的语音特征并在一起后，形成了一个高维特征。由此，深度神经网络就得以采用高维特征训练来模拟，最终形成较为理想的适合模式分类的特征。在线上服务时，深度神经网络的建模技术能够和传统的语音识别技术进行无缝对接，大幅度提升了语音识别系统的识别率。在线下的服务方法是，在实际解码过程中，仍采用传统的HMM声学模型、传统的统计语言模型和传统的动态WFST解码器。在声学模型的输出分布计算时，完全用“神经网络的输出后验概率乘以一个先验概率来代替传统HMM模型中的GMM的输出似然概率”。这样的语音识别系统比传统的GMM语音识别系统的误识别率下降了25%。

Google公司是最早采用深层神经网络进行声音建模的工业化应用企业之一。其产品中采用的深度神经网络有4-5层。相比而言，百度采用的深度神经网络达到了9层。这就是百度更好地解决了深度神经网络在线计算的技术难题的原因所在。因而，百度在拓展海量语料的DNN模型训练方面占有更大的优势。

由于深度神经网络的采用，使得语音识别技术得到了广泛应用。就大家常见的来说，如语音导航、语音拍照、语音拨号、语音唤醒等功能，已经成为各智能应用上最普遍的终端。另外，智能语音操控也由当初的聊天功能发展成为能帮助用户解决实际问题的功能性应用。现在，几乎所有的主流智能手机都带有一定程度的语音功能。比如说，苹果公司iOS有Siri、谷歌公司Android有Google Now、微软公司Windows Phone有Cortana等。在这方面，智能语音正在走向成熟，智能语音控制成为行业发展的一大特色。

随着智能操作系统时代的来临，平板电脑、智能家居和智能汽车等产品不断出现，语音识别功能被引入越来越多的应用之中。由此，语音智能系统迎来了新的机遇。这其中，随着语音识别技术的提高，智能语音由“听话”变为了“懂话”，实现了语音交互。究其这种变化的原因，主要体现在以下几个方面。

（1）人工智能算法上的突破。语音识别的原理是模式匹配法。

在训练阶段，将用户依次述说的词汇表的特征矢量存入模板库。在识别阶段，机器将输入的语音与模板库中的每个模板中存入的语音进行比较，最终将相似度最高者作为识别结果。这种相似度，很难保证识别的就是原来的用户。

随着深度学习技术的突破，通过语音识别声学模型训练，采用多层深度神经网络，就能让语音识别错误率下降30%。这是语音识别技术最快的进步。

（2）大数据的灵活应用。

智能手机、平板电脑和可穿戴的移动智能终端的普及应用，预示着大数据时代的来临，让获取文本或语音方面的语料渠道大为拓宽，这就为语音模型和声学模型的训练提供了丰富的数据资源，也让大规模语言和声学模型的构建成为可能。

在语音识别中，大数据对于训练数据的匹配和丰富性，具有推动系统性能提升的作用，有效解决了语音的标注和分析所需要的大规模语料资源。

（3）高速移动数据网络通道被打通。

在2G和3G时代，受流量限制，严重制约了语音交互技术的无限制使用，也就让训练所需的海量数据累积较慢，从而限制了机器在语音辨识与语义理解方面能力的提升。而在本地模式下，因为缺乏大数据支撑，导致语音辨识率很低，从而影响了用户体验，导致使用频次下降，形成负反馈。

到了4G时代，随着不断提高的手机网速、增加语音应用的频次和范围以及由此带来的语音资料库呈海量增长，使得语音辨识准确率和语音分析能力得到很大提升。这方面的提升，推动了语音交互发展性能的提升体验，使得语音交互应用变得更加丰富，形成正向反馈。

总体上来说，人工算法上的突破让语音识别技术实现了功能上的智能化，建立在大数据基础上的声学模型让识别的成功率得到保障，4G高速网络既能快速上传样本，又能快速下载相应的识别结果，让用户的体验得到提升。由此，语音识别技术就走出了“听”的层面，朝着“懂”的层面发展，成为能与用户实现交互的助力帮手。

技术和理念上的突破，让人机之间的交互变得越来越频繁，人类对智能设备的依赖性也越来越强。只是，随着智能设备研发的深入，在其功能和性能不断提升的同时，人类操控设备的方式也变得复杂起来。有时候，智能设备离开专业人士，一般人就感到无所适从。怎样改变现状，让人工操控智能设备变得简单方便起来呢？如果让语音成为主流的交互手段，就能让人们针对智能设备的操作变得简单化，从而节省人机互动的时间。

针对语音识别技术的发展，最能体会到其给生活带来方便的人士，首先应是老龄人、低龄人和残疾人士。比方，老年人视力下降、动作不灵活，低龄儿童一时还不具备手写能力，而盲人无法识别事物等，都可以通过语音交互给生活带来方便。

另外，通过语音识别技术，还能让人机交互以人类最熟悉和习惯的方式进行。这种优势和价值一旦被充分挖掘并发挥出来，必将会对即时通讯、购物和搜索等垂直应用产生巨大影响。目前，将语音交互技术应用于搜索引擎、浏览器等应用的入口，成为产业巨头们纷纷投入资源进行研发的重要内容。

随着语音识别技术的发展，语音交互产业链基本形成。在语音交互技术领域，仅从中国来说，就涌现出了一大批优秀企业。他们经过多年探索，让语音技术不再成为国际巨头垄断的技术，拥有核心技术的成果不断面世：有了如清华、中科院等人工智能技术研究机构推出的智能机器人；有了如科大讯飞、捷通华声等掌握的人机交互技术等。而在互联网及应用领域语音技术也呈现出百花齐放的局面，如在影视、音乐、餐饮、旅游和导航等方面，语音识别技术得到了良好的运用。