人机会话
人机会话技术有着悠久的历史,是智能化人机接口最具代表性的智能化技术,其目标就是要通过语音识别与生成方法与技术,来实现人机之间直接采用自然语言进行对话,并应用于智能机器人、聊天机以及各种智能系统的人机接口中。
首先是语音识别。所谓语音识别就是要将语音信号转变为机器内部处理的文本符号。简单地讲,这一过程分为三个方面的内容,即特征提取、模式匹配以及模型训练,如图所示。

根据语音识别的目标不同,可以将语音识别任务大体可分为3类:(1)孤立词识别(isolated word recognition),(2)关键词识别(keyword spotting),以及(3)连续语音识别。根据针对发音对象的不同,还可以把语音识别分为(4)特定人语音识别和(5)非特定人语音识别。
不管是什么具体的语音识别任务,大致上语音识别主要需要解决的问题包括:
(1)话语要素的分割问题:将连续的话语分解为词、音素等基本单位单位;
(2)确定语音模式区分标准:不同的说话人有不同的语音模式,即使同一个说话人,在不同的场合、不同的状态以及不同的时期,也会有不同的语音模式,这就为语音识别模式的分类带来了困难;
(3)模糊性问题:说话的含混现象、语言中普遍存在的同义词现象等,使得语音识别成为一个依赖于上下文与会话背景的复杂研究课题;
(4)词语发音的动态性:单个字母或词、字的语音特性会受到上下文影响而变化,包括读音、重音、音调、音量和发音速度等方面的改变;
(5)环境噪音干扰:人类具有鸡尾酒效应,可以在噪杂环境下排除干扰,但这一问题对于机器而言却没有有效的解决方法。
比如单单同音字现象,就是一个十分棘手的问题。我们知道,汉语有五万多汉字,却共用仅仅两千多个音节,因此同音字现象非常普遍。甚至会出现赵元任指出的《施氏食狮史》这种极端情况而使语音的机器识别研究陷于困境之中
我国开展语音识别技术研发的主要单位有中科院声学所、自动化所、清华大学、北方交通大学、哈尔滨工业大学、中国科技大学、四川大学、厦门大学等,开发了不少语音识别系统并应用到具体的智能手机、智能玩具以及其他应用系统中(如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等)。
语音合成
要实现人机对话系统除了语音识别外,还需要解决语音合成问题。与语音识别相反,语音合成是要将文字符号转换成为连续声音形成的话语,因此,语音合成技术,有时也称为文语转换技术。

从智能技术的应用角度看,文语转换系统实际上可以看作是人工智能的一个分支领域。为了获得高质量的合成语音,除了语音合成本身涉及到的技术外,还需要在理解内容的角度,给出富有情感表达的话语表达效果。
语音合成本身的技术主要有两个方面,一是将文字序列转换为音韵序列,二是再将音韵表征的文字转换为语音波形。前者涉及到语言文本的处理技术,后者则涉及到声学处理技术。
有了语音识别与合成,人机会话最后核心部分,就是对话管理机制的构建。如果将人机对话看作是一个问答过程,那么就可以采用如图所示方案来实现对话管理机制。

对话管理
1968年,美国麻省理工学院的J.Weizenbaum设计了一个心理医生咨询系统 ELIZA,机器可以模仿心理医生来与患者交谈。其典型的一次会诊咨询是这样的:
患者:男人都一个样。机器:怎么一个样法?
患者:他们总有许多事来烦我们。机器:你能举个例子吗?
患者:你瞧,我男友楞要叫我到这儿来。机器:您男友叫您到我这儿来?
患者:他总说我情绪消沉。机器:听说您情绪消沉,我很遗憾。
患者:是的,我心情不快乐。机器:你认为到我这儿来能使您高兴起来吗?
患者:那自然,我需要帮助。机器:如果你得到帮助,对您来说,这意味着什么?
患者:或许我会同妈妈相处得更好。机器:多讲一些您家里的情况,好吗?
……
ELIZA仅使用了简单的关键词替换策略,就可以使这场心理咨询如此顺利进行。不过细心的读者会发现,机器似乎只会换角度“复述性”提问来应付患者。但作为心理咨询,这对于患者来说就不同了。因为有时患者们只是需要与一个人聊聊天,袒露一些心中的苦闷而已。此时,一台机器可能会比一位医生更“安全”,况且机器会有极大的耐心来倾听患者没完没了的唠叨、抱怨或倾诉。因此,从这个意义上讲,这种交谈,与其说是ELIZA的成功应酬,倒不如说是人类患者本身的需要成全了这场交谈更确切。
为了说明该系统的“智能”,研究者还开展了一场别开生面的图灵测验,具体方法就是安排精神病医生通过电传机与真病人或假病人(机器系统)进行交谈,结果发现,虽然这些医生知道其中有一位是假病人,但却无法判别哪位是假的。

