目录

  • 1 智能科学技术导论
    • 1.1 学科界定
    • 1.2 人工智能简史
    • 1.3 人脑机制
  • 2 算法运用
    • 2.1 算法构造
    • 2.2 算法结构
    • 2.3 问题求解
  • 3 环境感知
    • 3.1 视觉原理
    • 3.2 机器视觉
    • 3.3 景物理解
  • 4 思维运作
    • 4.1 语言理解
    • 4.2 依存性句法分析
    • 4.3 语境中意义获取
    • 4.4 意识整合
    • 4.5 艺术创作
  • 5 行为表现
    • 5.1 人体运动
    • 5.2 仿人行为
    • 5.3 机器歌舞
  • 6 智能接口
    • 6.1 人机会话
    • 6.2 情感交流
    • 6.3 脑机接口
  • 7 智能系统
    • 7.1 专家系统
    • 7.2 混合系统
    • 7.3 智能机器
  • 8 智能社会
    • 8.1 智能家居
    • 8.2 智能交通
    • 8.3 智慧城市
  • 9 展望
    • 9.1 机器困境
    • 9.2 智能哲学
    • 9.3 学科前景
人机会话

人机会话

人机会话技术有着悠久的历史,是智能化人机接口最具代表性的智能化技术,其目标就是要通过语音识别与生成方法与技术,来实现人机之间直接采用自然语言进行对话,并应用于智能机器人、聊天机以及各种智能系统的人机接口中。

       首先是语音识别。所谓语音识别就是要将语音信号转变为机器内部处理的文本符号。简单地讲,这一过程分为三个方面的内容,即特征提取、模式匹配以及模型训练,如图所示。 



根据语音识别的目标不同,可以将语音识别任务大体可分为3类:(1)孤立词识别(isolated word recognition),(2)关键词识别(keyword spotting),以及(3)连续语音识别。根据针对发音对象的不同,还可以把语音识别分为(4)特定人语音识别和(5)非特定人语音识别。

不管是什么具体的语音识别任务,大致上语音识别主要需要解决的问题包括:

    (1)话语要素的分割问题:将连续的话语分解为词、音素等基本单位单位;

    (2)确定语音模式区分标准:不同的说话人有不同的语音模式,即使同一个说话人,在不同的场合、不同的状态以及不同的时期,也会有不同的语音模式,这就为语音识别模式的分类带来了困难;

     (3)模糊性问题:说话的含混现象、语言中普遍存在的同义词现象等,使得语音识别成为一个依赖于上下文与会话背景的复杂研究课题; 

     (4)词语发音的动态性:单个字母或词、字的语音特性会受到上下文影响而变化,包括读音、重音、音调、音量和发音速度等方面的改变;

     (5)环境噪音干扰:人类具有鸡尾酒效应,可以在噪杂环境下排除干扰,但这一问题对于机器而言却没有有效的解决方法。

比如单单同音字现象,就是一个十分棘手的问题。我们知道,汉语有五万多汉字,却共用仅仅两千多个音节,因此同音字现象非常普遍。甚至会出现赵元任指出的《施氏食狮史》这种极端情况而使语音的机器识别研究陷于困境之中


我国开展语音识别技术研发的主要单位有中科院声学所、自动化所、清华大学、北方交通大学、哈尔滨工业大学、中国科技大学、四川大学、厦门大学等,开发了不少语音识别系统并应用到具体的智能手机、智能玩具以及其他应用系统中(如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等)。


语音合成

要实现人机对话系统除了语音识别外,还需要解决语音合成问题。与语音识别相反,语音合成是要将文字符号转换成为连续声音形成的话语,因此,语音合成技术,有时也称为文语转换技术。 



从智能技术的应用角度看,文语转换系统实际上可以看作是人工智能的一个分支领域。为了获得高质量的合成语音,除了语音合成本身涉及到的技术外,还需要在理解内容的角度,给出富有情感表达的话语表达效果。

语音合成本身的技术主要有两个方面,一是将文字序列转换为音韵序列,二是再将音韵表征的文字转换为语音波形。前者涉及到语言文本的处理技术,后者则涉及到声学处理技术。

有了语音识别与合成,人机会话最后核心部分,就是对话管理机制的构建。如果将人机对话看作是一个问答过程,那么就可以采用如图所示方案来实现对话管理机制。



对话管理

1968年,美国麻省理工学院的J.Weizenbaum设计了一个心理医生咨询系统 ELIZA,机器可以模仿心理医生来与患者交谈。其典型的一次会诊咨询是这样的:

          患者:男人都一个样。机器:怎么一个样法?

          患者:他们总有许多事来烦我们。机器:你能举个例子吗?

          患者:你瞧,我男友楞要叫我到这儿来。机器:您男友叫您到我这儿来?

          患者:他总说我情绪消沉。机器:听说您情绪消沉,我很遗憾。

          患者:是的,我心情不快乐。机器:你认为到我这儿来能使您高兴起来吗?

          患者:那自然,我需要帮助。机器:如果你得到帮助,对您来说,这意味着什么?

          患者:或许我会同妈妈相处得更好。机器:多讲一些您家里的情况,好吗?

          ……


ELIZA仅使用了简单的关键词替换策略,就可以使这场心理咨询如此顺利进行。不过细心的读者会发现,机器似乎只会换角度“复述性”提问来应付患者。但作为心理咨询,这对于患者来说就不同了。因为有时患者们只是需要与一个人聊聊天,袒露一些心中的苦闷而已。此时,一台机器可能会比一位医生更“安全”,况且机器会有极大的耐心来倾听患者没完没了的唠叨、抱怨或倾诉。因此,从这个意义上讲,这种交谈,与其说是ELIZA的成功应酬,倒不如说是人类患者本身的需要成全了这场交谈更确切。

为了说明该系统的“智能”,研究者还开展了一场别开生面的图灵测验,具体方法就是安排精神病医生通过电传机与真病人或假病人(机器系统)进行交谈,结果发现,虽然这些医生知道其中有一位是假病人,但却无法判别哪位是假的。