情感信息识别
要进行情感交流,首先是情感的识别。情感信息主要表现为内在和外在两种类型。外在型情感信息主要指声音、手势、体势和面部表情等信号,是可以通过外部自然观察到的。而内在的情感信息则不同,主要是指外部观察不到的内部生理反应,如心跳速率、舒张压和收缩压、脉搏、血管扩张、呼吸、皮肤传导力和颜色,还有温度等。直接观察到的感情状态就是以生理和行为形式所观察到的全部低级信号组成的模式。
对于外在的认知情感信息,如果是面部表情或其他姿势的信号,就要求使用每秒拍摄30帧的数码可视相机来记录。而对于演讲语音波形图的记录,则要通过麦克风来获得,此时通常要求以16KHZ速率取样,每个样品取16点。对于生理上的信号,例如一些频率大大低于嗓音的信号,一般以20HZ取样,每个样品取32点。对于肌肉潜能变化,要以20HZ来取样以能够得到由于压力产生的巨大变化。但要测试由于疲劳而产生的变化,比如乳酸的积累,就得以1KHZ速率取样。
所有的取样结束后,计算机将根据这些信号的描述,产生一系列的二进制数字。这些数字将用于分析与特定情感相关的表情。这就是情感的分析和识别工作。比如对于面部表情分析而言,就一直是情感识别的主要内容之一 。当我们通过摄像设备获取了面部表情视频后,接下来的工作就是要根据视频提供的图像信息分析,来识别出具体的情感类别。
人类有十分丰富的面部表情,社会学家将人类的表情大致分为十八种,如图5.2所示(分别是:1.失望,2.愁,3.忧,4.惊愕,5.仓皇,6.恐怖,7.嫌恶,8.暴怒,9.惧怕,10.怀疑,11.焦急,12.厌恶,13.鄙夷,14.藐视,15.嘲笑,16.微笑,17.恳求,18.大笑)。当然识别一个脸部表情不同于识别产生它的情感;因为脸部表情是所有感情中最容易人为控制的。


情感媒体表达
除了识别情感外,要进行情感交流,还需要机器完成情感的表现,涉及到情感的多媒体表达问题。应该说,生动形象的情感表现离不开这一步,要使情感得以与人类交流更离不开这一步。而一个完备的情感表现系统,实际上都包括了这重要的一步。情感表达也可以通过言语、表情以及其他体态姿势等来传达。
麻省理工学院媒体实验室Cahn的“情感编辑器”程序,就通过提取说话的声音与语言描述,能够产生带有期待情感的讲话。她确定了17个参数的作用:6个音调参数,4个定时参数,6个声音质量参数和一个清晰度参数,就是这些产生了听起来恐惧的、愤怒的、悲哀的、高兴的、厌恶的或惊奇的讲话。这17个参数被用来控制很多种类的情感——不只是为了很容易区别的情感,也考虑了各种个体之间的微妙区别。
对于汉语的情感基调主要由语词声调、语句句调和语词感情色彩决定的。这些因素均可以通过语调类属标注来给出,但汉语除了语调属性外,还有更重要的节律方面的属性,比如象速度特征,力度特征,节奏特征,节拍特征,音高特征等等。要想通过对语言进行节奏,韵律,格律,停延、重音及语调规律的分析来获得这些因素,对于计算机来说,目前还存在着巨大的困难。


机器如果有感情的话,那么,通过视觉和听觉的面部表情、手势和声音语调等媒体,将能够更好地与使用者或其他机器进行通信和交流。此外,机器还可以使用其他人类所没有的媒体手段,如红外线温度、皮肤电活动、脑电波、肌动电流图或是血压等来进行情感交流,获得一般人类不能认知的情感状态。这样无疑又使机器系统如虎添翼,能够更好地发挥机器的优势。
在情感化计算机可以为我们带来许多好处的同时,也会给人类带来许多潜在的误导,甚至危险。例如像对使用者的欺骗、幼稚的冲动和没有情感理智的行为、破坏秘密性、识别假装的情感、测谎机出错、情感的操纵等等。

