7.4.1 三维虚拟声音的概念与作用
虚拟现实交互系统中的三维虚拟声音与人们熟悉的立体声音完全不同。我们日常听到的立体声录音,虽然有左右声道之分,但就整体效果而言,我们能感觉到立体声音来自听者面前的某个平面;而虚拟现实交互系统中的三维虚拟声音,使听者能感觉到声音却是来自围绕听者双耳的一个球形空间中的任何地方,即声音可能来自于头的上方、后方或者前方。
视觉和听觉一起使用能充分显示信息内容,尤其是当空间超出了视域范围,从而提供更强烈的存在和真实性感觉。另外,声音是用户和虚拟环境的另一种交互方法,人们可以通过语音与虚拟世界进行双向交流。
7.4.2 三维虚拟声音的特征
全向三维定位特性
全向三维定位特性(3D Steering)指在三维虚拟空间中,使用户能准确地判断出声源的精确位置,符合人们在真实境界中的听觉方式。
三维实时跟踪特性
三维实时跟踪特性(3D Real Time Localization)是指在三维虚拟空间中,实时跟踪虚拟声源位置变化或景象变化的能力。
沉浸感与交互性
三维虚拟声音的沉浸感就是指加入三维虚拟声音后,能使用户产生身临其境的感觉,这可以更进一步使人沉浸在虚拟环境之中,有助于增强临场效果。
7.4.3 人类的听觉模型与头相关转移函数
三维虚拟声音的使用主要依赖于用户对听觉空间中各种信息源的定位能力。如在听普通立体音乐时,头部有任何运动,听者都会感到声音方向在改变。然而我们希望的是耳机传出的声音应有位置、方向感,并且能根据听者与声源的距离来反映声音的大小,这在虚拟现实交互系统里实现是不容易的,因为它要求声源的位置必须完全独立于虚拟现实交互系统中使用者头部的运动。因此,在设计时必须仔细考虑听者精确定位所需的声学信息,认真分析确定声源方向的理论,为虚拟三维声音系统建立人类的听觉模型。
人类的听觉模型
人类听觉系统用于确定声源位置和方向信息,它不仅与混响时间差和混响强度差有关,更取决于对进入耳朵的声音产生频谱的耳廓。研究表明:在声波频率较低时,混响强度差很小,声音定位依赖混响时间差,当声波的频率较高时,混响强度差在声音定位中起作用。但进一步研究表明,该理论不能解释所有类型的声音定位,即使双耳的声音中包含时间相位及强度信息,仍使听者感觉到在头内而不是在身外。
头相关转移函数
声音相对于听者的位置会在两耳上产生两种不同的频谱分布,靠得近的耳朵通常感受到的强度相对高一些。通过测量外界声音及鼓膜上的声音的频谱差异,获得了声音在耳附近发生的频谱波形,随后利用这些数据对声波与人耳的交互方式进行编码,得出相关的一组转移函数,并确定出双耳的信号传播延迟的特点,以此对声源进行定位。理论上,这些转移函数因人而异,因为每个人的头、耳的大小和形状各不相同。但这些函数通常是从一群人获得的,因而它只是一组平均特征值。而且,由于头的形状也要与耳廓的本身的行为作用,因此,转移函数是与头相关的,故称为头相关转移函数(Head-Related Transfer Function,HRTF)。
7.4.4 语音识别与合成技术
语音是人类最自然的交流方式。与虚拟世界进行语音交互是实现虚拟现实交互系统中的一个高级目标,虚拟现实交互系统中的语音技术是语音识别和语音合成技术。但技术上还很不成熟。
语音识别技术(Automatic Speech Recognition,ASR),是指将人说话的语音信号转换为可被计算机程序所识别的文字信息,从而识别出说话人的语音指令以及文字内容的技术。语音合成技术(Text To Speech,TTS),是指将文本信息转变为语音数据,以语音的方式播放出来的技术。
虚拟现实交互系统中,如果将语音合成与语音识别技术结合起来,就可以使试验者与计算机所创建的虚拟环境进行简单的语音交流了。

