课程门户-章节详情

王东

1 数字媒体技术概述
- 1.1 直播导学
- 1.2 基本概念
- 1.3 研究领域及关键技术
- 1.4 应用领域
- 1.5 本章练习
2 数字音频技术基础
- 2.1 直播导学
- 2.2 音频技术及特性
- 2.3 音频数字化
- 2.4 数字音频质量及格式
- 2.5 数字音频的处理技术
- 2.6 数字音频技术应用
- 2.7 实训1：为朗诵音频添加背景音乐
- 2.8 本章习题
3 数字图像处理技术
- 3.1 直播导学3
- 3.2 数字图像基础
- 3.3 彩色空间的线性转换
- 3.4 数字图像的描述属性
- 3.5 数字图像的获取技术
- 3.6 数字图像创意设计与处理技术
- 3.7 数字图像技术的应用
- 3.8 实训2：合成沙漠绿洲效果图
- 3.9 本章习题
4 数字视频技术
- 4.1 直播导学4
- 4.2 电影与电视
- 4.3 电视图像数字化
- 4.4 数字视频的获取
- 4.5 数字视频编辑技术
- 4.6 数字视频后期特效处理技术
- 4.7 数字视频技术的应用
- 4.8 实训3：欣赏《奇幻森林》并分析其特效
- 4.9 本章习题
5 数字动画技术
- 5.1 直播导学5
- 5.2 数字动画概述
- 5.3 二维动画技术
- 5.4 三维动画技术
- 5.5 数字动画创意与设计
- 5.6 数字动画技术的应用
- 5.7 实训4：制作单摆动画
- 5.8 本章习题
6 数字游戏技术
- 6.1 直播导学6
- 6.2 游戏概述
- 6.3 游戏设计原理
- 6.4 游戏设计相关技术
- 6.5 游戏设计案例
- 6.6 本章习题
7 虚拟现实交互技术
- 7.1 直播导学7
- 7.2 虚拟现实交互技术概述
- 7.3 虚拟建模技术
- 7.4 实时绘制技术
- 7.5 虚拟声音交互技术
- 7.6 虚拟现实工具软件与自然交互技术
- 7.7 虚拟现实交互设备
- 7.8 本章练习
8 数字媒体的Web集成与应用
- 8.1 HTML基础
- 8.2 JavaScript基础
- 8.3 Web的工作原理
- 8.4 Web的设计与规划
- 8.5 Web的开发、测试与发布
- 8.6 Web的集成技术的应用
- 8.7 本章练习
9 数字媒体压缩技术
- 9.1 数字媒体压缩技术概述
- 9.2 通用的数据压缩技术
- 9.3 数字媒体压缩标准
- 9.4 数字媒体压缩技术的应用和发展
- 9.5 本章习题
10 数字媒体存储技术
- 10.1 数字媒体存技术概述
- 10.2 存储设备及原理
- 10.3 数据库存储技术
- 10.4 分布式存储技术
- 10.5 数字媒体存储技术的应用与发展
- 10.6 本章习题
11 数字媒体管理和保护
- 11.1 数字媒体管理概述
- 11.2 媒体存储数据模型
- 11.3 数字媒体版权保护概念框架
- 11.4 数字媒体版权保护技术基础
- 11.5 数字媒体版权保护典型系统
- 11.6 本章习题
12 数字媒体传输技术
- 12.1 数字媒体传输技术概述
- 12.2 流媒体传输技术
- 12.3 P2P传输技术
- 12.4 IPTV传输技术
- 12.5 数字媒体传输技术的应用与发展
- 12.6 本章习题
13 数字媒体技术发展趋势
- 13.1 数字媒体技术发展现状
- 13.2 数字媒体内容处理技术
- 13.3 基于内容的媒体检索技术
- 13.4 数字媒体传输技术

虚拟声音交互技术

7.4.1 三维虚拟声音的概念与作用

虚拟现实交互系统中的三维虚拟声音与人们熟悉的立体声音完全不同。我们日常听到的立体声录音，虽然有左右声道之分，但就整体效果而言，我们能感觉到立体声音来自听者面前的某个平面；而虚拟现实交互系统中的三维虚拟声音，使听者能感觉到声音却是来自围绕听者双耳的一个球形空间中的任何地方，即声音可能来自于头的上方、后方或者前方。

视觉和听觉一起使用能充分显示信息内容，尤其是当空间超出了视域范围，从而提供更强烈的存在和真实性感觉。另外，声音是用户和虚拟环境的另一种交互方法，人们可以通过语音与虚拟世界进行双向交流。

7.4.2 三维虚拟声音的特征

全向三维定位特性

全向三维定位特性（3D Steering）指在三维虚拟空间中，使用户能准确地判断出声源的精确位置，符合人们在真实境界中的听觉方式。

三维实时跟踪特性

三维实时跟踪特性（3D Real Time Localization）是指在三维虚拟空间中，实时跟踪虚拟声源位置变化或景象变化的能力。

沉浸感与交互性

三维虚拟声音的沉浸感就是指加入三维虚拟声音后，能使用户产生身临其境的感觉，这可以更进一步使人沉浸在虚拟环境之中，有助于增强临场效果。

7.4.3 人类的听觉模型与头相关转移函数

三维虚拟声音的使用主要依赖于用户对听觉空间中各种信息源的定位能力。如在听普通立体音乐时，头部有任何运动，听者都会感到声音方向在改变。然而我们希望的是耳机传出的声音应有位置、方向感，并且能根据听者与声源的距离来反映声音的大小，这在虚拟现实交互系统里实现是不容易的，因为它要求声源的位置必须完全独立于虚拟现实交互系统中使用者头部的运动。因此，在设计时必须仔细考虑听者精确定位所需的声学信息，认真分析确定声源方向的理论，为虚拟三维声音系统建立人类的听觉模型。

人类的听觉模型

人类听觉系统用于确定声源位置和方向信息，它不仅与混响时间差和混响强度差有关，更取决于对进入耳朵的声音产生频谱的耳廓。研究表明：在声波频率较低时，混响强度差很小，声音定位依赖混响时间差，当声波的频率较高时，混响强度差在声音定位中起作用。但进一步研究表明，该理论不能解释所有类型的声音定位，即使双耳的声音中包含时间相位及强度信息，仍使听者感觉到在头内而不是在身外。

头相关转移函数

声音相对于听者的位置会在两耳上产生两种不同的频谱分布，靠得近的耳朵通常感受到的强度相对高一些。通过测量外界声音及鼓膜上的声音的频谱差异，获得了声音在耳附近发生的频谱波形，随后利用这些数据对声波与人耳的交互方式进行编码，得出相关的一组转移函数，并确定出双耳的信号传播延迟的特点，以此对声源进行定位。理论上，这些转移函数因人而异，因为每个人的头、耳的大小和形状各不相同。但这些函数通常是从一群人获得的，因而它只是一组平均特征值。而且，由于头的形状也要与耳廓的本身的行为作用，因此，转移函数是与头相关的，故称为头相关转移函数（Head-Related Transfer Function，HRTF）。

7.4.4 语音识别与合成技术

语音是人类最自然的交流方式。与虚拟世界进行语音交互是实现虚拟现实交互系统中的一个高级目标，虚拟现实交互系统中的语音技术是语音识别和语音合成技术。但技术上还很不成熟。

语音识别技术（Automatic Speech Recognition，ASR），是指将人说话的语音信号转换为可被计算机程序所识别的文字信息，从而识别出说话人的语音指令以及文字内容的技术。语音合成技术（Text To Speech，TTS），是指将文本信息转变为语音数据，以语音的方式播放出来的技术。

虚拟现实交互系统中，如果将语音合成与语音识别技术结合起来，就可以使试验者与计算机所创建的虚拟环境进行简单的语音交流了。

图片预览