9.3.1 多媒体技术研究的主要方向
多媒体涉及的技术范围很广,是多种学科和多种技术交叉的领域。目前,多媒体技术研究的主要方向有以下几个方面:
1)多媒体数据的表示技术
包括文字、声音、图形、图像、动画、影视等媒体在计算机中的表示方法。由于多媒体的数据量大得惊人,尤其是声音和影视,包括高清晰度数字电视(High Definition Television,简称HDTV)这类的连续媒体,为克服数据传输通道带宽和存储器容量的限制,投入了大量的人力和物力来开发数据压缩和解压缩技术;人—机接口技术,如语音识别和文本—语音转换(Text To Speech,简称TTS)也是多媒体研究中的重要课题;虚拟现实(Virtual Reality,简称VR)是当今多媒体技术研究中的热点技术之一。
2)多媒体数据的存储技术
多媒体数据的存储的目标是实现大容量信息的存储和管理。在发展集中式的海量存储技术的同时,也在向分布存储、并行访问的方向发展。分布数据存储技术与多媒体存储技术将在计算机通信网络中融合起来。
3)多媒体的应用开发
包括多媒体CD-ROM节目(Title)制作、多媒体数据库、环球超媒体信息系统(Web)、多目标广播技术(Multicasting)、影视点播(Video On Demand,简称VOD)、电视会议(Video Conferencing)、远程教育系统、多媒体信息的检索等。
4)多媒体创作和编辑工具的研究开发
基本目标是功能强大、适应性强、使用方便等,为将来人人都会使用多媒体创作和编辑工具提供了条件。
9.3.2 音频处理
多媒体技术的特点是交互式地综合处理声音、文字和图像等多种信息。在多媒体系统中,语音和音乐是必不可少的,没有音频的视频是不可接受的。音频和视频同步,使视频图像更具真实性。娓娓动听的音乐和解说,使静态图像变得更加丰富多彩。可视电话、电视会议中的声音更为重要。
1. 声音的基本概念
声音是人类进行交流和认识自然的主要媒体形式。从本质上说,声音是通过一定介质(如空气、水等)传播的一种连续的波,在物理学中称为声波。声音的强弱体现在声波的振幅上,音调的高低体现在声波的周期或频率上。
声波是随时间连续变化的模拟量,它有以下三个重要指标:
1)振幅
声波的振幅通常是指音量,它是声波波形的高低幅度,表示声音信号的强弱程度。
2)周期
声音信号的周期是指两个相邻声波之间的时间长度,即重复出现的时间间隔,以秒为单位。
3)频率
声音信号的频率是指信号每秒钟变化的次数,即为周期的倒数,以赫兹(Hz)为单位。
声音质量是用声音信号的频率范围来衡量,频率范围又叫频域或频带,不同种类的声源其频带也不同。一般而言,声源的频带越宽,表现力越好,层次越丰富。
2. 声音的数字化
声音是一种具有一定的振幅和频率且随时间变化的声波,通过话筒等转化装置可将其变成相应的电信号,但这种电信号是一种模拟信号,不能由计算机直接处理,必须先对其进行数字化,即将模拟的声音信号经过模数转换器ADC变换成计算机所能处理的数字声音信号,然后利用计算机进行存储、编辑或处理。在数字声音回放时,由数模转换器DAC将数字声音信号转换为实际的声波信号,经放大由扬声器播出。
把模拟声音信号转变为数字声音信号的过程称为声音的数字化,它是通过对声音信号进行采样、量化和编码来实现的。
1)采样
以固定的时间间隔(采样周期)抽取模拟信号的幅度值。采样后得到的是离散的声音振幅样本序列,仍是模拟量。采样频率越高,声音的保真度越好,但采样获得的数据量也越大。在MPC中,采样频率标准定为11.25kHz、22.05kHz、44.1kHz。
2)量化
把采样得到的信号幅度的样本值从模拟量转换成数字量。数字量的二进制位数是量化精度。在MPC中,量化精度标准定为8位、16位。
采样和量化过程称为模/数(A/D)转换。
3)编码
把数字化声音信息按一定数据格式表示。
3. 音频文件的格式
音频数据都是以文件的形式保存在计算机中。
音频的文件格式主要有WAV、MP3、WMA等,专业数字音乐工作者一般都使用非压缩的WAV格式进行操作,普通用户更乐于接受压缩率高、文件容量相对较小的:MP3或WMA格式。
1)WAV格式
这是Microsoft和IBM共同开发的PC标准声音格式。由于没有采用压缩算法,因此无论进行多少次修改和剪辑都不会产生失真,而且处理速度也相对较快。
对WAV格式音频文件的支持是迄今为止最为广泛的,几乎所有的播放器都能播放,而电子幻灯片、各种算法语言、多媒体工具软件都能直接使用。但是,波形文件的数据量比较大,其数据量的大小直接与采样频率、量化位数和声道数成正比。
2)MP3格式
MP3(MPEG Audio layer 3)文件格式是用一种按MPEG标准的音频压缩技术制作的数字音频文件,
它是一种有损压缩,通过记录未压缩的数字音频文件的音高、音色和音量信息,在它们的变化相对不大时,用同一信息替代,并且用一定的算法对原始的声音文件进行代码替换处理,这样就可以将原始数字音频文件压缩得很小,可得到11:1的压缩比。因此,一张可存储15首歌曲的普通CD光盘,如果采用MP3文件格式,即可存储超过160首CD音质的MP3歌曲。
3)CD格式
CD格式的音频文件扩展名为.cda。标准CD格式的采样频率为44.1kHz,量化位数为16bit,速率为176KB/s。
CD音轨是近似无损的,因此它的声音基本保真度高。
.cda文件只是一个索引信息,并不是真正的包含声音信息,所以在计算机上看到的.cda文件都是44B。不能直接复制CD格式的.cda文件到硬盘上播放,需要使用音频抓轨软件进行格式转换。
4)WMA格式
WMA(Windows Media Audio)文件是Windows Media格式中的一个子集,而windows Media格式是由Microsoft Windows Media技术使用的格式,包括音频、视频或脚本数据文件,可用于创作、存储、编辑、分发、流式处理或播放基于时间线的内容。
WMA文件可以通过在保证只有MP3文件一半大小的前提下保持相同的音质。同时,现在的大多数MP3播放器都支持WMA文件。
4. 音频处理软件
(1) Windows 自带的“录音机”。
“录音机”是Windows 提供的一种具有语音录制功能的工具。用“录音机”录制音频文件时,一次能录制的时间为60 秒,此文件的类型为WAV 格式。
(2) GoldWave。
GoldWave 是一款比较流行的音频编辑和处理软件。利用该软件可以进行录音、编辑、合成数字声音,结果可以保存为WAV 或MP3 格式。使用该软件也可以复制、剪切和粘贴声音,因为在工作窗口中能够直接看到声音的波型,所以复制和粘贴都很方便。
(3) Audio Converter。
Audio Converter 全能音频转换器支持目前所有流行的音频、视频格式,如MP3、MP2、OGG、APE、WAV、WMA、AVI、RM、RMVB、ASF、MPEG、DAT、3GP、MP4、FLV、MKV、MOD、MTS 等,转换成 MP3 / WAV / AAC / WMA / AMR 等音频格式。
更为强大的是,该软件能从视频格式中提取出音频文件,并支持批量转换,支持从CD 光盘中抓轨转换输出流行音频格式。
(4) Sound Forge。
Sound Forge 是Sonic Foundry 公司的产品,意为“声音熔炉”,也就是说, 把声音放入这个软件里,应能把它锻造成想要的样子。它在音乐和游戏音效制作领域应用广泛, 只能对单个音乐文件进行编辑,不能进行多轨音频处理。
(5) Audition。
Adobe Audition 的前身是CoolEdit,是美国Adobe Systems 公司开发的一款多轨录音和音频处理软件。它集成了几乎全部主流音乐工作站软件的功能,可以完成音频录制和提取、声音编辑、混音、效果处理、降噪等工作,还可以为视频作品配音、制作流行歌曲,并与同类软件协同工作,完成音乐的创作过程。Audition 的工作模式有编辑、多轨和CD 三种,其中最常用的是编辑和多轨模式。
9.3.3 图像处理
图像是多媒体中携带信息的极其重要的媒体,有人发表过统计资料,认为人们获取的信息的70%来自视觉系统,实际就是文字、图像和视频。人们最易接受的是图像和视频,而视频也是由图像组成的,可见图像在多媒体中的重要性。
1. 图形与图像
计算机绘制的图片有两种形式:图形和图像。
图形又称矢量图形或几何图形,它是用一组指令来描述的,这些指令给出构成该画面的所有直线、曲线、矩形、椭圆等的形状、位置、颜色等各种属性和参数。这种方法实际上是用数学方法来表示图形,然后变成许许多多的数学表达式,再编制程序,用语言来表达。计算机在显示图形时从文件中读取指令并转化为屏幕上显示的图形效果。
图像又称点阵图像或位图图像,它是指在空间和亮度上已经离散化的图像。可以把一幅位图图像理解为一个矩形,矩形中的任一元素都对应图像上的一个点,在计算机中对应于该点的值为它的灰度或颜色等级。这种矩形的元素就称为像素,像素的颜色等级越多则图像越逼真。因此,图像是由许许多多像素组合而成的。
2. 图像的数字化
图像只有经过数字化后才能成为计算机处理的位图。
自然景物成像后的图像无论以何种记录介质保存都是连续的。
从空间上看,一幅图像在二维空间上都是连续分布的,从空间的某一点位置的亮度来看,亮度值也是连续分布的。
图像数字化就是把连续的空间位置和亮度离散,它包括两方面的内容:空间位置的离散和数字化,亮度值的离散和数字化。
影响图像数字化质量的因素
影响图像数字化质量的主要参数有分辨率、颜色深度等,在采集和处理图像时,必须正确理解和运用这些参数。
1)分辨率
分辨率是影响图像质量的重要参数,它可以分为显示分辨率、图像分辨率和像素分辨率等。
(1)显示分辨率。
显示分辨率是指在显示器上能够显示出的像素数目,它由水平方向的像素总数和垂直方向的像素总数构成。
例如,某显示器的水平方向为1024像素,垂直方向为768像素,则该显示器的显示分辨率为1024×768。
显示分辨率与显示器的硬件条件有关,同时也与显示卡的缓冲存储器容量有关,其容量越大,显示分辨率越高。
在同样大小的显示器屏幕上,显示分辨率越高,像素的密度越大,显示图像越精细,但是屏幕上的文字越小。
(2)图像分辨率。
图像分辨率是指数字图像的实际尺寸,反映了图像的水平和垂直方向的大小。
图像分辨率越高,像素就越多,图像所需要的存储空间也就越大。
(3)像素分辨率。
像素分辨率是指显像管荧光屏上一个像素点的宽和长之比,在像素分辨率不同的机器间传输图像时会产生图像变形。
2)颜色深度
颜色深度是指记录每个像素所使用的二进制位数。
对于彩色图像来说,颜色深度决定了该图像可以使用的最多颜色数目;对于灰度图像来说,颜色深度决定了该图像可以使用的亮度级别数目。
颜色深度值越大,显示的图像色彩越丰富,画面越自然、逼真,但数据量也随之激增。
实际应用中,彩色图像或灰度图像的颜色分别用4位、8位、16位、24位和32位等二进制数表示。
图像文件的大小是指在磁盘上存储整幅图像所需的字节数,它的计算公式是:图像文件的字节数=图像分辨率×颜色深度/8
显然,图像文件所需要较大的存储空间。在制作多媒体应用软件时,一定要考虑图像的大小。因此对图像文件进行压缩处理,从而减少图像文件所占用的存储空间是非常必要的。
3. 图像压缩标准
1)二值图像压缩(JBIG)
二值图像压缩标准有G3、G4和JBIG。
JBIG以非自适应、一维游程编码为基础,采用无损压缩技术,但它的压缩率比目前的CCITT G3、G4标准高1.1~30倍(根据内容的不同)。
虽然JBIG是二值图像的编码标准,但也可以对含灰度值的图像或彩色图像进行无失真压缩。
2)静止图像压缩标准(JPEG/JPEG 2000)
为了压缩连续色调(即灰度级或彩色)的静止图像,联合图片专家组(Joint Photographic Expert Group,简称JPEG,1986年成立)于1991年3月提出了ISO/IEC l0918号建议草案《连续色调静止图像的数字压缩编码》(Digital Compression and Coding of Continuous-tone Still Images),1992年正式通过。
JPEG标准采用混合编码方法,可以支持很高的图像分辨率和量化精度。JPEG算法的平均压缩比为15:1,当压缩比大于50时将可能出现方块效应。这一标准适用于黑白及彩色照片、传真和印刷图片。
JPEG 2000是一个新标准,不仅提高了对图像的压缩质量,还可根据图像质量、视觉感受和分辨率进行渐进传输。
3)动态图像压缩标准(H.261)
CCITT在1990年12月通过了H.261即p×64 Kb/s视听业务用的视频编解码器(Video Coder/Decoder for Audiovisual Services at p×64 Kb/s)。
这个建议是针对运动实时动态图像的压缩编码和解码,应用目标是可视电话和电视会议。
算法采用混合编码方法,压缩比可达48:1。
它的原理框架奠定了以后MPEG标准的基础。
4)动态图像压缩标准(MPEG-1)
动态图片专家组(Moving Picture Expert Group,简称MPEG)提出的“用于数字存储媒体运动图像及其伴音率为1.5 Mb/s的压缩编码”,简称MPEG-1,
它包括三个部分:MPEG视频、MPEG音频和MPEG系统。
MPEG-1标准的平均压缩比为50:1,其处理能力可达到360×240像素。
5)动态图像压缩标准(MPEG-2/H.262)
1996年底正式公布的MPEG-2标准引用了MPEG-1标准的基本结构,并作了扩展。
它可以直接对隔行扫描视频信号进行处理;空间分辨率、时间分辨率和信噪比可分级,以适应不同用途的解码要求;输出码流速率可以是恒定的也可以是变化的,以适应同步和异步传输。
MPEG-2标准的处理能力可达广播级水平,即720×480像素。MPEG-2标准兼容MPEG-1标准,适应1.5~80 Mb/s编码范围。
MPEG-2标准也是高清晰度电视(HDTV)全数字方案、DVD方案所采用的数据压缩标准。
6)动态图像压缩标准(MPEG-4/H.263)
MPEG-4是ISO为传输码率低于64 Kb/s的实时图像设计的。
与JPEG、MPEG-1、MPEG-2等其他标准所采用的基本压缩算法不同,该标准采用基于模型的编码、分形编码等方法,以获得极低码率的压缩效果,所涉及的应用范围覆盖了有线、无线、移动通信、Internet以及数字存储回放等各个领域。
它在信息描述中首次采用了“对象”(Object)概念,是以内容为中心的描述方法,对信息元的描述更符合人的心理,不仅获得比原有标准更优越的压缩性能,也提供了各种新功能的应用。
4. 图像的文件格式
常用的图像文件格式有BMP、GIF、JPEG和PNG等,大多数图像软件都可以支持多种格式的图像文件,以适应不同的应用环境。
1)BMP格式。
BMP(Bitmap)是Microsoft公司为其Windows系列操作系统设置的标准图像文件格式。
由于Windows操作系统在PC上占有绝对的优势,所以在PC上运行的绝大多数图像软件都支持BMP格式的图像文件。
2)GIF格式
GIF(Graphics Interchange Format)是由CompuServe公司于1987年开发的图像文件格式。
它主要是用来交换图片的,为网络传输和BBS用户使用图像文件提供方便。
大多数图像软件都支持GIF文件格式,它特别适合于动画制作、网页制作及演示文稿制作等领域。
3)JPEG格式
JPEG(Joint Photographic Experts Group)是一种比较复杂的文件结构和编码方式的文件格式。
它是用有损压缩方式去除冗余的图像和彩色数据,在获得极高压缩率的同时能展现十分丰富和生动的图像。
换句话说,就是可以用最少的磁盘空间得到较好的图像质量。
因此,JPEG文件格式适用于互联网上用作图像传输,常在广告设计中作为图像素材,在存储容量有限的条件下进行携带和传输。
4)PNG格式
PNG(Portable Network Graphic)是一种能存储32位信息的位图文件格式,其图像质量远胜过GIF。
同GIF一样,PNG也使用无损压缩方式来减少文件的大小。
在压缩位图数据时,它采用了颇受好评的LZ77算法的一个变种。目前,越来越多的软件开始支持这一格式。
与GIF不同的是,PNG图像格式不支持动画。
5. 图像处理软件
常见的图像处理软件有以下几种:
(1) ACDSee。
ACDSee 是一款优秀的数字图像处理软件,广泛应用于图片的获取、管理、浏览、优化。
利用ACDSee 相片管理器可以快速地查看和寻找相片,修正不足,并通过电子邮件、打印和免费在线相册来分享自己的收藏。
(2) 3DS MAX。
3DS MAX 是世界上应用最广泛的三维建模、动画、渲染软件,完全满足制作高质量动画、最新游戏、设计效果等领域的需要。
(3) AutoCAD。
AutoCAD 是由美国Autodesk 公司为在微机上应用CAD 技术而开发的绘图程序软件包,经过不断的完善,已成为国际上广为流行的绘图工具。
(4) Maya。
Maya 集成了AliasWavefront 最先进的动画及数字效果技术,不仅包括一般三维和视觉效果制作的功能,而且结合了最先进的建模、数字化布料模拟、毛发渲染和运动匹配技术。
Maya 因其强大的功能在3D 动画界产生巨大的影响,已经渗入电影、广播电视、公司演示、游戏可视化等各个领域,且成为三维动画软件中的佼佼者。
(5) Flash。
Flash 是美国Macromedia 公司设计开发的交互式矢量图形编辑与动画制作软件, 可集成多种媒体素材,包括图像、文字、声音、视频等。
Flash 动画广泛应用于多媒体网站制作、广告制作、多媒体课件制作中,此外还有制作MTV、游戏、贺卡、动画短片等多种用途。
(6) Photoshop。
Photoshop 是目前最流行的图像软件,也是Adobe 公司最著名的平面图像设计、处理软件,它的强大功能和易用性得到了广大用户的喜爱。
在图像处理领域,计算机的图形图像数字化处理技术已经得到普及,而图像处理及特效是Photoshop 最突出的功能。
9.3.4 视频处理
视频信息是连续变化的影像,通常是指实际场景的动态演示,例如电影、电视、摄像资料等。
视频信息带有同期音频,画面信息量大,表现的场景复杂,常采用专门的软件对其进行加工、修改。
1. 什么是视频
连续的图像变化每秒超过24帧(Frame)画面时,根据视觉暂留原理,人眼无法辨别每幅单独的静态画面,看上去是平滑连续的视觉效果。这样的连续画面叫做视频。
当连续图像变化每秒低于24帧画面时,人眼有不连续的感觉,叫做动画(Cartoon)。
2. 视频的分类
按照处理方式的不同,视频分为模拟视频和数字视频。
模拟视频是指每一帧图像是实时获取的自然景物的真实图像信号。
我们在日常生活中看到的电视、电影都属于模拟视频的范畴。
数字视频是基于数字技术以及其他更为拓展的图像显示标准的视频信息,它与模拟视频相比有以下特点:
(1) 数字视频可以不失真地进行无数次复制,而模拟视频信号每转录一次,就会有一次误差积累,产生信号失真;
(2) 模拟视频长时间存放后视频质量会降低,而数字视频便于长时间存放;
(3) 可以对数字视频进行非线性编辑,并可增加特技效果等;
(4) 数字视频数据量大,在存储与传输的过程中必须进行压缩编码。
随着数字视频的应用范围不断发展,它的功效也越来越明显。
3. 视频压缩标准
视频数据的编码和压缩是以声音与图像的编码和压缩为基础的,主要采用的是MPEG 系列标准。
目前推出了专门支持多媒体信息基于内容检索的编码方案MPEG-7,以及多媒体框架标准MPEG-21。
由ITU-T 和MPEG 联合开发的新标准H.264 是最新的视频编码算法。
为了降低码率,获得尽可能好的图像质量,H.264 标准吸取了MPEG-4 的长处,克服了以前标准的弱点,具有更高的压缩比、更好的信道适应性,必将在数字视频的通信和存储领域得到越来越广泛的应用。
4. 视频文件的格式
视频格式可以分为适合本地播放的本地影像视频和适合在网络中播放的网络流媒体影像视频两大类。
1)本地影像视频
(1)AVI格式:
音频视频交错(Audio Video Interleaved)格式,
AVI格式允许视频和音频交错在一起同步播放,一般用于保存电影、电视等各种影像信息,有时它也出没于Internet中,主要用于让用户欣赏新影片的精彩片段。
常用的AVI播放驱动程序,主要有Microsoft Video for Windows,以及Intel公司的Indeo Video等。
(2)MPEG/MPG/DAT格式:
MPEG是运动图像压缩算法的国际标准,现已被几乎所有的计算机平台所支持。
MPEG压缩标准是针对运动图像而设计的,其基本方法是:在单位时间内采集并保存第一帧信息,然后只存储其余帧相对第一帧发生变化的部分,从而达到压缩的目的。
MPEG的平均压缩比为50∶1,最高可达200∶1,压缩效率高。同时图像和音响的质量也非常好,并且在微机上有统一的标准格式,兼容性相当好。
MPEG标准包括MPEG视频、MPEG音频和MPEG系统(视频、音频同步)三个部分,MP3音频文件就是MPEG音频的一个典型应用,而Video CD(VCD)、Super VCD(SVCD)、DVD(Digital Versatile Disk)则是全面采用MPEG技术所产生出来的消费类电子产品。
2)网络视频格式
(1)RM格式:
它是Real Networks公司所制定的音频/视频压缩规范Real Media中的一种,Real Player能利用Internet资源对这些符合Real Media技术规范的音频/视频进行实况转播。
在Real Media规范中主要包括三类文件,即Real Audio、Real Video和Real Flash(Real Networks公司与Macromedia公司合作推出的新一代高压缩比动画格式)。
Real Video(RA、RAM)格式一开始就定位在视频流应用方面,是视频流技术的始创者,它可以在用56k Modem拨号上网的条件下实现不间断的视频播放,其图像质量比VCD差。
(2)MOV格式:
QuickTime是Apple公司用于Macintosh计算机上的一种图像视频处理软件,它提供了两种标准图像和数字视频格式,即可以支持静态的PIC和JPG图像格式,动态的基于Indeo压缩法的MOV和基于MPEG压缩法的MPG视频格式。
(3)ASF格式:
ASF (Advanced Streaming Format高级流格式)是微软为了和现在的Real Player竞争而发展出来的一种可以直接在网上观看视频节目的文件压缩格式。
ASF使用了MPEG-4的压缩算法,压缩率和图像的质量都很不错。
(4)WMV格式:
WMV的英文全称为Windows Media Video,是一种独立编码的在Internet上实时传播多媒体的技术标准,Microsoft公司希望用其取代QuickTime之类的技术标准以及.wav、.avi之类的文件扩展名。
WMV的主要优点在于:可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持、扩展性等。
5. 视频处理工具
视频的处理工作主要依靠软件来完成,一般的视频处理软件都包括获取、重组、剪辑、润色视频片断,添加背景音乐,添加片头和片尾文字和设置特殊效果等功能。
常用的视频编辑软件有以下几种:
(1) Windows Movie Maker。
Windows Movie Maker 是Windows 系统自带的视频制作工具, 简单易学,使用它制作家庭电影充满乐趣。可以在PC 上创建、编辑和分享自己制作的家庭电影。通过简单的拖放操作精心筛选画面,然后添加一些效果、音乐和旁白,家庭电影就初具规模了。可以通过Web、电子邮件、PC 或CD,甚至DVD 与亲朋好友分享成果,也可以将电影保存到录影带上,在电视或者摄像机上播放。
视频处理工具
(2) Adobe Premiere。
Adobe Premiere 是一款常用的视频编辑软件,由Adobe 公司推出。
它有较好的兼容性,且可与Adobe 公司推出的其他软件相互协作。
目前这款软件广泛应用于广告制作和电视节目制作中。
9.3.5 虚拟现实
1. 虚拟现实的概念
虚拟现实(VR,Virtual Reality)技术也称虚拟灵境或人工环境,是一种可以创建和体验虚拟世界的计算机系统。
它利用计算机技术生成一个逼真的具有视、听、触等多种感知的虚拟环境,用户通过使用各种交互设备,同虚拟环境中的实体相互作用,使之产生身临其境感觉的交互式视景仿真和信息交流。
它是一种先进的数字化人机接口技术。
2. 虚拟现实技术的主要特征
虚拟现实技术与传统的模拟技术相比,其主要特征是:
(1)操作者能够真正进入一个由计算机生成的交互式三维虚拟环境中,与之产生互动,进行交流。通过参与者与仿真环境的相互作用,并借助人本身对所接触事物的感知和认知能力,帮助启发参与者的思维,以全方位地获取虚拟环境所蕴涵的各种空间信息和逻辑信息。
(2)沉浸/临场感和实时交互性是虚拟现实的实质性特征,对时空环境的现实构想(即启发思维,获取信息的过程)是虚拟现实的最终目的。理想的虚拟现实系统应该具有多感知能力,提供人类所具有的一切感知能力,包括视觉、听觉、触觉、味觉与嗅觉。
自从虚拟现实技术诞生以来,它已经在军事模拟、先进制造、城市规划/地理信息系统、医学生物等领域中显示出巨大的经济、军事和社会效益,与网络、多媒体并称为21世纪最具应用前景的三大技术。
3. 虚拟现实系统的分类
虚拟现实系统就是要利用各种先进的硬件技术与软件工具,设计出合理的硬件、软件及交互手段,使参与者能交互式地观察与操纵系统生成的虚拟世界。
根据用户参与虚拟现实的不同形式,可把虚拟现实系统划分成四类:
1)桌面式虚拟现实系统
桌面式虚拟现实系统也称为简易型虚拟现实系统,它是利用个人计算机和低级工作站进行仿真,将计算机的屏幕作为用户观察虚拟环境的一个窗口,使用者通过键盘、鼠标便可与虚拟环境进行交互。这种系统的特点是结构简单、价格低廉,因此应用比较广泛,是一套经济实用的系统。但桌面式虚拟现实系统会受到周围现实环境的干扰,参与者缺少完全的沉浸,缺乏真实的现实体验。
2)沉浸式虚拟现实系统
沉浸式虚拟现实系统是一种高级的虚拟现实系统,它提供一个完全沉浸的体验,使用户有一种置身于虚拟环境之中的感觉。它利用头盔式显示器或其他设备,把参与者的视觉、听觉和其他感觉封闭起来,并提供一个新的、虚拟的感觉空间,并利用位置跟踪器、数据手套、其他手控输入设备、声音等使得参与者产生一种身临其境、全心投入和沉浸其中的感觉。沉浸式虚拟现实系统是一套比较复杂的系统,它的优点是用户全身心地沉浸到虚拟世界中去,缺点是系统设备价格高昂,难以普及推广。
3)增强式虚拟现实系统
增强式虚拟现实系统是把真实环境和虚拟环境组合在一起的一种系统,它既允许用户看到真实世界,同时也可以看到叠加在真实世界的虚拟对象,这种系统既可减少对构成复杂真实环境的计算,又可对实际物体进行操作,真正达到亦真亦幻的境界。
4)分布式虚拟现实系统
分布式虚拟现实系统是利用远程网络,将异地的不同用户联结起来,多个用户通过网络同时参加一个虚拟空间,共同体验虚拟经历,对同一虚拟世界进行观察和操作,达到协同工作的目的,从而将虚拟现实的应用提升到了一个更高的境界。
4. 虚拟现实系统的组成
虚拟现实系统由输入部分、输出部分、虚拟环境数据库、虚拟现实软件组成。
1)输入部分
虚拟现实系统通过输入部分接收来自用户的信息。用户基本输入信号包括用户的头、手位置及方向、声音等。其输入设备主要有:
(1)数据手套:用来监测手的姿态,将人手的自然动作数字化。用户手的位置与方向用来与虚拟环境进行交互。如在使用交互手套时,手势可用来启动或终止系统。类似地,手套可用来拾起虚拟物体,并将物体移到别的位置。
(2)三维球:用于物体操作和飞行控制。
(3)自由度鼠标:用于导航、选择及与物体交互。
(4)生物传感器:用来跟踪眼球运动。
(5)头部跟踪器:通常装在HMD头盔上跟踪头部位置,以便使HMD显示的图像随头部运动而变化。用户头的位置及方向是系统重要的输入信号,因为它决定了从哪个视角对虚拟世界进行渲染。
(6)语音输入设备:通过话筒等声音输入设备将语音信息输入,并利用语音识别系统将语音信号变成数字化信号。
2)输出系统
虚拟现实系统根据人的感觉器官的工作原理,通过虚拟现实系统的输出设备,使人对虚拟现实系统的虚拟环境得到虽假犹真、身临其境的感觉。主要是由三维图像视觉效果、三维声音效果和触觉(力觉)效果来实现的。
(1)三维图像生成与显示:利用图形处理器、立体图像显示设备、高性能计算机系统将计算机数字信号变成三维图像。最简单的一种是计算机监视器加上一副眼镜,另一种就是头盔显示器。
(2)三维声音处理:虚拟现实系统声音效果包括音响和语音效果。通过有关的声音设备使电子信号变成立体声,并提供识别立体声声源和判定其空间方位的功能。
(3)触觉、力觉反馈:触觉提供手握物体时获得的丰富感觉信息,包括分辨表面材质及温度、湿度、厚度、张力等。用户的手是与虚拟环境进行自然交互时的重要途径。当手与虚拟物体发生碰撞时,我们自然希望有接触感和压力感。
3)虚拟环境数据库
虚拟环境数据库的作用是存放整个虚拟环境中所有物体的各方面信息,包括物体及其属性如约束、物理性质、行为、几何、材质等。
虚拟环境数据库由实时系统软件管理。虚拟环境数据库中的数据只加载用户可见部分,其余留在磁盘上,需要时导入内存。
4)虚拟现实软件
虚拟现实软件任务是设计用户在虚拟环境中遇到的景和物。
构建虚拟环境的过程如下:
(1)三维物体的建模。典型的建模软件有AutoCAD、Multigen、VRML等。
(2)虚拟场景的建立及三维物体与虚拟场景的集成。典型的虚拟现实软件有Vega、OpenGVS、VRT、Vtree等。
5. 分布式虚拟现实系统的应用
分布式虚拟现实系统在远程教育、工程技术、建筑、电子商务、交互式娱乐、远程医疗、大规模军事训练等领域都有着极其广泛的应用前景,利用它可以创建多媒体通信、设计协作系统、实境式电子商务、网络游戏、虚拟社区全新的应用系统。
典型的应用领域有:
1)教育应用
把分布式虚拟现实系统用于建造人体模型、电脑太空旅游、化合物分子结构显示等领域,由于数据更加逼真,大大提高了人们的想象力、激发了受教育者的学习兴趣,学习效果十分显著。同时,随着计算机技术、心理学、教育学等多种学科的相互结合、促进和发展,系统因此能够提供更加协调的人机对话方式。
2)工程应用
当前的工程在很大程度上依赖于图形工具,以便直观地显示各种产品,目前,CAD/CAM已经成为机械、建筑等领域必不可少的软件工具。分布式虚拟现实系统的应用将使工程人员能通过全球网或局域网按协作方式进行三维模型的设计、交流和发布,从而进一步提高生产效率并削减成本。
3)商业应用
对于那些期望与顾客建立直接联系的公司,尤其是那些在他们的主页上向客户发送电子广告的公司,Internet具有特别的吸引力。分布式虚拟系统的应用有可能大幅度改善顾客购买商品的经历。例如,顾客可以访问虚拟世界中的商店,在那里挑选商品,然后通过Internet办理付款手续,商店则及时把商品送到顾客手中。
3)娱乐应用
娱乐领域是分布式虚拟现实系统的一个重要应用领域。它能够提供更为逼真的虚拟环境,从而使人们能够享受其中的乐趣,带来更好的娱乐感觉。
9.3.6 流媒体
随着互联网的普及,利用网络传输声音与视频信号的需求也越来越大。广播电视等媒体上网后,也都希望通过互联网来发布自己的音视频节目。但是,音视频在存储时文件的体积一般都十分庞大。在网络带宽还很有限的情况下,花几十分钟甚至更长的时间等待一个音视频文件的传输,不能不说是一件让人头疼的事。而流媒体技术的出现,在一定程度上使互联网传输音视频难的局面得到改善。
1. 流媒体
流媒体(Streaming Media)指在数据网络上按时间先后次序传输和播放的连续音/视频数据流。以前人们在网络上看电影或听音乐时,必须先将整个影音文件下载并存储在本地计算机上,然后才可以观看。与传统的播放方式不同,流媒体在播放前并不下载整个文件,只将部分内容缓存,使流媒体数据流边传送边播放,这样就节省了下载等待时间和存储空间。
流媒体技术将过去传统媒体的“推”式传播,变为受众的“拉” 式传播,受众不再是被动地接受来自广播电视的节目,而是在自己方便的时间来接收自己需要的信息。这将在一定程度上提高受众的地位,使他们在新闻传播中占有主动权,也使他们的需求对新闻媒体的活动产生更为直接的影响。
2. 流媒体数据流的特点
流媒体数据流具有三个特点:连续性(Continuous)、实时性(Real-time)、时序性,即其数据流具有严格的前后时序关系。
3. 流媒体的传输技术
流媒体的传输技术分为两种,一种是顺序流式传输,另一种是实时流式传输。顺序流式传输就是顺序下载,在下载文件的同时用户可以观看。但用户的观看与服务器上的传输并不是同步进行的,用户是在一段延时后才能看到服务器上传出来的信息,或者说用户看到的总是服务器在若干时间以前传过来的信息。在这过程中,用户只能观看已下载的那部分,而不能要求跳到还未下载的部分。顺序流式传输比较适合高质量的短片段,因为它可以较好地保证节目播放的最终质量。它适合于在网站上发布的供用户点播的音视频节目。在实时流式传输中,音视频信息可被实时观看到。在观看过程中,用户可快进或后退以观看前面或后面的内容,但是在这种传输方式中,如果网络传输状况不理想,则收到的信号效果比较差。
4. 流媒体的应用领域
目前基于流媒体的应用非常多,发展非常快。流媒体的应用主要有:视频点播(VOD)、视频广播、视频监视、视频会议、远程教学、交互式游戏等。丰富的流媒体应用对用户有很强的吸引力,在解决了制约流媒体的关键技术问题后,可以预料,流媒体应用必然会成为未来网络的主流应用。

