
1、声音:质量和容量的平衡+技术才是硬道理。
2、图像:我国的人脸识别、虹膜技术和天网技术。
3、5G通信中的声文图,中国占领5G技术的制高点与世界上的不同声音的博弈。

声音、图形、视频等信息,需要转换成二进制数后计算机才能存储和处理。将模拟信号转换成二进制数的过程称为数字化处理。

(2)声音
声音:由振动而产生,通过空气进行传播。它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽,带宽是声音的一项重要参数。
多媒体技术处理的声音信号主要是人耳可听到的20~20kHz的音频信号(audio)
言语(speech)/语音:人说话的声音,其频率范围约为300~3400Hz
全频带声音:音乐声、风雨声、汽车声等其他声音,其带宽可达到20~20kHz

(2)声音信号的数字化
声音信号的数字化:将模拟声音信号转换成数字编码形式以便于计算机进行处理的过程,通常需要经过话筒录音、模拟音频信号、信号采样、信号量化、信源编码。其中,
采样:在固定时间间隔内,对模拟音频信号截取振幅值。单位时间内采样次数(采样频率)越多,数字信号就越接近原声。
量化:将信号连续取值为有限多个离散值。
编码:将采集的原始数据,按文件类型(如WAV、MP3等)编码,再加上音频文件的头部,就得到了一个数字音频文件。


模拟的声音信号转变成数字形式进行处理的优点:
◇ 以数字形式存储的声音重放性能好,复制时没有失真。
◇ 数字声音的可编辑性强,易于进行效果处理。
◇ 数字声音能进行数据压缩,传输时抗干扰能力强。
◇ 数字声音容易与其他媒体相互结合(集成)。
◇ 数字声音为自动提取“元数据”和实现基于内容的检索创造了条件。
(3)波形声音的获取设备
◇ 麦克风:将声波转换为电信号
◇ 声卡:进行数字化


(1)图像按生成方法分类
从现实世界中通过数字化设备获取的图像称为:取样图像、点阵图像、位图图像 —— 简称图像。点阵图主要有16×16、24×24、32×32、48×48。存储简单,无需转换,直接输出。缺点:放大失真。点阵图像有二值图像、灰度图像、和彩色图像。
计算机合成的图像称为:矢量图形,简称图形。矢量图的优点是存储量小、图像放大不失真(图像放大或缩小不影响图像的分辨率)、文件较小;缺点是难以表示色彩丰富的逼真效果;无统一标准格式;廉价设备无法点阵图形输到计算机并矢量化。

(2)图像的数字化
图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤:扫描、取样、分色、量化。
(3)图像的表示方法
图像的表示方法与主要参数,从取样图像的获取过程可以知道,一幅取样图像由M(行)* N(列)个取样点组成,每个取样点是组成取样图像的基本单位,称为像素。彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值。

(4)图像的属性信息
图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率)
位平面的数目,即矩阵的数目,也就是彩色分量的数目
颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。常用的颜色模型有:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等
像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目

(5)图像的压缩编码
一幅图像的数据量可按下面的公式进行计算(以字节为单位):
图像数据量 = 图像水平分辨率 × 图像垂直分辨率 × 像素深度 / 8
数据压缩类型可分为:无损压缩和有损压缩。
