1
微电影制作
1.3.3.2 第二节 技术问题
第二节 技术问题

本节将介绍若干数字视频的基本知识。作为一名摄像师如果缺乏艺术眼光,会很平庸。如果还时常被一些基本的技术问题困扰,更会被质疑专业水准。因此,作为一名热爱影视艺术的人,有必要对摄像机、视频格式等有一番深入的了解。假如你“半路出家”,没有学习过类似“广播电视技术”“数字视频技术”等课程,那么在平时的工作中,对于诸如“采样”“隔行扫描”“逐行扫描”“分量输出”“亮度信号”“色度信号”“4∶4∶4采样、4∶2∶2采样”“像素比”“分辨率”等概念,很可能只是处于一种“似懂非懂”的状态。如果不去弄懂它们,一旦遇见问题,会觉得“心里没底”。这些概念看上去很专业,甚至显得有些高深,实际上并不难掌握,只要花心思弄明白几个核心问题,一切困惑都会迎刃而解。

(一)信号的生成、采样和传输

观众能在家里收看电视节目、在电脑上观看视频文件或者在影院观看电影,都是因为视(音)频信号能够通过显示终端(电视荧屏、银幕、电脑屏幕、手机屏幕等)被播放出来。那么,这些信号是怎么来的?它们又是通过什么途径被传送到你设备中的呢?

我们知道,人类之所以能看见画面,是因为有光的存在。为了将光记录下来,人类历史上做出了很多种尝试,直到摄影技术的发明——利用化学方法,将光影记录到了胶片的负片中。最开始,胶片只能记录光的明暗,不能记录色彩,这显然是不完美的。之后,人们发明了能记录光线色彩的彩色胶卷。

图2-8

黑白胶片只有一层感光乳剂,彩色胶片却有三层,分别对红色、绿色和蓝色感光(图2-8),最后叠加在一起形成了彩色。那么,为什么记录红、绿、蓝三种颜色能还原自然界如此丰富的色彩呢?我们都知道,光是人眼可见的电磁波,牛顿用棱镜将白光分成七种不同的颜色分属三段光谱——红色光谱、绿色光谱和蓝色光谱。这意味着,光线的全部色彩都可以由红、绿、蓝三种颜色按不同比例混合得到。这就是我们将RGB称为光的三基色的原因。

要将RGB信号记录下来,必须完成一个关键的步骤,那就是需要进行光电转换。目前大家所熟知的CCD和CMOS便具备这一功能。CCD(Charge Coupled Device)学名为“光电耦合器”;CMOS(Complementary Metal-Oxide Semiconductor)翻译过来是“互补性氧化金属半导体”。尽管CCD和CMOS的制造原理有所不同,但它们的作用都是一样的,就是通过自身的像点按强度将光线等比例转化为电平(图2-9)。需要指出的是,CCD(CMOS)只能“感受”光线的强弱,与黑白胶片一样,它们无法识别光线的色彩。

图2-9

那么,到底怎样才能让电子感光元件记录下真正的RGB信号呢?

有一种比较好的办法是采用3CCD(或3CMOS)系统,这也是我们在很多摄像机上能看见“3CCD”标识的原因。3CCD就是在镜头与感光元件之间加入一块特制的分光棱镜,借助这块棱镜将光线分成红、绿、蓝三束光线,每一种光线对应一块CCD,最后再合成彩色的画面,实现电子成像(图2-10),非常理想地解决了对色彩的记录问题。但它也有弊端。首先,需要三块传感器,造价昂贵,且占空间,这与摄像机越来越轻便的趋势相违;其次,光线经过分光棱镜的“过滤”,难免会造成损失,而且分光棱镜卡在镜头与传感器之间,无形中拉开了它们的距离,在工艺上影响摄像机的广角表现。

图2-10

基于这些缺点,人们开始尝试单CCD(或CMOS)系统。想要让一块传感器去“感受”光线里的红、绿、蓝“成分”,这不是一件简单的事情。彩色胶片片基上的三层感光剂是化学乳剂,光线在穿越上两层的时候不会被阻挡或衰减。CCD是金属,不会“透光”,模仿彩色胶片的做法显然是行不通的。换句话说,CCD的所有感光像点都只能排列在同一个平面上。在此前提下,有人发明了一种“取巧”的办法(图2-11)。

搞清楚摄像机镜头前的RGB信号如何被转化为电子信号之后,接下来的问题就是,这些信号如何被传送到观众面前的。目前常用的传送端口主要有以下几类:

RGB分量端口(图2-12)

复合信号端口(图2-13)

图2-11

图2-12

图2-13

YC端口(图2-14)

YUV端口(图2-15)

图2-14

不同端口代表不同的传输方式和视频标准。RGB分量是用三根线分别对摄像机输出的红绿蓝信号进行独立传送,如果不考虑带宽和成本的话,这几乎是一种无损传输方式,是最理想的信号传输方法。复合信号是将RGB三路信号混合在一起,用一根线进行传输,到了终端之后,再还原成RGB信号进行播放。这种方式占用的带宽是最小的,但信号损失也是最大的。在“分分合合”过程中,画面清晰度和色彩保真度都产生较大失真,专业领域一般不采用复合信号的输出方式。既考虑带宽,又顾及画面质量的是上述的后两种方式。最常见的YC端口就是S端子,它把RGB信号整合成亮度信号(Y)和色度信号(C)来进行传输,这样一来,独立的亮度信号可以有效避免色彩失真。即便如此,由于色度信号是混合在一块的,其色彩保真度依旧不高。考虑到以上几种传输信号的利弊,一种较为理想的传输方式就是YUV分量传输,这也是目前我国广播电视系统普遍采用的信号传输方式。这种方法有三个分量,分别是亮度分量(Y)和两个色度信号(U和V)。其中,U分量是R-Y,即原始信号中红色信号减去亮度信号的差;V分量是B-Y,即蓝色信号减去亮度信号的差。三种信号通过运算最后得出起初的RGB信号。YUV分量既能够节约带宽,也能保证画面的清晰度和色彩保真度。它并不是无损的传输模式,在由RGB转换为YUV的过程中,存在着特定的编码和采样。归结起来,主要有四种采样方式:

图2-15

方式一:4∶4∶4采样

方式二:4∶2∶2采样

方式三:4∶1∶1采样

方式四:4∶2∶0采样

其中4∶4∶4采样是质量最好的采样方式,但同时也是占用容积最大的方式。4∶2∶2采样的图像信号不那么好,因为它存在着信号损失,每一个像素损失了一个色度信号。4∶1∶1采样损失的信号更多,它的色度信息被扔掉了3/4。NTSC制式下的DV格式采用这种采样方式。4∶2∶0采样与之前的几种采样方法不一样,不是扔掉所有的V信号,而是用它的首排像素的采样比例来命名。它与4∶1∶1采样差别不大,实际上保留了全部的亮度信号,扔掉了3/4的色度信号。PAL制的DV采用4∶2∶0采样。

不管何种采样格式,都需要经过压缩之后再进行传输,然后在各个终端完成解压和还原,最后进入观众的视野。压缩有两种方式,分别称为帧内压缩和帧间压缩,两者各有所长,鉴于这不是本书要探讨的核心问题,在此不予赘述。有一个问题可能会引起你的兴趣:为什么删掉的都是色度信号,亮度信号却“舍不得”扔?如果将图像比作一件衣服的话,亮度信号是衣服的样式,色度信号是衣服的颜色,颜色偏差尚可以接受,样式变化就比较不好办了。这就是不能删除亮度信号的原因。

扔掉的那些色度信号,播放时需不需要找回来?答案是肯定的,如果不找回来,色彩的失真绝对会让你“崩溃”。那么,如何找呢?简而言之就是采用“向隔壁邻居借”的方法。

4∶4∶4采样得到的信号可以直接通过计算转换成RGB信号,因为它是无损的,所以不需要问别人借。4∶2∶2采样信号因为每个像素都损失了一个色度信号,需要向“隔壁的”像素“借”一个色度信号来补全自己。而4∶1∶1和4∶2∶0采样信号需要“借”的色度信号更多。

虽然采样信号通过这种方式补全了自己,但终究是问别人借来的,与自己原有的信号有差别,因此,这两种方式的色彩保真度有所欠缺,这也是为什么我们手头的DV机以及小高清摄像机色彩表现不佳的原因。

因此,如果对图像信号质量要求高,最好选用高采样率的摄像机来拍摄素材。

(二)扫描和成像

了解了RGB信号生成、采样及传输的过程,下面介绍如何将这些信号还原成画面。大家知道,电视机显像管显示画面是由于电子枪接受到的信号按一定的规律发射电子束,激发荧屏上的像素点而获得。

模拟信号是连续信号,其幅度,或频率,或相位随时间作连续变化,如广播的声音信号、电视的图像信号等。而数字信号是离散的信号。

像素是构成影像的基本单元。对于数码摄像机来说,像素就是其传感器解析力的标志,像素越大,说明其图像解析力越强;而对于电子显示器来说,像素的数量代表了其分辨率的大小,分辨率越大,画质越清晰(表2-3)。

表2-3 不同视频格式的分辨率

PAL制标清的分辨率为720×576,小高清的分辨率为1440×1080,全高清的分辨率为1920×1080,超高清的分辨率为3840×2160、4096×2160等。

(三)帧速率

“帧”是视频领域的一个基本概念,一帧指一幅画面。帧速率是指一秒钟拍摄或播放多少帧画面。我国的彩色电视制式是PAL制,帧速率为25帧/秒。在拍摄时,如果帧速率大于25帧/秒,比如50帧/秒、120帧/秒,就是常说的升格镜头,播放时会呈现慢速效果;相反,如果帧速率小于25帧/秒,比如6帧/秒、12帧/秒,就是降格镜头,播放时会呈现快速效果。

(四)码率(Kbps或Mbps)

当所拍摄的视频进行编码时,有一个重要的参数即码率。码率又叫比特率,它的单位是Kbps(或Mbps),指每秒钟的视频素材所占用的位数(Kb)。码率是单位时间内的二进制数据量,在相同的编码格式下,码率和视频信号质量、文件大小成正比,码率越大,信号的质量越高,文件容量就越大。

(五)伽马(Gamma)曲线

理解并掌握伽马曲线的应用方法是每一位影像工作者必备的素质。利用摄像机的伽马特性,可以有效地改善画面的宽容度,为后期提供非常大的操作空间。

什么是伽马呢?这词听上去怎么像是数学或物理名词呢?

众所周知,摄像机是基于对人类视觉系统的模仿,从仿生学角度来讲,它是迄今为止对人类眼睛模仿最成功的发明。不得不承认迄今为止,尽管摄像机为我们拍摄了无数令人惊艳的画面,但它们终究没有人眼“精密”,其功能还远没有达到人眼的层次。摄像机与人眼的差异表现在很多方面。

首先,人类的视觉对光线刺激的反应不是线性的。人类感觉的变化与刺激的变化是不同步的。比方说,播放音乐时,将音量提高一倍。音量是之前的2倍,但是我们不会觉得此时音乐响了一倍。同理,如果将一个灯泡的亮度提高一倍,人眼会觉得这个灯泡亮度只提高了一点点,非要将亮度提高七八倍,人眼才会获得“亮了一倍”的感觉。

人眼对光线亮度的反应曲线大致如图2-16所示。当光线的亮度达到一定程度时候,人眼的感光系统会变迟钝,以保证能看清亮部的细节。但是这种变化是基于大脑的自我调节机制才发生的,否则我们看到的画面会因为亮度比例的失衡而严重失真。

图2-16

之前讲过摄像机的CCD(或CMOS)工作原理,外界给它多少光量的刺激,它就等比例输出多少电平。也就是说,对于摄像机来说,信号强度的输入和输出是呈线性的,可用标准伽马(Gamma)曲线来描述(图2-17)。

图2-17

如图所示,x轴是信号输入(input),轴线上的数值表示输入的亮度范围,越往右数值越大,表示亮度越高;y轴是信号输出(output),数值由0到100%,0表示纯黑,由此信号强度递增,超过100%是纯白。

这便是在视频领域广泛使用的一般伽马曲线。伽马指信号输入值与输出值的对应函数关系。摄像机上的伽马设计,使得传感器的输出端和输入端保持同样的数值变化速率,如果输入的亮度值翻倍,输出的亮度值也翻倍。正因为这种严格的一一对应关系,保证了影像的亮度比例处于一个正常的范围内。在实际生产中,该曲线被轻微调整以适应不同显示器的成像特点。但这些轻微调整在最终输出影像上是很难被人眼察觉的。

标准伽马曲线通常被限制到7档光圈的亮度范围,也就是说超过7档的光比无法保证所有画面都曝光正常。虽然现在的数字摄像机能捕捉到超过7档光圈亮度范围的画面(索尼新推出的机型PXWFS7声称可以捕捉14档的亮度范围),但考虑到显示设备的整体状况(很多大众级别显示器的质量不高),7档亮度范围的设定沿用至今。

所以现在问题变成了:既然摄像机能拍到14档的亮度范围画面,那么如何让这种影像在只能容纳7档亮度的显示器上正常显示呢?这个问题不解决,会造成极大的资源浪费。

鉴于这个矛盾,影视巨头们给出了相似的解决方案——那就是向人眼学习,模仿人眼对亮度的反应来修正起初的线性伽马曲线。

图2-18

从标准伽马曲线和Cinegamma曲线中可以看到(图2-18),标准伽马曲线的有效范围是7档光圈,调整后的曲线有效亮度范围延伸至了10档。以往场景中亮度超过7档的部分,输出的信号会被白电平填满,如今由于直线向右倾斜了一定的角度,超过7档部分的输出电平依然在正常范围内(100%以内)。这意味着运用新型的曲线可以大大扩大摄像机的“宽容度”,对于被诟病宽容度低的电子摄像机来讲,无疑是一大福音。

但是,光调整伽马还不行。之前讲过,要使拍摄的画面不失真的前提是,输入与输出的亮度电平是同比例变化的。从调整后的伽马曲线来看,画面暗部与高光部分的亮度变化速率明显不一致(图2-19)。这意味着画面原本的明暗关系会发生较大的改变。

图2-19

图中阴影区域是调整后的伽马曲线与标准曲线不同的区域。由于大部分显示器是利用标准伽马曲线来进行亮度显示的,意味着在阴影区域内的影像无法在显示器上如实再现真实场景的亮度关系。比如说,在真实场景中,天空的亮度是100%,它在显示器上的亮度可能是60%,换句话说,天空变灰了。这样一来,虽然我们利用调整后的伽马曲线捕捉到了更高亮度范围的影像,但是在后期阶段,必须进行色彩校正才可以使拍摄的场景以正常的亮度比例在显示器上显示出来。

这就是为什么使用hypergamma和cinegamma曲线拍摄的场景看上去会有些灰并且缺乏对比度的原因。观察上图我们知道,在0至75%的亮度范围内,其与标准伽马曲线几乎是重合的,就是说它保留了暗部和中间曝光区域的亮度关系,对高光区域进行了调整。这意味着人的面部、皮肤、植物和动物倾向于显示自然的色调和亮度对比,而高光区域例如天空的亮度被压缩了。

图2-20

图2-20是由索尼公司开发并使用的S-Log曲线的近似形状。如图所示,它与标准伽马曲线的差别进一步扩大,摄像机传感器的全部线性输出已经转换成对数形状。这样一来,更少的数据用于高光部分而更多的数据仍然处在它应有的位置。这就使得更多的图像信息分配到人眼更敏锐的暗部和中间部。而摄像机记录的动态范围也由此前的7档光圈范围扩大到12档。

图2-21

由于未校正的影像过于平淡和缺乏色彩,在实际拍摄中,人们很难根据这种画面评价最佳曝光,很多使用S-Log的摄像师常用传统的测光表来设置曝光值而不是根据监视器画面或者斑马线以及灰卡等已知参照物。如果想使用机头小监视器,必须给输入的S-Log信号应用LUT。LUT是一种伽马反馈曲线,用于抵消S-Log曲线以使在监视器上看到接近标准伽马曲线的影像,即接近最终期望的影像(图2-21)。但有时想根据后期调色的需要轻微调整曝光值,而此时的小监视器已经不再能显示由摄像机抓取并记录的全部对比度范围,所以设置准确曝光值仍然是困难的。另外考虑到要在后期阶段对画面进行大量调整才能得到期望画面,影像数据的记录方式也成为问题。高压缩的8位编码不适合S-Log,因为任何压缩在后期阶段不断对图像进行调整时都将严重降低画质,所以S-Log数据通常以低压缩的10位4∶4∶4格式记录。