景物理解
一般人的视觉系统都能够看到三维景物的世界。对于人类的生存和活动而言,这种把握空间信息的能力是至关重要的,否则我们将在这个世界上寸步难行。所以,机器如果要具备类似于人类视觉能力的话,同样地,也必须首先获得这种根据二维图像获得三维景物的能力。应该说,从纯理论意义上看,景物理解能力的实现是整个机器视觉研究最为核心的研究主题。
景物理解的第一步就是要从输入的图像中来获取三维空间信息。空间信息的三维线索,从观察者的角度看,主要是指图像景物的表面朝向和深度距离。视觉生理和心理研究表明,人类的空间信息主要是通过双目视差和环境光流的分布差异产生的。所有这些信息源在视觉系统中的分散与聚合的相互影响加工过程中,形成了三维形体的形象景物。
一般,双眼视物时,通过两只眼睛同时辐辏和双眼视差的协调运作,从而可以对刺激物获得深度知觉的线索。所谓辐辏作用,是指由两眼球转动以聚合视线从而获得深度知觉;所谓双眼视差,则指注视同一物体时,因两眼视线的角度不完全相同,故而在两眼网膜上所构成的两个影像彼此稍有差别的现象。对于下图,当你将两幅图像分别呈现给左、右眼时,比如用一张薄纸将左图与右图隔开来观看,就能够获得这种三维的深度信息,从而感知到空间景物的立体感来。


除了考虑双目视差因素外,我们还应利用其它空间线索。这时运动视差就成为另一个深度线索的重要信息源。因为当运动时,注视的物体方向就会改变,如果物体在近处,其方向变化大;反之,如果物体在远处,其方向变化就小,而运动视觉反映的正是不同距离处物体方向的变化速率之差。而环境光流的因素则包括来自运动的结构信息、来自质地的形状信息以及来自明暗和轮廓的形状信息等。

人类在用视觉器官收受信息时,并非对环境中所接触到的一切刺激特征全盘接收的。人类的眼睛之所以不同于照相机,以及人类的视觉系统之所以不同于目前的各类机器视觉系统,其根本原因就是人类所获取的视觉信息、所获得的视觉经验,都是主动选择性的。从这个意义上讲,人类的视觉系统不是简单地记录外部世界的精确映像,而是创造性地给出渗透有自己主观加工的“画卷”。
美国科学家欧文·洛克在《知觉之谜》一书中指出:“大脑并不是简单地记录下世界的准确的映象,而是创造出自己的“照片”来。” 无独有偶,英国的格里高里在《视觉心理学》中也指出:“知觉不是简单地被刺激模式决定的,而是对有效的资料能动地寻找最好的解释。”
从视觉神经机制上讲,由于要有意地主动跟踪和搜寻有效线索,因此视觉第二通路是必不可少的。从事机器视觉研究的科学家们已经认识到这一点,也已经开始了主动视觉的机器实现研究。遗憾的是,通过运动序列图像的分析和跟踪,机器确实可以去选择有效的线索,但由于机器缺乏主观意向性,因此客观视觉刺激不存在的线索,机器是不可能无中生有的。这样,主观意念就将成为机器视觉的真正困境,诸位有什么方法能够使机器拥有主观性?
总之,景物理解的主动视觉,特别是主观意念参与的知觉过程是与人类整个心智能力,包括意识、情感、经验等等在内的机能密不可分,而其中的视觉选择性注意是人类视觉系统能够开展主动感知活动的基础。因此,希望机器视觉也能够部分地模仿人类景物理解能力,首先必须解决主动视觉机制的计算实现问题。我们期待有朝一日,在机器主动视觉的计算模型及其系统应用方面,有长足的进步。

