1
“心迹”的计算:隐性知识的人工智能途径
1.2.3 1.3 风云人物
1.3 风云人物

在20世纪初,罗素、怀特海和哥德尔集大成并对之做出杰出贡献的数理逻辑,是经典人工智能的理论基础。而人工智能最早的奠基工作是由英国逻辑学和计算机的先驱者图灵开展的,[22]1950年图灵在论文《计算机器与智能》中描述了人工智能的前景。[23]这篇论文后被改名为《机器能思维吗》。换句话问,就是计算是思维的一种形式吗?进而的问题是,机器能否通过表征智能行为的测试,这就是后来被人们津津乐道的图灵测试。

那是一个模仿游戏,参与者有一个询问者(C)、一个男人(A)、一个女人(B)。C与A、B通过隔离的房间进行交流(例如用键盘打字使其在屏幕上显示);除此之外3个参与者没有其他接触方式。询问者在游戏中的任务是,通过提问来确定A和B之中哪个是男性。A在游戏中的目标是使C做出错误的判断。而对于B,则是要帮助询问者。对她来说,最好的策略可能就是如实回答。

如果在这个游戏中用一台机器来代替A,会出现什么情况呢?在这个游戏中一台计算机正在模仿一个人(男或女)。C的任务相应改变为判断A和B之中哪个是计算机。为了完成这个任务,询问者可以问任何问题。而计算机尽一切手段使询问者判断失败。在这种情况下(计算机模仿人)做游戏时,C做出错误判断的次数和他同一个男人与一个女人做这个游戏时一样多吗?

一旦计算机在模仿游戏中的表现和人在游戏中一样好,那么测试就通过了。图灵测试是一种特定的智能测试,即言语智能的测试,这要求计算机具备常识。

此后,图灵指出“机器能够思维吗”?这个问题是无须讨论的。1952年,图灵测试进一步修改为,询问者每次询问一个参与对象,有时候是人,有时候是计算机。这就是说询问者并不能事先知道计算机和人的比例。这个方案被于1991年开始的一年一度的图灵测试竞赛采用,该竞赛也被称为“侃大山”程序比赛,它承诺授予第一个通过本版本的图灵测试的程序10万美元的奖励。[22]

2011年,在印度古瓦哈蒂市召开的计算机科学节上,一款叫作“智能机器人”[7]的软件系统能够让59.3%的测试者认为这并非是计算机,而是人,参与测试者人数为1 334人。[24]某种程度上它已通过了“图灵测试”,滞后了一代人,似乎实现了当年的预期。其实,通过一定数量的测试是一回事,真正具备人的智能是另外一回事,前者只是后者一个有限的子集。

2014年图灵逝世60周年之际,英国雷丁大学宣称俄罗斯人韦谢洛夫(Vladimir Veselov)创立的人工智能软件古斯特曼(Eugene Goostman)模仿一位13岁的男孩,在共有5台超级计算机参赛的图灵测试竞赛上,设法让33%的测试者相信它属于人类。[25]有人认为这台超级计算机通过了图灵测试。实际上,图灵测试的场景、对象应该有客观、标准的界定,而测试者也应是深刻理解图灵测试的本意者。也许,尤金的能力尚未超越此前的胜过国际象棋冠军的计算机。

2016年1月28日,英国《自然》(Nature)杂志以封面文章形式报道:谷歌旗下人工智能公司深灵(Deep Mind)开发的AlphaGo以5∶0的成绩战胜了欧洲卫冕冠军樊麾。[26]AlphaGo程序组合了深层神经网络和树搜索,深层神经网络用卷积层构造位置的表达,有效地减少了树搜索的深度和广度。程序用“价值网络”估算局面,用“策略网络”选择下子。训练深层神经网络的是对人类专业棋局的监督学习以及对自弈(self-play)的再励学习的组合,后者提升了前者的性能。这次是计算机程序首次能在完整的和不让子的情况下击败专业选手——原以为10年后人工智能才能做到的事情。深层神经网络带来了人工智能的一次突破。这同时表明,人工智能依赖于认知神经科学的进步对大脑深入建模。我粗得一联:

浅智漫行至地主,深灵速步成天惊[8]

无论在科学还是技术领域,由于对智能到底是什么之类的问题还未解决,这给智能模拟任务增加了更多未知和不确定性,智能只能通过图灵测试间接衡量。尽管人们不知道智能行为和非智能行为之间的界限在哪里,智能的基本能力在侯世达获得普利策奖的科普大著《哥德尔、艾舍尔、巴赫——集异璧之大成》中还是给出了一些描述:

●对于情景有很灵活的反应。

●充分利用机遇。

●弄懂含糊不清或彼此矛盾的信息。

●认识到一个情景中什么是重要的因素,什么是次要的。

●在存在差异的情景之间能发现它们的相似处。

●从那些由相似之处联系在一起的事物中找出差别。

●用旧的概念综合出新的概念,把它们用新的方法组合起来,提出全新的概念。[27]

……

心智能力和行为能力取决于智能活动中各种心理相互作用的能力以及它们之间的耦联能力。[28]其中各种心理相互作用涉及心理、脑、身体、环境、社会等与智能有关的各种因素。智力三元理论的创立者斯滕伯格(Robert Sternberg)在传统智力测试中的表现总让人觉得他是个“傻瓜”,这说明已有的智能理论对人的能力预测不对,或者说智能理论本身出了问题。不过简单而言,不妨可将智能粗略地理解为个体处理新任务的能力和自动化完成熟练任务的能力。[29]那是在成长和实践中逐步具备的。例如教育要求小朋友要从小爱劳动、勤动手,逐步养成互相尊重、自食其力等习惯,是传统道德、为人处事的要求,也是体验生活、认识世界的开始。邓小平提出“计算机的普及要从娃娃做起”,我国著名足球运动员容志行在退役后专门训练足球小运动员,既是专业培养的途径,又是经验积累的需要。西蒙指出,人工智能是一门经验科学,他认为,“博学或有学问与有智慧是不同的”。他还说,“在发现符合经验数据的规律之前,必须拥有适当的数据,这些数据看起来好像是由一个平滑的数学函数所生成的”。[11]历史地看,脑及其功能是在不同的时间尺度上演化的,它们的跨度非常大,例如:

第一,在种系进化中脑和认知的演化。人类的脑和认知演化的时间尺度是数十万年到数百万年以上。

第二,在个体一生发育和生长中脑和认知的演化。人一生中脑和认知演化的时间尺度是数十年到百年以上。

第三,在个体生命的一定阶段中脑和认知的进化。例如人在一定阶段的学习过程中脑和认知演化的时间尺度是数天或数年。

第四,在个体当前的认知过程中脑和认知的演化。例如人进行某一种短暂的认知活动中,脑和认知演化的时间尺度可能是几百毫秒、几十毫秒、几秒、几十秒或几百秒。[30]

恩格斯说过:“……以至我们在某种意义上不得不说,劳动创造了人本身。”[31]劳动是人类的本质活动,工具、社会关系、抽象思维和语言等都是在劳动中完善的。马克思说过,只是由于劳动展开的丰富性,“主体的、人的感性的丰富性,如有音乐感的耳朵、能感受形式美的眼睛,总之,那些能成为人的享受的感觉,即确证自己是人的本质力量的感觉,才一部分发展起来,一部分产生出来”。[32]这些论述都有益于我们对智能的认识。

人工智能的研究方法通常被概括为符号主义、联结主义和行为主义几种。符号主义又称逻辑学派、心理学派或计算学派,也是最初和最经典的方法,它以纽厄尔和西蒙提出的物理符号系统假设为基础,从逻辑的角度看那是符合人的一般思维过程的,由此可见,这是脑内过程的一种映像方式。从家用电器比如电冰箱、空调器到飞机、列车的控制,都有根据预先确定的原则实时调节或逐步执行的过程,它以基于规则的推理为基础,然而针对不同领域的问题,规则的来源、验证和刻画都有其难以克服的问题,比如人的有些经验往往言说不清,有些具有不确定性,要让机器了解这样的内容会令其不知所云,此时的推理自然就难免有不可靠或束手无策的窘迫。

联结主义则从人的大脑神经系统结构出发,研究分层的、互相联结的简单神经元的集群信息处理模型、能力及表现。1943年麦卡洛克(Warren McCulloch)和皮茨(Walth Pitts)宣布,大脑中每个神经元都是一个简单的数字信息处理器,而大脑作为一个整体是一种形式的计算机器,它们被称为人工神经网络、神经计算、仿真学派或生理学派。从计算的角度看,联结主义确是一种途径,但与智能尚不是一回事,就如要建高楼大厦,光有砖块是没用的。以前的人工神经网络通常是3层模型,层次越多越难建模。过去10年里,相对于经典结构而言的深层神经网络受到重视。目前,认知神经科学可以研究的神经元规模大概是实际的亿分之一。

行为主义又称进化主义或控制器学派,其原理为控制器及感知——动作型控制系统,它从行为心理学出发,研究在与环境的交互作用中表现出来的智能,更加类似于生物系统。例如,布鲁克斯(Rodney Brooks)的机器人Herbert(以西蒙的名字命名)以麻省理工学院人工智能实验室的办公室和工作空间作为自己的环境,在书桌和桌子上搜寻空的软饮料罐子,把它们捡起来并带走。机器人要越过某些障碍,可以通过普通的红外线感知,日益普及的家用机器人吸尘器就借助于此;也可利用全球定位系统分析,如军事机器人。但行为与智能不在一个层面,行为作为智能的表现可以部分地对应或映像智能;另一方面,行为与环境密切关联,对环境的感知和建模是随之而来的问题。

根本上,人工智能的进步,本质上有赖于微观上认知神经科学结论、宏观上建模方法论两者。在不断获得认知神经科学的结论及其启发的同时,合取各种方法的优势使之融合、互补是可取的道路,而要统一不同的途径和方法使之“一体化”,无论从实践探索的积累,还是理论基础的沉淀角度看,为时尚早。纵然“没有理论的行动,是盲目的行动”,就人工智能现状而言,更重要的是“没有行动的理论,是空洞的理论”。若“启蒙”尚未完成时就谈“高级”则不切实际。

图灵认为,无论对于机器还是人脑,外在行为就是标准,而语言的唯一作用就是实施这种标准。如果机器能够完全模仿大脑的外在表现,那就没有必要关心它的内部是怎么做的,机器就是在做算术、下棋、学习和思考。[33]冯·诺伊曼和控制论的创立者维纳(Norbert Wiener)都对麦卡洛克和皮茨的思想印象深刻。[34]

除了图灵、冯·诺伊曼等这些百年一遇的伟人以及前述其他学者以外,数十年间众多艰辛的开拓者和卓越的领路人谱写了人工智能的不同乐章。后文将专门介绍的“知识工程”创立者费根鲍姆(Edward Feigenbaum)位于2011年IEEE Intelligent Systems发表的“人工智能名人堂”[9]之首。[35]

除了组织1956年的达特茅斯会议、定义了人工智能的目标,麦卡锡还开发和提供了一系列的关键工具和方法,1963年创立了斯坦福大学的人工智能实验室,是证明计算程序正确性的数学逻辑的先驱。他指出了常识问题,关于常识推理的逻辑基础开启了非单调推理和逻辑程序的各种方法。他基于符号表达和符号赋值提出了强而简洁的Lisp语言。Lisp不仅成为当时主要的人工智能程序设计语言,还是大量关于计算的数学基础的论文的始点。他在1969年与海斯(Pat Hayes)一起撰写的《人工智能视角的一些哲学问题》的论文中,首次详细定义了情景演算问题。他还探索了挑战机器人技术和知识表达的机器人意识和内省话题。

1959年,明斯基和麦卡锡一起创立了麻省理工学院计算机和人工智能实验室。20世纪70年代起他试图展现智能可以是诸多非智能部件交互的产物。在其《情感机器》和《心灵社会》中一起表述了他关于人类智能结构和功能的概念。他是人工神经网络的先驱,与派珀特(Seymour Papert)一起是感知器的奠基者,后来又对人工神经网络提出了严厉的批评。他认为情感比智能反映要简单。他的另一项伟大的成就是框架理论,无论实践还是理论方面那都是知识表达的基础。他对于面向对象程序设计范式的出现也有积极的贡献。

伯纳斯李(Tim Berners-Lee)1989年提出的万维网和语义网是他众多对人工智能的贡献中的两个。他不仅提出理念,还是推动者、开发者和护卫者。他说,在20世纪90年代早期,他开始在人工智能领域工作时,最大的瓶颈之一是从专家或有限的文档中取得[10]知识。万维网技术的初衷是使全球高校与科研机构的物理学家能更好地分享信息,而现在语义网是一个空前的产生隐性和显式集成知识的社会机器。

恩格尔巴特(Douglas Engelbart)是鼠标等的发明者,是因特网先驱之一。他企图用计算机工具匹配人的能力,交点即是图形用户界面和自然语言命令,即交互式计算,时间是在1962年。数十年间他一直努力为人机交互提出更好的方法。越来越多的实践表明,人机交互体现了人机结合的思想,是实现人工智能的恰当途径。他还提出了包括计算机支持协同工作在内的众多方向。他是1997年图灵奖得主。

扎德(Lofti Zadeh)1965年提出了作为常规(布尔)逻辑的超集的模糊逻辑,这是一个对任何事物而言(包括“真”在内)都有其“程度”的模型。它挑战了绝对真或假的经典逻辑信念。由于对亚里士多德(Aristotle)逻辑的“放宽”的重要性,模糊逻辑开启了理性方法于多数没有两个分支的真值的实际情景的应用。尽管一开始遭到蔑视,如今模糊逻辑被广泛接受,从消费电子、工业系统到医疗、物理等。宽泛而言,那也是对形象思维刻画的一种努力。

乔姆斯基(Noam Chomsky)是著名的语言学家、哲学家、认知科学家和社会活动家。他关于形式语言(用于数学和逻辑)和获取与处理语言的工作极大地影响了人工智能探究。20世纪50年代,他为自然语言开发的语法规则,为该领域研究奠定了基础,并导致大量自然语言处理和随后计算语言学的有趣的研究。他还提出了按照不同的表达能力将形式语言分类的乔姆斯基层次(Chomsky hierarchy)。

雷迪(Raj Reddy)的人工智能研究集中在诸如说话、语言、视觉和机器人等的智能的感知和运动神经(motor)方面。他和同伴一起开发了大词汇量的连续语音识别系统。他极有远见地将技术用于社会和人类,这使他区别于其他出色的技术专家。他是探索“技术在社会服务”中的角色的真正的先驱者,他创立了第一个通用的数字图书馆,其工作扩展了人工智能的实际影响。他是1994年图灵奖得主。

珀尔(Judea Pearl)是计算机科学家和哲学家,是最初在经验科学中数学化因果关系(causal)模型的学者之一,其工作涉及在不确定情况下利用概率图模型的机器学习、推理和决策方法。20世纪80年代中期,他和同事用清晰而重要的证明过程指出在贝叶斯网络中概率独立性的表达和操作。他还开发了在这些图形表达中执行概率推理的有用算法,这些推理包括诊断推理,其中,某些变量(如病人症状之类的观察)是指定的,而一些不可观察或隐含的被感兴趣的变量(诸如潜在的疾病折磨着病人的假设)的概率改变则是希望看到的。

尼尔森(Nils Nilsson)与同事哈特(Peter Hart)和拉斐尔(Bertram Raphael)一起提出了A*启发式搜索算法和Stripe自动规划系统,它们位于多数人工智能教科书的开头部分,且总是能找到解(如果存在)。当给出一个可接受的启发式函数(不过高估计从当前状态到目标状态的代价),则A*是优化的和有效的。后者为一些将定理证明技术应用到问题解决中的新方法奠定了基础。他还以机器学习、模式识别和计算智能闻名。

魏岑鲍姆(Joseph Weizenbaum)曾发明一种人机对话程序,使得有时能让人们误以为是在与人类而不是计算机交流。他后来成为人工智能的批评者,关注“应该研究些什么”而非“能够研究些什么”。他认为将人工智能应用在导弹机器防御系统等军事领域都属于一种不适当的推广。这也是社会责任感的一种表现。对人工智能更为尖锐的批评来自德赖弗斯(Hubert Dreyfus),他最著名的论点就是“计算机不能做什么”。如果计算机完成了某个任务,那不是真正智能的表现。有了这样的反面意见,我们才有更多机会和更深刻的思考来面对人工智能的本质、意义和作用问题。

库兹韦尔(Ray Kurzweil)则对人工智能充满信心。他16岁时就编写了一套音乐程序,能对著名作曲家的风格做分析,然后创作出类似风格的音乐作品预测。后来,他引入隐马尔可夫模型进行语音识别。[9]他的风靡于世的观点便是2005年提出的所谓人工智能发展的“技术奇点”,那时候,机器将拥有与人类一样的智能,包括意识、情绪等,这是对人工智能能否超越人类这一经典问题的一种明确回答。引来的自然是新一轮的探索与争论。比尔·盖茨(Bill Gates)称库兹韦尔是他所知道的在预测人工智能上最厉害的人。[15]技术的发展支撑了他的乐观。

1981年诺贝尔生理学或医学奖得主中的胡贝尔(David Hunter Hubel)和威塞尔(Torsten Nils Wiesel)在20世纪60年代关于猫的视觉系统中局部感知、面向选择的神经元的发现,以及超过3层的网络结构有效地进行学习的认知神经科学的结论给人工神经网络的建模研究以良好启发和借鉴。2006年欣顿(Geoffrey Hinton)等提出深度学习概念和深度置信网络结构,本希奥(Yoshua Bengio)等提出非监督“贪心”逐层训练算法,而勒昆(Yann LeCun)等更早实现的卷积神经网络[11]效果明显、先声夺人。深度学习使得人工智能取得突破。

有观点认为,科学革命绝非仅仅凭借一批史无前例的天才在彼时彼刻的横空出世就可以骤然发生,而与其他人全然无涉。它是某些可以辨认的力量和世代积累的产物,在寻找这一历史关键线索时我们首先必须从神话中排除所有伟大的人物。[36]在天才人物之外,有着更多的优秀人物,他们或者交流其中,或者辅助其成,或者实现其事,难以罗列,但他们的贡献是切实的、不该被遗忘的。

就具有里程碑意义的工程应用而言,在自动导航方面,卡耐基梅隆大学研制的Boss赢得了2007年的竞赛,它能够在城市环境中行驶,遵守所有的交通规则,并与其他车辆和障碍物共存。在语言理解方面,谷歌的信息检索、语言翻译引领潮流,翻译能力很大程度上并不是依靠统计,而是来自对大数据的访问和计算能力。2011年,IBM演示了一个能够在Jeopardy智力竞赛节目中战胜人类专家的问题回答系统——沃森(Watson)。该系统3秒钟回答一个问题,不到1秒可确定是否能够回答该问题,表现出很好的语言能力,能用与人类极其相似的方式来进行回答,这样的任务要求结合诸如准确性、置信估计、线索选择和博弈策略等。图1-1是情景范围和知识范围不断拓展过程中过去一些年里人工智能的里程碑成果示意。2014年,IBM模拟人脑神经元和神经突触的结构及其信息处理方式研制出新一代芯片“真北”,包含54亿个晶体管,模拟了100万个神经元和2.56亿个神经突触。该技术有可能使计算机的能力从“婴儿”逐渐达到能完成人们的日常任务的程度。[37]IBM收罗世界上最先进的医疗大数据信息,让其学习海量知识,希望可以在医疗方面有所建树。有趣的是,几乎所有这些突破都始于一些学术中心,并且都借助于工业界的资源使其成为现实。

图1-1 人工智能:情景与知识的拓展。从人工智能的乐观预言开始至今的一个甲子的岁月中,先是逻辑理论家实现定理证明(不需与环境交互),接着有计算机辅助诊断系统MYCIN(需要获取病人数据)、自动导航系统Boss(识别与分析复杂的道路情况)、围棋程序AlphaGo(对两者交互后的棋局的判断),它们的情景范围逐步扩展或与外界交互渐渐增多;另一方面,搜索引擎Google面对的知识(信息)量陡然猛增,尽管交互内容很简单,只是一个词或一句话。真正的人工智能将既有广泛的专业知识和常识,又位于广阔的动态环境当中,其进一步的呈现载体为世人所热切期待

同样是谷歌的成果,自动驾驶与下围棋程序哪个更难?

人工智能的困难在于对经验和形象思维过程模拟的刻画。机器目前尚无与人可对应的经验过程,机器学习所“学”的经验在过程和发挥作用方面与人在成长过程中积累的经验并不一样,它们对“计算”能力的依赖程度不同,但不是“简单”与否的问题。若将安全问题暂时放一边,几岁的小孩学开车从而到熟练驾驶,比学围棋而越过业余阶段要容易很多。即便从小学围棋,到头来“入”段的颇少。70年前电子计算机诞生,随后计算能力飞速提高,国际象棋程序到最近10来年才“称冠”,而围棋程序到人工智能60周年一举“成名”。

与自动驾驶相比,哪个更难本身不是一个可“一言以蔽之”的问题,开车不存在“九段”,熟练、不违规就行,但它们有共性,即模式识别。它们都是人工智能的经典问题,而自动驾驶的突破要早于下围棋程序。以前不太听说下围棋的情况,是由于缺乏突破性工作。机器尚未在完全意义上战胜冠军棋手,只不过“战胜”步伐比预期的要快,算法的设计是核心内容,若比之为“鱼”,计算能力的提高是一个条件,但非决定性的,“大数据”则是“水”,由此,人工智能才能“如鱼得水”。自动驾驶很难,比如谷歌的自动驾驶车不时出问题,从模式识别角度仔细分析,那不是识别不了,只是程序设计事先未考虑到那个情景。可由此体会所谓的“难”与“易”,连人都避免不了或难以做到的事情,或者说人的智能都不好应付的情景,不在人工智能的初衷范畴(模拟人的智能)中。

比如世界级大家华罗庚先生和他的学生陈景润先生哪位强?华先生的社会贡献、整体水平以及影响、地位,是中国第一,但陈先生的“1+2”的难度是中国数学家所及最大的。怎么比呢?比如,我非常钦佩王选先生,他的创新与产业是一面旗帜,但就研究和学问而言,吴文俊先生大。他们都是国家最高科技奖得主。他们是否可分别对应着自动驾驶与围棋程序?如此之难的围棋程序已经赢了世界冠军,而我们不能忽视如下情形。

●与机器比,棋手在明里,而机器此前已学习了几乎所有一流棋手的棋局,是有备而来。棋手面对的是一个从未遇到过的“新手”,而且是不同于对面而坐的人一样的“新手”。

●机器无感情,没有人因体力疲劳、心理波动而导致的情绪起伏、思维障碍,无论如何有经验的棋手面临如此情景,至少一开始是难以很好适应的。

●虽然仅靠大量计算而无算法的进步不会有决定性的进展,但计算的力量还是显而易见的,因为下围棋除了直觉、经验还依靠计算,这是机器的优势,“云计算”使机器有“群殴”之能。

我们人工智能工作者对人工智能自身的进步倍感欣悦,而无须为人类神圣的“脸面”寻找托词。需要指出的是,我们不能偏离人工智能的原始意义与目标,不可轻视人工智能本身的未知与困难,不该抛弃衡量人工智能成就的前提与原则。

笔者于此先对人工智能历史做如上概述,以登山为例大致有3个原因。第一,中途累了,离登顶尚遥远,暂时歇一会儿,难免回头望望已走过的路在哪里、走了多长、有多少弯路;第二,目前的位置,是否适合作为下一步登途的起点,可以直接再往上攀,抑或需要琢磨一下从何处起步更合适;第三,既然已经走了一段,我们的选择就不同于在山脚下时那样不知深浅、无所顾虑,那样意气风发、豪情万丈。这些无非就是“以史为鉴”。相传梁武帝将围棋诏定为九品,每一品都是一种境界。九品可分为2种层次,以五品为界,以下为技术境界,以上才进入艺术(或精神)境界。前者是基本功,后者与经验、悟性、诸多不可言传之“妙”密切相关,并非“如数学一样的抽象系统”。我们的任务是在前人的基础上设法探索一条道路,集成“技术”和“艺术”境界,逐步登高,并进一步望远,“技进乎道”既是成长的过程,也是成熟的标志。