1
“心迹”的计算:隐性知识的人工智能途径
1.5.4 4.4 开放数据
4.4 开放数据

为克服常用标准数据库诸如MIT-BIH-AR、AHA、ESC、NST、CU等在代表性方面的不足和限制,[7]满足可实时追加新数据用于训练的要求,我们专门构建了中国心血管疾病数据库CCDD[34](http://58.210.56.164:88/ccdd/),并开发了相应的标注工具协助专家手工标注,目前其中包括了数量丰富、代表性强的约20万条心电图记录,同时还在不断扩充和完善,是免费对外开放的。图4-11是标注工具界面。尽管在数据库和算法两方面都增加了工作量,而“工欲善其事,必先利其器”。该过程同时可以引导专家

在人工智能的算法研究中,“训练”或“学习”与“测试”或“预测”是两个关联的计算环节,前者指给依赖数据结构的算法一定量的数据输入,通过改变其中的参数使之获得某种约束下的“最优”输出性能,而后者是用另外一些数据来检验输出性能的可靠性和适用性。数据规模不同即意味着需要识别的模式具体情形可能不同,数据越多,情形也越多,情况也就更为复杂,有些甚至是前所未有的。也就是说,数据规模的扩大增加了可能的未知对象。一方面,人的成长就是个逐步学习的过程,尤其是专门领域的能力非一下子的“训练”可获得。另一方面,所用的“训练”数据量的多少大异其趣。人因“见多”而“识广”,若“训练”数据不足,却期望模拟人的思维过程的算法面对更多实际数据时同样有效,则有点像是想“一口吃成胖子”,这里难以“四两拨千斤”。发现数据中的问题或进行诊断规则优化,以免对后续工作造成误导。也就是说,这个过程中可以发现隐性知识。

在以往的研究中,比如图像处理,由于数据量大,往往通过抽样以获得所谓的样本,又会用“插值”的方法拟合以恢复原貌。由于视觉感知在精确性方面的差异和容错的特性,即使有所偏差也能接受,或者说不至于会导致不一样的结果,比如摄影。然而,很多其他问题,比如预测、诊断,只有有了较为完整或更具代表性的数据集,才可以从全面的角度和不同的层面观察数据、分析数据、借鉴数据和利用数据。“混沌”效应可导致“差之毫厘,失之千里”,而经验的不足必然导致结论的肤浅、偏差。这里有量与代表性的平衡问题,太多就有冗余,是不必要的。在能够保障结果可靠的情况下,数据尽量少就可以减少投入代价,获得更好的投入产出效应,难处在于我们往往找不到这样的“折中”。如同有不少书籍资料,“大全”“全集”等对于已有单行本者显然有重复之处,它们既占空间又不便查询,但单行本本身缺乏全面性和完整性。按需选择是一种可选途径,不然的话,为了可靠便利只能将“全集”备上。

图4-11 标注工具软件界面

这些年,“大数据”[35]一词几乎热爆,它来自经典的天文学,也源于有10余年历史的基因组学,其界限尚不分明。“大数据”提出的原因,应该是信息化时代存在大量数据,生活面临丰富数据,现实世界被数据“包围了”,人们认为其中潜伏着、蕴含着多方面的、复杂的有益信息和相关关系。而我们已有的技术,对大数据以前的数据规模还没有很好适应,对大数据尚无有效应对措施,甚至一时无从着手。“大数据”还将用概率说话,但不青睐用随机分析方法而采用所有数据,可能要牺牲精确性,所以依然未必能“确凿无疑”地下结论。

“大数据”应有如下特点。第一,规模。至少与此前所能处理的数据不在一个量级而是大得多,以致需要新的思路和方法,平行处理,“超算”在理论上在此可用。即便如此,要真正解决问题,还需要有针对性的算法和数据结构。第二,分布。数据应来自不同之源,这并非说同一地方绝不可能产生如此多的数据,而是指事实上的社会现实如此。第三,类别。异构是“大数据”的又一个特征,不过非异构但规模大的数据同样棘手。比如某类疾病患者数,其中蕴含十分丰富的病症信息,尚未有人或机构对其有良好把握,目前也没有统一的数据库存放这些数据。但若没有预处理,全指望计算机,既盲目又不得要领。因而还是需要人的参与,需要有经验的领域专家的介入,来实现人机交互,比如可以先按照区域、年龄、性别、正常与否、设备来源等做不同的预分类。这样做,一方面是借助人的经验降低复杂性,另一方面也可缩小对数据规模的要求。单从计算的角度看,这两者越简单则越容易处理,其结果也越可靠。也许适当忽略微观层面上的精确度会让我们在宏观层面上拥有更好的洞察力。

科学技术本身的进步和发展过程在一定程度上有助于我们对大数据这类说法的把握,那无外乎逐步渐进、曲折迂回和突飞跨越几种形式,无论哪种形式,都是对过去的超越和向未来的拥抱。这种过程,可以序数而记,比如18世纪以后,以蒸汽机为代表的第一次工业革命,19世纪70年代后以进入电气时代为标志的第二次工业革命,20世纪四五十年代以电子计算机、原子能等的应用为标志的第三次科技革命,以及“第三次浪潮”等。另一方面,人们往往会自然而然地用一些形容词来表述崭新的阶段,记得时任中科院院长的路甬祥院士在一次报告中说,有专家曾建议用“超级863”来表明“863计划”的新阶段,另有专家说,如果那样,到第三阶段如何说?实际上,“大数据”与“深度学习”均有类似的问题。

大数据意味着量变会导致质变,如果没有质变,则没有必要区分量的大小,事实上要区分“大”和“小”颇为不易。至于深度学习是由视觉系统的神经机制而来的对传统神经网络的超越,虽然人工神经网络从没有说过不能有多层,只是“深层”的建模很困难而已。人工智能本质上就是对脑内过程的模拟,宏观上指功能,微观上便是结构,包括大脑神经系统。

笔者最初工作单位是一家工厂,20世纪80年代,主要产品是不间断电源,先是三千伏安的、五千伏安的,到要设计十千伏安时,专门成立了研制小组,开始准备利用单片机控制,曾问我是否参加(后来没用计算机控制方案)。我那时以为,从3、5到10,无非是量的增加,设计上应该没有难处,但年长的技术人员说,不是那么回事,我将信将疑。随着经验的积累、认识的提高,我觉得那是自然的结论了,比如从微机到小型机、中型机、大型机(后来不用小、中、大之说)又到巨型机,都不是简单的“扩容”可以解决的。

除了量变到质变的必然性,大数据给我们的启示是,科学研究不能满足于实验室里小规模数据的实验、分析。以我们做的计算机辅助心电图分析为例,几十年来太多方法在标准数据库上都“好”,但在临床数据面前性能往往会急剧下降,只要了解大数据之独特,就不能也不会满足于原来的小数据库上的工作,而得想方设法先将有代表性的数据搜集好,可谓工欲善其事,“必先足其数”。

需要区别对待的是,大数据未必都有那么多新的研究需要。我在与一位国家电网的“千人计划”专家交流的时候得知,电网的数据确实大,但其规律性较为明确,可控性尚好,大数据尚无用武之地。另一方面,人们依然在用老的方法处理大数据,没错,这就是大数据对数据处理方法变革的期待。

比如,《红楼梦》有诸多“公案”,最普遍的是,主题是什么?鲁迅曾说,因读者的不同的眼光,《红楼梦》于经学家看见《易》,道学家看见淫,才子看见缠绵,革命家看见排满,流言家看见宫闱秘事……20世纪就有人利用计算机研究《红楼梦》,比如对一些名词做统计,是否有一些根本性的突破不得而知。人物众多、结构复杂,其中的数据量颇大,“大数据”提出前《红楼梦》早已就是“显学”,该如何处理?没有人设计的策略,没有人的协同,恐怕寸步难行。人该怎样参与、如何协同?机器是否能得出这样的结论?

据说《四库全书》约有8亿字,数量大,不过对其检索和分析此前就能做到。有次参加一个会议,一位发言者说,他们通过大数据来把握人才项目相关情况,其实每年几百个,怎么说也不大。

在现有条件下,“大数据”的处理效率是得不到保障的,很可能是一件免不了盲目、有时是吃力不讨好的事情。例如,探索宇宙分为航空、航天、航宇等阶段,航天是围着地球转,航空是脱离地球引力到地球以外的太阳系遨游,航宇则是到太阳系以外寻找文明世界。地球生命诞生前,宇宙早就存在,可人类得先弄清楚太阳系是怎么一回事。宇宙有数不清的类似银河系的恒星系统,我们的探索未必现在就要涉足银河系以外,除了人类的能力有限外,我们对置身其中的银河系有太多未知,它与其他星系也会有许多共性,我们先把银河系研究透了再推而广之并琢磨新问题是否为时不晚?

研究“大数据”的目的,是要寻找背后的特点、其中的规律和它们相互的关联。人具有透过现象看本质、宏观把握和分析关系的能力,当超过一定的复杂程度后,我们希望机器提供帮助。所谓数据挖掘、机器学习便被赋予如此重任。但我们知道,仅能“计算”无济于事——现在计算机的计算能力已够强,缺的是直觉,是形象思维,是整体把握。麻省理工学院的研究人员设计了一个数据分析系统,使之在寻找数据背后隐藏的规律时,可以起到替代人类直觉的作用。[36]它运用多种指标,寻找数据库中数据结构关系间的相关性。这里,数据特征是极其重要的——需要人的设计,实际上还不算真正具备了直觉。

无论出现什么样的新名词或新说法,都要谨慎地寄予厚望,也要耐心地等待结论。