1
“心迹”的计算:隐性知识的人工智能途径
1.5.5 4.5 任重道远
4.5 任重道远

人工智能的一个挑战是努力给出具体化的实际需求和工作设计,需要关于不同需求和可能设计间的折中的系统分析。[37]医学界,基础研究和临床应用间的脱节与其他领域类似,转化医学理念的提出则企图予以弥合、加速实验室成果的应用进程。计算机、人工智能技术在此只是辅助手段,计算机辅助心电图分析中的“辅助”两字也意味着我们的工作并不处在“中心”,但又不失为一个例子。图4-12是围绕用户需求,从市场调研开始一直到能切实提供服务的过程中涉及的若干关键环节及其关系的示意图。

我们的这项研究工作是面向临床的,研究动因[38]来源于实际需求、面向实际问题[1],又针对基础研究和技术创新,走过了从创新理念到产品开发到市场应用的历程。无论从社会生活和人类进步对科学技术的要求和期望出发,还是从兴趣驱动、探索未知的角度着眼,我们科研人员的工作目标和研究内容都离不开现实问题、实际需求,就如同我们每个人的生存和发展依赖于社会和周边环境一样。

图4-12 产品设计、问题归纳、瓶颈分析及辅助工具、服务实现各环节

社会上更多百姓需要价廉物美、使用便捷的服务,包括疾病筛选与健康评估,我们已向实际的“云计算”服务环境移植正异常分类方法。[5,28,39]我们充分重视能解决问题的方法论本身,使其和实践一起成为理论联系实际互不可分的两个方面,从而也使我们的研究工作“落地”。

据国家心血管病中心2016年8月发布的《中国心血管病报告2014》,估计全国有心血管病患者2.9亿人,每10 s就有1人死于心血管疾病,占各疾病之首。胡盛寿院士中国心脏大会上指出,心血管疾病已经成为高死亡率、高致残率、高患病率、高医疗风险及高医疗费用的第一大慢性疾病,严重影响了广大人民群众的健康。若这些患者每年检查2次心电图,余下的国民中有一半人每年检查1次心电图,总数达10亿人次以上。按目前每条心电图收费20元,自动筛选后收费减半计,降为每条10元,社会效益达100亿元以上。

中国有1 399家三级医院(6%)、6 468家二级医院(29%)、5 636家一级医院(26%)、8 476家未分级医院(约40%)、[40]10余万家基层医疗机构,据此,终端需求量为1 399×10+6 468×5+5 636×4+8 476×3+110 000×2=13 990+32 340+22 544+25 428+220 000=314 302,以嵌入分析算法的每套终端3万元计(含服务),314 302×3=942 906,市场容量也达100亿元级。

我们的研究工作涉及的各个方面如图4-13所示。

图4-13 以计算机辅助心电图分析研究为例的思维模拟图。本图概括了从核心问题、关键过程到棘手环节、主要技术以至呈现方式的若干方面

有云“心电图(自动分析)做了那么多年了……”,此言可能含义有二:这件事不好做、难做好;该话题老了,该玩点新名堂。对于前者,自然不敢否定,容易处理的话现状不会如此;对于后者,是个悖论,不敢恭维,不管新老与否,我们的任务不是“喜新厌旧”而是“破旧立新”地解决问题。如果对心电图这类体征都置之不理,那么对更复杂的医学图像分析和理解,对于更宽泛的模式识别,对于更本质的智能模拟而言,就无从谈起了。由于噪声干扰、信号失真、界限模糊、形态复杂、经验难表,分类器错误不时出现,究其原因大致如下。

第一,首先是经典的问题,例如信号质量不好、干扰过多、导联脱落等,这需要加强信号预处理工作,人工智能的特征识别与分类工作往往忽视这类本身与智能关联不大的环节,实际上诸如此类的“井水不犯河水”的想法和做法必然影响最后效果。还有数据组织问题,如未能区分病人内与病人间数据、训练数据长度与规模选择失当。

第二,有时候从单个心搏观察,似乎接近于正常类型,若结合前后数个心搏,则可以发现比较明显的病变性质,即疾病的特征表现在连续的心搏间,也就是说,需要因地制宜地动态观察整体情况。反之,单个导联可能有部分特征不满足正常心搏的定义,但是结合病人及其他导联的情况,医生可认为没有问题,即算法会放大了局部特征的作用。这需要细化诊断规则。

第三,有的心搏可能同时表现了某两种疾病的部分特征,分类器无法准确判断它更加接近哪种疾病;有时候两种疾病特征在连续心搏间交替存在,大多数特征都处于临界位置,使得分类器无所适从。为此,可以在分类器级联设计时,专门对这类情况进行预分类,或者根据情况合理安排不同分类器的先后次序。同时,先分大类,如区分正异常,然后再做疾病分类。

第四,对于正常情况,由于各种因素(如基线漂移、肌电干扰等)影响,导致从单个心搏的特征来看并非正常,实际上这些心搏本身没有异常,但是在分类过程中某些特征依然会因为计算本身的原因,比如误差积累、阈值过死,而出现“突变”,这也就会导致最终的误判。所以,正异常分类中的正常结论要经过多个分类器的确认。

第五,有些疾病类型只出现在某几个导联上,而另外一些疾病类型会在多个导联上反映。但是现在对各导联等同对待的思路显然无法解决这一问题。因此可以根据疾病类型的不同,结合分类器级联与分层设计,对不同导联赋予不同的权重。然而加权值多大又是一个问题。需要经验的挖掘和实验的分析。

归纳而言,信号质量方面:噪声和基线漂移大,变形重,甚至导联脱落等。特征识别方面:幅度小,形态复杂,样本不够。症状分类方面:泛化能力弱,针对性差,内部过程不明。可采取的措施为:加强信号预处理,设计专门滤波器;扩大和改善训练样本,重视细微特征的识别;针对具体的出错情况,设计专门的分类器。

从心电图的分类目标出发,我们的探索涉及两种方法,每种又都有两条途径。

●经典的从特征识别、特征提取、特征选择基础上的分类。

✧传统的专家系统方法,比如决策树方法、引入可信度因子的推理机。

✧经特征选择后,针对这些特征的统计学习分类方法如支持向量机,以及独立成分分析与支持向量机的结合等。

●机器学习的方法,特征提取过程显现或隐含其中。

✧深度学习方法,以及用深度学习方法学习特征后进行规则推理再结合深度学习本身的方法。

✧规则推理和深度学习相融合的方法,这是目前最有效的思路,前者利用可有效识别的特征,后者利用神经网络把握特征。

如图4-14所示为我们已实现的智能健康之舟——心电图检查云服务系统ABC-DE。其中,机器实时分析性能在持续提升过程中。

图4-14 智能健康之舟——心电图检查云服务系统ABC DE:人工智能(A)——体征实时感知及症状分析;大数据(B)——开放环境下样本训练与数据存储;云计算平台(C)——随时随地处理请求和确认结果

如《乔布斯传》所言:“其创意目的并不是赞美计算机可以做什么,而是赞美有创造力的人们在计算机辅助下可以做什么。”[41]

后续工作将包括:

第一,跟踪、分析错误结果,细化出错原因并归类,这项工作琐碎而繁杂,但缺少这一步,就无法针对性地改善算法性能。

第二,深层神经网络的优化,包括不同网络模型的比较、卷积神经网络与递归神经网络的集成、无监督和有监督学习的互补、参数的选择等。

第三,隐性知识的进一步挖掘、形态特征的识别、构建针对特定形态特征的专门分类器、推理机的构造。

第四,设计更多适应不同症状的分类器,发挥不同分类器各自优势,针对不同疾病进行分类。

第五,各种方法的集成,[42-44]学习不同于以往的其他方法,并融合诸如脉搏波[45]等体征利用深层神经网络[46,47]进行综合分析。

黄檗禅师有诗:

心如大海无边际,广植净莲养身心。

自有一双无事手,为做世间慈悲人。

希望我们的工作能为“心”的健康贡献绵薄之力。可能的用户包括:

●基层医院、体检中心。

●移动医疗保健终端制造商和集成商。

●第三方云计算健康服务平台和健康保险分析平台。