4.3 分类融合
卷积神经网络可直接输入整条心电图记录,但在给定网络结构下,其非线性拟合能力有限,因而考虑在此基础上实现分类器的集成与融合。融合本身是指相似功能或作用的元素或实体的关联、重组、互补与优化,从而聚集、统一为一个功能更强、作用更大的单元。有自然的过程,如地貌的变化、河川的汇合;有含一定主动性的行为,如民族的聚集、种群的分布;有内外因导致的结果,如机构的合并、方法的集成。抽象思维和形象思维的综合,既是大脑的特性,也是当今众多智能模拟方法互相取长补短的必然要求,因为有的算法长于计算或推理,如规则演算;有的则长于分析、综合,如人工神经网络。不仅如此,前者和后者都有待细分,比如就心电图而言,有的是识别QRS波群的,如能量谱方法;有的是针对P波的,如机器学习方法;有的是面向ST段的,如模板方法。更进一步,比如同样是P波,有的情况下要选择支持向量机,有的时候还得借助小波变换。融合应是多角度、多层次和多方面的融合。好的分类器融合策略,既需要对数据的深入剖析,尤其是就出错数据查找原因,又要对不同分类器性能和特点有清晰的把握。前者琐碎、量大、枯燥、耗时,后者依赖于前者,又非小数据集上浅尝可止,需要洞察并调整内部结构、测试各类数据。只有这样,才可能让分类器与数据特点匹配,使得它们分工有序而作用协调,进而提升整体性能。因此,面对实际数据,随便选择某种分类器解决不了问题,而缺乏足够量的原始数据,有效的分类器不但不会“飘然而至”,甚至分类器的基本性能都难以发挥。多种分类方式[29-30]的有效融合可使效果得以提升。理分类结果,其中“1”指依赖于RR间期的规则推理,“2”指依赖于R波幅值的规则推理。临床上,医生关注正常即阴性检出率(-P)=95%情况下的TPR。融合的效果是显然的,而且CNNR2优于CNNR1。
进一步细分规则以后的融合结构如图4-10所示。
预处理后的心电图数据,一方面到QRS波位置检测模块,然后进入RR间期正异常分类器(有4个);同时到R波幅值提取模块,然后进入R波幅度正异常分类器;另外,经过一路降维处理进入卷积神经网络正异常分类器。每个分类器均输出为正常的心电图才是最终的正常心电图,此时医生将专注于异常心电图的处理。
表4-3 基于CNNR1的融合结果

表4-4 基于CNNR2的融合结果


图4-10 规则推理与深层人工神经网络的融合结构
深层神经网络输出的是概率值。可采用贝叶斯方法融合CNNR1与CNNR2。一般来说,若有针对K个类的M个分类器,对第k类的预测可由最后的概率估计P(y=i|c1,c2,…,cm)给出:

其中,P(y=i|cm)是由分类器cm对i类预测的概率值。对于这里的正异常分类,K=2,M=2。[31]
小规模测试样本和大规模测试样本见表4-5。
表4-5 训练与测试数据

在小规模测试时,对数据进行处理,总共是24 669个样本;然后再将其划分为12 880个训练样本和11 789个小规模测试样本,两者数据完全不一样,没有重叠。大规模测试时的数据划分是类似的。
针对上述数据的测试结果见表4-6和表4-7。H 0和H的区别在于,H 0的输入样本的起始点由原来的1个增加到在同一个心搏中随机选择的9个,从而拓展样本和学习范围。
表4-6 小规模测试1

表4-7 大规模测试1

以下是精化后的依赖于RR间期的规则的一组形式。[5]设心电图采样频率为f s,Ri(1≤i≤n)为一条记录上的R波位置,共有(n-1)个RR间期(即主波时间间隔),则平均RR间期如下式所示,可理解为心脏跳动1次所需时间(或采样点数):

一、心率规则(H 1)

设心率处于[55,115]内为正常。
二、基于局部特性的心率不齐(H 2)
连续3个RR间期超过平均RR间期的15%:

三、基于局部和整体特性的心率不齐(H 3)
1个RR间期超过平均RR间期的15%,并且相邻RR间期整体变化率的标准差大于0.05:

四、基于整体特性的心率不齐(H 4)
平均RR间期整体变化率的标准差大于0.05:

五、幅值计算(H 5)
与通常的R波幅值计算一样。
规则推理的输出值是“0”或“1”,若四者中有“1”,则深层神经网络的输出与“1”之和的平均便是融合输出的概率值,若四者全是“0”,深层神经网络的输出便是融合输出的概率值,小于0.5,分类结果为正常,否则为异常。
融合上述规则(分类器)和深层神经网络分类器后的测试结果分别见表4-8和表4-9。
表4-8 小规模测试2

表4-9 大规模测试2

同样关注-P=95%情况下的TPR。可以看到,随着H 1~H 5的加入,性能较此前(H和H 0)均有提升。[32]
日常,每天主要的心电图数据是正常的(72%以上)。由表可知,在融合“RR间期正异常分类器”后,特异性提高到了67%,0.67×0.72≈48%,即可减轻近半的医生工作量,这是一个具体的、为临床医生所接受的结果,以上仅举一例说明之。
一般地,心电图的分类也就是要确定一个函数,使得不同疾病类型数据的函数值落入不同的区间。针对常见心血管疾病的不同症状,这里的融合深度学习(深层神经网络)和知识工程(规则推理)的分类器为

这里,RR和R分别表示RR间期和R波幅度,有5个依赖于它们的分类器fi=1,…,5,这些分类器和卷积神经网络分类器f CNN分别针对不同疾病进行分类。其结果由后面S+1个规则推理分类器gi做二次分类确认,特征识别函数分别为hl、hk,它们各自依赖于对L个普通数字特征和M个形态特征的识别,其中M个形态特征的识别可利用阈值、模板匹配、支持向量机和深层神经网络等方法完成。设心电图数据集X={x∈Rd},每条心电图记录经分类器最后都会归入某一类:
f(x)∈{Cla i∈{0,1,…,S}}
共有S类疾病,再包括正常情况,分类结果有S+1种,其中Cla0表示正常类,Cla i∈{1,…,S}表示异常类。
我们的研究思路就如康德描述的:“……一个简单的知觉表象就已经包含了杂多感觉的汇集和统一……这也就是说,从人们感觉一开始,就有一种统一性于其中,把杂多的感觉表象联结起来,否则这些杂多就只能永远是孤立的、零碎的、乱七八糟的感觉。这种联合综合杂多的统一性,并不是被动接受的感觉本身所能具有,而必须有心灵的主动综合作用才行。这就是所谓‘直观中把握的综合’。”[33]