1
环境微生物学
1.10.9.2 二、预测生物降解性定量结构生物降解性关系模型的构建

二、预测生物降解性定量结构生物降解性关系模型的构建

一种化合物的生物活性取决于分子结构及其他生物和环境因素,但分子结构是决定性的,起主要作用的因素,生物活性包括生物降解性、生物毒性及其他性质。分子结构与生物活性的关系被称为QSARs(quantitative structure activity relationships),1994年QSARs首先用于生物降解,用于生物降解方面的QSARs(QSARs for biodegradation)就成为QSBRs(quan-titative structure-biodegradability relationships),也称为SBRs(structure-biodegradability relationships)。一种化合物的生物降解受多种因素的影响,主要是化合物的自身结构、化合物理化性质、降解微生物以及所提供的环境条件。如果能提供充分驯化、适应的微生物及合适的环境条件,则化合物的降解在很大程度上就取决于化合物自身,化合物的自身结构及物理、化学特征是影响生物降解的根本因素,化合物分子结构的信息可以反映在生物降解上。微生物及环境条件是外因影响降解的外部条件。

基于分子结构对生物降解的重要性和结构与生物降解的这种定量关系(QSBRs),科学研究人员就逐步发展出以分子结构中基团为基础的预测化合物降解性的预测用的降解数学模型,利用这些模型可从分子构成特征出发来预测化合物的生物降解性,从而可以进行风险、归宿评价,并为进一步设计环境安全的化合物服务。

1.模型建立的基础

假设生物降解性是组成化合物分子的一个或更多基团(片段)所贡献的功能,并且每种基团对各种化合物来说是不变的(即设定同一片段在不同化合物中起同样作用,忽略不计片段之间的相互作用)。理想的情况是这种模式中的每个片段对降解活性都有清楚的机理关系。尽管孤立地看待结构与生物降解性之间的关系是不科学的,但通过一定的方法可以消除这些偏差,而且也可以把两个基团或更多基团及它们之间的相互作用作为一类新的基团加以考虑。这样我们就可以发展出一种模型,在这种模型中,生物降解性用一系列的合适大小的可计算值表示,同时以某种方式把生物降解性和结构片段结合起来产生出合理的综合模型。我们以化合物结构为基础的模型仍然存在很多局限性,但有这些模型进行预测要比没有好得多。建立模型也可以认为是对新化合物风险管理和规避风险的一种方法。

2.建立模型的程序

构建有机化合物定量结构生物降解关系(QSBR)模型的程序一般经过6个主要步骤。

(1)选择系列化合物

选择一系列不同类型和不同取代基位置的化合物,化合物取代基常数的值应具有广谱范围的性质,即在选定的取代基参数之间其变化相关性应最小。

(2)分子结构及生物降解试验

选择合适的结构参数研究较为独立的分子结构描述符,确定获取生物降解性速率的测试方法。

(3)分子结构参数的转换和生物降解性速率的获得

分子结构参数转换成数字描述。生物降解速率的获得必须在相同条件下进行,这包括生物降解的终点、方法及所提供的环境条件,获取尽可能多的生物降解性能数据。

(4)建模

选择合适的方法建立生物降解性和结构参数的定量关系模型。采用诸如回归分析等数学统计方法,去除生物降解性影响小的参数,保留重要参数。

(5)模型检验

以大量的化合物的实例结果检验模型,并不断校正模型优化模型,给出模型的适用约束和误差范围。

(6)实际应用

预测新的化合物的生物降解性,评价其归宿、行为,并为合成新化合物提供支持。

3.建立模型的方法

所有能影响生物降解性的结构及物理、化学特征都能作为构成QSBR的参数,现在许多研究QSBR的学者都从不同的角度把影响生物降解因素综合到生物降解中,构成QSBR来预测化合物的生物降解性。

何菲等把目前较为常见的QSBR建模方法概括为:线性自由能相关法(LFER,Hansch分析法)、基团贡献法(free-wilson法)、分子连接性指数法(MCI法)、专家系统(expert system)、人工神经网络法(artificial neural networks,ANN)、比较分子力场分析(comparative molecular field analysis,COMFA)等。

线性自由能相关法(linear free-energy relationship,LFER):这是QSBR研究最为常用的方法,由于Hansch研究得最为深入,故而又称其为Hansch分析法。其理论基础是基质分子结构的微小改变将导致限速步骤活化能的线性改变,进而影响降解速率的改变,用数学式表达为:

lgK=A1X1+A2X2+…+AnXn+C

式中,K为生物降解速率常数,A1-An为系数,X1-Xn为有机物分子结构描述符,C为常数。应用这种方法许多学者得到一大批预测模型。

基团贡献法:这种方法是在对化合物亚结构信息和生物活性相关研究的基础上建立的。该法将各种化合物分子按其结构分解为几个官能团或片段,假定每个官能团或片段对化合物的生物降解都有特殊的贡献。生物降解速率常数K可用贡献函数X表达,对于化合物的每一个基团或片段都可以使下式成立:

ln(K)=f(a1,a2,…,aj)

用泰勒级数(Talor Series)将上式展开,若忽略二阶以上的部分,即可获得生物降解速率常数K的一级线性模型,表达为:

img231

式中,Nj为化合物中第j类基团的数目j为第类基团的贡献值,L为化合物中基团的总数。

对于每一种化合物,都可建立一个这样的线性方程,应用最小二乘法可以解出K值。这种模型只用了一级近似,但如果基团之间的相互作用很重要,就不能使用这样的模型,可考虑使用二阶或更高阶的方程处理。

分子连接性指数法:分子连接性指数(MCI)方法是目前最常用的建模方法之一。以MCI指数建立同生物降解性间的线性相关方程,就是MCI-QSBR法,这种方法的优点是完全从化合物的分子信息着手,而不必考虑微生物降解的代谢途径与限速反应,因而可能使QSBR不仅仅适用于同系或同族化合物,而且也适应于许多其他化合物。有学者以该法对29种不同类的芳香化合物建立了非驯化的生物降解模型,得到如下方程:

lgK=0.85(0x-0xv)-6.51(5xcv)+0.72G-0.89A+0.60

n=29,r=0.93

式中,G与A分别为基质与脂肪侧链的指示变量。

专家系统:专家系统对化合物的生物降解性的认定主要依赖于少数技术专家的职业判断。降解数据不是直接的实验研究结果,而是专家的推理及经验的判断。由于缺乏实验数据,对许多化合物来说不确定性仍然很大,这使生物降解途径与速率并不完全明确。但专家的认识从本质上来说是来源于基团对生物降解性的贡献的认识,专家预测生物降解性,常以基团贡献法为基础,特别注意促进降解性和阻滞降解性的结构片段。同时可能结合几类参数,例如理化参数、分子连接指数等。因此专家系统实际上是一种结构生物降解性的人工智能判断。

人工神经网络法:人工神经网络是模拟人脑结构的一种大规模的并行连接机制系统,具有自适应建模学习和自动建模功能。特别对线性问题有良好的拟合预测能力。

比较分子力场分析:比较分子力场分析是最重要的3D-QSARL三维定量构效关系,即基于分子的三维结构对其性质或活性进行预测方法之一。这种方法将一组具有相同性质(降解活性)的分子按照其相同的几何作用点,在三维空间进行叠加,计算这一组分子叠加的立体场和静电场,用某种探针原子对这些场进行作用,然后用偏最小二乘(PLS)及交叉验证得到预期模型。即通过比较活性化合物与非活性化合物的有关分子结构信息,可以筛选并确定对分子生物活性起关键作用的化合物电子结构或立体结构特征,进而推测化合物-受体作用机制,建立化合物生物降解模型。

4.表征结构及理化特征的描述符

QSBR模型实际上是把有机化合物的结构性质(或理化性质)与其生物降解性之间的关系用数学模型加以解析、表达的过程。有机化合物的结构用化学结构描述符予以表征,目前常用的主要有:

①理化性质描述符:包括分子量(MW)、正辛醇/水分配系数(Kow)、酸解常数(pKa)、碱解常数(KOH)、分子表面积(TSA)、高压液相色谱保留时间(RT)、疏水常数(π)、溶解度和分子连接指数。

②电子效应描述符(电子参数):包括电子效应参数和量化参数。

③空间效应描述符(空间参数):空间效应反映的是取代基的位阻效应,这一效应可改变酶反应中心和化合物的接触。空间效应的参数主要有分子量、范德华半径(Yw)、Taft常数(Es,Es越负,其对氢原子的空间需求越高,即位阻越高)等。

5.生物降解性预测

生物降解性预测是利用模型把化合物分子结构的信息转化成生物降解速率数据的过程。预测要提供二种类型的生物降解资料,第一种资料是化合物完全降解还是持久存在,对于持久性化合物要回答其在环境中的积累潜力。从模型得到的数据还要结合环境的条件,把理论上的数据转化成在实际的真实世界中的可能行为。

6.模型的发展

应用人工智能计算机程序构建有机化合物的结构-生物降解关系的数学模型,是构建更好模型的发展方向。MULTICASE公司开发出建立在化合物分子结构基础上的预测生物降解产物、代谢产物的潜在毒性和生物降解性的META-CASETOX系统。这个系统含有能预测化合物生物转化形成代谢产物的META计算机程序。程序实际上是一个带有转化规律词典、multiCASE人工智能支持的专家系统。系统能自动识别特定化合物的亚结构片段(substructural fragment)和替代片段以及片段的生物活性(降解活性)。当一种新的化合物被提交到程序时,所有可能亚结构片段被识别,并与储存在词典中的识别片段比较。当一种相似物被认定时,程序对母体化合物执行这种规则产生结果代谢物,每种代谢物能被进一步分析,这样产生了代谢物树。对适用不同规则的结构,可根据已知的实验资料预先设定优先的转化规律。程序数据库中好氧降解数据由385种分子结构组成,涵盖多样的降解原理和化学模型。每种化合物活性相关成生物活性值,这种值可以是定性的,即具有活性或不具有活性(是可生物降解性或不被生物降解性);也可以是定量的,如降解速率、反应速率常数、理论需氧量百分数(%THOD)、生物降解半衰期(T50)等。亚结构片段和可经程序计算出来的化合物的亲脂性、水溶性、空间指数、量子力学指数作为变量,再经过线性回归分析就得到QSBR模型。

Activity=a+∑bi(niFi)+clgP+dlg2P+eMwt+fws+gGi+h(QM)

式中:a,b,…,h为回归系数,ni是一种片段i出现在一种化合物中的次数,如果片段i存在;Fi等于1,否则为0,lgP是n-辛醇和水之间的分配系数的一般对数。Mwt是分子量,ws是水溶解度,lgP和ws作为化合物的迁移特征包括在模型中。Gi是拓扑学graph指数。QM代表另外的量子力学参数,包括HOMO和LuMo系数。

导出可靠和更好的可应用QSBR模型,要特别重视化合物在野外经历的生化转化途径,尤其注意可能形成的截止式产物(dead-end products)、持久性中间产物及其毒性潜力。这些相关化合物和它的代谢物的毒性应作为QSBR模型的一个描述符。

7.模型的局限性

应用模型来预测化合物生物降解性从本质上说是一个把有限的实验认知、试验数据、所得到的结论外推到一个有无穷变化的真实环境的过程。挑战是可否得到代表真实的数据和如何把可利用数据外推到相关的真实世界。这就存在一种不可预知性和不确定性,这就是模型的局限性。

①理论认识上的局限性:我们对生物降解的机理、过程以及影响因素的理解认识远远不够,存在着很大的局限性。

②数学模型的不完整性:化合物在环境中的生物降解过程是一个非常复杂的过程,除微生物的作用外,其他的环境因素都对生物降解产生重要影响。实验室得到的试验结果外推到实际的环境是一个更复杂的过程,而目前的模型不能反映这个复杂过程,所以模型缺乏完整性也是局限之一。

③构建模型试验数据的不真实性:实验室和野外模拟实验的数据是建立模型的基础,但实验条件下的数据相对真实环境来说往往是不真实的,因而在建立模型外推过程中存在不确定性。首先至今我们未对影响降解的各种因素进行彻底的研究和完全的了解。此外标准的实验室实验和模拟试验并不类似于野外状况,反映真实环境。例如一般生物降解试验都用野外环境所不存在的高浓度的试验基质和高浓度的培养物。因此试验应尽可能接近野外基质存在的环境条件。例如高疏水性化合物的降解试验在厌氧条件下进行,而亲水非挥发性基质的降解试验在好氧水环境中展开。这将不仅有助于把实验结果外推到真实环境,也有助于发展QSBR能力去预测化合物在真实环境中的行为。再就是建模来源于不同的试验研究目标,试验大多零散,不系统,因此数据的数量不足和缺乏可比性。