1
模式识别与智能计算的MATLAB实现
1.3.4.1 1.4.1 化合物的构效分析
1.4.1 化合物的构效分析

据1978年估计,全世界用于找新药的费用每年达20亿美元左右,每发明一种重要的新药耗资为4000万美元。为了更快更省地开发新药,迫切需要总结化合物分子结构和性能的关系,以提高探索的命中率。这种构效关系(Structure-Activity Relationship,SAR)研究可有演绎法、归纳法两种途径。演绎法是从量子生物学角度查明药物活性的机理,从而确定何种结构最有效。但目前的知识水平距这一目标尚十分遥远。归纳法则是利用模式识别等方法从大量实验结果中总结规律。这一方法虽然是纯经验性质或半经验性质,但切实可行。由于新药研究合成和药理试验工作量大,费用也相当高,即使是误报率相当大的模式识别方法,也能产生一定的效益。

模式识别方法也是研究化合物结构与性能关系的有效工具。例如许多化合物具有致癌性或者抗癌活性,研究这些化合物的结构特点,对于人类预防及治疗癌症具有重要的意义。例如在对200个化合物(其中87个有抗癌活性)的抗癌活性与结构间的关系研究时,利用20个结构参数,用线性判别函数法和K近邻法判别各化合物的抗癌活性,分类率可达90左右,并发现下列结构特征(特征参数)与化合物抗癌活性关系较大:硫原子/总原子数;C—S键数/碳原子数;S—H键数;C=C键数/碳原子数;碳原子数/总原子数。

多环芳烃是含有多个芳烃环的化合物,多种多环芳烃是强致癌物质。人们通过大量实验和句法模式识别技术,发现多环芳烃的分子图形和致癌活性有很大关系。鉴于图像和图形信息在化学中的用途,特别是有机化学结构中图形信息尤其丰富,句法模式识别有可能在有机分子设计、药物设计等方面得到广泛的应用。