有机化合物结构自动解析专家系统研究


Autoria(s): 胡昌玉
Data(s)

1999

Resumo

本文建立了一个能用于含N、P、O、S、Si及卤素等多种杂原子的有机化合物结构自动解析专家系统ESESOC(Expert System for the Elucidation of the Structure of Orsanic Compounds)。它可从未知化合物的分子式、光谱数据(包括IR, MS,~1HNMK ~(13)CNMR, 2D-NMR等)及其它化学信息自动地推衍出与己知信息相一致的候选化合物结构。ESESOC系统由三个部分组成:(1)光谱知识库及其光谱解释模块;(2)结构产生器;(3)结构验证模块。其结构解析基本过程为:从分子式、光谱数据或其它化学信息出发,由未知化合物的光谱数据去检索光谱知识库,即进行数据分析并推断出该未知化合物中可能含有的结构碎片,然后由结构产生器从这些结构碎片进行候选化合物结构的穷举生成,最后对候选结构进行验证并输出结果。从而实现由化合物光谱数据鉴别未知化合物结构的自动化。结构产生器是系统的核心模块。对一个结构产生器的基本要求是:穷举性,非冗余性,有效性。要完成一个能实际使用的结构产生器,效率则是至关重要的。ESESOC系统生成结果的穷举和非冗余性己通过与图论计算结果及著名的DENDRAL系统的生成结果相比较得以证明。如由本系统生成的烷烃系列C_nH_(2n+2),及醇、醚系列C_nH_(2n+2)0的异构体数目与图论理论计算的数目相同;对C_5H_n n = 12,10,8,6,4,2,O;C_6H_n n = 14,12,lO,8,6,4,2,O系列,及含多种杂原子(O、N、S等)的复杂体系,其异构体生成结果则与DENDRAL系统的生成结果完全一致(DENDRAL系统的结构生成算法是经数学证明了是正确的,其结果已被很多系统引为穷举和非冗余性的例证)。关于ESESOC系统的有效性,在同一计算机上测试结果表明ESESOC系统的结构生成效率比著名的日本的CHEMICS系统高很多倍。结构解析专家系统另一重要组成部分为谱图知识库,它是逻辑推理的基础。专家系统的效能取决于其子结构一子光谱相关的知识库的有效性,所以要建造一个有效的~(13)CNMR知识库,关键在于建立一个好的子结构模型.在~(13)CNMR知识库中,子结构的概念与常规的子结构概念有所不同,它包括两个组成部分,(1)中心原子,它对应于一个化学位移;(2)环境部分,结构环境决定了中心原子的化学位移峰的位置。子结构模型的选择要适当兼顾信息全面和防止“组合爆炸”两个因素。ESESOC系统从~(13)CNMR本身的特征出发,提出了不确定层数的子结构模型。即以共振碳原子为中心,以与之相连的完整的官能团为外围环境,对这样的子结构,其外围环境根据官能团的不同可以是一层、或二层乃至多层,即环境层数是可变的。此即为ESESOC系统的广义-层子结构模型,它具有包含结构信息全,所有可能存在的子结构数量适中等优点。在此子结构模型的基础上,从CIAC-~(13)CNMR谱图数据库统计出。~(13)CNMR知识库,即子结构-~(13)CNMR化学位移相关表。ESESOC系统中结构验证方法有: ~(13)CNMR谱峰数预测,~(13)CNMR波谱模拟,应力能计算等。在结构解析专家系统研究中还涉及到如下三个问题:(1)结构编码;(2)结构之间相互比较;(3)结构中原子的对称性分析。在本研究中,对这些问题都提出了新的方案,并均获得较好结果。(1)在建造化合物结构信息系统时,首先要解决化合物结构的计算描述,即结构编码问题,以进行化合物结构的计算机存储和管理。为此我们提出了两种新的拓扑指数编码方案,即ID指数和EAID指数。由ESESOC结构产生器穷生成了含1-22个碳原子的380多万个链烷烃异构体,含1-12四价碳原子的20多万仑复杂多环异构体及40多万个含杂原子的化合物,通过对这3个系列共440多万个化合物结构的验证,结果表明,ID和EAID指数对这440多万个化合物结构均能唯一地区分,即没有出现简并(简并是指两个或多个不同的结构具有相同的拓扑指数值)。这是迄今未见报道的。(2)在计算机结构信息处理中,最常遇到的一个问题就是确认一个结构是新结构还是为已知结构,这就要把该结构与库中的结构进行逐个比较。为了结构的比较,我们以二维连接表描述化合物的结构,因连接表随化合中原子的编序的变化而变化,因而就需要有一套序号赋值规则,无论结构图在画法或形状以及原子的序号上如何变化,都可使得结构图中的各原子按该规则得到唯一的排序方案。ESESOC系统的唯一性序号方案集中了Morgan算法及其改进方案之所长,并加入新的图的不变量,如最小环指数等以正确地划分分子中的原子,从而得到一个新的唯一性排序方案,该方案效率较高,可适用于各类复杂化合物。在ESESOC系统中,我们还以一维的整数数组来存贮和管理二维连接表,即得到压缩连接表,这在结构比较时大大地节省了系统开销,提高了比较速度。在同一结构中,若各原子由两种不同编序方案得到同一连接矩阵,则与某一序号所对应的两个原子所在结构图中的拓扑环境是等价的,也就是说两个节点是拓扑等价的,或具有拓扑对称性(Topological Symmetry)。化合物结构中原子的唯一性排序算法,有机化物结构异构体穷举生成过程中冗余对接的消除,NMR谱模拟等都与拓扑对称性密切相关。在ESESOC系统建造过程中,我们提出了三个新的拓扑等价性分析算法,它们是基于节点矩阵的拓扑等价性算法,基于全通道算法的拓扑等价性算法,以及基于扩展连接矩阵算法的拓扑等价性算法。这些算法结果准确,效率高,适用于各类化合物。

Identificador

http://ir.ciac.jl.cn/handle/322003/33965

http://www.irgrid.ac.cn/handle/1471x/95975

Idioma(s)

中文

Fonte

有机化合物结构自动解析专家系统研究.胡昌玉[d].中国科学院长春应用化学研究所,1999.20-25

Palavras-Chave #专家系统 #结构解析 #有机化合物
Tipo

学位论文