
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于环构型描述符的分子推断新方法:增强芳香环邻/间/对位模式识别的图论策略
【字体: 大 中 小 】 时间:2025年08月19日 来源:Journal of Cheminformatics 5.7
编辑推荐:
本研究针对分子推断中的关键挑战,提出了一种创新的环构型描述符(Cycle-configuration descriptors, CC),有效解决了传统两层模型(2L model)无法区分芳香环邻/间/对位异构体的难题。通过混合整数线性规划(MILP)与机器学习结合,研究人员构建了2L+CC模型,在44个化学性质数据集(包括27个回归和17个分类任务)中实现了预测性能的全面提升,并能高效推断含50个非氢原子的分子结构。该成果为精准药物设计和材料发现提供了新工具。
在化学信息学和生物信息学领域,分子活性/性质的精准推断始终是核心挑战。传统方法如定量构效关系(QSAR)和生成模型虽广泛应用,但存在两大瓶颈:一是无法保证生成分子的最优性和化学合法性,二是难以整合化学领域知识。尤其当面对芳香环的邻位(ortho)、间位(meta)和对位(para)异构体时,现有描述符往往束手无策——这些结构相似但性质迥异的分子,在传统两层模型(2L model)中会被映射为相同的特征向量,严重制约预测准确性。
针对这一难题,Song Bowen等研究人员开发了名为mol-infer的创新框架。该框架通过五阶段流程实现分子逆向设计:首先构建目标性质的预测函数,随后采用混合整数线性规划(MILP)逆向推断分子结构。然而,其核心组件2L模型在区分环状结构拓扑特征时存在固有缺陷。如图2所示,儿茶酚(C0)、间苯二酚(C1)和对苯二酚(C2)虽然具有相同2L描述符,但芳烃受体(AhR)活性却存在显著差异(a(C1)=0≠1=a(C2))。这种局限性源于传统模型无法捕捉环上取代基的空间分布模式。
研究团队提出的环构型描述符(CC)创新性地解决了这一问题。该方法将环上各节点的 fringe-tree 质量排序转化为唯一编码,例如(1,1,2,1,1,2)代表对位取代模式。通过引入该描述符构建的2L+CC模型,在44个测试数据集上展现出普适性优势:对于沸点(Bp)预测,决策树模型的R2从0.729提升至0.824;芳烃受体(AhR)分类的平衡准确率(BACC)从0.820提高到0.833。
关键技术方法包括:1)基于质量排序的环构型编码算法;2)将描述符整合至MILP框架的线性约束系统;3)采用种子树(seed tree)抽象表示分子骨架,如图3所示通过环节点(thick squares)和非环节点(thin circles)的组合实现结构扩展;4)交叉验证评估体系(10次重复5折验证)。
研究结果部分显示:
Cycle-configurations:通过定义ξ(C)序列(如(1,1,1,2,1,2))成功区分了不同取代模式的芳香环,使图2中C1与C2的特征向量产生差异(fCC(C1)=(1,0,0,0)≠(0,1,0,0)=fCC(C2))。
MILP Formulation for 2L+CC Model:设计的种子树模板(如含5个环节点的T5)可扩展为实际分子结构(图3),在Kow性质推断试验中,50原子分子可在38秒内完成求解(表7)。
Results and Discussion:在热力学性质预测中,2L+CC模型使热容(Cv)的R2达到0.979,优于原模型的0.970;对于复杂性质如汽化热(Hv),其预测性能实现数量级提升(R2从-13.7增至0.817)。
该研究的意义在于:首次将芳香环取代模式量化整合至逆向分子设计框架,突破了传统描述符对环状结构表征的局限性。通过严格的数学建模(MILP)保证了生成分子的化学合理性和性质最优性,相比深度学习生成模型具有更好的可解释性。如图3所示案例,该方法能自动设计出符合目标性质的复杂分子(CID:156839899,C35H51N9O8),为药物先导化合物发现和功能材料开发提供了新范式。未来可进一步拓展至高分子材料推断和多重性质协同优化等领域。
生物通微信公众号
知名企业招聘