分子表征拓扑结构对机器学习性能的影响：基于持久同源性的预测模型TopoLearn研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月23日 来源：Journal of Cheminformatics 7.1

编辑推荐：

　　本研究针对分子表征选择缺乏系统性方法的问题，开发了基于拓扑数据分析(TDA)的TopoLearn模型。研究人员通过分析12个数据集、25种分子表征的持久同源性(PH)特征，首次建立了特征空间拓扑结构与机器学习泛化能力之间的经验关联，发现β0等拓扑描述符与模型误差显著相关。该研究为分子表征选择提供了新范式，相关成果发表于《Journal of Cheminformatics》。

在药物研发领域，分子表征的选择直接影响机器学习模型的预测性能，但传统方法依赖经验性测试，缺乏理论指导。更令人困惑的是，深度学习模型在许多任务中并未显著超越传统方法。这种"表征选择困境"严重制约了计算机辅助药物设计的效率。

针对这一挑战，来自德国图宾根大学(University of Tübingen)的研究团队在《Journal of Cheminformatics》发表了创新性研究。他们开发了TopoLearn框架，首次将拓扑数据分析(TDA)应用于分子表征评估，通过持久同源性(PH)量化特征空间的拓扑特征，建立了拓扑结构与模型泛化能力的预测关系。

研究采用了三项关键技术：1) 对12个生物化学数据集进行系统评估，涵盖蛋白质-配体结合亲和力(BindingDB来源)和理化性质数据；2) 计算25种分子表征(包括ECFP4指纹和Transformer嵌入)的Vietoris-Rips复形，提取β_{i等拓扑描述符；3) 构建随机森林模型预测表征效果，采用留一法验证(LODO-CV和LORO-CV)。}

研究结果揭示：

表征性能的拓扑相关性：发现β₀^norm(标准化Betti数)与MAE呈负相关(r=-0.37)，而持久熵E_i与误差正相关。组合分子描述符表现最优，其拓扑特征显示更密集的特征空间分布。
TopoLearn预测效能：在留一数据集验证(LODO-CV)中达到r=0.62的预测相关性，显著优于ROGI-XD等传统指标(t=10.35,p<0.001)。SHAP分析显示特征维度和β₀是重要预测因子。
表征类型差异：二进制指纹(如ECFP4)的持久特征寿命较短，对应更好的预测性能；而学习表征常伴随复杂的拓扑结构。

这项研究开创性地将代数拓扑工具引入分子信息学，其重要意义体现在三方面：首先，TopoLearn可作为表征选择的先验指导工具，减少试错成本；其次，β₀等拓扑指标为表征设计提供了新的优化维度；最后，研究揭示了"表征-拓扑-性能"的内在联系，为理解深度学习在化学中的局限性提供了新视角。正如作者Florian Rottach所述，这项工作不仅建立了预测框架，更开辟了利用拓扑特征指导分子表征学习的新研究方向。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号