
-
生物通官微
陪你抓住生命科技
跳动的脉搏
分子表征拓扑结构对机器学习性能的影响:基于持久同源性的预测模型TopoLearn研究
【字体: 大 中 小 】 时间:2025年07月23日 来源:Journal of Cheminformatics 7.1
编辑推荐:
本研究针对分子表征选择缺乏系统性方法的问题,开发了基于拓扑数据分析(TDA)的TopoLearn模型。研究人员通过分析12个数据集、25种分子表征的持久同源性(PH)特征,首次建立了特征空间拓扑结构与机器学习泛化能力之间的经验关联,发现β0等拓扑描述符与模型误差显著相关。该研究为分子表征选择提供了新范式,相关成果发表于《Journal of Cheminformatics》。
在药物研发领域,分子表征的选择直接影响机器学习模型的预测性能,但传统方法依赖经验性测试,缺乏理论指导。更令人困惑的是,深度学习模型在许多任务中并未显著超越传统方法。这种"表征选择困境"严重制约了计算机辅助药物设计的效率。
针对这一挑战,来自德国图宾根大学(University of Tübingen)的研究团队在《Journal of Cheminformatics》发表了创新性研究。他们开发了TopoLearn框架,首次将拓扑数据分析(TDA)应用于分子表征评估,通过持久同源性(PH)量化特征空间的拓扑特征,建立了拓扑结构与模型泛化能力的预测关系。
研究采用了三项关键技术:1) 对12个生物化学数据集进行系统评估,涵盖蛋白质-配体结合亲和力(BindingDB来源)和理化性质数据;2) 计算25种分子表征(包括ECFP4指纹和Transformer嵌入)的Vietoris-Rips复形,提取βi等拓扑描述符;3) 构建随机森林模型预测表征效果,采用留一法验证(LODO-CV和LORO-CV)。
研究结果揭示:
表征性能的拓扑相关性:发现β0norm(标准化Betti数)与MAE呈负相关(r=-0.37),而持久熵Ei与误差正相关。组合分子描述符表现最优,其拓扑特征显示更密集的特征空间分布。
TopoLearn预测效能:在留一数据集验证(LODO-CV)中达到r=0.62的预测相关性,显著优于ROGI-XD等传统指标(t=10.35,p<0.001)。SHAP分析显示特征维度和β0是重要预测因子。
表征类型差异:二进制指纹(如ECFP4)的持久特征寿命较短,对应更好的预测性能;而学习表征常伴随复杂的拓扑结构。
这项研究开创性地将代数拓扑工具引入分子信息学,其重要意义体现在三方面:首先,TopoLearn可作为表征选择的先验指导工具,减少试错成本;其次,β0等拓扑指标为表征设计提供了新的优化维度;最后,研究揭示了"表征-拓扑-性能"的内在联系,为理解深度学习在化学中的局限性提供了新视角。正如作者Florian Rottach所述,这项工作不仅建立了预测框架,更开辟了利用拓扑特征指导分子表征学习的新研究方向。
生物通微信公众号
知名企业招聘