基于Sombor拓扑指数与熵度量的抗癌药物QSPR建模:一种Python驱动的计算化学方法
《Scientific Reports》:Applications of Sombor topological indices and entropy measures for QSPR modeling of anticancer drugs: a Python-based methodology
【字体:
大
中
小
】
时间:2025年12月24日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对抗癌药物研发中实验表征成本高、周期长的问题,开发了一种基于Python的计算框架,用于定量构效关系(QSPR)建模。研究团队通过计算Sombor拓扑指数(TI)及其熵度量,构建了线性、二次和三次回归模型,以预测30种抗癌药物的沸点(BP)、摩尔折射率(MR)、重原子数(HAC)、精确质量(EM)、闪点(FP)和极化率(P)等关键理化性质。结果表明,Sombor指数(如BSO2、mSO和BSO1)在预测上述性质时表现出色,其预测性能优于熵度量,为药物发现中的高通量筛选和先导化合物优化提供了可靠的计算工具。
在药物研发的漫长旅途中,寻找有效的抗癌药物始终是科学家们面临的核心挑战。传统的实验方法虽然精准,但往往伴随着高昂的成本和漫长的时间周期,这极大地限制了新药发现的效率。近年来,随着计算化学和信息学的发展,一种名为“定量构效关系(QSPR)”的建模方法应运而生。它试图通过建立分子结构与其性质之间的数学关系,来预测新化合物的行为,从而在计算机上完成初步筛选,大大缩短研发周期。
在QSPR模型中,分子结构通常被抽象为一张图,其中原子是顶点,化学键是边。而“拓扑指数(TI)”则是从这张图中提取出的数值描述符,它能够量化分子的结构特征。2021年,Gutman提出了一种名为“Sombor指数”的新型拓扑指数,它通过计算分子图中各边端点的度(即连接该原子的键数)的欧几里得距离之和,为分子结构提供了更丰富的几何视角。然而,Sombor指数及其衍生指数在预测抗癌药物关键理化性质方面的潜力,以及它们与基于信息论的熵度量的表现对比,仍有待深入探索。
为了回答这些问题,来自布尔萨乌鲁达大学和洛约拉学院的Yeliz Karaa、Yesim Saglam Ozkana、Ali Berkan Bektasa和Micheal Arockiaraj团队在《Scientific Reports》上发表了一项研究。他们开发了一个基于Python的计算框架,系统性地评估了Sombor拓扑指数及其熵度量在预测30种抗癌药物关键理化性质方面的能力,旨在为药物发现提供一种高效、可靠的计算工具。
为了开展这项研究,作者团队采用了一套严谨的计算化学与统计学相结合的方法论。首先,他们从PubChem和ChemSpider等公共数据库中收集了30种具有代表性的抗癌药物的分子结构信息,涵盖了从烷化剂到靶向治疗药物的广泛谱系。接着,利用Python编程语言,结合NetworkX和Pandas等库,开发了一套自动化计算程序。该程序能够将分子的二维结构转化为图论模型,并自动进行边划分(Edge Partition),即根据连接原子的度(如(1,2)、(2,3)等)对化学键进行分类。基于这些划分,程序能够高效地计算出八种Sombor类拓扑指数(SO, RSO, mSO, mRSO, BSO1, BSO2, ESO, EUSO)以及它们对应的熵度量。最后,研究团队利用线性、二次和三次回归分析,建立了这些分子描述符与六种关键理化性质(沸点、摩尔折射率、重原子数、精确质量、闪点、极化率)之间的定量关系模型,并通过R2、RMSE、MAE等统计指标对模型的预测性能进行了全面评估。
研究首先对30种抗癌药物进行了详细的分子图分析,并计算了八种Sombor类拓扑指数及其熵度量。以Belinostat为例,作者详细展示了其分子图的边划分情况(如|E1,2|=1, |E1,3|=1等),并据此推导出SO、RSO、mSO等指数的具体数值。随后,通过线性、二次和三次回归模型,分析了这些描述符与药物理化性质之间的相关性。结果表明,在预测不同性质时,不同的拓扑指数表现出色。例如,第二Banhatti-Sombor指数(BSO2)与沸点(BP)和闪点(FP)表现出极强的正相关性(R值分别高达0.9208和0.9257);而修正Sombor指数(mSO)则与摩尔折射率(MR)和极化率(P)高度相关(R值均接近0.99)。相比之下,熵度量与理化性质的相关性普遍低于拓扑指数本身。
基于相关性分析的结果,研究团队为每种理化性质确定了最优的预测模型。这些模型不仅展示了极高的拟合优度,还通过了严格的统计检验。例如,对于重原子数(HAC),第一Banhatti-Sombor指数(BSO1)的线性回归模型达到了近乎完美的预测效果,其决定系数R2高达0.998,表明该模型几乎可以完全解释HAC的变异。对于精确质量(EM),BSO1的二次回归模型表现最佳,R2为0.982。对于沸点(BP)和闪点(FP),BSO2的线性模型分别取得了R2为0.848和0.857的良好预测效果。值得注意的是,尽管三次回归模型在某些情况下能略微提升预测精度,但其相对于线性或二次模型的改进非常有限,表明简单的线性或二次关系已能很好地捕捉分子结构与性质之间的关联。
为了凸显本研究的先进性,作者将所建立的模型与文献中已有的QSPR模型进行了比较。例如,在预测沸点(BP)时,文献中基于Detour指数(D)或调和指数(H)的模型,其R2值分别为0.5348和0.526。而本研究基于BSO2的线性模型,其R2值高达0.848,预测误差(RMSE)也显著降低。同样,在预测闪点(FP)时,本研究模型的R2值(0.857)也远高于文献中基于Randic指数(R)的模型(R2=0.760)。这些比较结果有力地证明了Sombor指数在预测抗癌药物理化性质方面具有更强的预测能力和更高的统计显著性。
本研究成功开发并验证了一个基于Python的计算框架,用于评估Sombor拓扑指数及其熵度量在抗癌药物QSPR建模中的应用。研究结论明确指出,Sombor指数(特别是BSO2、mSO和BSO1)是预测药物关键理化性质(如沸点、摩尔折射率、重原子数、精确质量、闪点和极化率)的强有力工具。这些指数不仅计算简便,而且与药物性质之间存在着高度显著且稳健的数学关系。
该研究的意义在于,它为药物化学家和计算化学家提供了一套高效、低成本的预测工具。通过利用这些拓扑指数,研究人员可以在实验合成之前,快速评估新设计分子的潜在理化性质,从而加速先导化合物的发现和优化过程。尽管本研究存在数据集规模有限的局限性,但其严谨的统计验证和与现有研究的对比分析,充分证明了该方法的有效性和可靠性。未来,将这种方法与更复杂的机器学习算法相结合,有望在药物发现领域发挥更大的作用,为开发更有效、更安全的抗癌药物铺平道路。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号