XAI-ACSM:一种基于集成模型的可解释人工智能框架,用于精准预测抗癌小分子
《ACS Omega》:XAI-ACSM: An Ensemble-Based Explainable Artificial Intelligence Framework for the Accurate Prediction of Anticancer Small Molecules
【字体:
大
中
小
】
时间:2025年11月20日
来源:ACS Omega 4.3
编辑推荐:
抗肿瘤小分子药物筛选中,本研究提出XAI-ACSM可解释AI框架,通过整合14种分子特征编码(包括CDK、Mol2Vec等)和5种机器学习算法构建70个基准模型,采用概率平均策略优化预测性能。实验表明,XAI-ACSM在独立测试中准确率(ACC)达0.826,特异性(SP)0.926,马修斯相关系数(MCC)0.666,较现有方法MLASM提升3.65%、9.60%和8.63%。结合分子对接验证,成功筛选出FDA批准药物(如Rimegepant、Ubrogepant)作为潜在ACSM,并通过SHAP分析揭示芳环、卤素取代等关键结构特征。
癌症仍然是全球范围内导致死亡的主要原因之一。根据2022年的数据,全球新发癌症病例估计达到2000万例,与癌症相关的死亡人数约为970万。预计到2050年,癌症的全球负担将显著增加,新增病例预计将达到3500万,比2022年增长77%。癌症的成因复杂,通常与异常细胞的不受控制增殖有关,这些细胞会侵犯健康组织并损害关键器官的功能。由于癌症的生物复杂性和异质性,其治疗面临诸多挑战,因此需要不断探索新的治疗策略。目前,化疗、放疗和免疫疗法仍然是临床肿瘤学中的主要手段,但这些方法常常导致系统性毒性、不良副作用以及药物耐受性的出现。因此,现代药物发现逐渐转向寻找具有更高特异性且毒性更低的新药。
小分子药物因其良好的药物特性,如口服生物利用度和全身疗效,逐渐成为抗肿瘤药物研究中的重要工具。相较于基于肽的治疗方式,小分子药物具有更高的稳定性、更好的生物利用度和更优的药代动力学特征。此外,小分子药物的药理作用通常更容易被理解,这使得它们在抗肿瘤药物研发中展现出广阔的应用前景。例如,已有多种小分子药物被批准用于靶向关键的生物学过程,如激酶信号传导、DNA损伤应答和细胞凋亡调控。因此,本研究聚焦于抗肿瘤小分子(ACSMs),旨在开发一种能够高效识别和表征这类药物的计算模型。
近年来,计算方法的引入彻底改变了抗肿瘤药物的发现过程。特别是在机器学习(ML)技术方面,其在加速小分子候选药物的识别和优化方面表现出显著成效。这些模型能够处理大规模的化学和生物学数据集,预测分子活性,从而优化药物研发流程。目前已有基于ML的预测工具MLASM,该模型使用了LightGBM算法,并基于510个经过筛选的1D和2D分子描述符进行训练。尽管MLASM在交叉验证和独立测试中分别达到了MCC值为0.54和0.58,其性能在实际应用中仍不够理想。
基于此,我们提出了一种新的基于集成学习的可解释人工智能(XAI)框架,称为XAI-ACSM。该模型专门用于通过SMILES表示识别和表征抗肿瘤小分子。XAI-ACSM的构建过程包括对五种流行的ML算法进行综合评估,并结合来自五种不同特征编码方案的14个分子描述符,构建了70个基础模型。随后,我们选取了表现最佳的基础模型,并通过概率平均策略进行整合,从而实现高精度的预测结果。交叉验证和独立测试的结果表明,XAI-ACSM在性能上优于其基础模型和现有方法。在独立测试数据集中,XAI-ACSM达到了82.6%的准确率、92.6%的特异性以及66.6%的MCC值,分别比现有方法高出3.65%、9.60%和8.63%。这表明XAI-ACSM在实际应用中具有显著的优势。
此外,XAI-ACSM被应用于筛选FDA批准的药物,以识别具有潜在抗肿瘤活性的候选药物。这些候选药物通过与最常见的癌症靶点进行分子对接分析,验证了其结合亲和力。XAI-ACSM不仅能够高效筛选大型化学库,识别潜在的抗肿瘤药物,还能帮助减少时间和资源成本。这一方法特别适用于那些现有表征有限的化合物,从而推动药物再利用的研究进展。
在方法学方面,本研究采用了相同的基准数据集,该数据集由Balaji等人建立,包含10000个化合物,其中5000个为抗肿瘤化合物(ACSMs),5000个为非抗肿瘤化合物。这些化合物来源于NCBI PubChem BioAssay数据库。为了评估模型的泛化能力,我们使用了ECFP4分子指纹计算了训练集与独立测试集之间的结构相似性,并通过Tanimoto相似性系数进行了分析。结果显示,训练集与独立测试集之间的结构重叠极小,仅0.08%的化合物对超过了0.4的相似性阈值,表明数据集的独立性良好,有助于更严格的模型性能评估。
在特征编码方面,本研究使用了四种传统的分子指纹编码方法以及Mol2Vec技术,将化合物表示为固定长度的特征向量。这些指纹能够有效捕捉化合物的结构特征,并广泛应用于机器学习模型中。为了优化Mol2Vec的应用,我们调整了指纹半径参数(R)从0到9,每次增加1,并固定嵌入尺寸(ES)为300。这种配置生成了十个基于Mol2Vec的描述符集合,称为M2VX,其中X代表使用的指纹半径。例如,M2V4表示使用半径为4的Mol2Vec编码。通过这种方式,我们能够从不同的特征编码方案中提取出丰富的分子信息,从而提升模型的预测能力。
在模型构建过程中,我们首先利用五种不同的特征编码方案(CDK、CDKExt、PubChem、FP4C和Mol2Vec)对ACSMs和非ACSMs进行编码,然后使用五种流行的机器学习算法(KNN、PLS、MLP、SVM和XGB)构建了70个基础模型。这些模型的最优参数通过网格搜索和交叉验证方法确定。随后,我们评估了所有70个基础模型的性能,并根据交叉验证的MCC值对它们进行了排序。最终,我们选择了表现最佳的基础模型,并通过概率平均策略进行整合,构建了最终的集成模型。实验结果表明,XAI-ACSM在预测性能上优于其基础模型和现有方法,展示了其在实际应用中的潜力。
在数据探索方面,我们对数据集进行了详细的分析,包括药物亲和性和口服生物利用度的可视化,以及化学结构的分析。我们计算了六种药物亲和性指标,如分子量(MW)、辛醇-水分配系数(ALogP)、氢键受体(HBA)、氢键供体(HBD)、拓扑极性表面积(TPSA)和旋转键数(RB),并通过t-SNE算法对这些指标进行了可视化分析。结果表明,ACSMs和非ACSMs在化学空间中呈现出一定的分离趋势,显示出显著的物理化学差异。此外,通过BM结构分析,我们进一步探讨了化合物的化学结构特征,发现ACSMs和非ACSMs在结构多样性方面具有相似性,但ACSMs更倾向于包含融合的杂环结构和复杂的双芳基连接。
在分子对接研究中,我们从DrugBank数据库中收集了2734种FDA批准的小分子药物,并对它们进行了预处理,去除了盐、无机化合物、具有显式价错误的SMILES、不连通结构和重复化合物。随后,我们使用XAI-ACSM模型预测了这些化合物的潜在抗肿瘤活性,并筛选出1388种可能具有抗肿瘤活性的化合物。为了验证这些预测结果,我们对这些化合物进行了分子对接研究,针对全球最常见的四种癌症(肺癌、乳腺癌、前列腺癌和结直肠癌)的靶点。这些靶点包括CDK2、ERα、AR和VEGFR2,它们分别对应肺癌、乳腺癌、前列腺癌和结直肠癌。通过分子对接分析,我们评估了这些化合物与靶点的结合亲和力,并分析了其与靶点的相互作用模式。结果表明,一些FDA批准的药物在与这些靶点的结合能力上表现出色,可能具有潜在的抗肿瘤活性。
在结果分析中,我们发现XAI-ACSM在多个指标上均优于其基础模型和现有方法。特别是在独立测试中,XAI-ACSM的准确率、特异性和MCC值分别达到了82.6%、92.6%和66.6%,比现有方法高出3.65%、9.60%和8.63%。这表明XAI-ACSM在实际应用中具有更高的预测准确性和稳定性。此外,我们还进行了消融实验,以评估特征选择策略和基础模型组合对ACSMs识别的有效性。结果表明,结合多种特征编码和ML算法的XAI-ACSM在性能提升方面具有显著优势。
为了进一步理解模型中影响预测的关键分子特征,我们使用了SHAP(SHapley Additive exPlanations)方法进行特征重要性分析。SHAP值能够量化每个特征对预测结果的贡献,并且具有模型无关性和一致性。通过分析XGB-FP4C模型的SHAP图,我们发现了一些重要的分子特征,如芳香环系统、共轭双键和卤素取代基等。这些特征在抗肿瘤药物设计中具有重要意义,能够有效增强药物与靶点的相互作用能力。此外,我们还对一些其他特征进行了分析,如极性取代基和小杂环结构,这些特征在药物的药代动力学行为中也起到了重要作用。
在实际应用中,XAI-ACSM被用于筛选FDA批准的药物,以识别具有潜在抗肿瘤活性的候选药物。通过分子对接分析,我们发现了一些药物在与特定癌症靶点的结合能力上表现出色。例如,Rimegepant(DB12457)在与CDK2(PDB ID: 1AQ1)的结合亲和力上达到了-12.2 kcal/mol,显著高于其结合的晶体配体(-9.5 kcal/mol)。Rimegepant与多个关键残基形成了氢键,并通过π-烷基和疏水相互作用稳定其在结合口袋中的位置。类似地,Ubrogepant(DB15328)在与ERα(PDB ID: 1SJ0)的结合能力上表现出色,形成了氢键并稳定于多个疏水残基之间。这些结果不仅表明了这些药物在结构上的兼容性,也展示了它们在与靶点相互作用中的潜力。
在前列腺癌模型中,Etrasimod(DB09280)表现出较高的结合亲和力,与AR(PDB ID: 2PNU)的结合亲和力为-11.7 kcal/mol,显著高于其结合的晶体配体(-12 kcal/mol)。Etrasimod与多个关键残基形成了氢键,并通过疏水相互作用稳定于结合口袋中。这些结果支持了Etrasimod在AR结合中的兼容性。在结直肠癌模型中,Simeprevir(DB15688)与VEGFR2(PDB ID: 3VNT)的结合亲和力达到了-11.5 kcal/mol,与晶体配体的结合亲和力(-11.1 kcal/mol)相比具有显著优势。Simeprevir通过稳定的氢键和疏水相互作用与多个关键残基结合,这表明其可能在VEGFR2抑制方面具有潜在的治疗价值。
综上所述,XAI-ACSM不仅在识别和表征抗肿瘤小分子方面表现出色,还通过分子对接分析为药物再利用提供了有价值的见解。这些结果表明,XAI-ACSM能够有效地筛选出具有潜在抗肿瘤活性的化合物,并为癌症治疗的药物研发提供理论支持和实践指导。然而,需要注意的是,这些分子对接结果是基于计算机模拟的预测,实际的抗癌活性仍需通过生物化学和细胞实验进行验证。因此,XAI-ACSM的应用不仅限于计算模型的构建,还为后续的实验验证提供了方向和依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号