用于发现针对三阴性乳腺癌的选择性SIRT1抑制剂的整合式机器学习、可解释人工智能、分子模拟与细胞毒性验证框架

《Frontiers in Bioinformatics》:An integrative machine learning, explainable AI, molecular simulation, and cytotoxicity validation framework for the discovery of selective SIRT1 inhibitors against triple negative breast cancer

【字体: 时间:2026年06月10日 来源:Frontiers in Bioinformatics 3.9

编辑推荐:

  背景:三阴性乳腺癌(TNBC)是一种侵袭性疾病,其特征为预后不良、高衰退率、缺乏用于靶向治疗的激素受体、现有治疗效果有限以及化疗耐药性的出现。Sirtuin1(SIRT1)是一种表观遗传修饰因子,也是烟酰胺腺嘌呤二核苷酸(NAD+)依赖的

  
背景:三阴性乳腺癌(TNBC)是一种侵袭性疾病,其特征为预后不良、高衰退率、缺乏用于靶向治疗的激素受体、现有治疗效果有限以及化疗耐药性的出现。Sirtuin1(SIRT1)是一种表观遗传修饰因子,也是烟酰胺腺嘌呤二核苷酸(NAD+)依赖的III类组蛋白去乙酰化酶(HDACs)蛋白。其可促进多种肿瘤抑制因子和癌基因的调控。现有证据还表明,利用选择性SIRT1抑制剂抑制SIRT1活性,可能恢复TNBC细胞中E-cadherin的表达,并抑制上皮-间质转化(EMT)介导的转移。尽管目前已有多种SIRT1蛋白抑制剂,但其存在脱靶效应、亚型选择性低以及在临床试验阶段疗效不足等问题。
方法:本研究旨在利用整合计算方法鉴定SIRT1亚型抑制剂。研究进行了三个阶段的机器学习(ML)建模,以从基于SIRT1的数据集中筛选最佳模型。最终确定判别分析(QDA)+随机过采样(ROS)和极端梯度提升分类器(XGBClassifier)+ ROS模型最为稳健,并进一步引入SHapley Additive exPlanations(SHAP)框架〔即可解释人工智能(XAI)方法〕,以解决所构建ML模型的“黑箱”特征。随后,首先利用所建模型的适用域(AD)对NPASS天然化合物数据集进行筛选,再通过Scientiflow平台中的UniDock与AutoDock GPU开展两步虚拟筛选。最后,将筛选所得化合物用于分子动力学模拟,并进行严格的轨迹分析,同时开展初步实验验证。
结果:研究鉴定出NPASS编号为NPC216682、NPC480509、NPC210910和NPC247082的化合物为最有前景的命中物。在这些命中物中,Praziquantel(NPC480509)是唯一可获得且已有抗癌活性报道的测试化合物;其在MDA-MD-231和MCF7乳腺癌细胞系中表现出细胞毒性,而对正常乳腺细胞系MCF10A则无细胞毒性。
结论:本研究具有探索性。Praziquantel及其他命中化合物对SIRT1的确切选择性抑制作用,仍需通过体外(in vitro)和体内(in vivo)研究进一步评估,以阐明其确切作用机制。本研究提出的整合式计算机模拟(in silico)与初步体外(in vitro)研究策略,在区别于传统方法的药物研发框架中具有产生创新性成果的潜力。
该文发表于《Frontiers in Bioinformatics》,围绕三阴性乳腺癌(TNBC)的新型靶向干预策略展开。研究背景在于,TNBC缺乏雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体2(HER2)表达,因而难以从常规内分泌治疗或HER2靶向治疗中获益,临床上主要依赖细胞毒性化疗,但仍面临高复发率、脱靶毒性和耐药性等问题。与此同时,表观遗传调控异常在TNBC发生发展中具有关键作用。Sirtuin1(SIRT1)作为烟酰胺腺嘌呤二核苷酸(NAD+)依赖的III类组蛋白去乙酰化酶(HDACs),可通过去乙酰化作用调控p53等肿瘤抑制因子以及多类癌基因相关通路。已有研究提示,抑制SIRT1可能恢复E-cadherin表达、抑制上皮-间质转化(EMT),从而干预TNBC侵袭与转移。然而,现有SIRT1抑制剂仍存在亚型选择性不足、脱靶效应明显以及临床转化效果有限等缺陷,因此开展针对SIRT1的高选择性候选抑制剂发掘具有现实必要性。

为解决上述问题,研究人员构建了一个整合式药物发现框架,将配体基础药物设计(LBDD)与结构基础药物设计(SBDD)相结合,并在末端加入初步细胞实验验证。研究目标并非直接证明某一化合物已具备临床治疗价值,而是在严格的数据筛选、模型解释、虚拟筛选和分子模拟基础上,提出具有进一步验证潜力的SIRT1候选抑制剂。研究最终鉴定出4个主要命中化合物,即NPC216682、NPC480509、NPC210910和NPC247082;其中Praziquantel(NPC480509)在乳腺癌细胞系中显示出细胞毒性,而对正常乳腺细胞毒性较低,提示其具有进一步研究价值。该研究的重要意义在于,提出了一条由机器学习(ML)、可解释人工智能(XAI)、分子对接、分子动力学模拟(MDS)和体外初步验证组成的系统流程,为SIRT1抑制剂的早期发现提供了方法学范式。

在关键技术方法方面,作者首先从ChEMBL收集Human SIRT1生物活性数据,共纳入958个化合物,并按IC50阈值划分为活性与非活性类别。随后生成MACCS分子指纹并经特征筛选保留前20个关键特征,开展三阶段ML建模,最终获得QDA + ROS与XGBClassifier + ROS两个稳健模型,并利用SHAP解释其判别依据。之后以NPASS 2.0数据库中96,234个天然化合物为外部筛选库,经适用域分析、双模型共同预测、UniDock和AutoDock-GPU两步虚拟筛选、SwissADME与ProTox毒理过滤,筛得候选命中物。进一步对候选复合物进行200 ns分子动力学模拟、主成分分析(PCA)、自由能景观(FEL)和MMPBSA结合自由能计算。实验部分采用来源于NCCS Pune的人乳腺癌细胞系MDA-MB-231、MCF7及正常乳腺细胞系MCF10A进行MTT检测。

3.1 Data collection and exploratory analytics
研究人员收集了958个经实验证实可调节SIRT1活性的化合物,其中活性化合物155个,非活性化合物803个。通过Lipinski五规则(RO5)分析、Tanimoto相似性分布和pIC50分布评估,确认输入数据集整体具有较好的药物相容性和结构多样性。多数活性与非活性化合物均处于RO5零违规范围,说明数据集具备支持口服小分子发现的合理性;而相似性与活性分布分析则表明该数据集适合后续机器学习建模。

3.2 Feature selection
作者为每个化合物生成166个MACCS指纹特征,并通过SelectKBest评分函数筛选出前20个最具判别力的特征。这一步骤降低了冗余信息与过拟合风险,也减少了计算复杂度,为后续分类模型建立统一且可解释的输入空间。

3.3 Model development
模型开发采用70:30划分训练集和测试集,并通过三维主成分分析显示两者在化学空间中高度重叠,说明划分策略未引入明显采样偏倚。第一阶段利用LazyClassifier比较26种算法,初步筛得10个表现较佳模型。第二阶段对前10名模型进行更严格的再训练与验证,发现虽然总体准确率、平衡准确率和ROC-AUC较高,但在活性化合物识别上,Precision、Recall与F1值明显不足,提示模型受类别不平衡影响。第三阶段引入随机过采样(ROS)与欠采样策略处理不平衡数据后,QDA + ROS与XGBClassifier + ROS表现最佳,能够较均衡地识别活性和非活性化合物。随后通过十折交叉验证与Y-randomization检验,证明模型具有较好的稳健性而非偶然相关。

3.4 XAI using the SHAP framework
为克服“黑箱”问题,作者采用SHAP对QDA + ROS与XGBClassifier + ROS进行解释。结果显示,两种模型均识别出一组与SIRT1活性预测密切相关的共有结构指纹,如MACCSFP92、MACCSFP91、MACCSFP128、MACCSFP138和MACCSFP73等,这些特征涉及含氮环境、杂原子序列、手性中心、C=N双键及含硫环境等。相反,较长脂肪链及某些特定含氮模式更倾向于被判定为非活性。该结果说明,SIRT1活性更可能由协同的化学指纹特征决定,而非单一局部结构警报,从而为后续构效关系(SAR)导向的筛选提供依据。

3.5 Applicability domain assessment
研究人员从NPASS数据库提取96,235个天然化合物,并采用最近邻Tanimoto相似性与三维PCA进行适用域分析。以训练集相似性分布第5百分位数对应的0.7778作为阈值后,共有30,846个化合物被判定在模型适用域内。PCA结果进一步表明,这部分化合物与训练集在化学空间上具有较高重叠度,因而其预测结果具有较高可靠性。

3.6 Prediction of the NPASS compounds
对于适用域内的30,846个化合物,研究分别使用QDA + ROS与XGBClassifier + ROS进行活性预测。QDA + ROS预测16,166个为活性,XGBClassifier + ROS预测2,360个为活性,最终取二者共同判定的943个化合物进入下一阶段。这一步骤提高了命中物筛选的保守性和可信度。

3.7 Primary level virtual screening using UniDock
943个候选天然产物先经ADMET-AI宽松药物相似性过滤,保留480个化合物,再利用UniDock开展一级虚拟筛选。研究保留对接评分前30%的144个化合物进入后续筛选,目的是在早期避免遗漏潜在活性命中物。

3.8 Secondary level virtual screening using AutoDock-GPU
在二级虚拟筛选中,144个化合物中部分因含非标准元素被排除,最终120个化合物参与AutoDock-GPU高穷举度对接。通过更高精度的构象采样后,前30%的36个化合物被保留进入更严格的药代与毒性筛选阶段。

3.9 ADMET using SWISSADME and the Protox tool
36个化合物经SwissADME的胃肠吸收、Lipinski规则和PAINS过滤后剩余11个,再经ProTox 3.0进行肝毒性、致癌性、免疫毒性、致突变性和细胞毒性预测,最终确定4个完全通过筛选的候选物:NPC216682、NPC480509、NPC210910和NPC247082。这一步显示研究并非仅依据结合打分筛选,而是强调成药性与安全性并重。

3.10 Post-docking interactions analysis
对接分析显示,4个命中化合物的AutoDock-GPU打分均优于共结晶参考配体。NPC216682得分最低,为?11.09 kcal/mol;Praziquantel(NPC480509)为?10.22 kcal/mol;NPC210910和NPC247082分别为?9.81和?9.71 kcal/mol,均优于参考配体的?8.54 kcal/mol。它们均与SIRT1催化口袋内关键残基形成氢键或疏水作用,并占据与参考配体相似的结合区域。结果支持这4个化合物具备作为SIRT1结合命中物的结构基础。

3.11 Molecular dynamics simulation studies
研究进一步对SIRT1游离态及其与参考配体和4个命中化合物的复合物开展200 ns分子动力学模拟。RMSD、RMSF、回转半径(Rg)和溶剂可及表面积(SASA)总体表明,SIRT1游离态最不稳定,而配体结合可明显提高体系稳定性。其中,NPC216682、NPC480509与参考配体复合物在多项指标上表现出更高稳定性,NPC210910与NPC247082则呈中等稳定。氢键分析显示,NPC247082和NPC210910更依赖氢键维持结合,而NPC480509与NPC216682则可能更多依赖疏水相互作用。PCA与自由能景观(FEL)分析进一步表明,配体结合后SIRT1构象空间收缩,尤其是NPC216682和NPC480509能够促使蛋白维持更稳定的低能构象。

3.12 MMPBSA calculation
MMPBSA自由能计算为不同复合物的结合稳定性提供了定量证据。SIRT1-NPC216682复合物总结合自由能为?32.52 ± 2.60 kcal/mol,略优于参考复合物的?31.77 ± 2.92 kcal/mol;NPC210910和NPC480509分别为?23.74 ± 2.47和?21.39 ± 2.23 kcal/mol,NPC247082为?14.56 ± 1.82 kcal/mol。该结果支持NPC216682是4个命中物中结合优势最突出的候选,NPC480509和NPC210910次之,NPC247082相对较弱。

3.13 MTT assay
由于Praziquantel(NPC480509)是唯一可商业获得且已有抗癌报道的命中物,作者将其用于初步实验验证。MTT结果显示,Praziquantel对MDA-MB-231和MCF7乳腺癌细胞均呈剂量依赖性抑制作用,其中MDA-MB-231的IC50为59.66 μg/mL,MCF7的IC50为38.45 μg/mL;而对正常乳腺细胞MCF10A,即使在200 μg/mL浓度下细胞活性仍高于92%。这说明Praziquantel具有一定的选择性细胞毒性,对癌细胞抑制较明显而对正常细胞损伤较小。作者同时指出,后续仍需通过qRT-PCR和Western blotting验证其是否确实通过SIRT1相关机制发挥作用。

讨论部分强调,TNBC因缺乏ER、PR和HER2而治疗选择有限,SIRT1作为重要表观遗传调控因子,是具有吸引力的候选靶点。该研究通过三阶段机器学习、SHAP解释、适用域分析、双重虚拟筛选、ADMET过滤、分子动力学模拟与MMPBSA评估,从大规模天然产物库中收缩至4个候选命中物,体现了多层证据递进的筛选逻辑。作者认为,NPC216682与NPC480509表现出较高稳定性,NPC210910与NPC247082表现为中等稳定性;其中Praziquantel的初步实验结果进一步支持其作为乳腺癌候选干预分子的潜力。与此同时,文章明确指出本研究的局限,包括缺乏外部或诱饵数据集进一步验证模型稳健性,尚未开展SIRT1酶学抑制实验、其他SIRT亚型选择性评估、基因表达分析及蛋白印迹验证,因此现阶段结论应定位为候选发现与前期验证,而非机制定论或疗效证明。

研究结论部分可概括为:SIRT1作为表观遗传调节因子,可通过去乙酰化使p53等肿瘤抑制基因失活,并在TNBC中呈上调趋势,因此抑制SIRT1可能有助于对抗TNBC。研究采用配体基础与结构基础药物设计相结合的先进计算策略,鉴定出4个可作为SIRT1抑制候选的天然化合物,其中NPC216682和NPC480509结合稳定性较高,NPC210910和NPC247082结合稳定性中等。4个命中物中,NPC216682、NPC210910和NPC247082此前尚无活性报道,而Praziquantel既往已有驱虫和抗癌相关报道,并在本研究中经MTT实验证实对MDA-MB-231和MCF7细胞具有细胞毒性、对MCF10A无明显细胞毒性。总体而言,该研究预测了4个可用于靶向SIRT1抑制、进而服务于TNBC管理的天然化合物,并为后续体外与体内机制验证奠定了基础。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号