利用机器学习对天然化合物进行虚拟筛选,以确定其作为EGFR和HER2抑制剂的潜力在结直肠癌治疗中的应用:一种新型治疗策略
《ACS Omega》:Harnessing Machine Learning for the Virtual Screening of Natural Compounds as Both EGFR and HER2 Inhibitors in Colorectal Cancer: A Novel Therapeutic Approach
【字体:
大
中
小
】
时间:2025年11月20日
来源:ACS Omega 4.3
编辑推荐:
本研究开发了一种基于堆叠集成学习的机器学习模型,用于快速准确识别同时抑制EGFR和HER2的双靶点抑制剂。通过整合ChEMBL和自然产物数据库数据,构建并验证了模型,其测试集准确率达100%。实验验证了Ceratonia siliqua提取物和多个候选化合物的抗结直肠癌活性,其中LTS0018035对HER2的抑制常数达0.00626 μM,优于现有药物。该研究为天然产物在精准癌症治疗中的应用提供了新方法。
### 靶向双重抑制策略在结直肠癌治疗中的应用前景
结直肠癌(Colorectal Cancer, CRC)是一种影响结肠和直肠的常见恶性肿瘤,其发病率和死亡率在全球范围内持续上升。研究表明,高达85%的CRC病例中存在表皮生长因子受体(Epidermal Growth Factor Receptor, EGFR)和人类表皮生长因子受体2(Human Epidermal Growth Factor Receptor 2, HER2)的过表达。然而,尽管靶向药物在CRC治疗中取得了显著进展,单一靶向治疗的局限性依然存在。EGFR和HER2的突变或替代信号通路的激活,使得部分患者对单药治疗产生耐药性,导致疗效不佳。因此,开发能够同时抑制EGFR和HER2的双重靶向治疗策略,成为提高CRC治疗效果的重要方向。
为了应对这一挑战,研究人员提出了一种基于机器学习(Machine Learning, ML)的堆叠集成(Stacking Ensemble)框架,用于快速且准确地识别同时抑制EGFR和HER2的化合物。该方法利用SMILES(Simplified Molecular Input Line Entry System)格式,将分子结构转化为可计算的数字特征,并通过大量分子描述符与ML算法的结合,构建出一个综合模型。这一策略不仅提高了模型的预测能力,还增强了对复杂分子结构的识别能力,从而能够筛选出具有双重靶向活性的化合物。
### 机器学习模型的构建与验证
本研究从ChEMBL数据库中收集了21,991种化合物,其中7,165种用于HER2活性测试,其余用于EGFR活性评估。通过标准化和预处理,筛选出符合IC50标准的化合物,最终形成包含17,287种化合物的数据集。其中,IC50 ≤ 1 μM的化合物被定义为活性化合物(Positive Samples),IC50 ≥ 10 μM的被定义为非活性化合物(Negative Samples)。为了确保模型的准确性,研究人员采用了严格的分类策略,并通过排除中间值(1–10 μM)来建立清晰的二分类边界。
在模型构建过程中,研究团队采用了多种分子描述符,包括AP2D、CDK、CDKExtended、CDKGraph、KR、MACCS、Circle、Estate、Hybrid和PubChem等,这些描述符能够有效捕捉化合物的结构特征。通过使用11种不同的ML算法,如随机森林(Random Forest, RF)、Adaboost(AdaBoost, ADA)、Light Gradient Boosting Machine(Light Gradient Boosting Machine, LGBM)、Multilayer Perceptron(Multilayer Perceptron, MLP)、Decision Tree(Decision Tree, DT)、Extremely Randomized Trees(Extremely Randomized Trees, ET)、Extreme Gradient Boosting(Extreme Gradient Boosting, XGB)、k-Nearest Neighbor(k-Nearest Neighbor, KNN)、Logistic Regression(Logistic Regression, LR)和Support Vector Machine(Support Vector Machine, SVM)等,构建了40个基础模型。这些模型通过交叉验证和独立测试数据集进行评估,最终选择了表现最佳的模型用于构建堆叠集成模型。
堆叠集成模型的构建采用了Logistic Regression作为最终估计器,将40个基础模型的预测结果作为输入特征,形成一个40维的特征向量。通过这种方式,模型能够综合不同算法的预测结果,从而提高预测的稳定性和准确性。实验结果表明,堆叠集成模型在训练数据集上达到了99.5%的准确率(Accuracy, ACC),在独立测试数据集上达到了100%的准确率、F1分数、灵敏度(Sensitivity, Sn)、特异性(Specificity, Sp)、Matthews相关系数(Matthews Correlation Coefficient, MCC)和曲线下面积(Area Under the Curve, AUC),显著优于单一特征模型的性能。这表明,堆叠集成方法在识别双重靶向抑制剂方面具有更强的预测能力。
### 虚拟筛选与生物活性验证
为了验证模型的有效性,研究人员将该模型应用于两个数据集:一是来自LOTUS数据库的1,400种天然产物;二是通过液相色谱-串联质谱(Liquid Chromatography-Tandem Mass Spectrometry, LC-MS/MS)分析从Carob(Ceratonia siliqua)果壳提取物中获得的化合物。通过虚拟筛选,模型成功识别出具有双重靶向活性的化合物,其中LTS0018035在HER2抑制方面表现出最高的结合亲和力(Binding Energy = -11.2 kcal/mol)和抑制常数(Inhibition Constant = 0.00626 μM),其效果甚至优于标准药物Tucatinib。这表明,该模型在识别潜在的双重靶向抑制剂方面具有较高的准确率和可靠性。
此外,研究人员通过MTT细胞毒性实验验证了Carob提取物的抗癌活性。实验结果显示,Carob提取物对HCT116结直肠癌细胞具有显著的细胞毒性,其IC50值为13.32 ± 1.09 μg/mL,而对正常Vero细胞的毒性较低,IC50值为21.39 ± 1.30 μg/mL。这表明,Carob提取物在选择性地抑制癌细胞的同时,对正常细胞的毒性较小,显示出良好的抗癌潜力。与标准药物Doxorubicin相比,Carob提取物的细胞毒性虽然稍弱,但其作用机制可能涉及多种生物活性成分的协同作用,而不仅仅是单一的EGFR或HER2阻断。
### 分子对接与药物性质分析
为了进一步验证模型预测的准确性,研究人员对虚拟筛选出的化合物进行了分子对接(Molecular Docking)分析,评估其与HER2和EGFR受体的结合模式和亲和力。通过分子对接,研究人员发现LTS0018035在HER2受体上的结合亲和力最强,其结合能量为-11.2 kcal/mol,抑制常数为0.00626 μM,显著优于其他标准药物。此外,LTS0018034和LTS0131924在HER2和EGFR上的结合亲和力也表现出良好的性能,显示出其作为潜在抗癌药物的前景。
为了评估这些化合物的药代动力学(ADMET)特性,研究人员使用了Swiss ADMET和ADMET Lab 2.0平台,对这些化合物的吸收、分布、代谢和排泄(Absorption, Distribution, Metabolism, and Excretion)进行了预测。结果表明,这些化合物在某些方面符合药理学标准,如低脂溶性(log P < 3)和高极性表面积(Polar Surface Area, TPSA > 75),这有助于降低毒性并提高口服生物利用度。尽管这些化合物在某些参数上可能不符合Lipinski规则(Rule of Five),但它们仍显示出良好的生物活性和较低的毒性,这可能与它们的结构复杂性和多重作用机制有关。
### 天然产物的潜力与未来展望
本研究不仅展示了机器学习在药物发现中的强大潜力,还强调了天然产物在抗癌治疗中的重要性。Carob果壳提取物中富含多种生物活性成分,如黄酮类、酚类、萜类、生物碱等,这些成分在抑制癌细胞生长和促进抗癌效果方面具有重要作用。通过LC-MS/MS分析,研究人员成功鉴定了多种具有潜在抗癌活性的化合物,并进一步通过虚拟筛选和分子对接验证了它们的双重靶向能力。这不仅为开发新型抗癌药物提供了线索,还为个性化治疗策略的构建奠定了基础。
此外,本研究还探讨了天然产物在抗癌治疗中的作用机制。例如,Carob提取物中的某些成分可能通过影响细胞代谢、诱导细胞凋亡或调节炎症通路(如NF-κB和COX-2)来发挥抗癌作用。这种多靶点作用机制可能比单一靶点药物更具优势,因为它们能够同时作用于多个关键的信号通路,从而更有效地抑制肿瘤的生长和转移。
### 临床意义与应用前景
本研究的结果具有重要的临床意义。通过构建一个高效的机器学习模型,研究人员能够快速筛选出具有双重靶向抑制活性的化合物,这为开发新的抗癌药物提供了强有力的支持。同时,Carob提取物显示出良好的抗癌潜力,其选择性毒性可能使其成为一种潜在的天然抗癌药物。这种天然来源的药物不仅具有较低的毒性,还可能通过多种机制发挥作用,为癌症治疗提供更全面的解决方案。
此外,本研究还为未来的个性化治疗策略提供了新的思路。通过整合机器学习模型和天然产物的化学多样性,研究人员能够识别出适合不同患者群体的抗癌药物。这种基于个体遗传特征和肿瘤特性的治疗策略,有望提高治疗的精准性和有效性,减少不必要的副作用,并提高患者的生存率。
总之,本研究通过机器学习和天然产物的结合,为结直肠癌的治疗提供了新的方向。它不仅展示了机器学习在药物发现中的强大能力,还强调了天然产物在抗癌治疗中的重要性。未来的研究可以进一步优化模型,扩大数据集,并探索更多天然产物的抗癌活性,以期开发出更高效、更安全的抗癌药物。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号