编辑推荐:
胰腺癌治疗常依赖多药方案,但最佳组合难以确定。研究人员利用美国国家转化科学推进中心(NCATS)数据集,通过机器学习(ML)预测协同药物组合。实验验证了 307 种协同组合,为胰腺癌治疗提供新方向,意义重大。
在癌症的 “战场” 上,胰腺癌堪称最难攻克的 “堡垒” 之一。它具有显著的基因组异质性,平均每个肿瘤细胞存在 63 种遗传畸变,涉及 12 条功能通路。其中,胰腺导管腺癌(PDAC)最为常见,却对全身治疗有着极强的抵抗力,与其他实体肿瘤相比,治疗难度极大。过去十年间,胰腺癌患者的预后状况几乎没有改善,现有治疗手段因癌细胞不断产生耐药性而逐渐失效。因此,寻找高效低毒的抗胰腺癌药物迫在眉睫,这也是肿瘤学界面临的重大挑战之一。
为了突破这一困境,来自美国国家转化科学推进中心(NCATS)、北卡罗来纳大学(UNC)和麻省理工学院(MIT)的研究人员携手展开了一项极具意义的研究。他们致力于通过计算和实验相结合的方法,挖掘针对胰腺癌的协同药物组合。这项研究成果发表在《Nature Communications》上,为胰腺癌的治疗带来了新的希望。
研究人员采用了多种关键技术方法。首先,从 NCATS 内部近 2000 种抗肿瘤化合物库(MIPE4)中筛选出 32 种活性化合物,利用人胰腺癌细胞系 PANC-1 进行单药剂量反应实验和组合药物实验,获取大量实验数据。然后,运用化学标准化软件 ChemAxon Standardizer 对化合物结构进行处理。在计算建模方面,三个团队分别采用不同的机器学习算法,如随机森林(RF)、极端梯度提升(XGBoost)、深度神经网络(DNN)、图卷积网络(GCN)等进行模型训练和预测 。
下面来详细看看研究结果:
- 数据概述:从 1785 种化合物中挑选出 32 种,其单药活性(IC50)范围在 2 nM 至 3 μM 之间。对这 32 种化合物的所有两两组合进行筛选,得到 496 种组合的建模数据集。通过分析不同协同效应指标,选择 gamma 评分作为评估协同性的指标(gamma<0.95 为协同,>0.95 为非协同)。最终确定了 1591724 种组合用于测试集,建模重点预测这些组合的协同性。
- NCATS 建模结果:采用多种描述符和机器学习算法进行建模。其中,使用 Avalon - 2048 指纹并结合 RF 分类与回归的模型表现最佳,AUC 达到 0.78±0.09,该模型预测并选择了 30 种最具协同可能性的化合物组合。
- UNC 建模结果:运用两种交叉验证方法评估模型性能。综合多种模型预测结果,并结合IC50值、化合物是否在训练集以及作用机制(MoA)等标准,最终确定 30 种组合。其模型正确分类率(CCR)和阳性预测值(PPV)在不同验证策略下有所差异。
- MIT 建模结果:基于图卷积网络的模型在预测协同性方面表现出色,平均测试 AUC 为 0.840±0.036。该模型预测了 1591724 种组合的协同得分,并通过限制每种化合物最多出现于 5 种组合的方式,确保所选 30 种组合的多样性。
- 实验验证预测:三个机构各自提出 30 种组合进行实验测试。结果显示,MIT 的图卷积模型命中率最高,达到 83%;NCATS 的 RF 模型命中率为 53%;UNC 的模型命中率为 40%。综合评估 88 种组合的预测性能,NCATS 模型平衡准确率最高(BACC=0.59),FP 最少,精度最高(0.65);MIT 模型 AUC 最高(AUC=0.78),但 FP 较多。
- 探索最协同组合的生物学相关性:实验确定了 307 种协同组合,其中 Carfilzomib 是出现频率最高的化合物,组合中涉及它的协同性最强。在作用机制方面,蛋白酶体抑制最为常见,其次是 Polo 样激酶 1(PLK1)和组蛋白去乙酰化酶(HDAC)抑制。网络分析表明,蛋白酶体 - HDAC 抑制是最常见的协同组合,且具有统计学意义(P?value<0.01)。
研究结论和讨论部分指出,本研究通过多机构合作,利用机器学习模型成功发现了 307 种针对 PANC-1 细胞的协同药物组合,其中蛋白酶体 - HDAC 抑制组合尤为突出。不同机构模型性能存在差异,这与训练数据、算法和特征选择等因素有关。此外,研究中发现的 NSC - 319726 和 AZD - 8055 等组合具有潜在临床意义,但仍需进一步研究评估其细胞毒性和疗效。该研究不仅证明了机器学习在预测药物协同性方面的有效性,还为胰腺癌治疗提供了有价值的候选药物组合,对推动胰腺癌治疗的发展具有重要意义。