基于机器学习的药物重定位用于从传统中药中筛选环氧合酶-2抑制剂

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Pharmaceuticals》：Machine Learning-Aided Drug Repurposing for Screening COX-2 Inhibitors from Traditional Chinese Medicines

【字体：大中小】 时间：2026年06月09日 来源：Pharmaceuticals 4.8

编辑推荐：

　　机器学习（machine learning, ML）已成为药物发现领域的变革性力量，彻底革新了传统研究范式，显著提升了新药研发周期的效率、成本效益和速度。结直肠癌（colorectal cancer, CRC）是最常见的恶性肿瘤之一，因其高发病率、高死亡率和不

机器学习（machine learning, ML）已成为药物发现领域的变革性力量，彻底革新了传统研究范式，显著提升了新药研发周期的效率、成本效益和速度。结直肠癌（colorectal cancer, CRC）是最常见的恶性肿瘤之一，因其高发病率、高死亡率和不良预后，给全球公共卫生带来了沉重负担。环氧合酶-2（cyclooxygenase-2, COX-2）是结直肠癌的关键治疗靶点，已广泛应用于新型抗结直肠癌药物的开发中。本研究中，研究人员基于定制的COX-2抑制剂数据集和传统中药（traditional Chinese medicine, TCM）来源的化合物库，系统比较了随机森林分类器（random forest classifier, RFC）、深度学习（deep learning, DL）和图神经网络（graph neural network, GNN）模型（包括图注意力网络（graph attention network, GAT）、图卷积网络（graph convolutional network, GCN）和消息传递神经网络（message passing neural network, MPNN））结合多种分子表征特征在COX-2抑制剂分类任务中的性能。最优模型随后被用于筛选潜在的COX-2抑制剂，并对调控COX-2抑制活性的关键子结构进行了识别和分析。最终，优先候选化合物经实验验证。研究结果表明，RFC和DL模型均优于GNN模型。通过进一步的模型预测性能比较，RFC模型最终被验证为TCM来源化合物活性筛选的最优模型。研究人员进一步研究了预测候选化合物与COX-2之间的分子相互作用和结合亲和力。最终，所选先导化合物去氢木香内酯（dehydrocostus lactone）经实验证实具有强效的COX-2抑制活性。本研究强调了RFC模型在小数据集条件下从TCM中筛选生物活性成分的高效性，为该领域后续研究奠定了坚实基础。

结直肠癌（colorectal cancer, CRC）是全球第三大常见恶性肿瘤及第二大癌症死亡原因，其高发病率与不良预后给公共卫生带来沉重负担。环氧合酶-2（cyclooxygenase-2, COX-2）与结直肠癌进展密切相关，已成为抗结直肠癌药物发现的关键靶点。传统中药（traditional Chinese medicine, TCM）作为天然产物的重要宝库，具有多靶点、多通路调控和低毒性的特点，是结直肠癌药物开发的潜在候选来源，已从姜黄、黄连、人参和黄芪等药材中成功提取出多种CRC抑制剂。然而，TCM复杂的化学成分和多样的作用机制（mechanism of action, MOA）使得活性成分的分离仍面临挑战。

机器学习（machine learning, ML）凭借其卓越的数据处理和模式识别能力，正快速革新药物发现领域，尤其适用于TCM来源生物活性成分的 repurposing 和筛选，能够建立定量构效关系（quantitative structure–activity relationship, QSAR）模型，突破传统TCM研究的瓶颈。在ML领域，深度学习（deep learning, DL）擅长通过反向传播揭示大规模数据中的复杂模式；图神经网络（graph neural network, GNN）将分子表示为图结构（节点代表原子，边代表化学键），可有效捕获详细的分子结构信息。然而，这些先进模型需要大量计算资源和较长的训练时间，其性能高度依赖超参数调优。相比之下，随机森林分类器（random forest classifier, RFC）具有简单高效、适用于稀疏或小规模分子数据集的特点，可通过特征重要性分数提供高可解释性，在计算资源有限或需要清晰分子机制洞察的场景中具有独特优势。研究人员系统比较了RFC、DL和GNN模型（GAT、GCN、MPNN）结合多种分子表征（扩展连通性指纹（extended connectivity fingerprint, ECFP）、分子图及其组合）在COX-2抑制剂分类任务中的性能，以筛选TCM来源的COX-2抑制剂，并验证先导化合物的活性。

本研究采用的关键技术方法包括：从ChEMBL数据库获取涵盖六种物种（人、大鼠、牛、犬、绵羊、小鼠）的COX-2抑制数据集，经RDKit工具包标准化SMILES字符串并统一预处理后，最终获得2627个抑制剂和2446个非抑制剂，按8:2比例随机分为训练集和测试集；从HERB数据库编译包含24546个化合物的TCM化合物库作为外部预测库；将分子转化为ECFP指纹（半径=2，位数=2048）、分子图（节点为原子，边为化学键，包含原子序数、原子度、形式电荷等8种属性）及其组合特征；构建七种初始模型（RFC_ECFP、DL_ECFP、RFC_graph、DL_graph、GAT、GCN、MPNN）进行十折交叉验证性能评估；使用Boruta模块进行特征降维，结合方差阈值和Pearson相关系数阈值处理ECFP冗余特征；对最优模型预测的高概率活性化合物进行分子对接（AutoDock Vina 1.2，PDB ID: 5IKT）和结合自由能计算（AMBER 2023 MM-GBSA方法，ff14SB力场和GB²模型）；对筛选得到的先导化合物进行受体-配体相互作用分析；最终通过体外酶抑制实验（Beyotime COX-2抑制剂筛选试剂盒，荧光检测，激发波长560 nm，发射波长590 nm）验证去氢木香内酯的COX-2抑制活性，采用四参数逻辑（four-parameter logistic, 4PL）非线性回归模型拟合剂量-反应曲线计算IC₅₀值。

**2.1 RFC、DL、GAT、GCN和MPNN模型的性能比较**

研究人员构建七种模型进行性能评估，结果显示RFC_ECFP和DL_ECFP表现最优，平均精度（average precision, AP）分别达到0.921和0.916，曲线下面积（area under the curve, AUC）分别达到0.924和0.911，在F1分数、准确率和召回率等指标上也表现突出。GNN模型中MPNN表现最佳（AP=0.854，AUC=0.850），GAT次之（AP=0.833，AUC=0.826），GCN最差（AP=0.677，AUC=0.710）。值得注意的是，RFC_graph和DL_graph表现异常，特异性为0，准确率接近随机猜测（0.517），将所有测试化合物均误判为活性分子，表明基于图的模型不适用于该COX-2抑制剂分类任务。综合评分显示DL_ECFP最高，RFC_ECFP紧随其后（0.872，仅低0.2%）。

**2.2 RFC与DL的性能比较**

为进一步比较RFC和DL性能并改善图模型表现，研究人员采用Boruta算法和方差阈值、Pearson相关系数阈值进行特征降维。结果显示，基于ECFP特征的模型（DL_ECFP_r、DL_ECFP_graph、RFC_ECFP_r）显著优于图特征模型，AP和AUC显著更高；而图特征模型即使降维后仍表现不佳，接近随机猜测。综合评分证实基于ECFP的RFC和DL模型均表现优异，ECFP输入在该分类任务中具有稳健优越性。

**2.3 RFC_ECFP和DL_ECFP对药材数据集的预测行为**

为评估模型对外部TCM库的预测能力，研究人员比较了RFC_ECFP和DL_ECFP的预测行为。结果显示两者存在显著差异：在标准概率阈值0.5下，DL_ECFP预测21.4%的化合物为活性，远高于药理知识认可的实际命中率；而RFC_ECFP仅预测6.0%为活性，呈现化学上更合理的保守预测。即使在严格阈值0.7下，DL_ECFP仍有14.9%的阳性预测，RFC_ECFP仅5.7%。一致性分析显示19.4%的分子预测结果不一致，绝大多数为DL_ECFP误判为活性而RFC_ECFP保持阴性预测，定量确认DL_ECFP存在系统性正偏差和过度自信预测行为。概率分布分析揭示RFC_ECFP采取保守、不确定性感知策略，而DL_ECFP分布显著向高值偏移。即使进行后训练概率校准（Brier分数从0.1088降至0.1075，期望校准误差降低22.2%），DL_ECFP的命中率仍超过20%，表明其过度自信是深层架构固有问题，无法通过事后调整完全消除。

**2.4 从TCM中筛选活性COX-2抑制剂**

基于RFC_ECFP预测概率，研究人员筛选预测概率超过0.75的化合物进行分子对接，结合亲和力低于-6.5 kcal/mol的进一步计算结合自由能。以结晶配体托芬那酸（tolfenamic acid，-35.4492 kcal/mol）为参照，最终选定8个化合物进行受体-配体相互作用分析：irisquinone（-50.7451 kcal/mol）、pallasone B（-46.6878 kcal/mol）、去氢木香内酯（-60.8297 kcal/mol）、mexicanin E（-51.0447 kcal/mol）、artecanin（-37.2687 kcal/mol）、parthenolide（-53.2217 kcal/mol）、3-epizaluzanin C（-41.6978 kcal/mol）和4β-甲氧基木香内酯（-37.9408 kcal/mol）。三维结合构象和非共价相互作用网络分析显示，去氢木香内酯与托芬那酸具有高度相似的相互作用模式（氢键、π相互作用、烷基残基相互作用），总相互作用数相似，平均相互作用距离有利。综合相互作用谱和市场可获得性评估，最终选择去氢木香内酯进行实验验证。

**2.5 COX-2抑制活性的关键子结构**

基于可解释的RFC_ECFP模型，研究人员鉴定出排名前20的关键功能子结构，主要包括含氮杂原子功能团（氢键供体/受体、盐桥、疏水堆积）、羟基/羰基氧基团、不饱和烯烃/羰基结构和硫醇基团，这些子结构通过增强抑制剂与COX-2的结合亲和力和特异性贡献于抑制活性。

**2.6 去氢木香内酯的抑制活性**

体外酶抑制实验显示，去氢木香内酯在0.5-35 μM浓度范围内呈现时间依赖性和剂量依赖性抑制效应，10分钟达到稳定平台期，5 μM浓度下6分钟孵育即可达约50%抑制率。4PL模型拟合参数：Bottom=0%，Top=76.9%，Hill斜率=-0.47，R²=0.93。由于拟合最大抑制率偏离理论100%，IC₅₀以实际50%抑制水平对应的实验浓度定义，最终确定为9.01 μM。

讨论部分，研究人员指出DL和GNN虽因捕获复杂模式的能力而在药物发现中广泛应用，但其过度参数化结构易在小数据集中记忆噪声而非学习广义构效关系，导致预测过度自信和偏高估计的活性概率。即使进行标准外部概率校准，DL的内在过度自信偏见仍无法有效消除。相比之下，RFC通过多棵独立决策树的集成决策机制，有效缓解过拟合和过度自信，无需大规模训练数据。研究还验证了RFC_ECFP在含多物种数据的异质性数据集上仍保持卓越稳健性，且通过整合跨物种活性数据扩展训练集可进一步增强其预测能力。关于数据集划分策略，随机拆分虽存在骨架泄漏风险，但能使RFC_ECFP更好地识别具有相同或相似核心骨架但不同取代基的生物活性分子，适合早期药物发现中识别结构类似物的需求。分子对接和相互作用分析揭示了去氢木香内酯与COX-2活性口袋的关键结合模式。最终结论为：RFC凭借其低计算成本、简单超参数优化、良好可解释性和小规模数据集上的稳定性能，是TCM化合物虚拟筛选等小规模分类任务的更合适选择；研究为天然产物药物发现中的模型选择提供了实践指导，强调应根据数据集规模、计算资源和可解释性需求选择适当算法，避免盲目追求先进DL架构而导致误导性假阳性结果，同时为该领域未来研究奠定了基础。该论文发表于《Pharmaceuticals》杂志。

联系信箱：

粤ICP备09063491号

热点排行