编辑推荐:
为解决糖皮质激素受体(GR)相关疾病药物研发难题,研究人员开展 M3S-GRPred 方法研究。该方法能精准识别 GR 拮抗剂,优于传统机器学习分类器,还发现潜在 GR 拮抗剂,对药物研发意义重大。
在生命科学领域,糖皮质激素受体(Glucocorticoid Receptor,GR)是一个极为关键的角色。它作为核受体超家族的一员,广泛参与人体多种生理过程,像糖异生、炎症反应、免疫调节、骨骼代谢等,对维持身体的正常运转起着不可或缺的作用。一旦 GR 的功能出现异常,就可能引发一系列疾病,其中库欣综合征(Cushing’s syndrome)便是由于体内糖皮质激素暴露过多导致的。
目前,针对库欣综合征的治疗手段有限。美国食品药品监督管理局(FDA)批准的两种治疗药物,一种是米非司酮(mifepristone),它虽然能缓解症状,但存在不降低皮质醇生成、选择性差等缺点,会引发如终止妊娠、阴道不规则出血等不良反应;另一种是帕瑞肽(pasireotide),适用范围较窄,仅针对特定类型的库欣综合征。因此,研发新的 GR 拮抗剂迫在眉睫。传统的药物研发方式不仅耗时费力,而且成本高昂,难以满足临床需求。在这样的背景下,利用机器学习(Machine Learning,ML)等计算方法加速药物研发成为了热门方向。
来自泰国玛希隆大学(Mahidol University)、朱拉隆功大学(Chulalongkorn University)等机构的研究人员开展了一项研究,旨在开发一种新的方法来快速、准确地发现新型 GR 拮抗剂。他们提出了一种名为 M3S-GRPred 的新型集成学习方法,该方法利用多步堆叠策略(Multi-step Stacking Strategy,M3S),仅基于 SMILES 信息就能对 GR 拮抗剂进行可解释的预测。这一研究成果发表在《BMC Bioinformatics》杂志上。
研究人员为开展此项研究,用到了以下几个主要关键技术方法:
- 数据处理与特征提取:从 ChEMBL 数据库获取化合物数据,经过一系列筛选和处理,得到包含 1314 个活性化合物和 275 个非活性化合物的数据集。利用 PADEL-descriptor 软件进行数据预处理,再基于化合物的 SMILES 符号生成 AP2DC、CDKExt、FP4C、MACCS 和 Pubchem 这 5 种分子指纹作为特征描述符。
- 模型构建:采用欠采样方法构建平衡训练子集,基于 6 种 ML 算法(KNN、MLP、PLS、RF、SVM、XGB)和 5 种分子描述符构建 150 个基础分类器。通过两步特征选择优化概率特征向量,最终构建基于 SVM 的集成学习模型 M3S-GRPred。
- 模型评估与验证:使用十折交叉验证和独立测试评估模型性能,采用 MCC、ACC、AUC 等 6 种性能指标。对 FDA 批准的药物进行分子对接和 MD 模拟研究,验证模型预测的潜在 GR 拮抗剂。
研究结果如下:
- 化学空间分析:通过分析化合物的理化性质,发现活性和非活性化合物在分子量(MW)、辛醇 - 水分配系数(AlogP)、氢键受体数(HBA)、氢键供体数(HBD)、拓扑极性表面积(TPSA)和可旋转键数(nRotB)等方面存在差异。同时,通过支架分析和计算 Tanimoto 相似系数,证明独立测试数据集与训练数据集差异明显,确保了模型评估的可靠性。
- 欠采样方法对预测性能的影响:对比在不平衡数据集和平衡训练子集上训练的 ML 分类器性能,发现基于平衡训练子集训练的模型性能更优。例如,在不平衡数据集上训练的 ML 分类器交叉验证 MCC 值均小于 0.5,而在平衡训练子集上训练的前 50 个 ML 分类器交叉验证 MCC 值均大于 0.5。
- M3S-GRPred 的构建与性能:通过两步特征选择确定了最佳特征子集,构建的 M3S-GRPred 在独立测试数据集上表现出色,平衡准确率(BACC)达到 0.891,马修斯相关系数(MCC)为 0.658,受试者工作特征曲线下面积(AUC)为 0.953,显著优于传统 ML 分类器。
- 模型解释和特征重要性分析:利用 RF 分类器基于 MDGI 对特征重要性进行排序,发现含有硫醇(-SH)功能基团的化合物、脂肪腈、脂肪胺等特征与 GR 拮抗剂活性相关。例如,3 - 甲基环己烷 - 1 - 硫醇(Pubchem799)、丙腈(Pubchem568)等在特征重要性排名中较为靠前。
- 案例研究:来自 FDA 批准药物的潜在 GR 抑制剂:使用 M3S-GRPred 对 FDA 批准的药物进行虚拟筛选,经分子对接和 MD 模拟,发现氮卓斯汀(azelastine,AZE)和吡仑帕奈(perampanel,PER)等化合物与 GR 具有较强的结合能力,有望成为潜在的 GR 拮抗剂。
研究结论和讨论部分指出,M3S-GRPred 是一种创新的集成学习框架,它利用多步堆叠策略,仅通过 SMILES 信息就能快速、准确地发现新型 GR 拮抗剂。与传统 ML 分类器相比,M3S-GRPred 在性能上有显著提升,能够有效解决数据不平衡问题。此外,该方法还成功从 FDA 批准的药物中识别出潜在的 GR 拮抗剂,为库欣综合征等疾病的药物重定位提供了重要依据。这一研究成果为 GR 相关疾病的药物研发开辟了新的道路,有望在未来加速新型 GR 拮抗剂的发现,为临床治疗带来更多有效的药物选择,对生命科学和健康医学领域的发展具有重要意义。