基于机器学习的3D-QSAR模型预测小分子雌激素受体结合活性的研究及其在评估内分泌干扰潜力中的应用

【字体: 时间:2025年06月21日 来源:In Silico Research in Biomedicine

编辑推荐:

  本研究针对内分泌干扰化学物质(EDCs)与雌激素受体α(ERα)相互作用评估的难题,开发了基于随机森林(RF)、支持向量机(SVM)和多层感知器(MLP)的3D-QSAR模型。研究利用VEGA V.1.2.0的分类数据集,显著提升了预测小分子相对结合亲和力(RBA)的准确性和敏感性,并通过外部数据集验证了模型优越性,为新型化学实体(NCEs)的内分泌干扰潜力评估提供了高效工具。

  

雌激素受体α(ERα)是核激素受体超家族成员,作为配体激活的转录因子调控基因表达,其异常激活与发育异常、生殖毒性等疾病密切相关。当前,评估新型化学实体(NCEs)的内分泌干扰潜力面临两大挑战:传统实验方法成本高昂且周期长,而现有2D-QSAR(定量构效关系)模型因忽略分子三维构象导致预测可靠性不足。尤其值得注意的是,环境中的内分泌干扰化学物质(EDCs)通过与ERα结合干扰正常信号通路,但现有VEGA平台的CERAPP(Collaborative Estrogen Receptor Activity Prediction Project)和RBA(Relative Binding Affinity)模型仅基于二维结构,难以准确反映空间位阻和静电相互作用。

为解决这一问题,研究人员利用VEGA V.1.2.0的IRFMN-CERAPP(1529个分子)和IRFMN-RBA(806个分子)数据集,结合机器学习算法开发了3D-QSAR模型。研究首先通过分子对接和环区建模(loop modeling)完善人源ERα(hERα)的三维结构,采用克里斯特Flare Pro Plus软件优化配体结合域构象;随后基于随机森林(RF)、支持向量机(SVM)等算法构建分类模型,并引入马修斯相关系数(MCC)评估模型性能。结果显示,3D-QSAR模型在准确度(0.98 vs 0.81)、灵敏度(0.89 vs 0.85)上全面超越传统2D模型,其中多层感知器(MLP)表现最优,其MCC值达0.87。

3.1. 数据集质量与优化
通过70:30比例划分IRFMN-CERAPP数据集(89活性/1437非活性分子),解决了数据不平衡问题。IRFMN-RBA数据集采用80:20划分时,RF模型灵敏度达0.93,验证了数据分区策略的重要性。

3.2. 环区建模与分子对接
对PDB 1ERR晶体结构中缺失的Thr460-Leu469和Lys529-Val534环区建模后,配体结合域表面积从541.89 ?增至1092.01 ?。分子对接验证显示,raloxifene(雷洛昔芬)的对接构象与晶体结构RMSD仅0.93 ?,证实了方法的可靠性。

3.3. 模型预测性能评估
在IRFMN-CERAPP数据集中,MLP模型的灵敏度(0.89)和特异性(0.99)显著优于2D-QSAR;而IRFMN-RBA数据集中,SVM和MLP的MCC均达0.87。外部验证中,MLP对52个hERα共晶体的预测准确度达94%,证实了模型的泛化能力。

该研究首次将3D-QSAR与机器学习结合应用于ERα配体筛选,突破了传统2D模型的局限性。MLP模型对分子空间特征的捕捉能力,为EDCs的高通量筛查提供了新范式。这不仅符合REACH法规(欧盟化学品注册、评估、授权和限制)对化学品安全评估的要求,更为药物设计中SERM(选择性雌激素受体调节剂)的优化提供了计算工具。论文发表于《In Silico Research in Biomedicine》,标志着计算生物学在环境毒理学领域的重大进展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号