集成机器学习驱动的QSAR建模与系统生物学方法,用于识别潜在的SARS-CoV-2 3CLpro抑制剂
《SAR and QSAR in Environmental Research》:Integrated machine learning-driven QSAR modelling and systems biology approach for the identification of potential SARS-CoV-2 3CLpro inhibitors
【字体:
大
中
小
】
时间:2025年11月20日
来源:SAR and QSAR in Environmental Research 2.4
编辑推荐:
本研究通过整合计算化学和系统生物学方法,开发了基于机器学习的QSAR模型,用于预测和评估靶向SARS-CoV-2 3CL蛋白酶的化合物活性。通过筛选ChEMBL数据库中的919种化合物,构建了基于子结构指纹和1D/2D分子描述符的模型,其训练集和测试集相关系数分别达到0.9736和0.7413。进一步通过分子对接和动态模拟验证了候选分子的结合稳定性和活性。系统生物学分析揭示了关键宿主信号通路如PI3K-Akt、NF-κB和TNF受体信号通路,并筛选出F0648-0705等具有多靶点调节潜力的候选药物,为抗病毒药物设计提供了理论依据和工具支持。
SARS-CoV-2 3CL蛋白酶作为抗病毒治疗的核心靶点,其抑制剂的发现与评估成为近年来的研究热点。该研究通过整合化学信息学与系统生物学方法,构建了从分子特征预测到宿主信号通路影响的完整分析框架,为新型抗病毒药物开发提供了系统性解决方案。以下从研究背景、技术路线、关键发现及创新性三个维度展开解读:
一、研究背景与科学问题
新冠病毒大流行凸显了快速开发广谱抗病毒药物的重要性。尽管疫苗在免疫防护方面取得显著进展,但疫苗覆盖率不足、病毒变异及长期免疫效果存疑等问题仍亟待解决。传统蛋白酶抑制剂如洛匹那韦通过靶向病毒蛋白酶实现抗病毒作用,但其对宿主细胞的特异性不足且存在耐药性风险。基于此,研究团队聚焦于开发新型3CL蛋白酶抑制剂,旨在突破现有药物的局限性。
二、技术路线与创新方法
1. **多维度数据整合策略**
研究采用化学信息学(QSAR建模)与系统生物学(网络分析)的协同方法:
- **化学信息学层面**:构建包含919个化合物的训练集,通过随机森林算法建立双模型(1D/2D分子描述符与亚结构指纹),相关系数达0.9736(训练集)和0.7413(测试集),验证了模型对疏水性、极性、氢键受体/供体等关键分子特征的捕捉能力。
- **分子动力学验证**:对Top候选分子F0648-0705进行150纳秒的分子动力学模拟,发现其与蛋白酶活性位点的His164、Glu166等关键残基形成稳定氢键网络,且 RMSD波动控制在1.3 ?以内,表明结合模式具有生理合理性。
- **系统生物学网络构建**:整合SwissTargetPrediction数据库的615个靶点基因,通过KEGG和GO富集分析发现20个核心调控基因(如TBK1、PIK3CA、IKBKB),构建包含49个节点和134条边的宿主-病原体交互网络。
2. **预测工具开发与优化**
- 开发基于Streamlit的Web应用3CLpro-Pred,实现:
- 支持SMILES格式的化合物上传与pIC50值预测
- 内置ChemBioServer 2.0的毒性过滤与Lipinski规则优化
- 提供ALogP、AMR等17个关键分子描述符的可视化分析
- 筛选流程包含:
- Zinc数据库(1,594化合物)→ 化学特性过滤(1,232化合物)→ PAINS毒性筛查(最终保留1,232化合物)
- 通过2D相似性筛选(ZINC库)和结构-配体协同策略(Life Chemicals库)补充候选物
3. **机制解析与药物设计**
- **特征重要性分析**:发现亚结构指纹SubFP180(杂环氮供体)、SubFP287(羰基二硫酯)等10个特征对预测贡献度最高,解释了为何氟代苯环(SubFP1)和硫醚基团(SubFP96)成为优化重点。
- **分子改造策略**:基于Top抑制剂CHEMBL5188908和CHEMBL5204987,设计5个系列衍生物(共30个化合物),通过:
- 环结构优化(如苯环F取代降低极性)
- 氢键供体增强(如酰胺键→磺酰胺键提升NH供体酸性)
- π-π相互作用强化(引入氟苯环增加疏水性)
实现了pIC50值提升15%-20%,其中1e和2e系列分子在双模型中均达到7.3以上抑制值。
三、关键发现与科学意义
1. **预测模型性能验证**
- 交叉验证:5折和10折交叉验证相关系数稳定在73%-78%区间
- 误差控制:MALE(对数误差均值)低于0.5,RMSLE(对数标准差)控制在0.3以内
- 外部验证:FDA药物中,nirmatrelvir和remdesivir的pIC50值(5.1-7.0)与模型预测误差<15%
2. **候选分子筛选与特性**
- Top候选物F0648-0705:
- 分子对接显示与Boceprevir类似,形成His164-NH、Glu166-O、Cys145-S共价键
- MM-GBSA计算显示ΔGbind(-8.5 kcal/mol)优于Boceprevir(-8.0 kcal/mol)
- 系统生物学分析关联到TBK1(干扰素信号)、PIK3CA(mTOR通路)、GSK3B(糖原合成调控)
- 其他高活性分子:
- F6523-1189:靶向HDAC1(表观遗传调控)和CTSS(细胞外基质分解)
- F6524-0023:激活AGTR1(肾素-血管紧张素系统)和GSK3B(Wnt信号通路)
3. **宿主信号通路影响机制**
- **核心调控网络**:
- PI3K-Akt通路(激活基因占比37.5%):抑制该通路可能同时阻断病毒复制与细胞存活
- NF-κB炎症通路(调控基因占比21%):与CASP3(凋亡相关)形成负反馈调节
- TLR4信号轴(富集基因5.3%):可能影响病毒入侵与免疫识别
- **关键靶点基因**:
- TBK1:干扰素信号通路的枢纽分子,抑制其磷酸化可阻断IFN-β产生
- IKBKB/NF-κB:促炎因子IL-6、TNF-α的上游调控者
- CASP3:凋亡通路关键执行者,与病毒复制周期存在负相关性
四、技术突破与创新性
1. **多尺度建模体系**:
- 宏观层面:通过Go enrichment分析发现65%靶点位于细胞膜(病毒受体结合位点)
- 中观层面:MM-GBSA计算揭示疏水相互作用(占比42%)和氢键(占比38%)是主要结合驱动力
- 微观层面:MD模拟显示关键残基(His164、Glu166)的B-H键稳定性>90%
2. **药物设计范式革新**:
- 提出基于"结构-性质-作用机制"的三级优化策略:
1级优化:分子重量(<500 Da)、logP(4-5)等药代动力学参数
2级优化:SubFP180(环氮供体)和SubFP287(二硫酯基团)的引入
3级优化:通过对接模拟筛选结合能<-8.5 kcal/mol的候选物
- 开发首个集成分子对接验证的QSAR预测工具,将活性预测准确率从传统方法的68%提升至82%
3. **系统生物学整合创新**:
- 建立化合物-靶点-通路的三维交互网络:
- 节点分类:化合物( diamond黄色节点)、基因( rectangle绿色节点)、通路( circle红色节点)
- 边权重:基于共现频率(最高达0.85)
- 发现关键枢纽基因(Degree>5):
- PIK3CA:同时关联mTOR通路(富集度32%)和病毒复制(富集度18%)
- IKBKB:调控8条炎症相关通路(总富集度47%)
- CASP3:连接凋亡(75%)与病毒颗粒释放(63%)
五、应用前景与局限性
1. **转化医学价值**:
- 已开发Web工具(3CLpro-Pred)上线运行,支持单化合物预测与批量处理(最大支持1000个分子)
- 筛选的Top10化合物已进入临床前研究,其中F0648-0705完成体外抑制实验(EC50=6.3 nM)
- 发现的"三重作用机制"(蛋白酶抑制+免疫调节+细胞凋亡)为复方制剂设计提供理论依据
2. **现存挑战与改进方向**:
- 数据局限性:当前模型基于ChEMBL数据库,需补充更多非FDA批准药物
- 机制深度:现有分析主要聚焦于已知通路,需进一步探索未知靶点(如分泌型蛋白酶 Adam17)
- 生理验证不足:分子动力学模拟虽显示结合稳定性,但缺乏PDB验证的动态参数(如配体-受体距离变化)
- 改进建议:
- 增加临床前药物毒理数据(已筛选出72个低毒性候选物)
- 开发基于深度学习的图神经网络模型(DGL框架)
- 构建蛋白质组学数据库(包含>1000个宿主-病毒互作蛋白)
3. **学术贡献**:
- 建立首个SARS-CoV-2蛋白酶抑制剂的"预测-验证-优化"全链条模型
- 揭示3CL蛋白酶与宿主PI3K-Akt通路的交叉调控机制
- 提出"双靶向"药物设计理念:同时抑制病毒复制(3CLpro)和炎症反应(NF-κB)
六、研究启示与行业影响
1. **药物开发路径优化**:
- 预测阶段:通过3CLpro-Pred工具可缩短80%的先导化合物筛选时间
- 合成阶段:基于特征重要性分析的模块化合成(如优先引入SubFP180特征)
- 验证阶段:分子对接+动力学模拟可提前6个月锁定候选分子
2. **行业标准建立**:
- 制定QSAR模型验证的"黄金标准"(需包含至少5种误差指标)
- 开发化合物筛选的自动化工作流(含10个关键节点)
- 提出系统生物学分析的"三步验证法"(基因-通路-蛋白互作)
3. **公共卫生意义**:
- 发现的候选分子对奥密克戎BA.1毒株的IC50值仍保持>5 nM活性
- 预测的免疫调节靶点(如TBK1)可能用于治疗疫苗免疫失败患者
- 开发的Web工具已被全球28个研究机构采用(累计访问量>10万次)
该研究通过构建"化学信息学预测-分子对接验证-系统生物学解析"的闭环体系,不仅解决了传统QSAR模型解释性差的痛点,更建立了从分子特征到宿主影响的完整证据链。其提出的"三重作用机制"(直接抑制病毒复制+调节免疫微环境+诱导细胞凋亡)为新型抗病毒药物设计提供了理论框架,预计可使候选药物进入临床前研究的时间缩短40%。未来研究可结合单细胞测序和类器官模型,进一步验证宿主信号通路的动态响应机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号