基于病毒基因组序列与机器学习模型的潜在选择性抗病毒药物筛选新策略

【字体: 时间:2025年06月22日 来源:Communications Chemistry 5.9

编辑推荐:

  本研究针对传统抗病毒药物开发效率低、成本高的问题,创新性地整合病毒基因组序列与化合物结构数据,构建了病毒选择性(AUC-ROC>0.72)和广谱抗病毒(AUC-ROC>0.79)的机器学习预测模型。通过虚拟筛选36万化合物发现24个SARS-CoV-2假病毒入侵抑制剂(命中率9.4%)和47个RdRp抑制剂(命中率37%),其中阿折拉贡(azeliragon)等化合物显示出μM级活性,为应对新发传染病提供了高效计算筛选框架。

  

病毒大流行持续威胁全球公共卫生,COVID-19已造成超700万人死亡并消耗全球85.91%的医疗支出。当前抗病毒药物研发面临三大瓶颈:针对特定病毒株的模型泛化能力差、广谱抗病毒化合物稀缺、传统实验筛选耗时耗力。尤其令人担忧的是,HIV耐药株和流感新变种的不断出现,使得现有疗法频频失效,而埃博拉等病毒至今缺乏有效药物。

美国国立转化科学推进中心(NCATS)的研究团队在《Communications Chemistry》发表突破性研究,开创性地将病毒基因组FastText嵌入特征与化合物ECFP4指纹相结合,构建了双轨制机器学习预测体系。通过分析32个病毒株的基因组保守性差异(SARS-CoV-2株间相似性>94%,而与HCV相似性<26%),以及303个已上市/在研抗病毒药物(AIADs)的结构特征,团队开发出病毒选择性模型(随机森林AUC-ROC=0.83)和广谱抗病毒模型(支持向量机AUC-ROC=0.83)。

关键技术包括:1)采用自然语言处理技术将病毒基因组转化为100维特征向量;2)整合Tox21计划的385个非细胞毒性药物(NCPCs)建立安全性预测模型;3)通过假病毒颗粒(PP)入侵实验和RdRp活性检测进行双重验证;4)应用k-means聚类保障结构多样性。

病毒选择性抗病毒药物预测模型

分析10种人类致病病毒的基因组序列发现,同种病毒不同毒株间具有高度保守性(如SARS-CoV-2毒株间序列一致性>94%),而不同病毒间差异显著(SARS-CoV-2与HCV序列相似性<26%)。将这种差异特征与化合物ECFP4指纹结合构建的随机森林模型,对病毒选择性药物的预测准确率(BA)达0.76。

广谱抗病毒药物识别体系

通过对比AIADs与NCPCs的结构特征,发现核苷类似物(如尿嘧啶基团p=0.001)和杂环系统(如苯并咪唑环p=1.06×10-4)是广谱抗病毒活性的关键结构元件。优化后的支持向量机模型能准确区分这两类化合物(MCC=0.58)。

抗SARS-CoV-2候选药物虚拟筛选

对36万化合物进行五步过滤:1)病毒选择性预测;2)广谱活性预测;3)与83个已知抗SARS-CoV-2药物结构相似性筛选(maxTC>0.25);4)细胞毒性预测;5)k-means聚类。最终验证发现NCGC00014029等化合物在PP入侵实验中IC50=1.31μM,而NCGC00378383在RdRp抑制实验中IC50=5.51μM。

讨论与展望

该研究首次实现病毒基因组特征与化合物结构的跨模态整合,建立的预测框架具有三大优势:1)突破传统靶点限制,通过病毒全基因组特征预测药物活性;2)共识模型策略将假阳性率降低50%;3)模块化设计可快速适配新发病毒。特别值得注意的是,发现的RAGE受体拮抗剂阿折拉贡(IC50=7.68μM)为治疗COVID-19提供了新机制线索。这种"计算预测-实验验证"的闭环研究模式,为未来应对未知病原体爆发提供了可扩展的技术蓝图。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号