基于注意力机制虚拟筛选模型SMCseeker的抗H1N1病毒药物发现研究

【字体: 时间:2025年09月12日 来源:iScience 4.1

编辑推荐:

  本刊推荐:为解决传统抗病毒药物筛选成本高、效率低的问题,研究人员开发了基于注意力机制的虚拟筛选模型H1N1-SMCseeker,利用大规模内部数据集和数据增强技术,显著提升了对抗H1N1活性化合物的识别能力,模型在验证集和体外实验中PPV均超过70%,为抗病毒药物研发提供了高效新策略。

  

流感病毒尤其是H1N1亚型,曾引发1918年西班牙流感和2009年全球大流行,至今仍是重大公共卫生威胁。尽管已有奥司他韦(oseltamivir)、扎那米韦(zanamivir)等FDA批准药物,但病毒的高变异性和耐药性趋势(如金刚烷胺耐药案例)使得开发新型抗病毒药物成为迫切需求。传统体外药物筛选虽准确但成本高昂、流程复杂,而分子对接和药效团筛选等方法受限于计算成本和假设条件。机器学习技术通过利用现有大数据、处理复杂特征和提升准确性,为药物发现提供了更高效经济的解决方案,然而如何从化学结构中学习分子表征、应对数据极端不平衡(活性与非活性化合物比例达1:33)等挑战仍待突破。

针对上述问题,香港大学微生物学系袁硕峰(Shuofeng Yuan)团队在《iScience》发表了题为“SMCseeker: An attentive virtual screening model for antiviral discovery”的研究论文,开发了专门针对H1N1病毒的小分子化合物筛选框架H1N1-SMCseeker。该研究整合了数据增强和多头注意力机制(multi-head attention),显著提升了模型对活性化合物的识别能力和泛化性能。

研究主要关键技术方法包括:(1)基于52,800种化合物内部筛查数据,经六步清洗流程(如Z'因子筛选、重复性验证等)得到25,848个标准化样本,其中756种CPR(cell protection rate,细胞保护率)≥30%的活性化合物;(2)将SMILES(Simplified Molecular-Input Line-Entry System)转换为2D分子图像,并对活性化合物进行七倍数据增强(水平/垂直翻转、椒盐噪声、随机旋转);(3)以ImageMol预训练权重初始化ResNet-18为主干网络,嵌入多头注意力模块增强特征提取;(4)采用随机分割(非骨架分割)策略划分训练集(18,093样本)、验证集(3,876)和测试集(3,879);(5)以均方误差(MSE)为损失函数,阳性预测值(PPV)为核心评估指标,并通过结构正则化(冻结浅层、剪裁深层)抑制过拟合;(6)体外实验验证采用MDCK和Caco2细胞系,通过CellTiter-Glo?活性检测和qRT-PCR病毒载量分析(引物靶向H1N1 M基因)确认抗病毒效果。

模型性能优于基线及前沿模型

H1N1-SMCseeker在训练集上PPV达75.47%,显著高于19种分子描述符基线模型(平均PPV 37.71%)和KPGT(30.71%)、ImageMol(94.96%但过拟合)等前沿模型。验证集和测试集PPV均稳定在70.59%,较基线模型平均提升39%以上(图1)。随机分割策略下模型泛化能力优于骨架分割(验证集PPV 70.59% vs. 55.4%),损失函数和PPV曲线显示模型在174轮后收敛稳定(图2)。

消融研究验证关键模块必要性

移除数据增强后,验证集PPV虽达88.89%,但测试集PPV骤降至57.14%,表明增强有效提升泛化性;移除注意力模块后,验证和测试PPV分别下降34.45%和32.13%,证明该机制对捕获特征依赖关系至关重要(图3)。结构正则化实验中,冻结第1-2层并移除第4层的组合最优,训练与验证PPV差距最小且稳定(图S1)。

体外实验证实模型预测能力

针对FDA批准药物库(1,299化合物)和ReFRAME重定位库(>13,000化合物)的预测中,H1N1-SMCseeker分别筛选出183和753种CPR≥30%的候选化合物。经湿实验验证,FDA库中130种化合物显示抗病毒活性,PPV达70.65%(130/183);ReFRAME库中436种化合物预测CPR处于30-40%区间(表2)。此外,对ChemDiv约30万化合物的筛查中,93种被预测为潜在活性(表3)。

研究结论表明,H1N1-SMCseeker通过数据增强和注意力机制有效解决了抗病毒筛选中的数据不平衡和特征提取难题,实现了高精度、高稳健性的活性化合物识别。讨论部分指出,当前模型仍存在局限性:一是预测基于特定细胞类型和感染条件,需后续剂量依赖实验排除假阳性;二是作用机制未明确,靶点蛋白和通路有待解析;三是2D图像输入无法捕获立体化学特征,可能影响复杂结构化合物泛化性能。未来工作将整合分子描述符、3D空间特征及多病毒数据集,提升模型可解释性和适用性。该框架为抗H1N1及其他病毒药物发现提供了高效工具,有望加速抗病毒药物研发进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号