编辑推荐:
这篇研究利用机器学习(ML)和分子动力学(MD)模拟,在有限数据下构建模型预测抗人类肠道病毒 71 型(EV71)化合物。通过实验验证,有效筛选出活性化合物,揭示其作用机制。该研究为抗病毒药物研发提供新策略,对攻克相关疾病意义重大。
研究背景
冠状病毒病 2019(COVID-19)引发的全球健康危机,凸显了快速药物开发的紧迫性,也暴露出当前抗病毒治疗的局限性。人类肠道病毒 71 型(EV71)作为手足口病(HFMD)、疱疹性咽峡炎和神经系统疾病的主要病原体,尤其对儿童和免疫功能低下的成年人危害严重。尽管疫苗降低了 HFMD 的发病率,但仍需有效的抗 EV71 化合物来防控病毒传播和治疗感染。
在此背景下,计算方法在加速药物发现中发挥着日益重要的作用。人工智能(AI)和机器学习(ML)能快速、低成本地分析大型数据集,结合分子动力学(MD)模拟,可加快预测活性化合物和生成新候选药物的进程。然而,计算方法面临着 MD 模拟资源需求高、训练 ML 模型需大量高质量数据等挑战。本研究旨在开发一种 ML 模型,解决小训练数据集的限制,预测抗 EV71 化合物,并通过 MD 模拟探究其作用机制。
研究方法
- 数据集构建:测试了包括表面活性剂、有机酸、聚合物等多类化学物质对 EV71 的灭活能力。在 pH 3、7、10 三种条件下,用浓度为 107 PFU mL?1的病毒接种物与各测试化合物(每种 pH 下 36 个样本,共 108 个样本)孵育 5 分钟,中和反应后感染横纹肌肉瘤(RD)细胞,监测病毒斑形成,以此构建用于训练 ML 模型的低密度内部数据集。
- 化合物表征:考虑了三种化合物特征作为 ML 模型输入,即传统的摩根指纹(Morgan fingerprint)、变分自编码器(VAE)生成的潜在代码(latent code)以及两者连接而成的混合特征(hybrid feature)。通过主成分分析(PCA)对这些特征进行降维,以减轻高维特征导致的过拟合问题。
- ML 模型训练与评估:将杀病毒化合物预测任务构建为分类和回归问题。在分类场景中,以 log reduction 1.5 为阈值二值化数据,测试多种化合物特征和分类模型组合;在回归场景中,训练判别式 ML 模型直接预测杀病毒活性的 log reduction 值。采用留一化合物交叉验证(LOOCV)评估模型性能,选择最佳模型和特征组合。
- 分子动力学模拟:以 EV71 病毒衣壳的五聚体为模拟对象,使用 PROPKA3 确定蛋白质在不同 pH 下的质子化状态,用 AutoDock Vina 将化合物预对接至五聚体表面,然后在 NAMD 2.14 中进行模拟,采用 CHARMM36m 力场和相关参数设置,模拟时长为 100 ns,以探究化合物对病毒衣壳的作用机制。
研究结果
- 数据集活性分析:在 108 个样本中,17 个样本减少了病毒斑数量。表面活性剂如聚赖氨酸(pH 10)、琥珀酸(pH 3 和 7)等有适度效果;氧化剂、变性剂和醛类表现出更显著的杀病毒作用,如戊二醛(pH 3、7、10)、尿素(pH 3、7、10)、次氯酸钠(pH 3 和 7)和氧化银纳米颗粒(pH 3、7、10)等。
- 病毒形态变化:透射电子显微镜(TEM)分析显示,经所选抗 EV71 化合物处理后,病毒粒子密度明显降低。戊二醛处理后仅见少量 EV71 衣壳,多聚甲醛处理后则无衣壳;氧化银纳米颗粒、次氯酸钠和尿素处理导致病毒聚集体形成,形态显著改变,表明病毒蛋白的氧化和变性可能是 EV71 失活的关键机制。
- ML 模型性能:在分类场景中,PCA 降维提高了大多数化合物组合的分类性能,混合特征集在多个 ML 模型中表现最佳。在回归场景中,混合特征经 PCA 降维后与随机森林(RF)回归器结合性能较强,自然梯度提升决策树(nGBDT)模型进一步提高了性能,并能量化预测不确定性。外部验证表明,回归器在检索已知有效化合物方面表现更优,但分类器可作为初步筛选工具。
- 新化合物预测与验证:应用所选分类器和回归器对 8783 种中国化妆品原料列表中的化合物进行预测,经多轮筛选后,对排名靠前的化合物进行实验验证。实验结果显示,如硫化钠、氢氧化钾和氢氧化钠等化合物表现出较高的抗 EV71 活性,而部分化合物无显著效果。
- MD 模拟机制探究:MD 模拟表明,尿素优先结合到 EV71 的 VP1 疏水口袋和 VP1-VP2 界面,降低衣壳稳定性;氢氧化钠通过创造碱性环境,使残基去质子化,干扰分子间相互作用,影响衣壳稳定性;戊二醛和多聚甲醛虽未观察到直接化学反应,但能稳定占据疏水口袋并与赖氨酸胺基相互作用,存在潜在的交联可能性。
研究结论
本研究成功开发了一种基于有限数据集训练的 ML 模型,用于预测抗 EV71 化合物,并通过 MD 模拟深入探究了其作用机制。研究发现,使用无监督学习模型增强化合物特征表示,能有效提高对 EV71 杀病毒活性的建模能力。实验验证了模型预测的有效性,为抗病毒化合物的发现提供了新的思路和方法。未来研究可通过纳入更大、更多样化的数据集,采用更复杂的 AI 方法,进一步优化模型,有望在抗病毒药物研发领域取得更大突破,为应对新兴病毒威胁提供有力支持。